p208p2002
/

llama-traditional-chinese-120M

Text Generation

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

p208p2002 commited on Sep 21, 2023

Commit

98d7972

•

1 Parent(s): 706d7c5

Update README.md

Files changed (1) hide show

README.md +10 -2

README.md CHANGED Viewed

@@ -20,7 +20,15 @@ widget:
 pipeline_tag: text-generation
 ---
 # LLaMA Traditional Chinese 120M
-小型中英文(雙語)預訓練語言模型。
 ## Training Dataset
 - 中文維基百科(20230601)
@@ -29,7 +37,7 @@ pipeline_tag: text-generation
 - C4-RealNewsLike
 ## ZH-BPE Tokenizer
-一些現有模型的Tokenizer對中文的支援度不佳，此模型使用重新在中英文語料上訓練的 BPE Tokenizer，擁有較佳的分詞效果與邊解碼效率。
 > https://github.com/p208p2002/BPE-tokenizer-from-zh-wiki
 #### 測試資料

 pipeline_tag: text-generation
 ---
 # LLaMA Traditional Chinese 120M
+一個小型中英文(雙語)預訓練語言模型。
+雖然 Generative AI 發展蓬勃，但是小型中文模型(尤其是繁體中文)仍然很缺乏，一些用中文語料訓練的模型也沒有在詞表上對中文進行優化。
+此模型使用重新在中英文語料上訓練的 BPE Tokenizer，能夠很好的支援中(簡繁)、英文分詞。
+繁體中文資料集仍然較難取得，作為替代我們使用了簡體資料集搭配簡轉繁的方案進行訓練。一些初步的觀測，模型的輸出有偏好中國內容的傾向。
+中文場景下常有混用英文的情形，所以我們也在訓練語料中加入英文(占比40%)，總計在此模型上訓練了 15B tokens。
 ## Training Dataset
 - 中文維基百科(20230601)
 - C4-RealNewsLike
 ## ZH-BPE Tokenizer
+此模型使用重新在中英文語料上訓練的 BPE Tokenizer。
 > https://github.com/p208p2002/BPE-tokenizer-from-zh-wiki
 #### 測試資料