p208p2002 commited on
Commit
98d7972
1 Parent(s): 706d7c5

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +10 -2
README.md CHANGED
@@ -20,7 +20,15 @@ widget:
20
  pipeline_tag: text-generation
21
  ---
22
  # LLaMA Traditional Chinese 120M
23
- 小型中英文(雙語)預訓練語言模型。
 
 
 
 
 
 
 
 
24
 
25
  ## Training Dataset
26
  - 中文維基百科(20230601)
@@ -29,7 +37,7 @@ pipeline_tag: text-generation
29
  - C4-RealNewsLike
30
 
31
  ## ZH-BPE Tokenizer
32
- 一些現有模型的Tokenizer對中文的支援度不佳,此模型使用重新在中英文語料上訓練的 BPE Tokenizer,擁有較佳的分詞效果與邊解碼效率。
33
  > https://github.com/p208p2002/BPE-tokenizer-from-zh-wiki
34
 
35
  #### 測試資料
 
20
  pipeline_tag: text-generation
21
  ---
22
  # LLaMA Traditional Chinese 120M
23
+ 一個小型中英文(雙語)預訓練語言模型。
24
+
25
+ 雖然 Generative AI 發展蓬勃,但是小型中文模型(尤其是繁體中文)仍然很缺乏,一些用中文語料訓練的模型也沒有在詞表上對中文進行優化。
26
+
27
+ 此模型使用重新在中英文語料上訓練的 BPE Tokenizer,能夠很好的支援中(簡繁)、英文分詞。
28
+
29
+ 繁體中文資料集仍然較難取得,作為替代我們使用了簡體資料集搭配簡轉繁的方案進行訓練。一些初步的觀測,模型的輸出有偏好中國內容的傾向。
30
+
31
+ 中文場景下常有混用英文的情形,所以我們也在訓練語料中加入英文(占比40%),總計在此模型上訓練了 15B tokens。
32
 
33
  ## Training Dataset
34
  - 中文維基百科(20230601)
 
37
  - C4-RealNewsLike
38
 
39
  ## ZH-BPE Tokenizer
40
+ 此模型使用重新在中英文語料上訓練的 BPE Tokenizer
41
  > https://github.com/p208p2002/BPE-tokenizer-from-zh-wiki
42
 
43
  #### 測試資料