Update README.md
Browse files
README.md
CHANGED
@@ -20,7 +20,15 @@ widget:
|
|
20 |
pipeline_tag: text-generation
|
21 |
---
|
22 |
# LLaMA Traditional Chinese 120M
|
23 |
-
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
24 |
|
25 |
## Training Dataset
|
26 |
- 中文維基百科(20230601)
|
@@ -29,7 +37,7 @@ pipeline_tag: text-generation
|
|
29 |
- C4-RealNewsLike
|
30 |
|
31 |
## ZH-BPE Tokenizer
|
32 |
-
|
33 |
> https://github.com/p208p2002/BPE-tokenizer-from-zh-wiki
|
34 |
|
35 |
#### 測試資料
|
|
|
20 |
pipeline_tag: text-generation
|
21 |
---
|
22 |
# LLaMA Traditional Chinese 120M
|
23 |
+
一個小型中英文(雙語)預訓練語言模型。
|
24 |
+
|
25 |
+
雖然 Generative AI 發展蓬勃,但是小型中文模型(尤其是繁體中文)仍然很缺乏,一些用中文語料訓練的模型也沒有在詞表上對中文進行優化。
|
26 |
+
|
27 |
+
此模型使用重新在中英文語料上訓練的 BPE Tokenizer,能夠很好的支援中(簡繁)、英文分詞。
|
28 |
+
|
29 |
+
繁體中文資料集仍然較難取得,作為替代我們使用了簡體資料集搭配簡轉繁的方案進行訓練。一些初步的觀測,模型的輸出有偏好中國內容的傾向。
|
30 |
+
|
31 |
+
中文場景下常有混用英文的情形,所以我們也在訓練語料中加入英文(占比40%),總計在此模型上訓練了 15B tokens。
|
32 |
|
33 |
## Training Dataset
|
34 |
- 中文維基百科(20230601)
|
|
|
37 |
- C4-RealNewsLike
|
38 |
|
39 |
## ZH-BPE Tokenizer
|
40 |
+
此模型使用重新在中英文語料上訓練的 BPE Tokenizer。
|
41 |
> https://github.com/p208p2002/BPE-tokenizer-from-zh-wiki
|
42 |
|
43 |
#### 測試資料
|