File size: 524 Bytes
2a78667
 
 
 
 
 
 
 
 
 
 
 
 
96980b7
2a78667
96980b7
 
 
 
 
 
943cf34
2a78667
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
---
datasets:
- wikipedia
language:
- zh
- en
tags:
- chinese
- english
widget:
- text: 粉圓,在珍珠奶茶中也稱波霸或珍珠,是一種
pipeline_tag: text-generation
---
# Baby LLaMA Chinese 81M
一個小型中英文(雙語)預訓練語言模型。

## Training Dataset
- 中文維基百科(20230601)
- 英文維基百科(20230601)

## Tokenizer
使用重新在中英文語料上訓練的 BPE Tokenizer,擁有較佳的分詞效果與邊解碼效率。
> https://github.com/p208p2002/BPE-tokenizer-from-zh-wiki