Update README.md
Browse files
README.md
CHANGED
@@ -1,4 +1,54 @@
|
|
1 |
---
|
2 |
license: mit
|
|
|
|
|
|
|
|
|
3 |
---
|
4 |
-
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
---
|
2 |
license: mit
|
3 |
+
widget:
|
4 |
+
- text: 오늘 아침 정부는 발표를 통해
|
5 |
+
- text: |
|
6 |
+
아 배고프다
|
7 |
---
|
8 |
+
|
9 |
+
## 모델 구성
|
10 |
+
- GPT-J(Flax, Pytorch)
|
11 |
+
- 24 Layers, 768 hidden dim, 3072 intermediate, 12 heads, 51200 vocab size
|
12 |
+
- 1024 max_seq_len
|
13 |
+
- 파라미터 수: 237M
|
14 |
+
|
15 |
+
## 학습 데이터셋
|
16 |
+
- AIHub SNS 대화(747MB)
|
17 |
+
- AIHub 구어체(435MB)
|
18 |
+
- 한국어 위키(773MB)
|
19 |
+
- 나무위키(5.8GB)
|
20 |
+
- 국립국어원 메신저 대화(21MB)
|
21 |
+
- 국립국어원 일상대화 말뭉치(29.5MB)
|
22 |
+
- 국립국어원 문어 말뭉치(2.91GB)
|
23 |
+
- 국립국어원 구어 말뭉치(1.1GB)
|
24 |
+
- 청와대 국민청원(651.8MB)
|
25 |
+
|
26 |
+
|
27 |
+
## 학습 환경 및 하이퍼파라미터
|
28 |
+
- TPU V2-8
|
29 |
+
- Learning Rate: 6e-4, Batch Size: 4(x8), Scheudler: Linear, WarmUp: 1000 step
|
30 |
+
- adam_beta1=0.9 adam_beta2=0.98, weight_decay=0.01
|
31 |
+
- Training Steps: 625000 (3 epoch)
|
32 |
+
- 학습 토큰 수: 57.22B (625000step * 3epoch * 1024seq * 8dev * 4batch / 1024^3)
|
33 |
+
- 학습 기간: 2022/12/21 ~ 2022/12/25
|
34 |
+
|
35 |
+
## 학습에 사용한 데이터
|
36 |
+
- AIHub SNS 대화(747MB)
|
37 |
+
- AIHub 구어체(435MB)
|
38 |
+
- AIHub 도서(1.6MB)
|
39 |
+
- AIHub 대규모 웹데이터 기반 한국어 말뭉치(11.1GB)
|
40 |
+
- 한국어 위키(773MB)
|
41 |
+
- 나무위키(5.8GB)
|
42 |
+
- 국립국어원 메신저 대화(21MB)
|
43 |
+
- 국립국어원 일상대화 말뭉치(29.5MB)
|
44 |
+
- 국립국어원 문어 말뭉치(2.91GB)
|
45 |
+
- 국립국어원 구어 말뭉치(1.1GB)
|
46 |
+
- 국립국어원 뉴스 말뭉치(14.16GB)
|
47 |
+
- 청와대 국민청원(651.8MB)
|
48 |
+
- KcBERT Pre-Training Corpus(11.86GB)
|
49 |
+
|
50 |
+
데이터셋 크기는 전처리한 jsonl파일을 기준으로 함.
|
51 |
+
총 토큰 수는 약 19B임
|
52 |
+
|
53 |
+
## Issues
|
54 |
+
- [ ] 나무위키 전처리가 잘못되어 }}}가 자주 등장.. 추후 재학습 예정
|