heegyu commited on
Commit
7b25acc
1 Parent(s): 21bfdc1

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +51 -1
README.md CHANGED
@@ -1,4 +1,54 @@
1
  ---
2
  license: mit
 
 
 
 
3
  ---
4
- 학습중입니다
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
  ---
2
  license: mit
3
+ widget:
4
+ - text: 오늘 아침 정부는 발표를 통해
5
+ - text: |
6
+ 아 배고프다
7
  ---
8
+
9
+ ## 모델 구성
10
+ - GPT-J(Flax, Pytorch)
11
+ - 24 Layers, 768 hidden dim, 3072 intermediate, 12 heads, 51200 vocab size
12
+ - 1024 max_seq_len
13
+ - 파라미터 수: 237M
14
+
15
+ ## 학습 데이터셋
16
+ - AIHub SNS 대화(747MB)
17
+ - AIHub 구어체(435MB)
18
+ - 한국어 위키(773MB)
19
+ - 나무위키(5.8GB)
20
+ - 국립국어원 메신저 대화(21MB)
21
+ - 국립국어원 일상대화 말뭉치(29.5MB)
22
+ - 국립국어원 문어 말뭉치(2.91GB)
23
+ - 국립국어원 구어 말뭉치(1.1GB)
24
+ - 청와대 국민청원(651.8MB)
25
+
26
+
27
+ ## 학습 환경 및 하이퍼파라미터
28
+ - TPU V2-8
29
+ - Learning Rate: 6e-4, Batch Size: 4(x8), Scheudler: Linear, WarmUp: 1000 step
30
+ - adam_beta1=0.9 adam_beta2=0.98, weight_decay=0.01
31
+ - Training Steps: 625000 (3 epoch)
32
+ - 학습 토큰 수: 57.22B (625000step * 3epoch * 1024seq * 8dev * 4batch / 1024^3)
33
+ - 학습 기간: 2022/12/21 ~ 2022/12/25
34
+
35
+ ## 학습에 사용한 데이터
36
+ - AIHub SNS 대화(747MB)
37
+ - AIHub 구어체(435MB)
38
+ - AIHub 도서(1.6MB)
39
+ - AIHub 대규모 웹데이터 기반 한국어 말뭉치(11.1GB)
40
+ - 한국어 위키(773MB)
41
+ - 나무위키(5.8GB)
42
+ - 국립국어원 메신저 대화(21MB)
43
+ - 국립국어원 일상대화 말뭉치(29.5MB)
44
+ - 국립국어원 문어 말뭉치(2.91GB)
45
+ - 국립국어원 구어 말뭉치(1.1GB)
46
+ - 국립국어원 뉴스 말뭉치(14.16GB)
47
+ - 청와대 국민청원(651.8MB)
48
+ - KcBERT Pre-Training Corpus(11.86GB)
49
+
50
+ 데이터셋 크기는 전처리한 jsonl파일을 기준으로 함.
51
+ 총 토큰 수는 약 19B임
52
+
53
+ ## Issues
54
+ - [ ] 나무위키 전처리가 잘못되어 }}}가 자주 등장.. 추후 재학습 예정