heegyu commited on
Commit
ce18925
1 Parent(s): 908676a

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +39 -1
README.md CHANGED
@@ -1,4 +1,42 @@
1
  ---
2
  license: mit
 
 
 
 
3
  ---
4
- 학습중입니다
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
  ---
2
  license: mit
3
+ widget:
4
+ - text: 오늘 아침 정부는 발표를 통해
5
+ - text: |
6
+ 아 배고프다
7
  ---
8
+
9
+ ## 모델 구성
10
+ - GPT-J(Flax, Pytorch)
11
+ - 12 Layers, 768 hidden dim, 3072 intermediate, 12 heads, 51200 vocab size
12
+ - 1024 max_seq_len
13
+ - 파라미터 수: 163M
14
+
15
+ ## 학습 환경 및 하이퍼파라미터
16
+ - TPU V2-8
17
+ - Learning Rate: 6e-4, Batch Size: 8(x8), Scheudler: Linear, WarmUp: 1000 step
18
+ - adam_beta1=0.9 adam_beta2=0.98, weight_decay=0.01
19
+ - Training Steps: 315000 (3 epoch)
20
+ - 학습 토큰 수: 57.67B (315000step * 3epoch * 1024seq * 8dev * 8batch / 1024^3)
21
+ - 학습 기간: 2022/12/15 ~ 2022/12/17, 2일 14시간 소요
22
+
23
+ ## 학습에 사용한 데이터
24
+ - AIHub SNS 대화(747MB)
25
+ - AIHub 구어체(435MB)
26
+ - AIHub 도서(1.6MB)
27
+ - AIHub 대규모 웹데이터 기반 한국어 말뭉치(11.1GB)
28
+ - 한국어 위키(773MB)
29
+ - 나무위키(5.8GB)
30
+ - 국립국어원 메신저 대화(21MB)
31
+ - 국립국어원 일상대화 말뭉치(29.5MB)
32
+ - 국립국어원 문어 말뭉치(2.91GB)
33
+ - 국립국어원 구어 말뭉치(1.1GB)
34
+ - 국립국어원 뉴스 말뭉치(14.16GB)
35
+ - 청와대 국민청원(651.8MB)
36
+ - KcBERT Pre-Training Corpus(11.86GB)
37
+ 데이터셋 크기는 전처리한 jsonl파일을 기준으로 함.
38
+ 총 토큰 수는 약 19B임
39
+ ## Issues
40
+ - [ ] 나무위키 전처리가 잘못되어 }}}가 자주 등장.. 추후 재학습 예정
41
+ ## 주의사항
42
+ 이 모델의 학습 데이터는 각종 차별/혐오 데이터가 포함되어있으며, 별로의 제거작업을 진행하지 않았습니다. 따라서 모델이 생성하는 문장에 특정 인물이나 인종, 성별, 장애에 따른 차별/혐오발언을 생성할 수 있습니다.