heegyu
/

kogpt-j-base-24L

Text Generation

Inference Endpoints

Model card Files Files and versions Community

heegyu commited on Dec 28, 2022

Commit

7b25acc

•

1 Parent(s): 21bfdc1

Update README.md

Files changed (1) hide show

README.md +51 -1

README.md CHANGED Viewed

@@ -1,4 +1,54 @@
 ---
 license: mit
 ---
-학습중입니다

 ---
 license: mit
+widget:
+  - text: 오늘 아침 정부는 발표를 통해
+  - text: |
+      아 배고프다
 ---
+## 모델 구성
+- GPT-J(Flax, Pytorch)
+- 24 Layers, 768 hidden dim, 3072 intermediate, 12 heads, 51200 vocab size
+- 1024 max_seq_len
+- 파라미터 수: 237M
+## 학습 데이터셋
+- AIHub SNS 대화(747MB)
+- AIHub 구어체(435MB)
+- 한국어 위키(773MB)
+- 나무위키(5.8GB)
+- 국립국어원 메신저 대화(21MB)
+- 국립국어원 일상대화 말뭉치(29.5MB)
+- 국립국어원 문어 말뭉치(2.91GB)
+- 국립국어원 구어 말뭉치(1.1GB)
+- 청와대 국민청원(651.8MB)
+## 학습 환경 및 하이퍼파라미터
+- TPU V2-8
+- Learning Rate: 6e-4, Batch Size: 4(x8), Scheudler: Linear, WarmUp: 1000 step
+- adam_beta1=0.9 adam_beta2=0.98, weight_decay=0.01
+- Training Steps: 625000 (3 epoch)
+- 학습 토큰 수: 57.22B (625000step * 3epoch * 1024seq * 8dev * 4batch / 1024^3)
+- 학습 기간: 2022/12/21 ~ 2022/12/25
+## 학습에 사용한 데이터
+- AIHub SNS 대화(747MB)
+- AIHub 구어체(435MB)
+- AIHub 도서(1.6MB)
+- AIHub 대규모 웹데이터 기반 한국어 말뭉치(11.1GB)
+- 한국어 위키(773MB)
+- 나무위키(5.8GB)
+- 국립국어원 메신저 대화(21MB)
+- 국립국어원 일상대화 말뭉치(29.5MB)
+- 국립국어원 문어 말뭉치(2.91GB)
+- 국립국어원 구어 말뭉치(1.1GB)
+- 국립국어원 뉴스 말뭉치(14.16GB)
+- 청와대 국민청원(651.8MB)
+- KcBERT Pre-Training Corpus(11.86GB)
+데이터셋 크기는 전처리한 jsonl파일을 기준으로 함.
+총 토큰 수는 약 19B임
+## Issues
+- [ ] 나무위키 전처리가 잘못되어 }}}가 자주 등장.. 추후 재학습 예정