heegyu
/

kogpt-j-base

Text Generation

Inference Endpoints

Model card Files Files and versions Community

heegyu commited on Mar 5, 2023

Commit

02e1f8a

•

1 Parent(s): 3d6ba94

Update README.md

Files changed (1) hide show

README.md +25 -15

README.md CHANGED Viewed

@@ -4,6 +4,14 @@ widget:
   - text: 오늘 아침 정부는 발표를 통해
   - text: |
       아 배고프다
 ---
 ## 모델 구성
@@ -14,27 +22,29 @@ widget:
 ## 학습 환경 및 하이퍼파라미터
 - TPU V2-8
-- Learning Rate: 6e-4, Batch Size: 8(x8), Scheudler: Linear, WarmUp: 1000 step
-- adam_beta1=0.9 adam_beta2=0.98, weight_decay=0.01
-- Training Steps: 315000 (3 epoch)
-- 학습 토큰 수: 19.22B (315000step * 1024seq * 8dev * 8batch / 1024^3)
-- 학습 기간: 2022/12/15 ~ 2022/12/17, 2일 14시간 소요
 ## 학습에 사용한 데이터
-- AIHub SNS 대화(747MB)
-- AIHub 구어체(435MB)
 - AIHub 도서(1.6MB)
-- AIHub 대규모 웹데이터 기반 한국어 말뭉치(11.1GB)
-- 한국어 위키(773MB)
-- 나무위키(5.8GB)
 - 국립국어원 메신저 대화(21MB)
-- 국립국어원 일상대화 말뭉치(29.5MB)
-- 국립국어원 문어 말뭉치(2.91GB)
 - 국립국어원 구어 말뭉치(1.1GB)
-- 청와대 국민청원(651.8MB)
-- KcBERT Pre-Training Corpus(11.86GB)
 데이터셋 크기는 전처리한 jsonl파일을 기준으로 함.
-총 토큰 수는 약 6.4B임
 ## 사용 예시
 ```python

   - text: 오늘 아침 정부는 발표를 통해
   - text: |
       아 배고프다
+datasets:
+- heegyu/korean-petitions
+- heegyu/namuwiki-extracted
+- heegyu/kowikitext
+language:
+- ko
+pipeline_tag: text-generation
 ---
 ## 모델 구성
 ## 학습 환경 및 하이퍼파라미터
 - TPU V2-8
+- Learning Rate: 6e-4, Batch Size: 512(=64 accum x 8 devices), Scheduler: Linear, WarmUp: 1000 step
+- Optimizer: AdamW(adam_beta1=0.9 adam_beta2=0.98, weight_decay=0.01)
+- bfloat16
+- Training Steps: 43247 (3 epoch)
+- 학습 토큰 수: 21.11B (43247 * 512 * 1024seq / 1024^3)
+- 학습 기간: 2023/2/16 ~ 2023/2/18(2일 22시간 소요)
+- 학습 코드: https://github.com/HeegyuKim/language-model
 ## 학습에 사용한 데이터
+- AIHub SNS 대화(730MB)
+- AIHub 구어체(422MB)
 - AIHub 도서(1.6MB)
+- AIHub 대규모 웹데이터 기반 한국어 말뭉치(12GB)
+- 한국어 위키(867MB)
+- 나무위키(6.4GB)
 - 국립국어원 메신저 대화(21MB)
+- 국립국어원 일상대화 말뭉치(23MB)
+- 국립국어원 문어 말뭉치(3.2GB)
 - 국립국어원 구어 말뭉치(1.1GB)
+- 국립국어원 신문 말뭉치(~2022, 17GB)
+- 청와대 국민청원(525MB)
 데이터셋 크기는 전처리한 jsonl파일을 기준으로 함.
+총 토큰 수는 약 7B임
 ## 사용 예시
 ```python