heegyu commited on
Commit
02e1f8a
1 Parent(s): 3d6ba94

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +25 -15
README.md CHANGED
@@ -4,6 +4,14 @@ widget:
4
  - text: 오늘 아침 정부는 발표를 통해
5
  - text: |
6
  아 배고프다
 
 
 
 
 
 
 
 
7
  ---
8
 
9
  ## 모델 구성
@@ -14,27 +22,29 @@ widget:
14
 
15
  ## 학습 환경 및 하이퍼파라미터
16
  - TPU V2-8
17
- - Learning Rate: 6e-4, Batch Size: 8(x8), Scheudler: Linear, WarmUp: 1000 step
18
- - adam_beta1=0.9 adam_beta2=0.98, weight_decay=0.01
19
- - Training Steps: 315000 (3 epoch)
20
- - 학습 토큰 수: 19.22B (315000step * 1024seq * 8dev * 8batch / 1024^3)
21
- - 학습 기간: 2022/12/15 ~ 2022/12/17, 2일 14시간 소요
 
 
22
 
23
  ## 학습에 사용한 데이터
24
- - AIHub SNS 대화(747MB)
25
- - AIHub 구어체(435MB)
26
  - AIHub 도서(1.6MB)
27
- - AIHub 대규모 웹데이터 기반 한국어 말뭉치(11.1GB)
28
- - 한국어 위키(773MB)
29
- - 나무위키(5.8GB)
30
  - 국립국어원 메신저 대화(21MB)
31
- - 국립국어원 일상대화 말뭉치(29.5MB)
32
- - 국립국어원 문어 말뭉치(2.91GB)
33
  - 국립국어원 구어 말뭉치(1.1GB)
34
- - 청와대 국민청원(651.8MB)
35
- - KcBERT Pre-Training Corpus(11.86GB)
36
  데이터셋 크기는 전처리한 jsonl파일을 기준으로 함.
37
- 총 토큰 수는 약 6.4B
38
 
39
  ## 사용 예시
40
  ```python
 
4
  - text: 오늘 아침 정부는 발표를 통해
5
  - text: |
6
  아 배고프다
7
+
8
+ datasets:
9
+ - heegyu/korean-petitions
10
+ - heegyu/namuwiki-extracted
11
+ - heegyu/kowikitext
12
+ language:
13
+ - ko
14
+ pipeline_tag: text-generation
15
  ---
16
 
17
  ## 모델 구성
 
22
 
23
  ## 학습 환경 및 하이퍼파라미터
24
  - TPU V2-8
25
+ - Learning Rate: 6e-4, Batch Size: 512(=64 accum x 8 devices), Scheduler: Linear, WarmUp: 1000 step
26
+ - Optimizer: AdamW(adam_beta1=0.9 adam_beta2=0.98, weight_decay=0.01)
27
+ - bfloat16
28
+ - Training Steps: 43247 (3 epoch)
29
+ - 학습 토큰 수: 21.11B (43247 * 512 * 1024seq / 1024^3)
30
+ - 학습 기간: 2023/2/16 ~ 2023/2/18(2일 22시간 소요)
31
+ - 학습 코드: https://github.com/HeegyuKim/language-model
32
 
33
  ## 학습에 사용한 데이터
34
+ - AIHub SNS 대화(730MB)
35
+ - AIHub 구어체(422MB)
36
  - AIHub 도서(1.6MB)
37
+ - AIHub 대규모 웹데이터 기반 한국어 말뭉치(12GB)
38
+ - 한국어 위키(867MB)
39
+ - 나무위키(6.4GB)
40
  - 국립국어원 메신저 대화(21MB)
41
+ - 국립국어원 일상대화 말뭉치(23MB)
42
+ - 국립국어원 문어 말뭉치(3.2GB)
43
  - 국립국어원 구어 말뭉치(1.1GB)
44
+ - 국립국어원 신문 말뭉치(~2022, 17GB)
45
+ - 청와대 국민청원(525MB)
46
  데이터셋 크기는 전처리한 jsonl파일을 기준으로 함.
47
+ 총 토큰 수는 약 7B
48
 
49
  ## 사용 예시
50
  ```python