Update README.md
Browse files
README.md
CHANGED
@@ -4,6 +4,14 @@ widget:
|
|
4 |
- text: 오늘 아침 정부는 발표를 통해
|
5 |
- text: |
|
6 |
아 배고프다
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
7 |
---
|
8 |
|
9 |
## 모델 구성
|
@@ -14,27 +22,29 @@ widget:
|
|
14 |
|
15 |
## 학습 환경 및 하이퍼파라미터
|
16 |
- TPU V2-8
|
17 |
-
- Learning Rate: 6e-4, Batch Size: 8
|
18 |
-
- adam_beta1=0.9 adam_beta2=0.98, weight_decay=0.01
|
19 |
-
-
|
20 |
-
-
|
21 |
-
- 학습
|
|
|
|
|
22 |
|
23 |
## 학습에 사용한 데이터
|
24 |
-
- AIHub SNS 대화(
|
25 |
-
- AIHub 구어체(
|
26 |
- AIHub 도서(1.6MB)
|
27 |
-
- AIHub 대규모 웹데이터 기반 한국어 말뭉치(
|
28 |
-
- 한국어 위키(
|
29 |
-
- 나무위키(
|
30 |
- 국립국어원 메신저 대화(21MB)
|
31 |
-
- 국립국어원 일상대화 말뭉치(
|
32 |
-
- 국립국어원 문어 말뭉치(
|
33 |
- 국립국어원 구어 말뭉치(1.1GB)
|
34 |
-
-
|
35 |
-
-
|
36 |
데이터셋 크기는 전처리한 jsonl파일을 기준으로 함.
|
37 |
-
총 토큰 수는 약
|
38 |
|
39 |
## 사용 예시
|
40 |
```python
|
|
|
4 |
- text: 오늘 아침 정부는 발표를 통해
|
5 |
- text: |
|
6 |
아 배고프다
|
7 |
+
|
8 |
+
datasets:
|
9 |
+
- heegyu/korean-petitions
|
10 |
+
- heegyu/namuwiki-extracted
|
11 |
+
- heegyu/kowikitext
|
12 |
+
language:
|
13 |
+
- ko
|
14 |
+
pipeline_tag: text-generation
|
15 |
---
|
16 |
|
17 |
## 모델 구성
|
|
|
22 |
|
23 |
## 학습 환경 및 하이퍼파라미터
|
24 |
- TPU V2-8
|
25 |
+
- Learning Rate: 6e-4, Batch Size: 512(=64 accum x 8 devices), Scheduler: Linear, WarmUp: 1000 step
|
26 |
+
- Optimizer: AdamW(adam_beta1=0.9 adam_beta2=0.98, weight_decay=0.01)
|
27 |
+
- bfloat16
|
28 |
+
- Training Steps: 43247 (3 epoch)
|
29 |
+
- 학습 토큰 수: 21.11B (43247 * 512 * 1024seq / 1024^3)
|
30 |
+
- 학습 기간: 2023/2/16 ~ 2023/2/18(2일 22시간 소요)
|
31 |
+
- 학습 코드: https://github.com/HeegyuKim/language-model
|
32 |
|
33 |
## 학습에 사용한 데이터
|
34 |
+
- AIHub SNS 대화(730MB)
|
35 |
+
- AIHub 구어체(422MB)
|
36 |
- AIHub 도서(1.6MB)
|
37 |
+
- AIHub 대규모 웹데이터 기반 한국어 말뭉치(12GB)
|
38 |
+
- 한국어 위키(867MB)
|
39 |
+
- 나무위키(6.4GB)
|
40 |
- 국립국어원 메신저 대화(21MB)
|
41 |
+
- 국립국어원 일상대화 말뭉치(23MB)
|
42 |
+
- 국립국어원 문어 말뭉치(3.2GB)
|
43 |
- 국립국어원 구어 말뭉치(1.1GB)
|
44 |
+
- 국립국어원 신문 말뭉치(~2022, 17GB)
|
45 |
+
- 청와대 국민청원(525MB)
|
46 |
데이터셋 크기는 전처리한 jsonl파일을 기준으로 함.
|
47 |
+
총 토큰 수는 약 7B임
|
48 |
|
49 |
## 사용 예시
|
50 |
```python
|