Update README.md
Browse files
README.md
CHANGED
@@ -12,6 +12,8 @@ should probably proofread and complete it, then remove this comment. -->
|
|
12 |
|
13 |
# chinese_chitchat
|
14 |
|
15 |
-
这个模型是基于 [uer/gpt2-chinese-cluecorpussmall](https://huggingface.co/uer/gpt2-chinese-cluecorpussmall) 在 [qgyd2021/chinese_chitchat](https://huggingface.co/datasets/qgyd2021/chinese_chitchat) 数据集的 xiaohuangji 子集上进行微调的。
|
16 |
-
|
|
|
|
|
17 |
训练了 2 次,第一次 26000 步,第二次 8000 步,总共大约是 10 个 epoch 的样子。
|
|
|
12 |
|
13 |
# chinese_chitchat
|
14 |
|
15 |
+
这个模型是基于 [uer/gpt2-chinese-cluecorpussmall](https://huggingface.co/uer/gpt2-chinese-cluecorpussmall) 在 [qgyd2021/chinese_chitchat](https://huggingface.co/datasets/qgyd2021/chinese_chitchat) 数据集的 [xiaohuangji](https://huggingface.co/datasets/qgyd2021/chinese_chitchat/viewer/xiaohuangji) 子集上进行微调的。
|
16 |
+
|
17 |
+
由于该数据集(xiaohuangji)中问答不相关(答非所问)的样本很多,噪音大,因此虽然有45万样本,但感觉效果并不太好。
|
18 |
+
|
19 |
训练了 2 次,第一次 26000 步,第二次 8000 步,总共大约是 10 个 epoch 的样子。
|