aixsatoshi
commited on
Commit
•
b49e481
1
Parent(s):
3ae6e36
Update README.md
Browse files
README.md
CHANGED
@@ -4,12 +4,12 @@ license: cc-by-4.0
|
|
4 |
|
5 |
Mixtral8X7B Instructの日本語生成を安定させるためのLora実験モデルです。
|
6 |
|
7 |
-
注:bf16での使用を想定しています。
|
8 |
量子化推論する場合は、bf16でモデルを読み込んだ状態でLora適応またはマージ、その後に量子化してください。
|
9 |
|
10 |
**目的**
|
11 |
|
12 |
-
Mixtral-8x7Bは高性能な言語モデルですが、日本語出力に多言語が混入するcode-switchingがよく見られます。
|
13 |
元の性能を維持しながら、日本語生成を安定させる方法として、Loraの効果を検証しました。
|
14 |
|
15 |
**学習データセット**
|
|
|
4 |
|
5 |
Mixtral8X7B Instructの日本語生成を安定させるためのLora実験モデルです。
|
6 |
|
7 |
+
注:bf16での使用を想定しています。
|
8 |
量子化推論する場合は、bf16でモデルを読み込んだ状態でLora適応またはマージ、その後に量子化してください。
|
9 |
|
10 |
**目的**
|
11 |
|
12 |
+
Mixtral-8x7Bは高性能な言語モデルですが、日本語出力に多言語が混入するcode-switchingがよく見られます。
|
13 |
元の性能を維持しながら、日本語生成を安定させる方法として、Loraの効果を検証しました。
|
14 |
|
15 |
**学習データセット**
|