Update README_cn.md
Browse files- README_cn.md +19 -9
README_cn.md
CHANGED
@@ -51,18 +51,26 @@ pipeline_tag: text-generation
|
|
51 |
- 微调模型适应性强,在人类标注盲测中,表现突出
|
52 |
- 长上下文版本支持超长文本,长达200k token
|
53 |
- 量化版本模型大小缩小70%,推理速度提升30%,性能损失小于1%
|
54 |
-
|
55 |
-
|
56 |
-
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
57 |
|
58 |
- 具体而言,Orion-14B系列大语言模型包含:
|
59 |
-
- **Orion-14B-Base:** 基于2.5
|
60 |
- **Orion-14B-Chat:** 基于高质量语料库微调的对话类模型,旨在为大模型社区提供更好的用户交互体验。
|
61 |
-
- **Orion-14B-LongChat:** 支持长度超过200K
|
62 |
- **Orion-14B-Chat-RAG:** 在一个定制的检索增强生成数据集上进行微调的聊天模型,在检索增强生成任务中取得了卓越的性能。
|
63 |
- **Orion-14B-Chat-Plugin:** 专门针对插件和函数调用任务定制的聊天模型,非常适用于使用代理的相关场景,其中大语言模型充当插件和函数调用系统。
|
64 |
-
- **Orion-14B-Base-Int4:** 一个使用
|
65 |
-
- **Orion-14B-Chat-Int4:** 一个使用
|
66 |
|
67 |
# 2. 下载路径
|
68 |
|
@@ -100,7 +108,7 @@ pipeline_tag: text-generation
|
|
100 |
| Baichuan 2-13B | 68.9 | 67.2 | 70.8 | 78.1 | 74.1 | 66.3 |
|
101 |
| QWEN-14B | 93.0 | 90.3 | **80.2** | 79.8 | 71.4 | 66.3 |
|
102 |
| InternLM-20B | 86.4 | 83.3 | 78.1 | **80.3** | 71.8 | 68.3 |
|
103 |
-
| **Orion-14B-Base** | **93.
|
104 |
|
105 |
### 3.1.3. OpenCompass评测集评估结果
|
106 |
| 模型名称 | Average | Examination | Language | Knowledge | Understanding | Reasoning |
|
@@ -110,7 +118,7 @@ pipeline_tag: text-generation
|
|
110 |
| Baichuan 2-13B | 49.4 | 51.8 | 47.5 | 48.9 | 58.1 | 44.2 |
|
111 |
| QWEN-14B | 62.4 | 71.3 | 52.67 | 56.1 | 68.8 | 60.1 |
|
112 |
| InternLM-20B | 59.4 | 62.5 | 55.0 | **60.1** | 67.3 | 54.9 |
|
113 |
-
|**Orion-14B-Base**| **64.
|
114 |
|
115 |
### 3.1.4. 日语测试集评估结果
|
116 |
| 模型名称 |**Average**| JCQA | JNLI | MARC | JSQD | JQK | XLS | XWN | MGSM |
|
@@ -160,6 +168,7 @@ pipeline_tag: text-generation
|
|
160 |
| Llama2-13B-Chat | 7.10 | 6.20 | 6.65 |
|
161 |
| InternLM-20B-Chat | 7.03 | 5.93 | 6.48 |
|
162 |
| **Orion-14B-Chat** | **7.68** | **7.07** | **7.37** |
|
|
|
163 |
\*这里评测使用vllm进行推理
|
164 |
|
165 |
### 3.2.2. 对话模型AlignBench主观评估
|
@@ -170,6 +179,7 @@ pipeline_tag: text-generation
|
|
170 |
| Llama2-13B-Chat | 3.05 | 3.79 | 5.43 | 4.40 | 6.76 | 6.63 | 6.99 | 5.65 | 4.70 |
|
171 |
| InternLM-20B-Chat | 3.39 | 3.92 | 5.96 | 5.50 | **7.18** | 6.19 | 6.49 | 6.22 | 4.96 |
|
172 |
| **Orion-14B-Chat** | 4.00 | 4.24 | 6.18 | **6.57** | 7.16 | **7.36** | **7.16** | **6.99** | 5.51 |
|
|
|
173 |
\*这里评测使用vllm进行推理
|
174 |
|
175 |
## 3.3. 长上下文模型Orion-14B-LongChat评估
|
|
|
51 |
- 微调模型适应性强,在人类标注盲测中,表现突出
|
52 |
- 长上下文版本支持超长文本,长达200k token
|
53 |
- 量化版本模型大小缩小70%,推理速度提升30%,性能损失小于1%
|
54 |
+
|
55 |
+
<table style="border-collapse: collapse; width: 100%;">
|
56 |
+
<tr>
|
57 |
+
<td style="border: none; padding: 10px; box-sizing: border-box;">
|
58 |
+
<img src="./assets/imgs/opencompass_zh.png" alt="opencompass" style="width: 100%; height: auto;">
|
59 |
+
</td>
|
60 |
+
<td style="border: none; padding: 10px; box-sizing: border-box;">
|
61 |
+
<img src="./assets/imgs/model_cap_zh.png" alt="modelcap" style="width: 100%; height: auto;">
|
62 |
+
</td>
|
63 |
+
</tr>
|
64 |
+
</table>
|
65 |
|
66 |
- 具体而言,Orion-14B系列大语言模型包含:
|
67 |
+
- **Orion-14B-Base:** 基于2.5万亿tokens多样化数据集训练处的140亿参数量级的多语言基座模型。
|
68 |
- **Orion-14B-Chat:** 基于高质量语料库微调的对话类模型,旨在为大模型社区提供更好的用户交互体验。
|
69 |
+
- **Orion-14B-LongChat:** 支持长度超过200K tokens上下文的交互,在长文本评估集上性能比肩专有模型。
|
70 |
- **Orion-14B-Chat-RAG:** 在一个定制的检索增强生成数据集上进行微调的聊天模型,在检索增强生成任务中取得了卓越的性能。
|
71 |
- **Orion-14B-Chat-Plugin:** 专门针对插件和函数调用任务定制的聊天模型,非常适用于使用代理的相关场景,其中大语言模型充当插件和函数调用系统。
|
72 |
+
- **Orion-14B-Base-Int4:** 一个使用int4进行量化的基座模型。它将模型大小显著减小了70%,同时提高了推理速度30%,仅引入了1%的最小性能损失。
|
73 |
+
- **Orion-14B-Chat-Int4:** 一个使用int4进行量化的对话模型。
|
74 |
|
75 |
# 2. 下载路径
|
76 |
|
|
|
108 |
| Baichuan 2-13B | 68.9 | 67.2 | 70.8 | 78.1 | 74.1 | 66.3 |
|
109 |
| QWEN-14B | 93.0 | 90.3 | **80.2** | 79.8 | 71.4 | 66.3 |
|
110 |
| InternLM-20B | 86.4 | 83.3 | 78.1 | **80.3** | 71.8 | 68.3 |
|
111 |
+
| **Orion-14B-Base** | **93.2** | **91.3** | 78.5 | 79.5 | **78.8** | **70.2** |
|
112 |
|
113 |
### 3.1.3. OpenCompass评测集评估结果
|
114 |
| 模型名称 | Average | Examination | Language | Knowledge | Understanding | Reasoning |
|
|
|
118 |
| Baichuan 2-13B | 49.4 | 51.8 | 47.5 | 48.9 | 58.1 | 44.2 |
|
119 |
| QWEN-14B | 62.4 | 71.3 | 52.67 | 56.1 | 68.8 | 60.1 |
|
120 |
| InternLM-20B | 59.4 | 62.5 | 55.0 | **60.1** | 67.3 | 54.9 |
|
121 |
+
|**Orion-14B-Base**| **64.3** | **71.4** | **55.0** | 60.0 | **71.9** | **61.6** |
|
122 |
|
123 |
### 3.1.4. 日语测试集评估结果
|
124 |
| 模型名称 |**Average**| JCQA | JNLI | MARC | JSQD | JQK | XLS | XWN | MGSM |
|
|
|
168 |
| Llama2-13B-Chat | 7.10 | 6.20 | 6.65 |
|
169 |
| InternLM-20B-Chat | 7.03 | 5.93 | 6.48 |
|
170 |
| **Orion-14B-Chat** | **7.68** | **7.07** | **7.37** |
|
171 |
+
|
172 |
\*这里评测使用vllm进行推理
|
173 |
|
174 |
### 3.2.2. 对话模型AlignBench主观评估
|
|
|
179 |
| Llama2-13B-Chat | 3.05 | 3.79 | 5.43 | 4.40 | 6.76 | 6.63 | 6.99 | 5.65 | 4.70 |
|
180 |
| InternLM-20B-Chat | 3.39 | 3.92 | 5.96 | 5.50 | **7.18** | 6.19 | 6.49 | 6.22 | 4.96 |
|
181 |
| **Orion-14B-Chat** | 4.00 | 4.24 | 6.18 | **6.57** | 7.16 | **7.36** | **7.16** | **6.99** | 5.51 |
|
182 |
+
|
183 |
\*这里评测使用vllm进行推理
|
184 |
|
185 |
## 3.3. 长上下文模型Orion-14B-LongChat评估
|