OrionStarAI
/

Orion-14B-Base

@@ -51,18 +51,26 @@ pipeline_tag: text-generation
   - 微调模型适应性强，在人类标注盲测中，表现突出
   - 长上下文版本支持超长文本，长达200k token
   - 量化版本模型大小缩小70%，推理速度提升30%，性能损失小于1%
-<div align="center">
-  <img src="./assets/imgs/model_cap_zh.png" alt="model_cap" width="50%" />
-</div>
 - 具体而言，Orion-14B系列大语言模型包含:
-  - **Orion-14B-Base:**  基于2.5万亿令牌多样化数据集训练处的140亿参数量级的多语言基座模型。
   - **Orion-14B-Chat:**  基于高质量语料库微调的对话类模型，旨在为大模型社区提供更好的用户交互体验。
-  - **Orion-14B-LongChat:**  支持长度超过200K令牌上下文的交互，在长文本评估集上性能比肩专有模型。
   - **Orion-14B-Chat-RAG:**  在一个定制的检索增强生成数据集上进行微调的聊天模型，在检索增强生成任务中取得了卓越的性能。
   - **Orion-14B-Chat-Plugin:**  专门针对插件和函数调用任务定制的聊天模型，非常适用于使用代理的相关场景，其中大语言模型充当插件和函数调用系统。
-  - **Orion-14B-Base-Int4:**  一个使用4位整数进行量化的基座模型。它将模型大小显著减小了70%，同时提高了推理速度30%，仅引入了1%的最小性能损失。
-  - **Orion-14B-Chat-Int4:**  一个使用4位整数进行量化的对话模型。
 # 2. 下载路径
@@ -100,7 +108,7 @@ pipeline_tag: text-generation
 | Baichuan 2-13B     |   68.9   |   67.2   |   70.8   |   78.1   |   74.1   |   66.3   |
 | QWEN-14B           |   93.0   |   90.3   | **80.2** |   79.8   |   71.4   |   66.3   |
 | InternLM-20B       |   86.4   |   83.3   |   78.1   | **80.3** |   71.8   |   68.3   |
-| **Orion-14B-Base** | **93.3** | **91.3** |   78.5   |   79.5   | **78.9** | **70.2** |
 ### 3.1.3. OpenCompass评测集评估结果
 | 模型名称 | Average | Examination | Language | Knowledge | Understanding | Reasoning |
@@ -110,7 +118,7 @@ pipeline_tag: text-generation
 | Baichuan 2-13B   |   49.4   |   51.8   |   47.5   |   48.9   |   58.1   |   44.2   |
 | QWEN-14B         |   62.4   |   71.3   |   52.67  |   56.1   |   68.8   |   60.1   |
 | InternLM-20B     |   59.4   |   62.5   |   55.0   | **60.1** |   67.3   |   54.9   |
-|**Orion-14B-Base**| **64.4** | **71.4** | **55.0** |   60.0   | **71.9** | **61.6** |
 ### 3.1.4. 日语测试集评估结果
 |   模型名称         |**Average**|  JCQA    |  JNLI    |  MARC    |  JSQD   |  JQK     |  XLS     |  XWN     |  MGSM    |
@@ -160,6 +168,7 @@ pipeline_tag: text-generation
 | Llama2-13B-Chat      |   7.10   |   6.20   |   6.65   |
 | InternLM-20B-Chat    |   7.03   |   5.93   |   6.48   |
 | **Orion-14B-Chat**   | **7.68** | **7.07** | **7.37** |
 \*这里评测使用vllm进行推理
 ### 3.2.2. 对话模型AlignBench主观评估
@@ -170,6 +179,7 @@ pipeline_tag: text-generation
 | Llama2-13B-Chat    |   3.05   |   3.79   |   5.43   |   4.40   |   6.76   |   6.63   |   6.99   |   5.65   |   4.70   |
 | InternLM-20B-Chat  |   3.39   |   3.92   |   5.96   |   5.50   | **7.18** |   6.19   |   6.49   |   6.22   |   4.96   |
 | **Orion-14B-Chat** |   4.00   |   4.24   |   6.18   | **6.57** |   7.16   | **7.36** | **7.16** | **6.99** |   5.51   |
 \*这里评测使用vllm进行推理
 ## 3.3. 长上下文模型Orion-14B-LongChat评估

   - 微调模型适应性强，在人类标注盲测中，表现突出
   - 长上下文版本支持超长文本，长达200k token
   - 量化版本模型大小缩小70%，推理速度提升30%，性能损失小于1%
+ <table style="border-collapse: collapse; width: 100%;">
+   <tr>
+     <td style="border: none; padding: 10px; box-sizing: border-box;">
+       <img src="./assets/imgs/opencompass_zh.png" alt="opencompass" style="width: 100%; height: auto;">
+     </td>
+     <td style="border: none; padding: 10px; box-sizing: border-box;">
+       <img src="./assets/imgs/model_cap_zh.png" alt="modelcap" style="width: 100%; height: auto;">
+     </td>
+   </tr>
+ </table>
 - 具体而言，Orion-14B系列大语言模型包含:
+  - **Orion-14B-Base:**  基于2.5万亿tokens多样化数据集训练处的140亿参数量级的多语言基座模型。
   - **Orion-14B-Chat:**  基于高质量语料库微调的对话类模型，旨在为大模型社区提供更好的用户交互体验。
+  - **Orion-14B-LongChat:**  支持长度超过200K tokens上下文的交互，在长文本评估集上性能比肩专有模型。
   - **Orion-14B-Chat-RAG:**  在一个定制的检索增强生成数据集上进行微调的聊天模型，在检索增强生成任务中取得了卓越的性能。
   - **Orion-14B-Chat-Plugin:**  专门针对插件和函数调用任务定制的聊天模型，非常适用于使用代理的相关场景，其中大语言模型充当插件和函数调用系统。
+  - **Orion-14B-Base-Int4:**  一个使用int4进行量化的基座模型。它将模型大小显著减小了70%，同时提高了推理速度30%，仅引入了1%的最小性能损失。
+  - **Orion-14B-Chat-Int4:**  一个使用int4进行量化的对话模型。
 # 2. 下载路径
 | Baichuan 2-13B     |   68.9   |   67.2   |   70.8   |   78.1   |   74.1   |   66.3   |
 | QWEN-14B           |   93.0   |   90.3   | **80.2** |   79.8   |   71.4   |   66.3   |
 | InternLM-20B       |   86.4   |   83.3   |   78.1   | **80.3** |   71.8   |   68.3   |
+| **Orion-14B-Base** | **93.2** | **91.3** |   78.5   |   79.5   | **78.8** | **70.2** |
 ### 3.1.3. OpenCompass评测集评估结果
 | 模型名称 | Average | Examination | Language | Knowledge | Understanding | Reasoning |
 | Baichuan 2-13B   |   49.4   |   51.8   |   47.5   |   48.9   |   58.1   |   44.2   |
 | QWEN-14B         |   62.4   |   71.3   |   52.67  |   56.1   |   68.8   |   60.1   |
 | InternLM-20B     |   59.4   |   62.5   |   55.0   | **60.1** |   67.3   |   54.9   |
+|**Orion-14B-Base**| **64.3** | **71.4** | **55.0** |   60.0   | **71.9** | **61.6** |
 ### 3.1.4. 日语测试集评估结果
 |   模型名称         |**Average**|  JCQA    |  JNLI    |  MARC    |  JSQD   |  JQK     |  XLS     |  XWN     |  MGSM    |
 | Llama2-13B-Chat      |   7.10   |   6.20   |   6.65   |
 | InternLM-20B-Chat    |   7.03   |   5.93   |   6.48   |
 | **Orion-14B-Chat**   | **7.68** | **7.07** | **7.37** |
 \*这里评测使用vllm进行推理
 ### 3.2.2. 对话模型AlignBench主观评估
 | Llama2-13B-Chat    |   3.05   |   3.79   |   5.43   |   4.40   |   6.76   |   6.63   |   6.99   |   5.65   |   4.70   |
 | InternLM-20B-Chat  |   3.39   |   3.92   |   5.96   |   5.50   | **7.18** |   6.19   |   6.49   |   6.22   |   4.96   |
 | **Orion-14B-Chat** |   4.00   |   4.24   |   6.18   | **6.57** |   7.16   | **7.36** | **7.16** | **6.99** |   5.51   |
 \*这里评测使用vllm进行推理
 ## 3.3. 长上下文模型Orion-14B-LongChat评估