zRzRzRzRzRzRzR
commited on
Commit
•
a078535
1
Parent(s):
91e93ee
Update README.md
Browse files
README.md
CHANGED
@@ -13,7 +13,7 @@ tags:
|
|
13 |
inference: false
|
14 |
---
|
15 |
|
16 |
-
# GLM-4-9B-Chat
|
17 |
|
18 |
GLM-4-9B 是智谱 AI 推出的最新一代预训练模型 GLM-4 系列中的开源版本。
|
19 |
在语义、数学、推理、代码和知识等多方面的数据集测评中,GLM-4-9B 及其人类偏好对齐的版本 GLM-4-9B-Chat 均表现出较高的性能。
|
@@ -23,9 +23,8 @@ GLM-4-9B 是智谱 AI 推出的最新一代预训练模型 GLM-4 系列中的开
|
|
23 |
|
24 |
## 评测结果
|
25 |
|
26 |
-
我们在一些经典任务上对 GLM-4-9B-Chat
|
27 |
|
28 |
-
### 典型任务
|
29 |
|
30 |
| Model | AlignBench-v2 | MT-Bench | IFEval | MMLU | C-Eval | GSM8K | MATH | HumanEval | NCB |
|
31 |
|:--------------------|:-------------:|:--------:|:------:|:----:|:------:|:-----:|:----:|:---------:|:----:|
|
@@ -38,11 +37,11 @@ GLM-4-9B 是智谱 AI 推出的最新一代预训练模型 GLM-4 系列中的开
|
|
38 |
|
39 |
在 1M 的上下文长度下进行[大海捞针实验](https://github.com/LargeWorldModel/LWM/blob/main/scripts/eval_needle.py),结果如下:
|
40 |
|
41 |
-
![needle](https://raw.githubusercontent.com/THUDM/GLM-4/main/resources/eval_needle.jpeg
|
42 |
|
43 |
在 LongBench-Chat 上对长文本能力进行了进一步评测,结果如下:
|
44 |
|
45 |
-
![leaderboard](https://raw.githubusercontent.com/THUDM/GLM-4/main/resources/longbench.png
|
46 |
|
47 |
### 多语言能力
|
48 |
|
|
|
13 |
inference: false
|
14 |
---
|
15 |
|
16 |
+
# GLM-4-9B-Chat-1M
|
17 |
|
18 |
GLM-4-9B 是智谱 AI 推出的最新一代预训练模型 GLM-4 系列中的开源版本。
|
19 |
在语义、数学、推理、代码和知识等多方面的数据集测评中,GLM-4-9B 及其人类偏好对齐的版本 GLM-4-9B-Chat 均表现出较高的性能。
|
|
|
23 |
|
24 |
## 评测结果
|
25 |
|
26 |
+
我们在一些经典任务上对 GLM-4-9B-Chat 模型进行了评测,并得到了如下的结果:
|
27 |
|
|
|
28 |
|
29 |
| Model | AlignBench-v2 | MT-Bench | IFEval | MMLU | C-Eval | GSM8K | MATH | HumanEval | NCB |
|
30 |
|:--------------------|:-------------:|:--------:|:------:|:----:|:------:|:-----:|:----:|:---------:|:----:|
|
|
|
37 |
|
38 |
在 1M 的上下文长度下进行[大海捞针实验](https://github.com/LargeWorldModel/LWM/blob/main/scripts/eval_needle.py),结果如下:
|
39 |
|
40 |
+
![needle](https://raw.githubusercontent.com/THUDM/GLM-4/main/resources/eval_needle.jpeg)
|
41 |
|
42 |
在 LongBench-Chat 上对长文本能力进行了进一步评测,结果如下:
|
43 |
|
44 |
+
![leaderboard](https://raw.githubusercontent.com/THUDM/GLM-4/main/resources/longbench.png)
|
45 |
|
46 |
### 多语言能力
|
47 |
|