Update README.md
Browse files
README.md
CHANGED
@@ -4,9 +4,14 @@ license: llama2
|
|
4 |
|
5 |
## 目录
|
6 |
|
7 |
-
- [模型介绍]()
|
8 |
-
- [快速使用]()
|
9 |
|
|
|
|
|
|
|
|
|
|
|
10 |
目前发布的模型和下载链接如下:
|
11 |
|
12 |
| | 基座模型 | Chat模型 | 8-bit量化Chat模型 | 4-bit量化Chat模型 |
|
@@ -15,19 +20,15 @@ license: llama2
|
|
15 |
|
16 |
|
17 |
|
18 |
-
|
19 |
|
|
|
|
|
20 |
|
21 |
|
22 |
-
|
23 |
|
24 |
-
XuanYuan-70B是基于Llama2-70b模型进行中文增强的一系列金融大模型,包含大量中英文语料增量预训练之后的底座模型以及使用高质量指令数据进行对齐的chat模型。
|
25 |
|
26 |
-
考虑到金融场景下存在非常多长文本的业务,基于我们高效的分布式训练框架,我们将模型的上下文长度在预训练阶段从4k扩充到了8k和16k,据我们所知,这也是首个在70B参数量级上达到8k及以上上下文长度的开源大模型。
|
27 |
-
具体细节参考:[XuanYuan-70B](https://github.com/Duxiaoman-DI/XuanYuan)
|
28 |
-
|
29 |
-
我们的目标是:大模型通用能力尽可能保持的同时,金融领域能力得到明显提升,服务于金融领域。
|
30 |
-
具体技术优化点包括:
|
31 |
|
32 |
(1)**数据质量**
|
33 |
|
@@ -50,7 +51,7 @@ XuanYuan-70B是基于Llama2-70b模型进行中文增强的一系列金融大模
|
|
50 |
|
51 |
|
52 |
|
53 |
-
|
54 |
|
55 |
基于上述的XuanYuan-70B基座模型,我们进行了详细的指令微调,基座使模型具备对话和遵循人类指令的能力。
|
56 |
|
@@ -67,13 +68,13 @@ XuanYuan-70B是基于Llama2-70b模型进行中文增强的一系列金融大模
|
|
67 |
|
68 |
|
69 |
|
70 |
-
|
71 |
|
72 |
基座模型、Chat模型以及8-bit和4bit量化Chat模型均已发布在Hugging Face。下面我们给出基座模型和Chat模型的推理部署使用方法。
|
73 |
|
74 |
|
75 |
|
76 |
-
|
77 |
|
78 |
```
|
79 |
torch >= 2.0
|
@@ -94,7 +95,7 @@ vllm(推理加速所需)
|
|
94 |
|
95 |
|
96 |
|
97 |
-
|
98 |
|
99 |
因为XuanYuan-70B系列模型均是基于Llama2-70B进行增量预训练而来,因此基座模型的使用方法与Llama2基座模型保持一致。
|
100 |
|
@@ -114,7 +115,7 @@ print(outputs)
|
|
114 |
|
115 |
|
116 |
|
117 |
-
|
118 |
|
119 |
在指令微调构造prompt的时候,我们参考了[FastChat](https://github.com/lm-sys/FastChat)的对话构造方式,简单代码示例如下:
|
120 |
|
@@ -145,7 +146,7 @@ print(f"输出: {outputs}")
|
|
145 |
|
146 |
|
147 |
|
148 |
-
|
149 |
|
150 |
我们github主页提供一个了基于命令行的demo,支持多轮对话和基于vLLM的推理加速。
|
151 |
|
@@ -171,7 +172,7 @@ python3 cli_vllm_demo.py --checkpoint_path <XuanYuan-70B-Chat Path>
|
|
171 |
```
|
172 |
|
173 |
|
174 |
-
|
175 |
|
176 |
为了降低用户在本地使用XuanYuan的成本,降低显存需求,我们提供量化好的Xuanyuan-70B-Chat模型8bit和4bit模型。
|
177 |
|
@@ -185,10 +186,6 @@ python3 cli_vllm_demo.py --checkpoint_path <XuanYuan-70B-Chat Path>
|
|
185 |
在4bit量化算法上,我们使用[auto-gptq](https://github.com/PanQiWei/AutoGPTQ)工具。该库实现的GPTQ算法是目前4bit量化最受欢迎的方法,
|
186 |
同时该方法在transformers库和optimum库里做了集成,使用较为容易。
|
187 |
|
188 |
-
|
189 |
-
|
190 |
-
#### 量化效果
|
191 |
-
|
192 |
下表给出了不同模型所需显存,以及在三个评测基准上CEVAL,CMMLU和MMLU上效果:
|
193 |
|
194 |
| 模型 | 显存 | CEVAL | CMMLU | MMLU |
|
|
|
4 |
|
5 |
## 目录
|
6 |
|
7 |
+
- [模型介绍](https://huggingface.co/Duxiaoman-DI/XuanYuan-70B#%E6%A8%A1%E5%9E%8B%E4%BB%8B%E7%BB%8D)
|
8 |
+
- [快速使用](https://huggingface.co/Duxiaoman-DI/XuanYuan-70B#%E6%A8%A1%E5%9E%8B%E4%BB%8B%E7%BB%8D)
|
9 |
|
10 |
+
|
11 |
+
XuanYuan-70B是基于Llama2-70b模型进行中文增强的一系列金融大模型,包含大量中英文语料增量预训练之后的底座模型以及使用高质量指令数据进行对齐的chat模型。
|
12 |
+
|
13 |
+
|
14 |
+
我们的目标是:大模型通用能力尽可能保持的同时,金融领域能力得到明显提升,服务于金融领域。
|
15 |
目前发布的模型和下载链接如下:
|
16 |
|
17 |
| | 基座模型 | Chat模型 | 8-bit量化Chat模型 | 4-bit量化Chat模型 |
|
|
|
20 |
|
21 |
|
22 |
|
23 |
+
# 模型介绍
|
24 |
|
25 |
+
考虑到金融场景下存在非常多长文本的业务,基于我们高效的分布式训练框架,我们将模型的上下文长度在预训练阶段从4k扩充到了8k和16k,据我们所知,这也是首个在70B参数量级上达到8k及以上上下文长度的开源大模型。
|
26 |
+
具体细节参考:[XuanYuan-70B](https://github.com/Duxiaoman-DI/XuanYuan)
|
27 |
|
28 |
|
29 |
+
## 基座模型预训练
|
30 |
|
|
|
31 |
|
|
|
|
|
|
|
|
|
|
|
32 |
|
33 |
(1)**数据质量**
|
34 |
|
|
|
51 |
|
52 |
|
53 |
|
54 |
+
## Chat模型指令微调
|
55 |
|
56 |
基于上述的XuanYuan-70B基座模型,我们进行了详细的指令微调,基座使模型具备对话和遵循人类指令的能力。
|
57 |
|
|
|
68 |
|
69 |
|
70 |
|
71 |
+
# 快速使用
|
72 |
|
73 |
基座模型、Chat模型以及8-bit和4bit量化Chat模型均已发布在Hugging Face。下面我们给出基座模型和Chat模型的推理部署使用方法。
|
74 |
|
75 |
|
76 |
|
77 |
+
## 依赖安装
|
78 |
|
79 |
```
|
80 |
torch >= 2.0
|
|
|
95 |
|
96 |
|
97 |
|
98 |
+
## Base模型使用方法
|
99 |
|
100 |
因为XuanYuan-70B系列模型均是基于Llama2-70B进行增量预训练而来,因此基座模型的使用方法与Llama2基座模型保持一致。
|
101 |
|
|
|
115 |
|
116 |
|
117 |
|
118 |
+
## Chat模型使用方法
|
119 |
|
120 |
在指令微调构造prompt的时候,我们参考了[FastChat](https://github.com/lm-sys/FastChat)的对话构造方式,简单代码示例如下:
|
121 |
|
|
|
146 |
|
147 |
|
148 |
|
149 |
+
## CLI工具
|
150 |
|
151 |
我们github主页提供一个了基于命令行的demo,支持多轮对话和基于vLLM的推理加速。
|
152 |
|
|
|
172 |
```
|
173 |
|
174 |
|
175 |
+
## 量化部署
|
176 |
|
177 |
为了降低用户在本地使用XuanYuan的成本,降低显存需求,我们提供量化好的Xuanyuan-70B-Chat模型8bit和4bit模型。
|
178 |
|
|
|
186 |
在4bit量化算法上,我们使用[auto-gptq](https://github.com/PanQiWei/AutoGPTQ)工具。该库实现的GPTQ算法是目前4bit量化最受欢迎的方法,
|
187 |
同时该方法在transformers库和optimum库里做了集成,使用较为容易。
|
188 |
|
|
|
|
|
|
|
|
|
189 |
下表给出了不同模型所需显存,以及在三个评测基准上CEVAL,CMMLU和MMLU上效果:
|
190 |
|
191 |
| 模型 | 显存 | CEVAL | CMMLU | MMLU |
|