Kunger commited on
Commit
80f40d1
1 Parent(s): dd3c39c

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +34 -3
README.md CHANGED
@@ -1,3 +1,34 @@
1
- ---
2
- license: cc-by-nc-sa-4.0
3
- ---
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ license: cc-by-nc-sa-4.0
3
+ language:
4
+ - ja
5
+ - zh
6
+ pipeline_tag: text-generation
7
+ ---
8
+
9
+ ## SakuraLLM去量化模型
10
+
11
+ ### 为什么要去量化?
12
+ llama.cpp在某些设备上受支持情况不佳,推理速度受限,我们可能希望使用pytorch进行推理,于是使用transformers库对GGUF模型进行去量化操作。
13
+
14
+ ### 原始模型是啥
15
+
16
+ [https://huggingface.co/SakuraLLM/Sakura-32B-Qwen2beta-v0.9-GGUF](SakuraLLM/Sakura-32B-Qwen2beta-v0.9-GGUF)仓库中的Q4_K_M模型
17
+
18
+ ### 我想自己去量化
19
+
20
+ Transformers现已支持QWEN模型去量化,但是仍有一个重要的修改没有合并至主线。请查阅这个pull request了解详情
21
+
22
+ ```https://github.com/huggingface/transformers/pull/32551```
23
+
24
+ 对于其他模型,量化版本的支持,请参考这个pull request,未来可能支持大部分GGUF模型去量化
25
+
26
+ ```https://github.com/huggingface/transformers/pull/32625```
27
+
28
+ ### 好用吗?
29
+
30
+ 使用Q4_K_M模型去量化,模型精度肯定不如F16模型,对于推理产生的结果未进行测试。
31
+
32
+ ### 其他问题
33
+
34
+ 去量化后发现tokenizer的词表发生变化,不知道是否会对使用产生影响,你可以使用QWEN1.5模型中的词表替换这部分数据。