leafspark
/

DeepSeek-V2-Chat-GGUF

Text Generation

Inference Endpoints

Model card Files Files and versions Community

leafspark commited on May 29

Commit

a1f286f

•

1 Parent(s): d13c791

readme: fix kv overrides

Files changed (1) hide show

README.md +3 -3

README.md CHANGED Viewed

@@ -14,7 +14,7 @@ language:
 - zh
 ---
-# Deepseek-V2-Chat-GGUF
 Quantizised from [https://huggingface.co/deepseek-ai/DeepSeek-V2-Chat](https://huggingface.co/deepseek-ai/DeepSeek-V2-Chat)
@@ -64,7 +64,7 @@ imatrix \
   -f groups_merged.txt \
   --verbosity [0, 1, 2] \
   -ngl {GPU offloading; must build with CUDA} \
- --ofreq {recommended: 1}
 ```
 Making a quant:
 ```
@@ -111,7 +111,7 @@ deepseek2.attention.q_lora_rank=int:1536
 deepseek2.attention.kv_lora_rank=int:512
 deepseek2.expert_shared_count=int:2
 deepseek2.expert_feed_forward_length=int:1536
-deepseek2.experts_weight_scale=int:16
 deepseek2.leading_dense_block_count=int:1
 deepseek2.rope.scaling.yarn_log_multiplier=float:0.0707
 ```

 - zh
 ---
+# DeepSeek-V2-Chat-GGUF
 Quantizised from [https://huggingface.co/deepseek-ai/DeepSeek-V2-Chat](https://huggingface.co/deepseek-ai/DeepSeek-V2-Chat)
   -f groups_merged.txt \
   --verbosity [0, 1, 2] \
   -ngl {GPU offloading; must build with CUDA} \
+  --ofreq {recommended: 1}
 ```
 Making a quant:
 ```
 deepseek2.attention.kv_lora_rank=int:512
 deepseek2.expert_shared_count=int:2
 deepseek2.expert_feed_forward_length=int:1536
+deepseek2.expert_weights_scale=float:16
 deepseek2.leading_dense_block_count=int:1
 deepseek2.rope.scaling.yarn_log_multiplier=float:0.0707
 ```