Doctor-Shotgun
/

CalliopeDS-L2-13B-exl2

Text Generation

Model card Files Files and versions Community

Doctor-Shotgun commited on Sep 16, 2023

Commit

a7d176d

•

1 Parent(s): b66e2c4

Update README.md

Files changed (1) hide show

README.md +7 -1

README.md CHANGED Viewed

@@ -16,4 +16,10 @@ Branches:
 - main: 4 decoder bits per weight, 6 head bits
   - ideal for 12gb GPUs, or 16gb GPUs with NTK extended context or CFG
 - 6.0bpw-h6: 6 decoder bits per weight, 6 head bits
-  - ideal for 16gb GPUs, or 24gb GPUs with NTK extended context or CFG

 - main: 4 decoder bits per weight, 6 head bits
   - ideal for 12gb GPUs, or 16gb GPUs with NTK extended context or CFG
 - 6.0bpw-h6: 6 decoder bits per weight, 6 head bits
+  - ideal for 16gb GPUs, or 24gb GPUs with NTK extended context or CFG
+- 8bit-32g-h8: all tensors 8bit 32g, 8 head bits
+  - experimental quant, this is with exllamav2 monkeypatched to quantize all tensors to 8bit 32g
+  - similar in size to old GPTQ 8bit no groupsize, recommend 24gb GPU
+- maxbpw-h8: ???bpw, 8 head bits
+  - experimental quant, this is the maximum optimized mixed quant size that the current version of exllamav2 produces
+  - somewhat larger than 6.0bpw but not as large as 8bit, recommend 24gb GPU