nm-testing
/

tinyllama-one-shot-w4a16-channel-compressed

Text Generation

text-generation-inference

Inference Endpoints

8-bit precision

compressed-tensors

Model card Files Files and versions Community

sadkins65 commited on May 15

Commit

f5bce8e

•

1 Parent(s): 7e06f55

Upload folder using huggingface_hub

Files changed (5) hide show

config.json +7 -1
generation_config.json +1 -1
model.safetensors +1 -1
recipe.yaml +1 -0
tokenizer_config.json +1 -0

config.json CHANGED Viewed

@@ -35,6 +35,12 @@
       ],
       "quant_method": "sparseml",
       "quantization_status": "frozen"
     }
   },
   "eos_token_id": 2,
@@ -53,7 +59,7 @@
   "rope_theta": 10000.0,
   "tie_word_embeddings": false,
   "torch_dtype": "float32",
-  "transformers_version": "4.39.3",
   "use_cache": true,
   "vocab_size": 32000
 }

       ],
       "quant_method": "sparseml",
       "quantization_status": "frozen"
+    },
+    "sparsity_config": {
+      "format": "dense",
+      "global_sparsity": 19.09593405666055,
+      "registry_requires_subclass": false,
+      "sparsity_structure": "0:0"
     }
   },
   "eos_token_id": 2,
   "rope_theta": 10000.0,
   "tie_word_embeddings": false,
   "torch_dtype": "float32",
+  "transformers_version": "4.39.0",
   "use_cache": true,
   "vocab_size": 32000
 }

generation_config.json CHANGED Viewed

@@ -3,5 +3,5 @@
   "eos_token_id": 2,
   "max_length": 2048,
   "pad_token_id": 0,
-  "transformers_version": "4.39.3"
 }

   "eos_token_id": 2,
   "max_length": 2048,
   "pad_token_id": 0,
+  "transformers_version": "4.39.0"
 }

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8d55aa32bb02998433580439ef3834380482330b9dff6e83461a3fcd42eb479d
 size 1495571128

 version https://git-lfs.github.com/spec/v1
+oid sha256:35fcba00ec35e8386a0c121dee5e81ef7dcc037e0fd891ffae6335a5faaa8fcc
 size 1495571128

recipe.yaml CHANGED Viewed

@@ -6,3 +6,4 @@ test_stage:
         group_0:
           weights: {num_bits: 4, type: int, symmetric: true, strategy: channel}
           targets: [Linear]

         group_0:
           weights: {num_bits: 4, type: int, symmetric: true, strategy: channel}
           targets: [Linear]
+    SparseGPTModifier: {sparsity: 0.0, quantize: true, sequential_update: false}

tokenizer_config.json CHANGED Viewed

@@ -28,6 +28,7 @@
     }
   },
   "bos_token": "<s>",
   "clean_up_tokenization_spaces": false,
   "eos_token": "</s>",
   "legacy": false,

     }
   },
   "bos_token": "<s>",
+  "chat_template": "{% for message in messages %}\n{% if message['role'] == 'user' %}\n{{ '<|user|>\n' + message['content'] + eos_token }}\n{% elif message['role'] == 'system' %}\n{{ '<|system|>\n' + message['content'] + eos_token }}\n{% elif message['role'] == 'assistant' %}\n{{ '<|assistant|>\n'  + message['content'] + eos_token }}\n{% endif %}\n{% if loop.last and add_generation_prompt %}\n{{ '<|assistant|>' }}\n{% endif %}\n{% endfor %}",
   "clean_up_tokenization_spaces": false,
   "eos_token": "</s>",
   "legacy": false,