neuralmagic
/

SmolLM-360M-Instruct-quantized.w8a8

Text Generation

Transformers

Safetensors

text-generation-inference

Inference Endpoints

8-bit precision

compressed-tensors

Model card Files Files and versions Community

SmolLM-360M-Instruct-quantized.w8a8

File size: 488 Bytes

4e0f993

quant_stage:
  quant_modifiers:
    SmoothQuantModifier:
      smoothing_strength: 0.8
      mappings:
      - - ['re:.*q_proj', 're:.*k_proj', 're:.*v_proj']
        - re:.*input_layernorm
      - - ['re:.*gate_proj', 're:.*up_proj']
        - re:.*post_attention_layernorm
      - - ['re:.*down_proj']
        - re:.*up_proj
    GPTQModifier:
      sequential_update: false
      dampening_frac: 0.01
      ignore: [lm_head]
      scheme: W8A8
      targets: Linear
      observer: mse