neuralmagic
/

Llama-3.2-3B-Instruct-FP8

File size: 144 Bytes

3a9931b

quant_stage:
  quant_modifiers:
    QuantizationModifier:
      ignore: [lm_head]
      scheme: FP8
      observer: mse
      targets: [Linear]