neuralmagic
/

Meta-Llama-3.1-70B-Instruct-quantized.w8a16

Text Generation

text-generation-inference

Inference Endpoints

compressed-tensors

Model card Files Files and versions Community

alexmarques commited on Oct 1

Commit

33c68d0

•

1 Parent(s): 8e42fca

Update README.md

Files changed (1) hide show

README.md +11 -11

README.md CHANGED Viewed

@@ -32,7 +32,7 @@ base_model: meta-llama/Meta-Llama-3.1-70B-Instruct
 - **Model Developers:** Neural Magic
 Quantized version of [Meta-Llama-3.1-70B-Instruct](https://huggingface.co/meta-llama/Meta-Llama-3.1-70B-Instruct).
-It achieves scores within 3.1% of the scores of the unquantized model for MMLU, ARC-Challenge, GSM-8k, Hellaswag, Winogrande and TruthfulQA.
 ### Model Optimizations
@@ -187,9 +187,9 @@ This version of the lm-evaluation-harness includes versions of MMLU, ARC-Challen
    </td>
    <td>95.38
    </td>
-   <td>93.25
    </td>
-   <td>97.8%
    </td>
   </tr>
   <tr>
@@ -197,9 +197,9 @@ This version of the lm-evaluation-harness includes versions of MMLU, ARC-Challen
    </td>
    <td>86.66
    </td>
-   <td>86.16
    </td>
-   <td>99.4%
    </td>
   </tr>
   <tr>
@@ -207,9 +207,9 @@ This version of the lm-evaluation-harness includes versions of MMLU, ARC-Challen
    </td>
    <td>85.32
    </td>
-   <td>84.14
    </td>
-   <td>98.6%
    </td>
   </tr>
   <tr>
@@ -217,9 +217,9 @@ This version of the lm-evaluation-harness includes versions of MMLU, ARC-Challen
    </td>
    <td>60.65
    </td>
-   <td>58.89
    </td>
-   <td>97.1%
    </td>
   </tr>
   <tr>
@@ -227,9 +227,9 @@ This version of the lm-evaluation-harness includes versions of MMLU, ARC-Challen
    </td>
    <td><strong>84.50</strong>
    </td>
-   <td><strong>82.85</strong>
    </td>
-   <td><strong>98.0%</strong>
    </td>
   </tr>
 </table>

 - **Model Developers:** Neural Magic
 Quantized version of [Meta-Llama-3.1-70B-Instruct](https://huggingface.co/meta-llama/Meta-Llama-3.1-70B-Instruct).
+It achieves scores within 3.2% of the scores of the unquantized model for MMLU, ARC-Challenge, GSM-8k, Hellaswag, Winogrande and TruthfulQA.
 ### Model Optimizations
    </td>
    <td>95.38
    </td>
+   <td>92.34
    </td>
+   <td>96.8%
    </td>
   </tr>
   <tr>
    </td>
    <td>86.66
    </td>
+   <td>86.01
    </td>
+   <td>99.3%
    </td>
   </tr>
   <tr>
    </td>
    <td>85.32
    </td>
+   <td>85.56
    </td>
+   <td>100.3%
    </td>
   </tr>
   <tr>
    </td>
    <td>60.65
    </td>
+   <td>59.39
    </td>
+   <td>97.9%
    </td>
   </tr>
   <tr>
    </td>
    <td><strong>84.50</strong>
    </td>
+   <td><strong>82.98</strong>
    </td>
+   <td><strong>98.2%</strong>
    </td>
   </tr>
 </table>