cstr
/

llama3.1-8b-spaetzle-v90

@@ -37,6 +37,64 @@ Detailed results can be found [here](https://huggingface.co/datasets/open-llm-le
 |MuSR (0-shot)      |11.15|
 |MMLU-PRO (5-shot)  |30.34|
 # merge tree

 |MuSR (0-shot)      |11.15|
 |MMLU-PRO (5-shot)  |30.34|
+|                                     Model                                      |AGIEval|TruthfulQA|Bigbench|
+|--------------------------------------------------------------------------------|------:|---------:|-------:|
+|[llama3.1-8b-spaetzle-v90](https://huggingface.co/cstr/llama3.1-8b-spaetzle-v90)|  42.05|      57.2|   44.75|
+### AGIEval
+|             Task             |Version| Metric |Value|   |Stderr|
+|------------------------------|------:|--------|----:|---|-----:|
+|agieval_aqua_rat              |      0|acc     |24.02|±  |  2.69|
+|                              |       |acc_norm|23.62|±  |  2.67|
+|agieval_logiqa_en             |      0|acc     |40.09|±  |  1.92|
+|                              |       |acc_norm|39.78|±  |  1.92|
+|agieval_lsat_ar               |      0|acc     |22.17|±  |  2.75|
+|                              |       |acc_norm|21.74|±  |  2.73|
+|agieval_lsat_lr               |      0|acc     |50.39|±  |  2.22|
+|                              |       |acc_norm|45.29|±  |  2.21|
+|agieval_lsat_rc               |      0|acc     |64.31|±  |  2.93|
+|                              |       |acc_norm|58.36|±  |  3.01|
+|agieval_sat_en                |      0|acc     |81.07|±  |  2.74|
+|                              |       |acc_norm|73.79|±  |  3.07|
+|agieval_sat_en_without_passage|      0|acc     |45.15|±  |  3.48|
+|                              |       |acc_norm|38.83|±  |  3.40|
+|agieval_sat_math              |      0|acc     |40.91|±  |  3.32|
+|                              |       |acc_norm|35.00|±  |  3.22|
+Average: 42.05%
+### TruthfulQA
+|    Task     |Version|Metric|Value|   |Stderr|
+|-------------|------:|------|----:|---|-----:|
+|truthfulqa_mc|      1|mc1   |39.66|±  |  1.71|
+|             |       |mc2   |57.20|±  |  1.51|
+Average: 57.2%
+### Bigbench
+|                      Task                      |Version|       Metric        |Value|   |Stderr|
+|------------------------------------------------|------:|---------------------|----:|---|-----:|
+|bigbench_causal_judgement                       |      0|multiple_choice_grade|58.42|±  |  3.59|
+|bigbench_date_understanding                     |      0|multiple_choice_grade|70.46|±  |  2.38|
+|bigbench_disambiguation_qa                      |      0|multiple_choice_grade|31.40|±  |  2.89|
+|bigbench_geometric_shapes                       |      0|multiple_choice_grade|33.43|±  |  2.49|
+|                                                |       |exact_str_match      | 0.00|±  |  0.00|
+|bigbench_logical_deduction_five_objects         |      0|multiple_choice_grade|30.00|±  |  2.05|
+|bigbench_logical_deduction_seven_objects        |      0|multiple_choice_grade|24.29|±  |  1.62|
+|bigbench_logical_deduction_three_objects        |      0|multiple_choice_grade|56.00|±  |  2.87|
+|bigbench_movie_recommendation                   |      0|multiple_choice_grade|38.20|±  |  2.18|
+|bigbench_navigate                               |      0|multiple_choice_grade|50.20|±  |  1.58|
+|bigbench_reasoning_about_colored_objects        |      0|multiple_choice_grade|69.50|±  |  1.03|
+|bigbench_ruin_names                             |      0|multiple_choice_grade|54.46|±  |  2.36|
+|bigbench_salient_translation_error_detection    |      0|multiple_choice_grade|32.77|±  |  1.49|
+|bigbench_snarks                                 |      0|multiple_choice_grade|65.19|±  |  3.55|
+|bigbench_sports_understanding                   |      0|multiple_choice_grade|50.30|±  |  1.59|
+|bigbench_temporal_sequences                     |      0|multiple_choice_grade|45.70|±  |  1.58|
+|bigbench_tracking_shuffled_objects_five_objects |      0|multiple_choice_grade|22.08|±  |  1.17|
+|bigbench_tracking_shuffled_objects_seven_objects|      0|multiple_choice_grade|17.03|±  |  0.90|
+|bigbench_tracking_shuffled_objects_three_objects|      0|multiple_choice_grade|56.00|±  |  2.87|
+Average: 44.75%
 # merge tree