Spaces:

hallucinations-leaderboard
/

leaderboard

Running on CPU Upgrade

pminervini commited on Jan 12

Commit

5a94e04

•

1 Parent(s): b3ee622

update

Files changed (2) hide show

cli/analysis-cli.py CHANGED Viewed

@@ -54,11 +54,14 @@ for path in result_path_lst:
             if ',' in metric_name and '_stderr' not in metric_name \
                     and 'f1' not in metric_name \
-                    and 'selfcheckgpt' not in dataset_name \
                     and model_name_to_model_map[model_name]["likes"] > 256:
                 to_add = True
                 if 'nq_open' in dataset_name or 'triviaqa' in dataset_name:
                     to_add = False
                     # pass

             if ',' in metric_name and '_stderr' not in metric_name \
                     and 'f1' not in metric_name \
                     and model_name_to_model_map[model_name]["likes"] > 256:
                 to_add = True
+                if 'selfcheck' in dataset_name:
+                    if 'max' not in metric_name:
+                        to_add = False
                 if 'nq_open' in dataset_name or 'triviaqa' in dataset_name:
                     to_add = False
                     # pass

cli/submit-cli.py CHANGED Viewed

@@ -141,7 +141,7 @@ def main():
     requested_model_names = {e.model for e in eval_requests}
-    breakpoint()
     for i in range(min(200, len(filtered_model_lst))):
         model = filtered_model_lst[i]

     requested_model_names = {e.model for e in eval_requests}
+    # breakpoint()
     for i in range(min(200, len(filtered_model_lst))):
         model = filtered_model_lst[i]