RefalMachine commited on
Commit
0a8c241
1 Parent(s): c9cc895

Upload folder using huggingface_hub

Browse files
Files changed (40) hide show
  1. config.json +1 -1
  2. llmtf_eval/daru_treewayabstractive.jsonl +0 -0
  3. llmtf_eval/daru_treewayabstractive_params.jsonl +1 -1
  4. llmtf_eval/daru_treewayabstractive_total.jsonl +3 -3
  5. llmtf_eval/daru_treewayextractive.jsonl +2 -2
  6. llmtf_eval/daru_treewayextractive_params.jsonl +1 -1
  7. llmtf_eval/daru_treewayextractive_total.jsonl +2 -2
  8. llmtf_eval/darumeru_MultiQ.jsonl +0 -0
  9. llmtf_eval/darumeru_MultiQ_params.jsonl +1 -1
  10. llmtf_eval/darumeru_MultiQ_total.jsonl +3 -3
  11. llmtf_eval/darumeru_PARus.jsonl +412 -412
  12. llmtf_eval/darumeru_PARus_params.jsonl +1 -1
  13. llmtf_eval/darumeru_PARus_total.jsonl +2 -2
  14. llmtf_eval/darumeru_RCB.jsonl +702 -702
  15. llmtf_eval/darumeru_RCB_params.jsonl +1 -1
  16. llmtf_eval/darumeru_RCB_total.jsonl +2 -2
  17. llmtf_eval/darumeru_RWSD.jsonl +456 -456
  18. llmtf_eval/darumeru_RWSD_params.jsonl +1 -1
  19. llmtf_eval/darumeru_RWSD_total.jsonl +2 -2
  20. llmtf_eval/darumeru_cp_para_ru.jsonl +79 -90
  21. llmtf_eval/darumeru_cp_para_ru_params.jsonl +1 -1
  22. llmtf_eval/darumeru_cp_para_ru_total.jsonl +2 -2
  23. llmtf_eval/darumeru_ruOpenBookQA.jsonl +0 -0
  24. llmtf_eval/darumeru_ruOpenBookQA_params.jsonl +1 -1
  25. llmtf_eval/darumeru_ruOpenBookQA_total.jsonl +3 -3
  26. llmtf_eval/darumeru_ruWorldTree.jsonl +426 -426
  27. llmtf_eval/darumeru_ruWorldTree_params.jsonl +1 -1
  28. llmtf_eval/darumeru_ruWorldTree_total.jsonl +2 -2
  29. llmtf_eval/evaluation_log.txt +231 -231
  30. llmtf_eval/evaluation_results.txt +1 -1
  31. llmtf_eval/nlpcoreteam_enMMLU.jsonl +2 -2
  32. llmtf_eval/nlpcoreteam_enMMLU_params.jsonl +1 -1
  33. llmtf_eval/nlpcoreteam_enMMLU_total.jsonl +2 -2
  34. llmtf_eval/nlpcoreteam_ruMMLU.jsonl +2 -2
  35. llmtf_eval/nlpcoreteam_ruMMLU_params.jsonl +1 -1
  36. llmtf_eval/nlpcoreteam_ruMMLU_total.jsonl +2 -2
  37. model-00001-of-00004.safetensors +1 -1
  38. model-00002-of-00004.safetensors +1 -1
  39. model-00003-of-00004.safetensors +1 -1
  40. model-00004-of-00004.safetensors +1 -1
config.json CHANGED
@@ -1,5 +1,5 @@
1
  {
2
- "_name_or_path": "/scratch/tikhomirov/workdir/data/models/ruadapt_qwen2.5_7B_ext_u48_full_two_stage_lr5e4_peft_mlp_32_32_lm_head_lora_bs256_as1.5_pv14/kto1",
3
  "architectures": [
4
  "Qwen2ForCausalLM"
5
  ],
 
1
  {
2
+ "_name_or_path": "/workdir/data/models/qwen/ruadapt_qwen2.5_7B_ext_u48_part1-2_lr5e4_peft_mlp_32_32_bs128_as1.5_pv8_ft0_as1.35_kto2_as0.75",
3
  "architectures": [
4
  "Qwen2ForCausalLM"
5
  ],
llmtf_eval/daru_treewayabstractive.jsonl CHANGED
The diff for this file is too large to render. See raw diff
 
llmtf_eval/daru_treewayabstractive_params.jsonl CHANGED
@@ -1,7 +1,7 @@
1
  {
2
  "custom_generation_config": null,
3
  "model_params": {
4
- "model_name_or_path": "/scratch/tikhomirov/workdir/data/models/ruadapt_qwen2.5_7B_ext_u48_full_two_stage_lr5e4_peft_mlp_32_32_lm_head_lora_bs256_as1.5_pv14/simpo2",
5
  "generation_config": {
6
  "bos_token_id": 147075,
7
  "do_sample": true,
 
1
  {
2
  "custom_generation_config": null,
3
  "model_params": {
4
+ "model_name_or_path": "/workdir/data/models/qwen/ruadapt_qwen2.5_7B_ext_u48_part1-2_lr5e4_peft_mlp_32_32_bs128_as1.5_pv8_ft0_as1.35_kto1_as0.75_simpo2_as1.0",
5
  "generation_config": {
6
  "bos_token_id": 147075,
7
  "do_sample": true,
llmtf_eval/daru_treewayabstractive_total.jsonl CHANGED
@@ -1,8 +1,8 @@
1
  {
2
  "task_name": "daru/treewayabstractive",
3
  "results": {
4
- "rouge1": 0.3486928379990829,
5
- "rouge2": 0.12579847916639003
6
  },
7
- "leaderboard_result": 0.23724565858273647
8
  }
 
1
  {
2
  "task_name": "daru/treewayabstractive",
3
  "results": {
4
+ "rouge1": 0.3489002151166006,
5
+ "rouge2": 0.12404569962254197
6
  },
7
+ "leaderboard_result": 0.23647295736957127
8
  }
llmtf_eval/daru_treewayextractive.jsonl CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:6a116bbafae89d0abfaeade4c758e46404407947fbe77e42f954e739121b6f25
3
- size 212508807
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:4d04091932409c48ca73be466840b9aa2dbfc33cf80644e2092b8d0f2af48e4d
3
+ size 212505309
llmtf_eval/daru_treewayextractive_params.jsonl CHANGED
@@ -1,7 +1,7 @@
1
  {
2
  "custom_generation_config": null,
3
  "model_params": {
4
- "model_name_or_path": "/scratch/tikhomirov/workdir/data/models/ruadapt_qwen2.5_7B_ext_u48_full_two_stage_lr5e4_peft_mlp_32_32_lm_head_lora_bs256_as1.5_pv14/simpo2",
5
  "generation_config": {
6
  "bos_token_id": 147075,
7
  "do_sample": true,
 
1
  {
2
  "custom_generation_config": null,
3
  "model_params": {
4
+ "model_name_or_path": "/workdir/data/models/qwen/ruadapt_qwen2.5_7B_ext_u48_part1-2_lr5e4_peft_mlp_32_32_bs128_as1.5_pv8_ft0_as1.35_kto1_as0.75_simpo2_as1.0",
5
  "generation_config": {
6
  "bos_token_id": 147075,
7
  "do_sample": true,
llmtf_eval/daru_treewayextractive_total.jsonl CHANGED
@@ -1,7 +1,7 @@
1
  {
2
  "task_name": "daru/treewayextractive",
3
  "results": {
4
- "r-prec": 0.3931765512265512
5
  },
6
- "leaderboard_result": 0.3931765512265512
7
  }
 
1
  {
2
  "task_name": "daru/treewayextractive",
3
  "results": {
4
+ "r-prec": 0.40380281385281386
5
  },
6
+ "leaderboard_result": 0.40380281385281386
7
  }
llmtf_eval/darumeru_MultiQ.jsonl CHANGED
The diff for this file is too large to render. See raw diff
 
llmtf_eval/darumeru_MultiQ_params.jsonl CHANGED
@@ -1,7 +1,7 @@
1
  {
2
  "custom_generation_config": null,
3
  "model_params": {
4
- "model_name_or_path": "/scratch/tikhomirov/workdir/data/models/ruadapt_qwen2.5_7B_ext_u48_full_two_stage_lr5e4_peft_mlp_32_32_lm_head_lora_bs256_as1.5_pv14/simpo2",
5
  "generation_config": {
6
  "bos_token_id": 147075,
7
  "do_sample": true,
 
1
  {
2
  "custom_generation_config": null,
3
  "model_params": {
4
+ "model_name_or_path": "/workdir/data/models/qwen/ruadapt_qwen2.5_7B_ext_u48_part1-2_lr5e4_peft_mlp_32_32_bs128_as1.5_pv8_ft0_as1.35_kto1_as0.75_simpo2_as1.0",
5
  "generation_config": {
6
  "bos_token_id": 147075,
7
  "do_sample": true,
llmtf_eval/darumeru_MultiQ_total.jsonl CHANGED
@@ -1,8 +1,8 @@
1
  {
2
  "task_name": "darumeru/MultiQ",
3
  "results": {
4
- "f1": 0.28476692977698215,
5
- "em": 0.17304015296367112
6
  },
7
- "leaderboard_result": 0.22890354137032665
8
  }
 
1
  {
2
  "task_name": "darumeru/MultiQ",
3
  "results": {
4
+ "f1": 0.2503859074384594,
5
+ "em": 0.14531548757170173
6
  },
7
+ "leaderboard_result": 0.19785069750508055
8
  }
llmtf_eval/darumeru_PARus.jsonl CHANGED
@@ -6,8 +6,8 @@
6
  }
7
  },
8
  "predict": {
9
- "1": 0.5310572981834412,
10
- "2": 0.468656450510025
11
  },
12
  "sample": {
13
  "messages": [
@@ -47,8 +47,8 @@
47
  }
48
  },
49
  "predict": {
50
- "1": 0.973899781703949,
51
- "2": 0.02595354989171028
52
  },
53
  "sample": {
54
  "messages": [
@@ -88,8 +88,8 @@
88
  }
89
  },
90
  "predict": {
91
- "1": 0.007576541509479284,
92
- "2": 0.9923311471939087
93
  },
94
  "sample": {
95
  "messages": [
@@ -129,8 +129,8 @@
129
  }
130
  },
131
  "predict": {
132
- "1": 0.9993485808372498,
133
- "2": 0.0005527240573428571
134
  },
135
  "sample": {
136
  "messages": [
@@ -170,8 +170,8 @@
170
  }
171
  },
172
  "predict": {
173
- "1": 0.9818406701087952,
174
- "2": 0.01798303984105587
175
  },
176
  "sample": {
177
  "messages": [
@@ -211,8 +211,8 @@
211
  }
212
  },
213
  "predict": {
214
- "1": 0.1823844015598297,
215
- "2": 0.8173901438713074
216
  },
217
  "sample": {
218
  "messages": [
@@ -252,8 +252,8 @@
252
  }
253
  },
254
  "predict": {
255
- "1": 0.02297402359545231,
256
- "2": 0.9768803119659424
257
  },
258
  "sample": {
259
  "messages": [
@@ -293,8 +293,8 @@
293
  }
294
  },
295
  "predict": {
296
- "1": 0.9939806461334229,
297
- "2": 0.005910424515604973
298
  },
299
  "sample": {
300
  "messages": [
@@ -334,8 +334,8 @@
334
  }
335
  },
336
  "predict": {
337
- "1": 0.0015010512433946133,
338
- "2": 0.9984116554260254
339
  },
340
  "sample": {
341
  "messages": [
@@ -375,8 +375,8 @@
375
  }
376
  },
377
  "predict": {
378
- "1": 0.9982185959815979,
379
- "2": 0.0017005851259455085
380
  },
381
  "sample": {
382
  "messages": [
@@ -416,8 +416,8 @@
416
  }
417
  },
418
  "predict": {
419
- "1": 0.9817925095558167,
420
- "2": 0.017982156947255135
421
  },
422
  "sample": {
423
  "messages": [
@@ -457,8 +457,8 @@
457
  }
458
  },
459
  "predict": {
460
- "1": 0.014061990194022655,
461
- "2": 0.9858216643333435
462
  },
463
  "sample": {
464
  "messages": [
@@ -498,8 +498,8 @@
498
  }
499
  },
500
  "predict": {
501
- "1": 0.9923364520072937,
502
- "2": 0.00757658202201128
503
  },
504
  "sample": {
505
  "messages": [
@@ -539,8 +539,8 @@
539
  }
540
  },
541
  "predict": {
542
- "1": 0.04208356887102127,
543
- "2": 0.9578176140785217
544
  },
545
  "sample": {
546
  "messages": [
@@ -580,8 +580,8 @@
580
  }
581
  },
582
  "predict": {
583
- "1": 0.9953008890151978,
584
- "2": 0.004609157796949148
585
  },
586
  "sample": {
587
  "messages": [
@@ -621,8 +621,8 @@
621
  }
622
  },
623
  "predict": {
624
- "1": 0.08506961911916733,
625
- "2": 0.9145846366882324
626
  },
627
  "sample": {
628
  "messages": [
@@ -662,8 +662,8 @@
662
  }
663
  },
664
  "predict": {
665
- "1": 0.966869056224823,
666
- "2": 0.033084437251091
667
  },
668
  "sample": {
669
  "messages": [
@@ -703,8 +703,8 @@
703
  }
704
  },
705
  "predict": {
706
- "1": 0.6224046945571899,
707
- "2": 0.3775075376033783
708
  },
709
  "sample": {
710
  "messages": [
@@ -744,8 +744,8 @@
744
  }
745
  },
746
  "predict": {
747
- "1": 0.9976467490196228,
748
- "2": 0.0021823435090482235
749
  },
750
  "sample": {
751
  "messages": [
@@ -785,8 +785,8 @@
785
  }
786
  },
787
  "predict": {
788
- "1": 0.0007095373584888875,
789
- "2": 0.9991030693054199
790
  },
791
  "sample": {
792
  "messages": [
@@ -826,8 +826,8 @@
826
  }
827
  },
828
  "predict": {
829
- "1": 0.9923442006111145,
830
- "2": 0.007576641160994768
831
  },
832
  "sample": {
833
  "messages": [
@@ -867,8 +867,8 @@
867
  }
868
  },
869
  "predict": {
870
- "1": 0.07584688812494278,
871
- "2": 0.9240042567253113
872
  },
873
  "sample": {
874
  "messages": [
@@ -908,8 +908,8 @@
908
  }
909
  },
910
  "predict": {
911
- "1": 0.7523679733276367,
912
- "2": 0.2442581206560135
913
  },
914
  "sample": {
915
  "messages": [
@@ -949,8 +949,8 @@
949
  }
950
  },
951
  "predict": {
952
- "1": 0.850593090057373,
953
- "2": 0.1478109061717987
954
  },
955
  "sample": {
956
  "messages": [
@@ -990,8 +990,8 @@
990
  }
991
  },
992
  "predict": {
993
- "1": 0.00669165700674057,
994
- "2": 0.9931299090385437
995
  },
996
  "sample": {
997
  "messages": [
@@ -1031,8 +1031,8 @@
1031
  }
1032
  },
1033
  "predict": {
1034
- "1": 0.9874297976493835,
1035
- "2": 0.012429906986653805
1036
  },
1037
  "sample": {
1038
  "messages": [
@@ -1072,8 +1072,8 @@
1072
  }
1073
  },
1074
  "predict": {
1075
- "1": 0.017981022596359253,
1076
- "2": 0.981730580329895
1077
  },
1078
  "sample": {
1079
  "messages": [
@@ -1113,8 +1113,8 @@
1113
  }
1114
  },
1115
  "predict": {
1116
- "1": 0.9577561616897583,
1117
- "2": 0.042080871760845184
1118
  },
1119
  "sample": {
1120
  "messages": [
@@ -1154,8 +1154,8 @@
1154
  }
1155
  },
1156
  "predict": {
1157
- "1": 0.9889400601387024,
1158
- "2": 0.01098613254725933
1159
  },
1160
  "sample": {
1161
  "messages": [
@@ -1195,8 +1195,8 @@
1195
  }
1196
  },
1197
  "predict": {
1198
- "1": 0.5621070265769958,
1199
- "2": 0.4377693831920624
1200
  },
1201
  "sample": {
1202
  "messages": [
@@ -1236,8 +1236,8 @@
1236
  }
1237
  },
1238
  "predict": {
1239
- "1": 0.817004919052124,
1240
- "2": 0.1822984516620636
1241
  },
1242
  "sample": {
1243
  "messages": [
@@ -1277,8 +1277,8 @@
1277
  }
1278
  },
1279
  "predict": {
1280
- "1": 0.8515782952308655,
1281
- "2": 0.14798210561275482
1282
  },
1283
  "sample": {
1284
  "messages": [
@@ -1318,8 +1318,8 @@
1318
  }
1319
  },
1320
  "predict": {
1321
- "1": 0.7548331022262573,
1322
- "2": 0.24505841732025146
1323
  },
1324
  "sample": {
1325
  "messages": [
@@ -1359,8 +1359,8 @@
1359
  }
1360
  },
1361
  "predict": {
1362
- "1": 0.8518908023834229,
1363
- "2": 0.1480364203453064
1364
  },
1365
  "sample": {
1366
  "messages": [
@@ -1400,8 +1400,8 @@
1400
  }
1401
  },
1402
  "predict": {
1403
- "1": 0.9239847660064697,
1404
- "2": 0.07584528625011444
1405
  },
1406
  "sample": {
1407
  "messages": [
@@ -1441,8 +1441,8 @@
1441
  }
1442
  },
1443
  "predict": {
1444
- "1": 0.5924408435821533,
1445
- "2": 0.40717825293540955
1446
  },
1447
  "sample": {
1448
  "messages": [
@@ -1482,8 +1482,8 @@
1482
  }
1483
  },
1484
  "predict": {
1485
- "1": 0.00857587531208992,
1486
- "2": 0.9912364482879639
1487
  },
1488
  "sample": {
1489
  "messages": [
@@ -1523,8 +1523,8 @@
1523
  }
1524
  },
1525
  "predict": {
1526
- "1": 0.9818271994590759,
1527
- "2": 0.01798279397189617
1528
  },
1529
  "sample": {
1530
  "messages": [
@@ -1564,8 +1564,8 @@
1564
  }
1565
  },
1566
  "predict": {
1567
- "1": 0.9322587847709656,
1568
- "2": 0.06753259897232056
1569
  },
1570
  "sample": {
1571
  "messages": [
@@ -1605,8 +1605,8 @@
1605
  }
1606
  },
1607
  "predict": {
1608
- "1": 0.1644754260778427,
1609
- "2": 0.8352752327919006
1610
  },
1611
  "sample": {
1612
  "messages": [
@@ -1646,8 +1646,8 @@
1646
  }
1647
  },
1648
  "predict": {
1649
- "1": 0.9985849857330322,
1650
- "2": 0.0013249029871076345
1651
  },
1652
  "sample": {
1653
  "messages": [
@@ -1687,8 +1687,8 @@
1687
  }
1688
  },
1689
  "predict": {
1690
- "1": 0.06007922813296318,
1691
- "2": 0.9397972822189331
1692
  },
1693
  "sample": {
1694
  "messages": [
@@ -1728,8 +1728,8 @@
1728
  }
1729
  },
1730
  "predict": {
1731
- "1": 0.14798960089683533,
1732
- "2": 0.8516213893890381
1733
  },
1734
  "sample": {
1735
  "messages": [
@@ -1769,8 +1769,8 @@
1769
  }
1770
  },
1771
  "predict": {
1772
- "1": 0.9667020440101624,
1773
- "2": 0.03307872265577316
1774
  },
1775
  "sample": {
1776
  "messages": [
@@ -1810,8 +1810,8 @@
1810
  }
1811
  },
1812
  "predict": {
1813
- "1": 0.7977695465087891,
1814
- "2": 0.20170772075653076
1815
  },
1816
  "sample": {
1817
  "messages": [
@@ -1851,8 +1851,8 @@
1851
  }
1852
  },
1853
  "predict": {
1854
- "1": 0.9044188857078552,
1855
- "2": 0.0953250452876091
1856
  },
1857
  "sample": {
1858
  "messages": [
@@ -1892,8 +1892,8 @@
1892
  }
1893
  },
1894
  "predict": {
1895
- "1": 0.9577030539512634,
1896
- "2": 0.04207853600382805
1897
  },
1898
  "sample": {
1899
  "messages": [
@@ -1933,8 +1933,8 @@
1933
  }
1934
  },
1935
  "predict": {
1936
- "1": 0.09532523900270462,
1937
- "2": 0.9044207334518433
1938
  },
1939
  "sample": {
1940
  "messages": [
@@ -1974,8 +1974,8 @@
1974
  }
1975
  },
1976
  "predict": {
1977
- "1": 0.9705726504325867,
1978
- "2": 0.029308754950761795
1979
  },
1980
  "sample": {
1981
  "messages": [
@@ -2015,8 +2015,8 @@
2015
  }
2016
  },
2017
  "predict": {
2018
- "1": 0.26889416575431824,
2019
- "2": 0.7309300303459167
2020
  },
2021
  "sample": {
2022
  "messages": [
@@ -2056,8 +2056,8 @@
2056
  }
2057
  },
2058
  "predict": {
2059
- "1": 0.008576548658311367,
2060
- "2": 0.9913142323493958
2061
  },
2062
  "sample": {
2063
  "messages": [
@@ -2097,8 +2097,8 @@
2097
  }
2098
  },
2099
  "predict": {
2100
- "1": 0.9769033193588257,
2101
- "2": 0.022974563762545586
2102
  },
2103
  "sample": {
2104
  "messages": [
@@ -2138,8 +2138,8 @@
2138
  }
2139
  },
2140
  "predict": {
2141
- "1": 0.6511993408203125,
2142
- "2": 0.3485619127750397
2143
  },
2144
  "sample": {
2145
  "messages": [
@@ -2179,8 +2179,8 @@
2179
  }
2180
  },
2181
  "predict": {
2182
- "1": 0.6511839628219604,
2183
- "2": 0.34855368733406067
2184
  },
2185
  "sample": {
2186
  "messages": [
@@ -2220,8 +2220,8 @@
2220
  }
2221
  },
2222
  "predict": {
2223
- "1": 0.20139771699905396,
2224
- "2": 0.7965434193611145
2225
  },
2226
  "sample": {
2227
  "messages": [
@@ -2261,8 +2261,8 @@
2261
  }
2262
  },
2263
  "predict": {
2264
- "1": 0.9517778158187866,
2265
- "2": 0.04738622531294823
2266
  },
2267
  "sample": {
2268
  "messages": [
@@ -2302,8 +2302,8 @@
2302
  }
2303
  },
2304
  "predict": {
2305
- "1": 0.3774365484714508,
2306
- "2": 0.6222876310348511
2307
  },
2308
  "sample": {
2309
  "messages": [
@@ -2343,8 +2343,8 @@
2343
  }
2344
  },
2345
  "predict": {
2346
- "1": 0.9624660611152649,
2347
- "2": 0.03731885924935341
2348
  },
2349
  "sample": {
2350
  "messages": [
@@ -2384,8 +2384,8 @@
2384
  }
2385
  },
2386
  "predict": {
2387
- "1": 0.029307551681995392,
2388
- "2": 0.9705327749252319
2389
  },
2390
  "sample": {
2391
  "messages": [
@@ -2425,8 +2425,8 @@
2425
  }
2426
  },
2427
  "predict": {
2428
- "1": 0.990216851234436,
2429
- "2": 0.009707745164632797
2430
  },
2431
  "sample": {
2432
  "messages": [
@@ -2466,8 +2466,8 @@
2466
  }
2467
  },
2468
  "predict": {
2469
- "1": 0.0024717780761420727,
2470
- "2": 0.9971863627433777
2471
  },
2472
  "sample": {
2473
  "messages": [
@@ -2507,8 +2507,8 @@
2507
  }
2508
  },
2509
  "predict": {
2510
- "1": 0.8511277437210083,
2511
- "2": 0.14790381491184235
2512
  },
2513
  "sample": {
2514
  "messages": [
@@ -2548,8 +2548,8 @@
2548
  }
2549
  },
2550
  "predict": {
2551
- "1": 0.003172198310494423,
2552
- "2": 0.9966750144958496
2553
  },
2554
  "sample": {
2555
  "messages": [
@@ -2589,8 +2589,8 @@
2589
  }
2590
  },
2591
  "predict": {
2592
- "1": 0.9992133378982544,
2593
- "2": 0.0007096157060004771
2594
  },
2595
  "sample": {
2596
  "messages": [
@@ -2630,8 +2630,8 @@
2630
  }
2631
  },
2632
  "predict": {
2633
- "1": 0.9738790988922119,
2634
- "2": 0.02595299854874611
2635
  },
2636
  "sample": {
2637
  "messages": [
@@ -2671,8 +2671,8 @@
2671
  }
2672
  },
2673
  "predict": {
2674
- "1": 0.16440823674201965,
2675
- "2": 0.8349339365959167
2676
  },
2677
  "sample": {
2678
  "messages": [
@@ -2712,8 +2712,8 @@
2712
  }
2713
  },
2714
  "predict": {
2715
- "1": 0.8518028259277344,
2716
- "2": 0.1480211317539215
2717
  },
2718
  "sample": {
2719
  "messages": [
@@ -2753,8 +2753,8 @@
2753
  }
2754
  },
2755
  "predict": {
2756
- "1": 0.6511270999908447,
2757
- "2": 0.34852325916290283
2758
  },
2759
  "sample": {
2760
  "messages": [
@@ -2794,8 +2794,8 @@
2794
  }
2795
  },
2796
  "predict": {
2797
- "1": 0.9931907057762146,
2798
- "2": 0.006692066323012114
2799
  },
2800
  "sample": {
2801
  "messages": [
@@ -2835,8 +2835,8 @@
2835
  }
2836
  },
2837
  "predict": {
2838
- "1": 0.04207742586731911,
2839
- "2": 0.9576777815818787
2840
  },
2841
  "sample": {
2842
  "messages": [
@@ -2876,8 +2876,8 @@
2876
  }
2877
  },
2878
  "predict": {
2879
- "1": 0.14798320829868317,
2880
- "2": 0.8515846729278564
2881
  },
2882
  "sample": {
2883
  "messages": [
@@ -2917,8 +2917,8 @@
2917
  }
2918
  },
2919
  "predict": {
2920
- "1": 0.9888705611228943,
2921
- "2": 0.010985360480844975
2922
  },
2923
  "sample": {
2924
  "messages": [
@@ -2958,8 +2958,8 @@
2958
  }
2959
  },
2960
  "predict": {
2961
- "1": 0.7539710402488708,
2962
- "2": 0.2447785586118698
2963
  },
2964
  "sample": {
2965
  "messages": [
@@ -2999,8 +2999,8 @@
2999
  }
3000
  },
3001
  "predict": {
3002
- "1": 0.03306300938129425,
3003
- "2": 0.966242790222168
3004
  },
3005
  "sample": {
3006
  "messages": [
@@ -3040,8 +3040,8 @@
3040
  }
3041
  },
3042
  "predict": {
3043
- "1": 0.08507589250802994,
3044
- "2": 0.9146520495414734
3045
  },
3046
  "sample": {
3047
  "messages": [
@@ -3081,8 +3081,8 @@
3081
  }
3082
  },
3083
  "predict": {
3084
- "1": 0.8931588530540466,
3085
- "2": 0.10667261481285095
3086
  },
3087
  "sample": {
3088
  "messages": [
@@ -3122,8 +3122,8 @@
3122
  }
3123
  },
3124
  "predict": {
3125
- "1": 0.16446301341056824,
3126
- "2": 0.8352121710777283
3127
  },
3128
  "sample": {
3129
  "messages": [
@@ -3163,8 +3163,8 @@
3163
  }
3164
  },
3165
  "predict": {
3166
- "1": 0.9946564435958862,
3167
- "2": 0.005219477694481611
3168
  },
3169
  "sample": {
3170
  "messages": [
@@ -3204,8 +3204,8 @@
3204
  }
3205
  },
3206
  "predict": {
3207
- "1": 0.9857065081596375,
3208
- "2": 0.014060348272323608
3209
  },
3210
  "sample": {
3211
  "messages": [
@@ -3245,8 +3245,8 @@
3245
  }
3246
  },
3247
  "predict": {
3248
- "1": 0.32066792249679565,
3249
- "2": 0.6788539886474609
3250
  },
3251
  "sample": {
3252
  "messages": [
@@ -3286,8 +3286,8 @@
3286
  }
3287
  },
3288
  "predict": {
3289
- "1": 0.993226945400238,
3290
- "2": 0.006692310329526663
3291
  },
3292
  "sample": {
3293
  "messages": [
@@ -3327,8 +3327,8 @@
3327
  }
3328
  },
3329
  "predict": {
3330
- "1": 0.03731995448470116,
3331
- "2": 0.9624943733215332
3332
  },
3333
  "sample": {
3334
  "messages": [
@@ -3368,8 +3368,8 @@
3368
  }
3369
  },
3370
  "predict": {
3371
- "1": 0.991333544254303,
3372
- "2": 0.008576715365052223
3373
  },
3374
  "sample": {
3375
  "messages": [
@@ -3409,8 +3409,8 @@
3409
  }
3410
  },
3411
  "predict": {
3412
- "1": 0.06008043885231018,
3413
- "2": 0.9398162364959717
3414
  },
3415
  "sample": {
3416
  "messages": [
@@ -3450,8 +3450,8 @@
3450
  }
3451
  },
3452
  "predict": {
3453
- "1": 0.11916544288396835,
3454
- "2": 0.8805201649665833
3455
  },
3456
  "sample": {
3457
  "messages": [
@@ -3491,8 +3491,8 @@
3491
  }
3492
  },
3493
  "predict": {
3494
- "1": 0.970562756061554,
3495
- "2": 0.029308456927537918
3496
  },
3497
  "sample": {
3498
  "messages": [
@@ -3532,8 +3532,8 @@
3532
  }
3533
  },
3534
  "predict": {
3535
- "1": 0.9518556594848633,
3536
- "2": 0.047390103340148926
3537
  },
3538
  "sample": {
3539
  "messages": [
@@ -3573,8 +3573,8 @@
3573
  }
3574
  },
3575
  "predict": {
3576
- "1": 0.04206098988652229,
3577
- "2": 0.9573037028312683
3578
  },
3579
  "sample": {
3580
  "messages": [
@@ -3614,8 +3614,8 @@
3614
  }
3615
  },
3616
  "predict": {
3617
- "1": 0.880456268787384,
3618
- "2": 0.11915680021047592
3619
  },
3620
  "sample": {
3621
  "messages": [
@@ -3655,8 +3655,8 @@
3655
  }
3656
  },
3657
  "predict": {
3658
- "1": 0.8666709661483765,
3659
- "2": 0.13290829956531525
3660
  },
3661
  "sample": {
3662
  "messages": [
@@ -3696,8 +3696,8 @@
3696
  }
3697
  },
3698
  "predict": {
3699
- "1": 0.0040695276111364365,
3700
- "2": 0.9957805871963501
3701
  },
3702
  "sample": {
3703
  "messages": [
@@ -3737,8 +3737,8 @@
3737
  }
3738
  },
3739
  "predict": {
3740
- "1": 0.9932164549827576,
3741
- "2": 0.006692240014672279
3742
  },
3743
  "sample": {
3744
  "messages": [
@@ -3778,8 +3778,8 @@
3778
  }
3779
  },
3780
  "predict": {
3781
- "1": 0.9963045120239258,
3782
- "2": 0.0035932352766394615
3783
  },
3784
  "sample": {
3785
  "messages": [
@@ -3819,8 +3819,8 @@
3819
  }
3820
  },
3821
  "predict": {
3822
- "1": 0.025954533368349075,
3823
- "2": 0.9739366769790649
3824
  },
3825
  "sample": {
3826
  "messages": [
@@ -3860,8 +3860,8 @@
3860
  }
3861
  },
3862
  "predict": {
3863
- "1": 0.9874869585037231,
3864
- "2": 0.012430626899003983
3865
  },
3866
  "sample": {
3867
  "messages": [
@@ -3901,8 +3901,8 @@
3901
  }
3902
  },
3903
  "predict": {
3904
- "1": 0.0011694130953401327,
3905
- "2": 0.9987474679946899
3906
  },
3907
  "sample": {
3908
  "messages": [
@@ -3937,13 +3937,13 @@
3937
  {
3938
  "metric": {
3939
  "acc": {
3940
- "val": false,
3941
  "id": 48
3942
  }
3943
  },
3944
  "predict": {
3945
- "1": 0.5310389995574951,
3946
- "2": 0.4686402678489685
3947
  },
3948
  "sample": {
3949
  "messages": [
@@ -3972,7 +3972,7 @@
3972
  "prompt_len": 87,
3973
  "generated_len": 1,
3974
  "generated_cumulative_logprob": "TODO: calculate for hf model",
3975
- "generated_token": "1"
3976
  }
3977
  }
3978
  {
@@ -3983,8 +3983,8 @@
3983
  }
3984
  },
3985
  "predict": {
3986
- "1": 0.9396409392356873,
3987
- "2": 0.06006923317909241
3988
  },
3989
  "sample": {
3990
  "messages": [
@@ -4024,8 +4024,8 @@
4024
  }
4025
  },
4026
  "predict": {
4027
- "1": 0.9889688491821289,
4028
- "2": 0.010986452922224998
4029
  },
4030
  "sample": {
4031
  "messages": [
@@ -4065,8 +4065,8 @@
4065
  }
4066
  },
4067
  "predict": {
4068
- "1": 0.014062261208891869,
4069
- "2": 0.9858406782150269
4070
  },
4071
  "sample": {
4072
  "messages": [
@@ -4106,8 +4106,8 @@
4106
  }
4107
  },
4108
  "predict": {
4109
- "1": 0.9889228343963623,
4110
- "2": 0.01098594069480896
4111
  },
4112
  "sample": {
4113
  "messages": [
@@ -4147,8 +4147,8 @@
4147
  }
4148
  },
4149
  "predict": {
4150
- "1": 0.3207954466342926,
4151
- "2": 0.6791239380836487
4152
  },
4153
  "sample": {
4154
  "messages": [
@@ -4188,8 +4188,8 @@
4188
  }
4189
  },
4190
  "predict": {
4191
- "1": 0.2450614869594574,
4192
- "2": 0.7548425197601318
4193
  },
4194
  "sample": {
4195
  "messages": [
@@ -4229,8 +4229,8 @@
4229
  }
4230
  },
4231
  "predict": {
4232
- "1": 0.995299220085144,
4233
- "2": 0.004609150346368551
4234
  },
4235
  "sample": {
4236
  "messages": [
@@ -4270,8 +4270,8 @@
4270
  }
4271
  },
4272
  "predict": {
4273
- "1": 0.04206450656056404,
4274
- "2": 0.9573837518692017
4275
  },
4276
  "sample": {
4277
  "messages": [
@@ -4311,8 +4311,8 @@
4311
  }
4312
  },
4313
  "predict": {
4314
- "1": 0.985721230506897,
4315
- "2": 0.014060557819902897
4316
  },
4317
  "sample": {
4318
  "messages": [
@@ -4352,8 +4352,8 @@
4352
  }
4353
  },
4354
  "predict": {
4355
- "1": 0.932188093662262,
4356
- "2": 0.06752748042345047
4357
  },
4358
  "sample": {
4359
  "messages": [
@@ -4393,8 +4393,8 @@
4393
  }
4394
  },
4395
  "predict": {
4396
- "1": 0.24470902979373932,
4397
- "2": 0.7537568807601929
4398
  },
4399
  "sample": {
4400
  "messages": [
@@ -4434,8 +4434,8 @@
4434
  }
4435
  },
4436
  "predict": {
4437
- "1": 0.9043939113616943,
4438
- "2": 0.09532241523265839
4439
  },
4440
  "sample": {
4441
  "messages": [
@@ -4475,8 +4475,8 @@
4475
  }
4476
  },
4477
  "predict": {
4478
- "1": 0.05338682979345322,
4479
- "2": 0.946304202079773
4480
  },
4481
  "sample": {
4482
  "messages": [
@@ -4516,8 +4516,8 @@
4516
  }
4517
  },
4518
  "predict": {
4519
- "1": 0.1066792756319046,
4520
- "2": 0.8932145833969116
4521
  },
4522
  "sample": {
4523
  "messages": [
@@ -4557,8 +4557,8 @@
4557
  }
4558
  },
4559
  "predict": {
4560
- "1": 0.994694173336029,
4561
- "2": 0.005219676066190004
4562
  },
4563
  "sample": {
4564
  "messages": [
@@ -4598,8 +4598,8 @@
4598
  }
4599
  },
4600
  "predict": {
4601
- "1": 0.9577139616012573,
4602
- "2": 0.04207901656627655
4603
  },
4604
  "sample": {
4605
  "messages": [
@@ -4639,8 +4639,8 @@
4639
  }
4640
  },
4641
  "predict": {
4642
- "1": 0.5617201328277588,
4643
- "2": 0.4374680817127228
4644
  },
4645
  "sample": {
4646
  "messages": [
@@ -4680,8 +4680,8 @@
4680
  }
4681
  },
4682
  "predict": {
4683
- "1": 0.9971261620521545,
4684
- "2": 0.002800722373649478
4685
  },
4686
  "sample": {
4687
  "messages": [
@@ -4721,8 +4721,8 @@
4721
  }
4722
  },
4723
  "predict": {
4724
- "1": 0.004069698043167591,
4725
- "2": 0.9958223104476929
4726
  },
4727
  "sample": {
4728
  "messages": [
@@ -4762,8 +4762,8 @@
4762
  }
4763
  },
4764
  "predict": {
4765
- "1": 0.14798419177532196,
4766
- "2": 0.8515902757644653
4767
  },
4768
  "sample": {
4769
  "messages": [
@@ -4803,8 +4803,8 @@
4803
  }
4804
  },
4805
  "predict": {
4806
- "1": 0.9839787483215332,
4807
- "2": 0.015904534608125687
4808
  },
4809
  "sample": {
4810
  "messages": [
@@ -4844,8 +4844,8 @@
4844
  }
4845
  },
4846
  "predict": {
4847
- "1": 0.7962379455566406,
4848
- "2": 0.20132048428058624
4849
  },
4850
  "sample": {
4851
  "messages": [
@@ -4885,8 +4885,8 @@
4885
  }
4886
  },
4887
  "predict": {
4888
- "1": 0.13241761922836304,
4889
- "2": 0.863471269607544
4890
  },
4891
  "sample": {
4892
  "messages": [
@@ -4926,8 +4926,8 @@
4926
  }
4927
  },
4928
  "predict": {
4929
- "1": 0.008575951680541039,
4930
- "2": 0.9912452101707458
4931
  },
4932
  "sample": {
4933
  "messages": [
@@ -4967,8 +4967,8 @@
4967
  }
4968
  },
4969
  "predict": {
4970
- "1": 0.9923034906387329,
4971
- "2": 0.007576330099254847
4972
  },
4973
  "sample": {
4974
  "messages": [
@@ -5008,8 +5008,8 @@
5008
  }
5009
  },
5010
  "predict": {
5011
- "1": 0.9979990124702454,
5012
- "2": 0.0019265913870185614
5013
  },
5014
  "sample": {
5015
  "messages": [
@@ -5049,8 +5049,8 @@
5049
  }
5050
  },
5051
  "predict": {
5052
- "1": 0.18237274885177612,
5053
- "2": 0.8173379302024841
5054
  },
5055
  "sample": {
5056
  "messages": [
@@ -5090,8 +5090,8 @@
5090
  }
5091
  },
5092
  "predict": {
5093
- "1": 0.9524269700050354,
5094
- "2": 0.04741854593157768
5095
  },
5096
  "sample": {
5097
  "messages": [
@@ -5131,8 +5131,8 @@
5131
  }
5132
  },
5133
  "predict": {
5134
- "1": 0.14799930155277252,
5135
- "2": 0.8516772389411926
5136
  },
5137
  "sample": {
5138
  "messages": [
@@ -5172,8 +5172,8 @@
5172
  }
5173
  },
5174
  "predict": {
5175
- "1": 0.5925935506820679,
5176
- "2": 0.407283216714859
5177
  },
5178
  "sample": {
5179
  "messages": [
@@ -5213,8 +5213,8 @@
5213
  }
5214
  },
5215
  "predict": {
5216
- "1": 0.7309598922729492,
5217
- "2": 0.2689051330089569
5218
  },
5219
  "sample": {
5220
  "messages": [
@@ -5254,8 +5254,8 @@
5254
  }
5255
  },
5256
  "predict": {
5257
- "1": 0.9980347752571106,
5258
- "2": 0.0019266604213044047
5259
  },
5260
  "sample": {
5261
  "messages": [
@@ -5295,8 +5295,8 @@
5295
  }
5296
  },
5297
  "predict": {
5298
- "1": 0.04208460822701454,
5299
- "2": 0.9578412771224976
5300
  },
5301
  "sample": {
5302
  "messages": [
@@ -5336,8 +5336,8 @@
5336
  }
5337
  },
5338
  "predict": {
5339
- "1": 0.9833989143371582,
5340
- "2": 0.015895161777734756
5341
  },
5342
  "sample": {
5343
  "messages": [
@@ -5377,8 +5377,8 @@
5377
  }
5378
  },
5379
  "predict": {
5380
- "1": 0.014056527987122536,
5381
- "2": 0.9854387044906616
5382
  },
5383
  "sample": {
5384
  "messages": [
@@ -5418,8 +5418,8 @@
5418
  }
5419
  },
5420
  "predict": {
5421
- "1": 0.7976108193397522,
5422
- "2": 0.20166760683059692
5423
  },
5424
  "sample": {
5425
  "messages": [
@@ -5459,8 +5459,8 @@
5459
  }
5460
  },
5461
  "predict": {
5462
- "1": 0.05338435620069504,
5463
- "2": 0.9462603330612183
5464
  },
5465
  "sample": {
5466
  "messages": [
@@ -5500,8 +5500,8 @@
5500
  }
5501
  },
5502
  "predict": {
5503
- "1": 0.3483313024044037,
5504
- "2": 0.650768518447876
5505
  },
5506
  "sample": {
5507
  "messages": [
@@ -5541,8 +5541,8 @@
5541
  }
5542
  },
5543
  "predict": {
5544
- "1": 0.8665680885314941,
5545
- "2": 0.13289253413677216
5546
  },
5547
  "sample": {
5548
  "messages": [
@@ -5582,8 +5582,8 @@
5582
  }
5583
  },
5584
  "predict": {
5585
- "1": 0.9912618398666382,
5586
- "2": 0.00857609510421753
5587
  },
5588
  "sample": {
5589
  "messages": [
@@ -5623,8 +5623,8 @@
5623
  }
5624
  },
5625
  "predict": {
5626
- "1": 0.20178331434726715,
5627
- "2": 0.7980684638023376
5628
  },
5629
  "sample": {
5630
  "messages": [
@@ -5664,8 +5664,8 @@
5664
  }
5665
  },
5666
  "predict": {
5667
- "1": 0.9873815178871155,
5668
- "2": 0.012429299764335155
5669
  },
5670
  "sample": {
5671
  "messages": [
@@ -5705,8 +5705,8 @@
5705
  }
5706
  },
5707
  "predict": {
5708
- "1": 0.07583662122488022,
5709
- "2": 0.9238792061805725
5710
  },
5711
  "sample": {
5712
  "messages": [
@@ -5746,8 +5746,8 @@
5746
  }
5747
  },
5748
  "predict": {
5749
- "1": 0.9321810603141785,
5750
- "2": 0.06752697378396988
5751
  },
5752
  "sample": {
5753
  "messages": [
@@ -5787,8 +5787,8 @@
5787
  }
5788
  },
5789
  "predict": {
5790
- "1": 0.4994545578956604,
5791
- "2": 0.4994545578956604
5792
  },
5793
  "sample": {
5794
  "messages": [
@@ -5828,8 +5828,8 @@
5828
  }
5829
  },
5830
  "predict": {
5831
- "1": 0.9578081965446472,
5832
- "2": 0.04208315536379814
5833
  },
5834
  "sample": {
5835
  "messages": [
@@ -5869,8 +5869,8 @@
5869
  }
5870
  },
5871
  "predict": {
5872
- "1": 0.06753820180892944,
5873
- "2": 0.9323360919952393
5874
  },
5875
  "sample": {
5876
  "messages": [
@@ -5905,13 +5905,13 @@
5905
  {
5906
  "metric": {
5907
  "acc": {
5908
- "val": true,
5909
  "id": 72
5910
  }
5911
  },
5912
  "predict": {
5913
- "1": 0.4685107469558716,
5914
- "2": 0.5308922529220581
5915
  },
5916
  "sample": {
5917
  "messages": [
@@ -5940,7 +5940,7 @@
5940
  "prompt_len": 79,
5941
  "generated_len": 1,
5942
  "generated_cumulative_logprob": "TODO: calculate for hf model",
5943
- "generated_token": "2"
5944
  }
5945
  }
5946
  {
@@ -5951,8 +5951,8 @@
5951
  }
5952
  },
5953
  "predict": {
5954
- "1": 0.9624125361442566,
5955
- "2": 0.037316784262657166
5956
  },
5957
  "sample": {
5958
  "messages": [
@@ -5992,8 +5992,8 @@
5992
  }
5993
  },
5994
  "predict": {
5995
- "1": 0.0004877792380284518,
5996
- "2": 0.9993525147438049
5997
  },
5998
  "sample": {
5999
  "messages": [
@@ -6033,8 +6033,8 @@
6033
  }
6034
  },
6035
  "predict": {
6036
- "1": 0.9976974129676819,
6037
- "2": 0.0021824543364346027
6038
  },
6039
  "sample": {
6040
  "messages": [
@@ -6074,8 +6074,8 @@
6074
  }
6075
  },
6076
  "predict": {
6077
- "1": 0.08508581668138504,
6078
- "2": 0.9147588014602661
6079
  },
6080
  "sample": {
6081
  "messages": [
@@ -6115,8 +6115,8 @@
6115
  }
6116
  },
6117
  "predict": {
6118
- "1": 0.9819062948226929,
6119
- "2": 0.017984241247177124
6120
  },
6121
  "sample": {
6122
  "messages": [
@@ -6156,8 +6156,8 @@
6156
  }
6157
  },
6158
  "predict": {
6159
- "1": 0.981848955154419,
6160
- "2": 0.017983190715312958
6161
  },
6162
  "sample": {
6163
  "messages": [
@@ -6197,8 +6197,8 @@
6197
  }
6198
  },
6199
  "predict": {
6200
- "1": 0.9624959230422974,
6201
- "2": 0.03732001408934593
6202
  },
6203
  "sample": {
6204
  "messages": [
@@ -6238,8 +6238,8 @@
6238
  }
6239
  },
6240
  "predict": {
6241
- "1": 0.16445930302143097,
6242
- "2": 0.8351932764053345
6243
  },
6244
  "sample": {
6245
  "messages": [
@@ -6279,8 +6279,8 @@
6279
  }
6280
  },
6281
  "predict": {
6282
- "1": 0.9576807022094727,
6283
- "2": 0.04207755625247955
6284
  },
6285
  "sample": {
6286
  "messages": [
@@ -6320,8 +6320,8 @@
6320
  }
6321
  },
6322
  "predict": {
6323
- "1": 0.9963654279708862,
6324
- "2": 0.0035934550687670708
6325
  },
6326
  "sample": {
6327
  "messages": [
@@ -6356,13 +6356,13 @@
6356
  {
6357
  "metric": {
6358
  "acc": {
6359
- "val": true,
6360
  "id": 77
6361
  }
6362
  },
6363
  "predict": {
6364
- "1": 0.09533839672803879,
6365
- "2": 0.9045455455780029
6366
  },
6367
  "sample": {
6368
  "messages": [
@@ -6391,19 +6391,19 @@
6391
  "prompt_len": 83,
6392
  "generated_len": 1,
6393
  "generated_cumulative_logprob": "TODO: calculate for hf model",
6394
- "generated_token": "2"
6395
  }
6396
  }
6397
  {
6398
  "metric": {
6399
  "acc": {
6400
- "val": false,
6401
  "id": 78
6402
  }
6403
  },
6404
  "predict": {
6405
- "1": 0.6223576664924622,
6406
- "2": 0.3774789869785309
6407
  },
6408
  "sample": {
6409
  "messages": [
@@ -6432,7 +6432,7 @@
6432
  "prompt_len": 81,
6433
  "generated_len": 1,
6434
  "generated_cumulative_logprob": "TODO: calculate for hf model",
6435
- "generated_token": "1"
6436
  }
6437
  }
6438
  {
@@ -6443,8 +6443,8 @@
6443
  }
6444
  },
6445
  "predict": {
6446
- "1": 0.983993649482727,
6447
- "2": 0.015904776751995087
6448
  },
6449
  "sample": {
6450
  "messages": [
@@ -6484,8 +6484,8 @@
6484
  }
6485
  },
6486
  "predict": {
6487
- "1": 0.9768651723861694,
6488
- "2": 0.022973667830228806
6489
  },
6490
  "sample": {
6491
  "messages": [
@@ -6525,8 +6525,8 @@
6525
  }
6526
  },
6527
  "predict": {
6528
- "1": 0.01406152080744505,
6529
- "2": 0.9857887625694275
6530
  },
6531
  "sample": {
6532
  "messages": [
@@ -6566,8 +6566,8 @@
6566
  }
6567
  },
6568
  "predict": {
6569
- "1": 0.8807163238525391,
6570
- "2": 0.11919198930263519
6571
  },
6572
  "sample": {
6573
  "messages": [
@@ -6607,8 +6607,8 @@
6607
  }
6608
  },
6609
  "predict": {
6610
- "1": 0.2017735242843628,
6611
- "2": 0.7980297803878784
6612
  },
6613
  "sample": {
6614
  "messages": [
@@ -6648,8 +6648,8 @@
6648
  }
6649
  },
6650
  "predict": {
6651
- "1": 0.9769350290298462,
6652
- "2": 0.022975310683250427
6653
  },
6654
  "sample": {
6655
  "messages": [
@@ -6689,8 +6689,8 @@
6689
  }
6690
  },
6691
  "predict": {
6692
- "1": 0.042082637548446655,
6693
- "2": 0.9577963948249817
6694
  },
6695
  "sample": {
6696
  "messages": [
@@ -6730,8 +6730,8 @@
6730
  }
6731
  },
6732
  "predict": {
6733
- "1": 0.9945230484008789,
6734
- "2": 0.005218777805566788
6735
  },
6736
  "sample": {
6737
  "messages": [
@@ -6771,8 +6771,8 @@
6771
  }
6772
  },
6773
  "predict": {
6774
- "1": 0.020325543358922005,
6775
- "2": 0.9793395400047302
6776
  },
6777
  "sample": {
6778
  "messages": [
@@ -6812,8 +6812,8 @@
6812
  }
6813
  },
6814
  "predict": {
6815
- "1": 0.08508137613534927,
6816
- "2": 0.9147109985351562
6817
  },
6818
  "sample": {
6819
  "messages": [
@@ -6853,8 +6853,8 @@
6853
  }
6854
  },
6855
  "predict": {
6856
- "1": 0.9578071236610413,
6857
- "2": 0.04208311066031456
6858
  },
6859
  "sample": {
6860
  "messages": [
@@ -6894,8 +6894,8 @@
6894
  }
6895
  },
6896
  "predict": {
6897
- "1": 0.009706244803965092,
6898
- "2": 0.9900638461112976
6899
  },
6900
  "sample": {
6901
  "messages": [
@@ -6935,8 +6935,8 @@
6935
  }
6936
  },
6937
  "predict": {
6938
- "1": 0.9946345090866089,
6939
- "2": 0.005219362676143646
6940
  },
6941
  "sample": {
6942
  "messages": [
@@ -6976,8 +6976,8 @@
6976
  }
6977
  },
6978
  "predict": {
6979
- "1": 0.9952924251556396,
6980
- "2": 0.004609118681401014
6981
  },
6982
  "sample": {
6983
  "messages": [
@@ -7017,8 +7017,8 @@
7017
  }
7018
  },
7019
  "predict": {
7020
- "1": 0.03307969495654106,
7021
- "2": 0.9667304158210754
7022
  },
7023
  "sample": {
7024
  "messages": [
@@ -7058,8 +7058,8 @@
7058
  }
7059
  },
7060
  "predict": {
7061
- "1": 0.9146131873130798,
7062
- "2": 0.08507227152585983
7063
  },
7064
  "sample": {
7065
  "messages": [
@@ -7094,13 +7094,13 @@
7094
  {
7095
  "metric": {
7096
  "acc": {
7097
- "val": true,
7098
  "id": 86
7099
  }
7100
  },
7101
  "predict": {
7102
- "1": 0.46864622831344604,
7103
- "2": 0.5310457348823547
7104
  },
7105
  "sample": {
7106
  "messages": [
@@ -7129,7 +7129,7 @@
7129
  "prompt_len": 87,
7130
  "generated_len": 1,
7131
  "generated_cumulative_logprob": "TODO: calculate for hf model",
7132
- "generated_token": "2"
7133
  }
7134
  }
7135
  {
@@ -7140,8 +7140,8 @@
7140
  }
7141
  },
7142
  "predict": {
7143
- "1": 0.9769257307052612,
7144
- "2": 0.022975090891122818
7145
  },
7146
  "sample": {
7147
  "messages": [
@@ -7181,8 +7181,8 @@
7181
  }
7182
  },
7183
  "predict": {
7184
- "1": 0.3485783040523529,
7185
- "2": 0.651229977607727
7186
  },
7187
  "sample": {
7188
  "messages": [
@@ -7222,8 +7222,8 @@
7222
  }
7223
  },
7224
  "predict": {
7225
- "1": 0.9888100028038025,
7226
- "2": 0.010984687134623528
7227
  },
7228
  "sample": {
7229
  "messages": [
@@ -7263,8 +7263,8 @@
7263
  }
7264
  },
7265
  "predict": {
7266
- "1": 0.020324960350990295,
7267
- "2": 0.9793115258216858
7268
  },
7269
  "sample": {
7270
  "messages": [
@@ -7304,8 +7304,8 @@
7304
  }
7305
  },
7306
  "predict": {
7307
- "1": 0.9974297881126404,
7308
- "2": 0.00247238134033978
7309
  },
7310
  "sample": {
7311
  "messages": [
@@ -7345,8 +7345,8 @@
7345
  }
7346
  },
7347
  "predict": {
7348
- "1": 0.09533810615539551,
7349
- "2": 0.9045428037643433
7350
  },
7351
  "sample": {
7352
  "messages": [
@@ -7386,8 +7386,8 @@
7386
  }
7387
  },
7388
  "predict": {
7389
- "1": 0.9321827292442322,
7390
- "2": 0.06752709299325943
7391
  },
7392
  "sample": {
7393
  "messages": [
@@ -7427,8 +7427,8 @@
7427
  }
7428
  },
7429
  "predict": {
7430
- "1": 0.04740889370441437,
7431
- "2": 0.952233076095581
7432
  },
7433
  "sample": {
7434
  "messages": [
@@ -7463,13 +7463,13 @@
7463
  {
7464
  "metric": {
7465
  "acc": {
7466
- "val": true,
7467
  "id": 91
7468
  }
7469
  },
7470
  "predict": {
7471
- "1": 0.29407691955566406,
7472
- "2": 0.7054538130760193
7473
  },
7474
  "sample": {
7475
  "messages": [
@@ -7498,7 +7498,7 @@
7498
  "prompt_len": 98,
7499
  "generated_len": 1,
7500
  "generated_cumulative_logprob": "TODO: calculate for hf model",
7501
- "generated_token": "2"
7502
  }
7503
  }
7504
  {
@@ -7509,8 +7509,8 @@
7509
  }
7510
  },
7511
  "predict": {
7512
- "1": 0.9524361491203308,
7513
- "2": 0.047419000416994095
7514
  },
7515
  "sample": {
7516
  "messages": [
@@ -7550,8 +7550,8 @@
7550
  }
7551
  },
7552
  "predict": {
7553
- "1": 0.9463675618171692,
7554
- "2": 0.05339040979743004
7555
  },
7556
  "sample": {
7557
  "messages": [
@@ -7591,8 +7591,8 @@
7591
  }
7592
  },
7593
  "predict": {
7594
- "1": 0.7978830337524414,
7595
- "2": 0.2017364203929901
7596
  },
7597
  "sample": {
7598
  "messages": [
@@ -7632,8 +7632,8 @@
7632
  }
7633
  },
7634
  "predict": {
7635
- "1": 0.9946887493133545,
7636
- "2": 0.005219647660851479
7637
  },
7638
  "sample": {
7639
  "messages": [
@@ -7673,8 +7673,8 @@
7673
  }
7674
  },
7675
  "predict": {
7676
- "1": 0.8517760038375854,
7677
- "2": 0.14801646769046783
7678
  },
7679
  "sample": {
7680
  "messages": [
@@ -7714,8 +7714,8 @@
7714
  }
7715
  },
7716
  "predict": {
7717
- "1": 0.994670569896698,
7718
- "2": 0.0052195522002875805
7719
  },
7720
  "sample": {
7721
  "messages": [
@@ -7755,8 +7755,8 @@
7755
  }
7756
  },
7757
  "predict": {
7758
- "1": 0.004609088413417339,
7759
- "2": 0.9952859282493591
7760
  },
7761
  "sample": {
7762
  "messages": [
@@ -7796,8 +7796,8 @@
7796
  }
7797
  },
7798
  "predict": {
7799
- "1": 0.0019266093149781227,
7800
- "2": 0.9980083107948303
7801
  },
7802
  "sample": {
7803
  "messages": [
@@ -7837,8 +7837,8 @@
7837
  }
7838
  },
7839
  "predict": {
7840
- "1": 0.9977338314056396,
7841
- "2": 0.0021825339645147324
7842
  },
7843
  "sample": {
7844
  "messages": [
@@ -7878,8 +7878,8 @@
7878
  }
7879
  },
7880
  "predict": {
7881
- "1": 0.8806701898574829,
7882
- "2": 0.11918574571609497
7883
  },
7884
  "sample": {
7885
  "messages": [
@@ -7919,8 +7919,8 @@
7919
  }
7920
  },
7921
  "predict": {
7922
- "1": 0.7771629691123962,
7923
- "2": 0.22266092896461487
7924
  },
7925
  "sample": {
7926
  "messages": [
@@ -7960,8 +7960,8 @@
7960
  }
7961
  },
7962
  "predict": {
7963
- "1": 0.981919527053833,
7964
- "2": 0.017984483391046524
7965
  },
7966
  "sample": {
7967
  "messages": [
@@ -8001,8 +8001,8 @@
8001
  }
8002
  },
8003
  "predict": {
8004
- "1": 0.04208094999194145,
8005
- "2": 0.9577580094337463
8006
  },
8007
  "sample": {
8008
  "messages": [
@@ -8042,8 +8042,8 @@
8042
  }
8043
  },
8044
  "predict": {
8045
- "1": 0.04742103070020676,
8046
- "2": 0.9524769186973572
8047
  },
8048
  "sample": {
8049
  "messages": [
@@ -8083,8 +8083,8 @@
8083
  }
8084
  },
8085
  "predict": {
8086
- "1": 0.9874246716499329,
8087
- "2": 0.012429842725396156
8088
  },
8089
  "sample": {
8090
  "messages": [
@@ -8124,8 +8124,8 @@
8124
  }
8125
  },
8126
  "predict": {
8127
- "1": 0.006691256072372198,
8128
- "2": 0.9930704236030579
8129
  },
8130
  "sample": {
8131
  "messages": [
@@ -8165,8 +8165,8 @@
8165
  }
8166
  },
8167
  "predict": {
8168
- "1": 0.9967114925384521,
8169
- "2": 0.0031723142601549625
8170
  },
8171
  "sample": {
8172
  "messages": [
 
6
  }
7
  },
8
  "predict": {
9
+ "1": 0.9046180248260498,
10
+ "2": 0.09534603357315063
11
  },
12
  "sample": {
13
  "messages": [
 
47
  }
48
  },
49
  "predict": {
50
+ "1": 0.9987958669662476,
51
+ "2": 0.0011694696731865406
52
  },
53
  "sample": {
54
  "messages": [
 
88
  }
89
  },
90
  "predict": {
91
+ "1": 0.002800870221108198,
92
+ "2": 0.9971787929534912
93
  },
94
  "sample": {
95
  "messages": [
 
129
  }
130
  },
131
  "predict": {
132
+ "1": 0.9995490908622742,
133
+ "2": 0.00043054833076894283
134
  },
135
  "sample": {
136
  "messages": [
 
170
  }
171
  },
172
  "predict": {
173
+ "1": 0.995887815952301,
174
+ "2": 0.004069965798407793
175
  },
176
  "sample": {
177
  "messages": [
 
211
  }
212
  },
213
  "predict": {
214
+ "1": 0.11919570714235306,
215
+ "2": 0.8807438015937805
216
  },
217
  "sample": {
218
  "messages": [
 
252
  }
253
  },
254
  "predict": {
255
+ "1": 0.0066925836727023125,
256
+ "2": 0.9932675361633301
257
  },
258
  "sample": {
259
  "messages": [
 
293
  }
294
  },
295
  "predict": {
296
+ "1": 0.9993550181388855,
297
+ "2": 0.0006263224058784544
298
  },
299
  "sample": {
300
  "messages": [
 
334
  }
335
  },
336
  "predict": {
337
+ "1": 0.0009110335377044976,
338
+ "2": 0.9990696310997009
339
  },
340
  "sample": {
341
  "messages": [
 
375
  }
376
  },
377
  "predict": {
378
+ "1": 0.9991737008094788,
379
+ "2": 0.0008040681132115424
380
  },
381
  "sample": {
382
  "messages": [
 
416
  }
417
  },
418
  "predict": {
419
+ "1": 0.9968141913414001,
420
+ "2": 0.0031726411543786526
421
  },
422
  "sample": {
423
  "messages": [
 
457
  }
458
  },
459
  "predict": {
460
+ "1": 0.004609423223882914,
461
+ "2": 0.9953581690788269
462
  },
463
  "sample": {
464
  "messages": [
 
498
  }
499
  },
500
  "predict": {
501
+ "1": 0.9984826445579529,
502
+ "2": 0.0015011578798294067
503
  },
504
  "sample": {
505
  "messages": [
 
539
  }
540
  },
541
  "predict": {
542
+ "1": 0.017985837534070015,
543
+ "2": 0.9819934368133545
544
  },
545
  "sample": {
546
  "messages": [
 
580
  }
581
  },
582
  "predict": {
583
+ "1": 0.998471200466156,
584
+ "2": 0.0015011407667770982
585
  },
586
  "sample": {
587
  "messages": [
 
621
  }
622
  },
623
  "predict": {
624
+ "1": 0.09534280002117157,
625
+ "2": 0.9045873284339905
626
  },
627
  "sample": {
628
  "messages": [
 
662
  }
663
  },
664
  "predict": {
665
+ "1": 0.9859235286712646,
666
+ "2": 0.014063443057239056
667
  },
668
  "sample": {
669
  "messages": [
 
703
  }
704
  },
705
  "predict": {
706
+ "1": 0.5311946868896484,
707
+ "2": 0.4687776565551758
708
  },
709
  "sample": {
710
  "messages": [
 
744
  }
745
  },
746
  "predict": {
747
+ "1": 0.9996562004089355,
748
+ "2": 0.00029594296938739717
749
  },
750
  "sample": {
751
  "messages": [
 
785
  }
786
  },
787
  "predict": {
788
+ "1": 0.00023049682204145938,
789
+ "2": 0.9997265934944153
790
  },
791
  "sample": {
792
  "messages": [
 
826
  }
827
  },
828
  "predict": {
829
+ "1": 0.977005124092102,
830
+ "2": 0.022976959124207497
831
  },
832
  "sample": {
833
  "messages": [
 
867
  }
868
  },
869
  "predict": {
870
+ "1": 0.04208612069487572,
871
+ "2": 0.9578757286071777
872
  },
873
  "sample": {
874
  "messages": [
 
908
  }
909
  },
910
  "predict": {
911
+ "1": 0.919820249080658,
912
+ "2": 0.06663155555725098
913
  },
914
  "sample": {
915
  "messages": [
 
949
  }
950
  },
951
  "predict": {
952
+ "1": 0.8952623009681702,
953
+ "2": 0.09435994923114777
954
  },
955
  "sample": {
956
  "messages": [
 
990
  }
991
  },
992
  "predict": {
993
+ "1": 0.004609416704624891,
994
+ "2": 0.9953567385673523
995
  },
996
  "sample": {
997
  "messages": [
 
1031
  }
1032
  },
1033
  "predict": {
1034
+ "1": 0.9968006610870361,
1035
+ "2": 0.0031725980807095766
1036
  },
1037
  "sample": {
1038
  "messages": [
 
1072
  }
1073
  },
1074
  "predict": {
1075
+ "1": 0.002472581109032035,
1076
+ "2": 0.9975103139877319
1077
  },
1078
  "sample": {
1079
  "messages": [
 
1113
  }
1114
  },
1115
  "predict": {
1116
+ "1": 0.9902675747871399,
1117
+ "2": 0.009708242490887642
1118
  },
1119
  "sample": {
1120
  "messages": [
 
1154
  }
1155
  },
1156
  "predict": {
1157
+ "1": 0.9988248944282532,
1158
+ "2": 0.001169503666460514
1159
  },
1160
  "sample": {
1161
  "messages": [
 
1195
  }
1196
  },
1197
  "predict": {
1198
+ "1": 0.6791527271270752,
1199
+ "2": 0.3208090364933014
1200
  },
1201
  "sample": {
1202
  "messages": [
 
1236
  }
1237
  },
1238
  "predict": {
1239
+ "1": 0.9706517457962036,
1240
+ "2": 0.02931114286184311
1241
  },
1242
  "sample": {
1243
  "messages": [
 
1277
  }
1278
  },
1279
  "predict": {
1280
+ "1": 0.9240614771842957,
1281
+ "2": 0.07585158944129944
1282
  },
1283
  "sample": {
1284
  "messages": [
 
1318
  }
1319
  },
1320
  "predict": {
1321
+ "1": 0.8175435066223145,
1322
+ "2": 0.1824186146259308
1323
  },
1324
  "sample": {
1325
  "messages": [
 
1359
  }
1360
  },
1361
  "predict": {
1362
+ "1": 0.9241194128990173,
1363
+ "2": 0.07585634291172028
1364
  },
1365
  "sample": {
1366
  "messages": [
 
1400
  }
1401
  },
1402
  "predict": {
1403
+ "1": 0.9525291323661804,
1404
+ "2": 0.04742363095283508
1405
  },
1406
  "sample": {
1407
  "messages": [
 
1441
  }
1442
  },
1443
  "predict": {
1444
+ "1": 0.705711305141449,
1445
+ "2": 0.29418423771858215
1446
  },
1447
  "sample": {
1448
  "messages": [
 
1482
  }
1483
  },
1484
  "predict": {
1485
+ "1": 0.03732487931847572,
1486
+ "2": 0.9626213908195496
1487
  },
1488
  "sample": {
1489
  "messages": [
 
1523
  }
1524
  },
1525
  "predict": {
1526
+ "1": 0.9967877864837646,
1527
+ "2": 0.0031725571025162935
1528
  },
1529
  "sample": {
1530
  "messages": [
 
1564
  }
1565
  },
1566
  "predict": {
1567
+ "1": 0.9796013832092285,
1568
+ "2": 0.02033097855746746
1569
  },
1570
  "sample": {
1571
  "messages": [
 
1605
  }
1606
  },
1607
  "predict": {
1608
+ "1": 0.40723785758018494,
1609
+ "2": 0.5925275683403015
1610
  },
1611
  "sample": {
1612
  "messages": [
 
1646
  }
1647
  },
1648
  "predict": {
1649
+ "1": 0.9994237422943115,
1650
+ "2": 0.0005527656176127493
1651
  },
1652
  "sample": {
1653
  "messages": [
 
1687
  }
1688
  },
1689
  "predict": {
1690
+ "1": 0.0035934951156377792,
1691
+ "2": 0.9963765740394592
1692
  },
1693
  "sample": {
1694
  "messages": [
 
1728
  }
1729
  },
1730
  "predict": {
1731
+ "1": 0.05339653044939041,
1732
+ "2": 0.9464761018753052
1733
  },
1734
  "sample": {
1735
  "messages": [
 
1769
  }
1770
  },
1771
  "predict": {
1772
+ "1": 0.9923754334449768,
1773
+ "2": 0.00757687957957387
1774
  },
1775
  "sample": {
1776
  "messages": [
 
1810
  }
1811
  },
1812
  "predict": {
1813
+ "1": 0.5926133990287781,
1814
+ "2": 0.4072968363761902
1815
  },
1816
  "sample": {
1817
  "messages": [
 
1851
  }
1852
  },
1853
  "predict": {
1854
+ "1": 0.9740006923675537,
1855
+ "2": 0.02595623768866062
1856
  },
1857
  "sample": {
1858
  "messages": [
 
1892
  }
1893
  },
1894
  "predict": {
1895
+ "1": 0.9668759703636169,
1896
+ "2": 0.033084675669670105
1897
  },
1898
  "sample": {
1899
  "messages": [
 
1933
  }
1934
  },
1935
  "predict": {
1936
+ "1": 0.03732512146234512,
1937
+ "2": 0.9626275300979614
1938
  },
1939
  "sample": {
1940
  "messages": [
 
1974
  }
1975
  },
1976
  "predict": {
1977
+ "1": 0.9924019575119019,
1978
+ "2": 0.007577082142233849
1979
  },
1980
  "sample": {
1981
  "messages": [
 
2015
  }
2016
  },
2017
  "predict": {
2018
+ "1": 0.4072953164577484,
2019
+ "2": 0.5926111936569214
2020
  },
2021
  "sample": {
2022
  "messages": [
 
2056
  }
2057
  },
2058
  "predict": {
2059
+ "1": 0.0015011278446763754,
2060
+ "2": 0.9984626770019531
2061
  },
2062
  "sample": {
2063
  "messages": [
 
2097
  }
2098
  },
2099
  "predict": {
2100
+ "1": 0.9940166473388672,
2101
+ "2": 0.005910638719797134
2102
  },
2103
  "sample": {
2104
  "messages": [
 
2138
  }
2139
  },
2140
  "predict": {
2141
+ "1": 0.6791406869888306,
2142
+ "2": 0.32080337405204773
2143
  },
2144
  "sample": {
2145
  "messages": [
 
2179
  }
2180
  },
2181
  "predict": {
2182
+ "1": 0.9241063594818115,
2183
+ "2": 0.07585527002811432
2184
  },
2185
  "sample": {
2186
  "messages": [
 
2220
  }
2221
  },
2222
  "predict": {
2223
+ "1": 0.04207216575741768,
2224
+ "2": 0.9575580954551697
2225
  },
2226
  "sample": {
2227
  "messages": [
 
2261
  }
2262
  },
2263
  "predict": {
2264
+ "1": 0.9818181395530701,
2265
+ "2": 0.01798262633383274
2266
  },
2267
  "sample": {
2268
  "messages": [
 
2302
  }
2303
  },
2304
  "predict": {
2305
+ "1": 0.29419082403182983,
2306
+ "2": 0.7057271003723145
2307
  },
2308
  "sample": {
2309
  "messages": [
 
2343
  }
2344
  },
2345
  "predict": {
2346
+ "1": 0.9859031438827515,
2347
+ "2": 0.014063152484595776
2348
  },
2349
  "sample": {
2350
  "messages": [
 
2384
  }
2385
  },
2386
  "predict": {
2387
+ "1": 0.02033173479139805,
2388
+ "2": 0.9796379208564758
2389
  },
2390
  "sample": {
2391
  "messages": [
 
2425
  }
2426
  },
2427
  "predict": {
2428
+ "1": 0.9975074529647827,
2429
+ "2": 0.0024725738912820816
2430
  },
2431
  "sample": {
2432
  "messages": [
 
2466
  }
2467
  },
2468
  "predict": {
2469
+ "1": 9.609559492673725e-05,
2470
+ "2": 0.9998328685760498
2471
  },
2472
  "sample": {
2473
  "messages": [
 
2507
  }
2508
  },
2509
  "predict": {
2510
+ "1": 0.9923446774482727,
2511
+ "2": 0.007576644420623779
2512
  },
2513
  "sample": {
2514
  "messages": [
 
2548
  }
2549
  },
2550
  "predict": {
2551
+ "1": 0.000626317982096225,
2552
+ "2": 0.9993478655815125
2553
  },
2554
  "sample": {
2555
  "messages": [
 
2589
  }
2590
  },
2591
  "predict": {
2592
+ "1": 0.9997971653938293,
2593
+ "2": 0.0001795237767510116
2594
  },
2595
  "sample": {
2596
  "messages": [
 
2630
  }
2631
  },
2632
  "predict": {
2633
+ "1": 0.9889839291572571,
2634
+ "2": 0.010986619628965855
2635
  },
2636
  "sample": {
2637
  "messages": [
 
2671
  }
2672
  },
2673
  "predict": {
2674
+ "1": 0.04741464555263519,
2675
+ "2": 0.9523486495018005
2676
  },
2677
  "sample": {
2678
  "messages": [
 
2712
  }
2713
  },
2714
  "predict": {
2715
+ "1": 0.9148532748222351,
2716
+ "2": 0.08509460836648941
2717
  },
2718
  "sample": {
2719
  "messages": [
 
2753
  }
2754
  },
2755
  "predict": {
2756
+ "1": 0.9465547800064087,
2757
+ "2": 0.05340097099542618
2758
  },
2759
  "sample": {
2760
  "messages": [
 
2794
  }
2795
  },
2796
  "predict": {
2797
+ "1": 0.9990584254264832,
2798
+ "2": 0.0009110233513638377
2799
  },
2800
  "sample": {
2801
  "messages": [
 
2835
  }
2836
  },
2837
  "predict": {
2838
+ "1": 0.004069938324391842,
2839
+ "2": 0.9958810806274414
2840
  },
2841
  "sample": {
2842
  "messages": [
 
2876
  }
2877
  },
2878
  "predict": {
2879
+ "1": 0.08509205281734467,
2880
+ "2": 0.9148258566856384
2881
  },
2882
  "sample": {
2883
  "messages": [
 
2917
  }
2918
  },
2919
  "predict": {
2920
+ "1": 0.9971791505813599,
2921
+ "2": 0.0028008711524307728
2922
  },
2923
  "sample": {
2924
  "messages": [
 
2958
  }
2959
  },
2960
  "predict": {
2961
+ "1": 0.9388245940208435,
2962
+ "2": 0.060017045587301254
2963
  },
2964
  "sample": {
2965
  "messages": [
 
2999
  }
3000
  },
3001
  "predict": {
3002
+ "1": 0.01405990682542324,
3003
+ "2": 0.9856756329536438
3004
  },
3005
  "sample": {
3006
  "messages": [
 
3040
  }
3041
  },
3042
  "predict": {
3043
+ "1": 0.0758528858423233,
3044
+ "2": 0.9240773916244507
3045
  },
3046
  "sample": {
3047
  "messages": [
 
3081
  }
3082
  },
3083
  "predict": {
3084
+ "1": 0.9706453084945679,
3085
+ "2": 0.02931094914674759
3086
  },
3087
  "sample": {
3088
  "messages": [
 
3122
  }
3123
  },
3124
  "predict": {
3125
+ "1": 0.0850934088230133,
3126
+ "2": 0.9148404002189636
3127
  },
3128
  "sample": {
3129
  "messages": [
 
3163
  }
3164
  },
3165
  "predict": {
3166
+ "1": 0.9980545043945312,
3167
+ "2": 0.0019266983726993203
3168
  },
3169
  "sample": {
3170
  "messages": [
 
3204
  }
3205
  },
3206
  "predict": {
3207
+ "1": 0.996759831905365,
3208
+ "2": 0.0031724681612104177
3209
  },
3210
  "sample": {
3211
  "messages": [
 
3245
  }
3246
  },
3247
  "predict": {
3248
+ "1": 0.06754186004400253,
3249
+ "2": 0.9323865175247192
3250
  },
3251
  "sample": {
3252
  "messages": [
 
3286
  }
3287
  },
3288
  "predict": {
3289
+ "1": 0.999183714389801,
3290
+ "2": 0.0008040761458687484
3291
  },
3292
  "sample": {
3293
  "messages": [
 
3327
  }
3328
  },
3329
  "predict": {
3330
+ "1": 0.002182585885748267,
3331
+ "2": 0.997757613658905
3332
  },
3333
  "sample": {
3334
  "messages": [
 
3368
  }
3369
  },
3370
  "predict": {
3371
+ "1": 0.995913565158844,
3372
+ "2": 0.004070071037858725
3373
  },
3374
  "sample": {
3375
  "messages": [
 
3409
  }
3410
  },
3411
  "predict": {
3412
+ "1": 0.1645093560218811,
3413
+ "2": 0.8354474902153015
3414
  },
3415
  "sample": {
3416
  "messages": [
 
3450
  }
3451
  },
3452
  "predict": {
3453
+ "1": 0.012431344017386436,
3454
+ "2": 0.9875439405441284
3455
  },
3456
  "sample": {
3457
  "messages": [
 
3491
  }
3492
  },
3493
  "predict": {
3494
+ "1": 0.9875543713569641,
3495
+ "2": 0.012431475333869457
3496
  },
3497
  "sample": {
3498
  "messages": [
 
3532
  }
3533
  },
3534
  "predict": {
3535
+ "1": 0.9817807674407959,
3536
+ "2": 0.017981942743062973
3537
  },
3538
  "sample": {
3539
  "messages": [
 
3573
  }
3574
  },
3575
  "predict": {
3576
+ "1": 0.022972526028752327,
3577
+ "2": 0.9768165946006775
3578
  },
3579
  "sample": {
3580
  "messages": [
 
3614
  }
3615
  },
3616
  "predict": {
3617
+ "1": 0.9398584365844727,
3618
+ "2": 0.060083139687776566
3619
  },
3620
  "sample": {
3621
  "messages": [
 
3655
  }
3656
  },
3657
  "predict": {
3658
+ "1": 0.9578681588172913,
3659
+ "2": 0.042085789144039154
3660
  },
3661
  "sample": {
3662
  "messages": [
 
3696
  }
3697
  },
3698
  "predict": {
3699
+ "1": 0.0010322034358978271,
3700
+ "2": 0.9989411234855652
3701
  },
3702
  "sample": {
3703
  "messages": [
 
3737
  }
3738
  },
3739
  "predict": {
3740
+ "1": 0.9989603757858276,
3741
+ "2": 0.0010322233429178596
3742
  },
3743
  "sample": {
3744
  "messages": [
 
3778
  }
3779
  },
3780
  "predict": {
3781
+ "1": 0.9993422627449036,
3782
+ "2": 0.0006263144314289093
3783
  },
3784
  "sample": {
3785
  "messages": [
 
3819
  }
3820
  },
3821
  "predict": {
3822
+ "1": 0.006692690774798393,
3823
+ "2": 0.9932833909988403
3824
  },
3825
  "sample": {
3826
  "messages": [
 
3860
  }
3861
  },
3862
  "predict": {
3863
+ "1": 0.9953650236129761,
3864
+ "2": 0.0046094548888504505
3865
  },
3866
  "sample": {
3867
  "messages": [
 
3901
  }
3902
  },
3903
  "predict": {
3904
+ "1": 0.0005527641042135656,
3905
+ "2": 0.9994210004806519
3906
  },
3907
  "sample": {
3908
  "messages": [
 
3937
  {
3938
  "metric": {
3939
  "acc": {
3940
+ "val": true,
3941
  "id": 48
3942
  }
3943
  },
3944
  "predict": {
3945
+ "1": 0.07585417479276657,
3946
+ "2": 0.9240930676460266
3947
  },
3948
  "sample": {
3949
  "messages": [
 
3972
  "prompt_len": 87,
3973
  "generated_len": 1,
3974
  "generated_cumulative_logprob": "TODO: calculate for hf model",
3975
+ "generated_token": "2"
3976
  }
3977
  }
3978
  {
 
3983
  }
3984
  },
3985
  "predict": {
3986
+ "1": 0.994030237197876,
3987
+ "2": 0.005910719279199839
3988
  },
3989
  "sample": {
3990
  "messages": [
 
4024
  }
4025
  },
4026
  "predict": {
4027
+ "1": 0.9968133568763733,
4028
+ "2": 0.0031726385932415724
4029
  },
4030
  "sample": {
4031
  "messages": [
 
4065
  }
4066
  },
4067
  "predict": {
4068
+ "1": 0.005910860374569893,
4069
+ "2": 0.9940539002418518
4070
  },
4071
  "sample": {
4072
  "messages": [
 
4106
  }
4107
  },
4108
  "predict": {
4109
+ "1": 0.9947681427001953,
4110
+ "2": 0.005220063962042332
4111
  },
4112
  "sample": {
4113
  "messages": [
 
4147
  }
4148
  },
4149
  "predict": {
4150
+ "1": 0.1480436474084854,
4151
+ "2": 0.8519324064254761
4152
  },
4153
  "sample": {
4154
  "messages": [
 
4188
  }
4189
  },
4190
  "predict": {
4191
+ "1": 0.07585597038269043,
4192
+ "2": 0.9241149425506592
4193
  },
4194
  "sample": {
4195
  "messages": [
 
4229
  }
4230
  },
4231
  "predict": {
4232
+ "1": 0.9987953901290894,
4233
+ "2": 0.0011694692075252533
4234
  },
4235
  "sample": {
4236
  "messages": [
 
4270
  }
4271
  },
4272
  "predict": {
4273
+ "1": 0.00757688470184803,
4274
+ "2": 0.9923761487007141
4275
  },
4276
  "sample": {
4277
  "messages": [
 
4311
  }
4312
  },
4313
  "predict": {
4314
+ "1": 0.9913881421089172,
4315
+ "2": 0.008577188476920128
4316
  },
4317
  "sample": {
4318
  "messages": [
 
4352
  }
4353
  },
4354
  "predict": {
4355
+ "1": 0.9147928953170776,
4356
+ "2": 0.08508899062871933
4357
  },
4358
  "sample": {
4359
  "messages": [
 
4393
  }
4394
  },
4395
  "predict": {
4396
+ "1": 0.24497996270656586,
4397
+ "2": 0.7545914053916931
4398
  },
4399
  "sample": {
4400
  "messages": [
 
4434
  }
4435
  },
4436
  "predict": {
4437
+ "1": 0.9819228053092957,
4438
+ "2": 0.01798454485833645
4439
  },
4440
  "sample": {
4441
  "messages": [
 
4475
  }
4476
  },
4477
  "predict": {
4478
+ "1": 0.037324488162994385,
4479
+ "2": 0.962611198425293
4480
  },
4481
  "sample": {
4482
  "messages": [
 
4516
  }
4517
  },
4518
  "predict": {
4519
+ "1": 0.03732595592737198,
4520
+ "2": 0.9626491069793701
4521
  },
4522
  "sample": {
4523
  "messages": [
 
4557
  }
4558
  },
4559
  "predict": {
4560
+ "1": 0.9984773993492126,
4561
+ "2": 0.0015011499635875225
4562
  },
4563
  "sample": {
4564
  "messages": [
 
4598
  }
4599
  },
4600
  "predict": {
4601
+ "1": 0.9840670824050903,
4602
+ "2": 0.015905963256955147
4603
  },
4604
  "sample": {
4605
  "messages": [
 
4639
  }
4640
  },
4641
  "predict": {
4642
+ "1": 0.49992895126342773,
4643
+ "2": 0.49992895126342773
4644
  },
4645
  "sample": {
4646
  "messages": [
 
4680
  }
4681
  },
4682
  "predict": {
4683
+ "1": 0.9991768002510071,
4684
+ "2": 0.0008040705579333007
4685
  },
4686
  "sample": {
4687
  "messages": [
 
4721
  }
4722
  },
4723
  "predict": {
4724
+ "1": 0.0017006492707878351,
4725
+ "2": 0.998256266117096
4726
  },
4727
  "sample": {
4728
  "messages": [
 
4762
  }
4763
  },
4764
  "predict": {
4765
+ "1": 0.11919616907835007,
4766
+ "2": 0.8807471990585327
4767
  },
4768
  "sample": {
4769
  "messages": [
 
4803
  }
4804
  },
4805
  "predict": {
4806
+ "1": 0.9982826709747314,
4807
+ "2": 0.0017006942071020603
4808
  },
4809
  "sample": {
4810
  "messages": [
 
4844
  }
4845
  },
4846
  "predict": {
4847
+ "1": 0.7524941563606262,
4848
+ "2": 0.24429908394813538
4849
  },
4850
  "sample": {
4851
  "messages": [
 
4885
  }
4886
  },
4887
  "predict": {
4888
+ "1": 0.01403169147670269,
4889
+ "2": 0.9836975932121277
4890
  },
4891
  "sample": {
4892
  "messages": [
 
4926
  }
4927
  },
4928
  "predict": {
4929
+ "1": 0.0015011579962447286,
4930
+ "2": 0.9984827637672424
4931
  },
4932
  "sample": {
4933
  "messages": [
 
4967
  }
4968
  },
4969
  "predict": {
4970
+ "1": 0.9984752535820007,
4971
+ "2": 0.0015011468203738332
4972
  },
4973
  "sample": {
4974
  "messages": [
 
5008
  }
5009
  },
5010
  "predict": {
5011
+ "1": 0.9997511506080627,
5012
+ "2": 0.00023050248273648322
5013
  },
5014
  "sample": {
5015
  "messages": [
 
5049
  }
5050
  },
5051
  "predict": {
5052
+ "1": 0.34858033061027527,
5053
+ "2": 0.6512337923049927
5054
  },
5055
  "sample": {
5056
  "messages": [
 
5090
  }
5091
  },
5092
  "predict": {
5093
+ "1": 0.9819515943527222,
5094
+ "2": 0.017985070124268532
5095
  },
5096
  "sample": {
5097
  "messages": [
 
5131
  }
5132
  },
5133
  "predict": {
5134
+ "1": 0.2689225673675537,
5135
+ "2": 0.7310072779655457
5136
  },
5137
  "sample": {
5138
  "messages": [
 
5172
  }
5173
  },
5174
  "predict": {
5175
+ "1": 0.5926340222358704,
5176
+ "2": 0.40731099247932434
5177
  },
5178
  "sample": {
5179
  "messages": [
 
5213
  }
5214
  },
5215
  "predict": {
5216
+ "1": 0.6791409850120544,
5217
+ "2": 0.3208034932613373
5218
  },
5219
  "sample": {
5220
  "messages": [
 
5254
  }
5255
  },
5256
  "predict": {
5257
+ "1": 0.9998723268508911,
5258
+ "2": 0.00012339404202066362
5259
  },
5260
  "sample": {
5261
  "messages": [
 
5295
  }
5296
  },
5297
  "predict": {
5298
+ "1": 0.015906143933534622,
5299
+ "2": 0.9840782880783081
5300
  },
5301
  "sample": {
5302
  "messages": [
 
5336
  }
5337
  },
5338
  "predict": {
5339
+ "1": 0.9926421046257019,
5340
+ "2": 0.006688369903713465
5341
  },
5342
  "sample": {
5343
  "messages": [
 
5377
  }
5378
  },
5379
  "predict": {
5380
+ "1": 0.0031722604762762785,
5381
+ "2": 0.9966945648193359
5382
  },
5383
  "sample": {
5384
  "messages": [
 
5418
  }
5419
  },
5420
  "predict": {
5421
+ "1": 0.9240697026252747,
5422
+ "2": 0.07585225999355316
5423
  },
5424
  "sample": {
5425
  "messages": [
 
5459
  }
5460
  },
5461
  "predict": {
5462
+ "1": 0.18241527676582336,
5463
+ "2": 0.8175285458564758
5464
  },
5465
  "sample": {
5466
  "messages": [
 
5500
  }
5501
  },
5502
  "predict": {
5503
+ "1": 0.22240504622459412,
5504
+ "2": 0.7762698531150818
5505
  },
5506
  "sample": {
5507
  "messages": [
 
5541
  }
5542
  },
5543
  "predict": {
5544
+ "1": 0.9768217206001282,
5545
+ "2": 0.022972645238041878
5546
  },
5547
  "sample": {
5548
  "messages": [
 
5582
  }
5583
  },
5584
  "predict": {
5585
+ "1": 0.994724690914154,
5586
+ "2": 0.005219836253672838
5587
  },
5588
  "sample": {
5589
  "messages": [
 
5623
  }
5624
  },
5625
  "predict": {
5626
+ "1": 0.11919708549976349,
5627
+ "2": 0.8807539343833923
5628
  },
5629
  "sample": {
5630
  "messages": [
 
5664
  }
5665
  },
5666
  "predict": {
5667
+ "1": 0.9947468638420105,
5668
+ "2": 0.005219952668994665
5669
  },
5670
  "sample": {
5671
  "messages": [
 
5705
  }
5706
  },
5707
  "predict": {
5708
+ "1": 0.08509001135826111,
5709
+ "2": 0.9148038625717163
5710
  },
5711
  "sample": {
5712
  "messages": [
 
5746
  }
5747
  },
5748
  "predict": {
5749
+ "1": 0.9626114368438721,
5750
+ "2": 0.03732449561357498
5751
  },
5752
  "sample": {
5753
  "messages": [
 
5787
  }
5788
  },
5789
  "predict": {
5790
+ "1": 0.6512576341629028,
5791
+ "2": 0.3485931158065796
5792
  },
5793
  "sample": {
5794
  "messages": [
 
5828
  }
5829
  },
5830
  "predict": {
5831
+ "1": 0.9889891743659973,
5832
+ "2": 0.010986678302288055
5833
  },
5834
  "sample": {
5835
  "messages": [
 
5869
  }
5870
  },
5871
  "predict": {
5872
+ "1": 0.008577157743275166,
5873
+ "2": 0.9913846254348755
5874
  },
5875
  "sample": {
5876
  "messages": [
 
5905
  {
5906
  "metric": {
5907
  "acc": {
5908
+ "val": false,
5909
  "id": 72
5910
  }
5911
  },
5912
  "predict": {
5913
+ "1": 0.5621393918991089,
5914
+ "2": 0.43779462575912476
5915
  },
5916
  "sample": {
5917
  "messages": [
 
5940
  "prompt_len": 79,
5941
  "generated_len": 1,
5942
  "generated_cumulative_logprob": "TODO: calculate for hf model",
5943
+ "generated_token": "1"
5944
  }
5945
  }
5946
  {
 
5951
  }
5952
  },
5953
  "predict": {
5954
+ "1": 0.9913949370384216,
5955
+ "2": 0.008577247150242329
5956
  },
5957
  "sample": {
5958
  "messages": [
 
5992
  }
5993
  },
5994
  "predict": {
5995
+ "1": 0.00012339053500909358,
5996
+ "2": 0.9998438358306885
5997
  },
5998
  "sample": {
5999
  "messages": [
 
6033
  }
6034
  },
6035
  "predict": {
6036
+ "1": 0.9997100234031677,
6037
+ "2": 0.0002611827803775668
6038
  },
6039
  "sample": {
6040
  "messages": [
 
6074
  }
6075
  },
6076
  "predict": {
6077
+ "1": 0.06008422374725342,
6078
+ "2": 0.9398754239082336
6079
  },
6080
  "sample": {
6081
  "messages": [
 
6115
  }
6116
  },
6117
  "predict": {
6118
+ "1": 0.9953784942626953,
6119
+ "2": 0.00460951728746295
6120
  },
6121
  "sample": {
6122
  "messages": [
 
6156
  }
6157
  },
6158
  "predict": {
6159
+ "1": 0.9959011673927307,
6160
+ "2": 0.004070020746439695
6161
  },
6162
  "sample": {
6163
  "messages": [
 
6197
  }
6198
  },
6199
  "predict": {
6200
+ "1": 0.9923833012580872,
6201
+ "2": 0.007576939649879932
6202
  },
6203
  "sample": {
6204
  "messages": [
 
6238
  }
6239
  },
6240
  "predict": {
6241
+ "1": 0.10668196529150009,
6242
+ "2": 0.8932371735572815
6243
  },
6244
  "sample": {
6245
  "messages": [
 
6279
  }
6280
  },
6281
  "predict": {
6282
+ "1": 0.990253746509552,
6283
+ "2": 0.009708106517791748
6284
  },
6285
  "sample": {
6286
  "messages": [
 
6320
  }
6321
  },
6322
  "predict": {
6323
+ "1": 0.9991887211799622,
6324
+ "2": 0.0008040801621973515
6325
  },
6326
  "sample": {
6327
  "messages": [
 
6356
  {
6357
  "metric": {
6358
  "acc": {
6359
+ "val": false,
6360
  "id": 77
6361
  }
6362
  },
6363
  "predict": {
6364
+ "1": 0.9148784875869751,
6365
+ "2": 0.08509695529937744
6366
  },
6367
  "sample": {
6368
  "messages": [
 
6391
  "prompt_len": 83,
6392
  "generated_len": 1,
6393
  "generated_cumulative_logprob": "TODO: calculate for hf model",
6394
+ "generated_token": "1"
6395
  }
6396
  }
6397
  {
6398
  "metric": {
6399
  "acc": {
6400
+ "val": true,
6401
  "id": 78
6402
  }
6403
  },
6404
  "predict": {
6405
+ "1": 0.2942025661468506,
6406
+ "2": 0.7057552933692932
6407
  },
6408
  "sample": {
6409
  "messages": [
 
6432
  "prompt_len": 81,
6433
  "generated_len": 1,
6434
  "generated_cumulative_logprob": "TODO: calculate for hf model",
6435
+ "generated_token": "2"
6436
  }
6437
  }
6438
  {
 
6443
  }
6444
  },
6445
  "predict": {
6446
+ "1": 0.9984814524650574,
6447
+ "2": 0.0015011561335995793
6448
  },
6449
  "sample": {
6450
  "messages": [
 
6484
  }
6485
  },
6486
  "predict": {
6487
+ "1": 0.9932791590690613,
6488
+ "2": 0.0066926623694598675
6489
  },
6490
  "sample": {
6491
  "messages": [
 
6525
  }
6526
  },
6527
  "predict": {
6528
+ "1": 0.009708129800856113,
6529
+ "2": 0.990256130695343
6530
  },
6531
  "sample": {
6532
  "messages": [
 
6566
  }
6567
  },
6568
  "predict": {
6569
+ "1": 0.9626461267471313,
6570
+ "2": 0.037325840443372726
6571
  },
6572
  "sample": {
6573
  "messages": [
 
6607
  }
6608
  },
6609
  "predict": {
6610
+ "1": 0.05340062826871872,
6611
+ "2": 0.9465487003326416
6612
  },
6613
  "sample": {
6614
  "messages": [
 
6648
  }
6649
  },
6650
  "predict": {
6651
+ "1": 0.9913952946662903,
6652
+ "2": 0.008577249944210052
6653
  },
6654
  "sample": {
6655
  "messages": [
 
6689
  }
6690
  },
6691
  "predict": {
6692
+ "1": 0.025956513360142708,
6693
+ "2": 0.9740109443664551
6694
  },
6695
  "sample": {
6696
  "messages": [
 
6730
  }
6731
  },
6732
  "predict": {
6733
+ "1": 0.9987616539001465,
6734
+ "2": 0.0011694296263158321
6735
  },
6736
  "sample": {
6737
  "messages": [
 
6771
  }
6772
  },
6773
  "predict": {
6774
+ "1": 0.008576261810958385,
6775
+ "2": 0.9912810921669006
6776
  },
6777
  "sample": {
6778
  "messages": [
 
6812
  }
6813
  },
6814
  "predict": {
6815
+ "1": 0.08509685099124908,
6816
+ "2": 0.9148774147033691
6817
  },
6818
  "sample": {
6819
  "messages": [
 
6853
  }
6854
  },
6855
  "predict": {
6856
+ "1": 0.9940811991691589,
6857
+ "2": 0.005911022890359163
6858
  },
6859
  "sample": {
6860
  "messages": [
 
6894
  }
6895
  },
6896
  "predict": {
6897
+ "1": 0.0021826461888849735,
6898
+ "2": 0.9977850914001465
6899
  },
6900
  "sample": {
6901
  "messages": [
 
6935
  }
6936
  },
6937
  "predict": {
6938
+ "1": 0.9987861514091492,
6939
+ "2": 0.0011694582644850016
6940
  },
6941
  "sample": {
6942
  "messages": [
 
6976
  }
6977
  },
6978
  "predict": {
6979
+ "1": 0.9988194108009338,
6980
+ "2": 0.0011694972636178136
6981
  },
6982
  "sample": {
6983
  "messages": [
 
7017
  }
7018
  },
7019
  "predict": {
7020
+ "1": 0.015905946493148804,
7021
+ "2": 0.9840660691261292
7022
  },
7023
  "sample": {
7024
  "messages": [
 
7058
  }
7059
  },
7060
  "predict": {
7061
+ "1": 0.9578452110290527,
7062
+ "2": 0.04208477959036827
7063
  },
7064
  "sample": {
7065
  "messages": [
 
7094
  {
7095
  "metric": {
7096
  "acc": {
7097
+ "val": false,
7098
  "id": 86
7099
  }
7100
  },
7101
  "predict": {
7102
+ "1": 0.8932390213012695,
7103
+ "2": 0.1066821962594986
7104
  },
7105
  "sample": {
7106
  "messages": [
 
7129
  "prompt_len": 87,
7130
  "generated_len": 1,
7131
  "generated_cumulative_logprob": "TODO: calculate for hf model",
7132
+ "generated_token": "1"
7133
  }
7134
  }
7135
  {
 
7140
  }
7141
  },
7142
  "predict": {
7143
+ "1": 0.9819766283035278,
7144
+ "2": 0.017985530197620392
7145
  },
7146
  "sample": {
7147
  "messages": [
 
7181
  }
7182
  },
7183
  "predict": {
7184
+ "1": 0.32079607248306274,
7185
+ "2": 0.6791252493858337
7186
  },
7187
  "sample": {
7188
  "messages": [
 
7222
  }
7223
  },
7224
  "predict": {
7225
+ "1": 0.9977920055389404,
7226
+ "2": 0.0021826610900461674
7227
  },
7228
  "sample": {
7229
  "messages": [
 
7263
  }
7264
  },
7265
  "predict": {
7266
+ "1": 0.008577141910791397,
7267
+ "2": 0.9913827776908875
7268
  },
7269
  "sample": {
7270
  "messages": [
 
7304
  }
7305
  },
7306
  "predict": {
7307
+ "1": 0.9996024966239929,
7308
+ "2": 0.00037997786421328783
7309
  },
7310
  "sample": {
7311
  "messages": [
 
7345
  }
7346
  },
7347
  "predict": {
7348
+ "1": 0.029310958459973335,
7349
+ "2": 0.9706456661224365
7350
  },
7351
  "sample": {
7352
  "messages": [
 
7386
  }
7387
  },
7388
  "predict": {
7389
+ "1": 0.7057316899299622,
7390
+ "2": 0.29419273138046265
7391
  },
7392
  "sample": {
7393
  "messages": [
 
7427
  }
7428
  },
7429
  "predict": {
7430
+ "1": 0.1329571157693863,
7431
+ "2": 0.8669891953468323
7432
  },
7433
  "sample": {
7434
  "messages": [
 
7463
  {
7464
  "metric": {
7465
  "acc": {
7466
+ "val": false,
7467
  "id": 91
7468
  }
7469
  },
7470
  "predict": {
7471
+ "1": 0.5311720371246338,
7472
+ "2": 0.468757688999176
7473
  },
7474
  "sample": {
7475
  "messages": [
 
7498
  "prompt_len": 98,
7499
  "generated_len": 1,
7500
  "generated_cumulative_logprob": "TODO: calculate for hf model",
7501
+ "generated_token": "1"
7502
  }
7503
  }
7504
  {
 
7509
  }
7510
  },
7511
  "predict": {
7512
+ "1": 0.9971676468849182,
7513
+ "2": 0.002800838788971305
7514
  },
7515
  "sample": {
7516
  "messages": [
 
7550
  }
7551
  },
7552
  "predict": {
7553
+ "1": 0.8353965878486633,
7554
+ "2": 0.16449932754039764
7555
  },
7556
  "sample": {
7557
  "messages": [
 
7591
  }
7592
  },
7593
  "predict": {
7594
+ "1": 0.9398443698883057,
7595
+ "2": 0.06008223816752434
7596
  },
7597
  "sample": {
7598
  "messages": [
 
7632
  }
7633
  },
7634
  "predict": {
7635
+ "1": 0.9984554052352905,
7636
+ "2": 0.0015011169016361237
7637
  },
7638
  "sample": {
7639
  "messages": [
 
7673
  }
7674
  },
7675
  "predict": {
7676
+ "1": 0.7548807263374329,
7677
+ "2": 0.24507388472557068
7678
  },
7679
  "sample": {
7680
  "messages": [
 
7714
  }
7715
  },
7716
  "predict": {
7717
+ "1": 0.9987887740135193,
7718
+ "2": 0.0011694614076986909
7719
  },
7720
  "sample": {
7721
  "messages": [
 
7755
  }
7756
  },
7757
  "predict": {
7758
+ "1": 0.0010322066955268383,
7759
+ "2": 0.9989442229270935
7760
  },
7761
  "sample": {
7762
  "messages": [
 
7796
  }
7797
  },
7798
  "predict": {
7799
+ "1": 0.0008040755637921393,
7800
+ "2": 0.9991829991340637
7801
  },
7802
  "sample": {
7803
  "messages": [
 
7837
  }
7838
  },
7839
  "predict": {
7840
+ "1": 0.9991670846939087,
7841
+ "2": 0.0008040626998990774
7842
  },
7843
  "sample": {
7844
  "messages": [
 
7878
  }
7879
  },
7880
  "predict": {
7881
+ "1": 0.9706107378005981,
7882
+ "2": 0.02930990420281887
7883
  },
7884
  "sample": {
7885
  "messages": [
 
7919
  }
7920
  },
7921
  "predict": {
7922
+ "1": 0.9323087334632874,
7923
+ "2": 0.06753621995449066
7924
  },
7925
  "sample": {
7926
  "messages": [
 
7960
  }
7961
  },
7962
  "predict": {
7963
+ "1": 0.9940657615661621,
7964
+ "2": 0.005910931155085564
7965
  },
7966
  "sample": {
7967
  "messages": [
 
8001
  }
8002
  },
8003
  "predict": {
8004
+ "1": 0.01798337884247303,
8005
+ "2": 0.9818591475486755
8006
  },
8007
  "sample": {
8008
  "messages": [
 
8042
  }
8043
  },
8044
  "predict": {
8045
+ "1": 0.029311491176486015,
8046
+ "2": 0.97066330909729
8047
  },
8048
  "sample": {
8049
  "messages": [
 
8083
  }
8084
  },
8085
  "predict": {
8086
+ "1": 0.9968057870864868,
8087
+ "2": 0.0031726143788546324
8088
  },
8089
  "sample": {
8090
  "messages": [
 
8124
  }
8125
  },
8126
  "predict": {
8127
+ "1": 0.0015011345967650414,
8128
+ "2": 0.9984671473503113
8129
  },
8130
  "sample": {
8131
  "messages": [
 
8165
  }
8166
  },
8167
  "predict": {
8168
+ "1": 0.9986492991447449,
8169
+ "2": 0.0013249883195385337
8170
  },
8171
  "sample": {
8172
  "messages": [
llmtf_eval/darumeru_PARus_params.jsonl CHANGED
@@ -1,7 +1,7 @@
1
  {
2
  "custom_generation_config": null,
3
  "model_params": {
4
- "model_name_or_path": "/scratch/tikhomirov/workdir/data/models/ruadapt_qwen2.5_7B_ext_u48_full_two_stage_lr5e4_peft_mlp_32_32_lm_head_lora_bs256_as1.5_pv14/simpo2",
5
  "generation_config": {
6
  "bos_token_id": 147075,
7
  "do_sample": true,
 
1
  {
2
  "custom_generation_config": null,
3
  "model_params": {
4
+ "model_name_or_path": "/workdir/data/models/qwen/ruadapt_qwen2.5_7B_ext_u48_part1-2_lr5e4_peft_mlp_32_32_bs128_as1.5_pv8_ft0_as1.35_kto1_as0.75_simpo2_as1.0",
5
  "generation_config": {
6
  "bos_token_id": 147075,
7
  "do_sample": true,
llmtf_eval/darumeru_PARus_total.jsonl CHANGED
@@ -1,7 +1,7 @@
1
  {
2
  "task_name": "darumeru/PARus",
3
  "results": {
4
- "acc": 0.8
5
  },
6
- "leaderboard_result": 0.8
7
  }
 
1
  {
2
  "task_name": "darumeru/PARus",
3
  "results": {
4
+ "acc": 0.78
5
  },
6
+ "leaderboard_result": 0.78
7
  }
llmtf_eval/darumeru_RCB.jsonl CHANGED
@@ -7,9 +7,9 @@
7
  ]
8
  },
9
  "predict": {
10
- "1": 0.872420072555542,
11
- "2": 0.055771950632333755,
12
- "3": 0.07161260396242142
13
  },
14
  "sample": {
15
  "messages": [
@@ -51,9 +51,9 @@
51
  ]
52
  },
53
  "predict": {
54
- "1": 0.10369177907705307,
55
- "2": 0.6761553287506104,
56
- "3": 0.21951548755168915
57
  },
58
  "sample": {
59
  "messages": [
@@ -95,9 +95,9 @@
95
  ]
96
  },
97
  "predict": {
98
- "1": 0.0010250540217384696,
99
- "2": 0.9920220375061035,
100
- "3": 0.00668419199064374
101
  },
102
  "sample": {
103
  "messages": [
@@ -135,13 +135,13 @@
135
  "acc": false,
136
  "f1_macro": [
137
  "3",
138
- "1"
139
  ]
140
  },
141
  "predict": {
142
- "1": 0.4667302370071411,
143
- "2": 0.28308621048927307,
144
- "3": 0.2498227059841156
145
  },
146
  "sample": {
147
  "messages": [
@@ -171,7 +171,7 @@
171
  "prompt_len": 133,
172
  "generated_len": 1,
173
  "generated_cumulative_logprob": "TODO: calculate for hf model",
174
- "generated_token": "1"
175
  }
176
  }
177
  {
@@ -183,9 +183,9 @@
183
  ]
184
  },
185
  "predict": {
186
- "1": 0.9969333410263062,
187
- "2": 0.0021807828452438116,
188
- "3": 0.0008022651891224086
189
  },
190
  "sample": {
191
  "messages": [
@@ -227,9 +227,9 @@
227
  ]
228
  },
229
  "predict": {
230
- "1": 0.2057039439678192,
231
- "2": 0.16020239889621735,
232
- "3": 0.6336127519607544
233
  },
234
  "sample": {
235
  "messages": [
@@ -271,9 +271,9 @@
271
  ]
272
  },
273
  "predict": {
274
- "1": 0.9971489310264587,
275
- "2": 0.0016987627604976296,
276
- "3": 0.001030351617373526
277
  },
278
  "sample": {
279
  "messages": [
@@ -315,9 +315,9 @@
315
  ]
316
  },
317
  "predict": {
318
- "1": 0.3513408899307251,
319
- "2": 0.5792632102966309,
320
- "3": 0.06918312609195709
321
  },
322
  "sample": {
323
  "messages": [
@@ -359,9 +359,9 @@
359
  ]
360
  },
361
  "predict": {
362
- "1": 0.9564629793167114,
363
- "2": 0.01751823164522648,
364
- "3": 0.025488875806331635
365
  },
366
  "sample": {
367
  "messages": [
@@ -403,9 +403,9 @@
403
  ]
404
  },
405
  "predict": {
406
- "1": 0.4133775532245636,
407
- "2": 0.3648044168949127,
408
- "3": 0.22126507759094238
409
  },
410
  "sample": {
411
  "messages": [
@@ -447,9 +447,9 @@
447
  ]
448
  },
449
  "predict": {
450
- "1": 0.4662483036518097,
451
- "2": 0.28279387950897217,
452
- "3": 0.2495647370815277
453
  },
454
  "sample": {
455
  "messages": [
@@ -491,9 +491,9 @@
491
  ]
492
  },
493
  "predict": {
494
- "1": 0.0011565840104594827,
495
- "2": 0.9877907037734985,
496
- "3": 0.010973364114761353
497
  },
498
  "sample": {
499
  "messages": [
@@ -535,9 +535,9 @@
535
  ]
536
  },
537
  "predict": {
538
- "1": 0.9900298714637756,
539
- "2": 0.005195199977606535,
540
- "3": 0.004584748297929764
541
  },
542
  "sample": {
543
  "messages": [
@@ -579,9 +579,9 @@
579
  ]
580
  },
581
  "predict": {
582
- "1": 0.977436900138855,
583
- "2": 0.006585918366909027,
584
- "3": 0.015798795968294144
585
  },
586
  "sample": {
587
  "messages": [
@@ -623,9 +623,9 @@
623
  ]
624
  },
625
  "predict": {
626
- "1": 0.8977285623550415,
627
- "2": 0.05738986283540726,
628
- "3": 0.04469526931643486
629
  },
630
  "sample": {
631
  "messages": [
@@ -667,9 +667,9 @@
667
  ]
668
  },
669
  "predict": {
670
- "1": 0.003250668291002512,
671
- "2": 0.7954123020172119,
672
- "3": 0.20111171901226044
673
  },
674
  "sample": {
675
  "messages": [
@@ -711,9 +711,9 @@
711
  ]
712
  },
713
  "predict": {
714
- "1": 0.9881023168563843,
715
- "2": 0.005875470582395792,
716
- "3": 0.005875470582395792
717
  },
718
  "sample": {
719
  "messages": [
@@ -748,16 +748,16 @@
748
  }
749
  {
750
  "metric": {
751
- "acc": false,
752
  "f1_macro": [
753
  "3",
754
- "2"
755
  ]
756
  },
757
  "predict": {
758
- "1": 0.2801484763622284,
759
- "2": 0.3597177565097809,
760
- "3": 0.3597177565097809
761
  },
762
  "sample": {
763
  "messages": [
@@ -787,21 +787,21 @@
787
  "prompt_len": 148,
788
  "generated_len": 1,
789
  "generated_cumulative_logprob": "TODO: calculate for hf model",
790
- "generated_token": "2"
791
  }
792
  }
793
  {
794
  "metric": {
795
- "acc": true,
796
  "f1_macro": [
797
  "3",
798
- "3"
799
  ]
800
  },
801
  "predict": {
802
- "1": 0.309113085269928,
803
- "2": 0.24073751270771027,
804
- "3": 0.4497568905353546
805
  },
806
  "sample": {
807
  "messages": [
@@ -831,7 +831,7 @@
831
  "prompt_len": 106,
832
  "generated_len": 1,
833
  "generated_cumulative_logprob": "TODO: calculate for hf model",
834
- "generated_token": "3"
835
  }
836
  }
837
  {
@@ -843,9 +843,9 @@
843
  ]
844
  },
845
  "predict": {
846
- "1": 0.8898922801017761,
847
- "2": 0.026872418820858,
848
- "3": 0.0827728733420372
849
  },
850
  "sample": {
851
  "messages": [
@@ -887,9 +887,9 @@
887
  ]
888
  },
889
  "predict": {
890
- "1": 0.0071184695698320866,
891
- "2": 0.9323355555534363,
892
- "3": 0.05960221588611603
893
  },
894
  "sample": {
895
  "messages": [
@@ -931,9 +931,9 @@
931
  ]
932
  },
933
  "predict": {
934
- "1": 0.7239575982093811,
935
- "2": 0.23503461480140686,
936
- "3": 0.040842894464731216
937
  },
938
  "sample": {
939
  "messages": [
@@ -975,9 +975,9 @@
975
  ]
976
  },
977
  "predict": {
978
- "1": 0.8385531902313232,
979
- "2": 0.060744594782590866,
980
- "3": 0.10015090554952621
981
  },
982
  "sample": {
983
  "messages": [
@@ -1019,9 +1019,9 @@
1019
  ]
1020
  },
1021
  "predict": {
1022
- "1": 0.47527652978897095,
1023
- "2": 0.3701457381248474,
1024
- "3": 0.15429969131946564
1025
  },
1026
  "sample": {
1027
  "messages": [
@@ -1063,9 +1063,9 @@
1063
  ]
1064
  },
1065
  "predict": {
1066
- "1": 0.9702512621879578,
1067
- "2": 0.020136922597885132,
1068
- "3": 0.009512009099125862
1069
  },
1070
  "sample": {
1071
  "messages": [
@@ -1103,13 +1103,13 @@
1103
  "acc": false,
1104
  "f1_macro": [
1105
  "3",
1106
- "1"
1107
  ]
1108
  },
1109
  "predict": {
1110
- "1": 0.5683297514915466,
1111
- "2": 0.2684599757194519,
1112
- "3": 0.1628292053937912
1113
  },
1114
  "sample": {
1115
  "messages": [
@@ -1139,7 +1139,7 @@
1139
  "prompt_len": 97,
1140
  "generated_len": 1,
1141
  "generated_cumulative_logprob": "TODO: calculate for hf model",
1142
- "generated_token": "1"
1143
  }
1144
  }
1145
  {
@@ -1151,9 +1151,9 @@
1151
  ]
1152
  },
1153
  "predict": {
1154
- "1": 0.9765560030937195,
1155
- "2": 0.007456096354871988,
1156
- "3": 0.015784557908773422
1157
  },
1158
  "sample": {
1159
  "messages": [
@@ -1195,9 +1195,9 @@
1195
  ]
1196
  },
1197
  "predict": {
1198
- "1": 0.8665903806686401,
1199
- "2": 0.015872156247496605,
1200
- "3": 0.1172802522778511
1201
  },
1202
  "sample": {
1203
  "messages": [
@@ -1239,9 +1239,9 @@
1239
  ]
1240
  },
1241
  "predict": {
1242
- "1": 0.07352635264396667,
1243
- "2": 0.8957343697547913,
1244
- "3": 0.030650343745946884
1245
  },
1246
  "sample": {
1247
  "messages": [
@@ -1283,9 +1283,9 @@
1283
  ]
1284
  },
1285
  "predict": {
1286
- "1": 0.8138001561164856,
1287
- "2": 0.07569520175457001,
1288
- "3": 0.11013587564229965
1289
  },
1290
  "sample": {
1291
  "messages": [
@@ -1327,9 +1327,9 @@
1327
  ]
1328
  },
1329
  "predict": {
1330
- "1": 0.34326788783073425,
1331
- "2": 0.3889734745025635,
1332
- "3": 0.26733729243278503
1333
  },
1334
  "sample": {
1335
  "messages": [
@@ -1371,9 +1371,9 @@
1371
  ]
1372
  },
1373
  "predict": {
1374
- "1": 0.8155578374862671,
1375
- "2": 0.05907881632447243,
1376
- "3": 0.12506985664367676
1377
  },
1378
  "sample": {
1379
  "messages": [
@@ -1415,9 +1415,9 @@
1415
  ]
1416
  },
1417
  "predict": {
1418
- "1": 0.987912118434906,
1419
- "2": 0.005184086970984936,
1420
- "3": 0.006656499579548836
1421
  },
1422
  "sample": {
1423
  "messages": [
@@ -1459,9 +1459,9 @@
1459
  ]
1460
  },
1461
  "predict": {
1462
- "1": 0.007422375958412886,
1463
- "2": 0.9721394777297974,
1464
- "3": 0.020176110789179802
1465
  },
1466
  "sample": {
1467
  "messages": [
@@ -1503,9 +1503,9 @@
1503
  ]
1504
  },
1505
  "predict": {
1506
- "1": 0.9849265813827515,
1507
- "2": 0.01094154641032219,
1508
- "3": 0.004025170113891363
1509
  },
1510
  "sample": {
1511
  "messages": [
@@ -1547,9 +1547,9 @@
1547
  ]
1548
  },
1549
  "predict": {
1550
- "1": 0.9855968356132507,
1551
- "2": 0.003136938903480768,
1552
- "3": 0.01094899233430624
1553
  },
1554
  "sample": {
1555
  "messages": [
@@ -1591,9 +1591,9 @@
1591
  ]
1592
  },
1593
  "predict": {
1594
- "1": 0.9222506284713745,
1595
- "2": 0.045916151255369186,
1596
- "3": 0.031557679176330566
1597
  },
1598
  "sample": {
1599
  "messages": [
@@ -1635,9 +1635,9 @@
1635
  ]
1636
  },
1637
  "predict": {
1638
- "1": 0.4749774932861328,
1639
- "2": 0.19800007343292236,
1640
- "3": 0.3264469504356384
1641
  },
1642
  "sample": {
1643
  "messages": [
@@ -1679,9 +1679,9 @@
1679
  ]
1680
  },
1681
  "predict": {
1682
- "1": 0.9866113662719727,
1683
- "2": 0.005177261307835579,
1684
- "3": 0.007532870396971703
1685
  },
1686
  "sample": {
1687
  "messages": [
@@ -1723,9 +1723,9 @@
1723
  ]
1724
  },
1725
  "predict": {
1726
- "1": 0.7880926132202148,
1727
- "2": 0.034626372158527374,
1728
- "3": 0.17584723234176636
1729
  },
1730
  "sample": {
1731
  "messages": [
@@ -1767,9 +1767,9 @@
1767
  ]
1768
  },
1769
  "predict": {
1770
- "1": 0.865950345993042,
1771
- "2": 0.015860434621572495,
1772
- "3": 0.11719363182783127
1773
  },
1774
  "sample": {
1775
  "messages": [
@@ -1811,9 +1811,9 @@
1811
  ]
1812
  },
1813
  "predict": {
1814
- "1": 0.9085949063301086,
1815
- "2": 0.039920873939991,
1816
- "3": 0.051259420812129974
1817
  },
1818
  "sample": {
1819
  "messages": [
@@ -1855,9 +1855,9 @@
1855
  ]
1856
  },
1857
  "predict": {
1858
- "1": 0.0006192802102304995,
1859
- "2": 0.9881184697151184,
1860
- "3": 0.010977005586028099
1861
  },
1862
  "sample": {
1863
  "messages": [
@@ -1899,9 +1899,9 @@
1899
  ]
1900
  },
1901
  "predict": {
1902
- "1": 0.8924627304077148,
1903
- "2": 0.057053230702877045,
1904
- "3": 0.05034930631518364
1905
  },
1906
  "sample": {
1907
  "messages": [
@@ -1943,9 +1943,9 @@
1943
  ]
1944
  },
1945
  "predict": {
1946
- "1": 0.9974370002746582,
1947
- "2": 0.0016992536839097738,
1948
- "3": 0.0008026704890653491
1949
  },
1950
  "sample": {
1951
  "messages": [
@@ -1987,9 +1987,9 @@
1987
  ]
1988
  },
1989
  "predict": {
1990
- "1": 0.013401398435235023,
1991
- "2": 0.9395105838775635,
1992
- "3": 0.04677547514438629
1993
  },
1994
  "sample": {
1995
  "messages": [
@@ -2031,9 +2031,9 @@
2031
  ]
2032
  },
2033
  "predict": {
2034
- "1": 0.24987298250198364,
2035
- "2": 0.52898108959198,
2036
- "3": 0.22051212191581726
2037
  },
2038
  "sample": {
2039
  "messages": [
@@ -2075,9 +2075,9 @@
2075
  ]
2076
  },
2077
  "predict": {
2078
- "1": 0.9845978021621704,
2079
- "2": 0.0027655328158289194,
2080
- "3": 0.012394257821142673
2081
  },
2082
  "sample": {
2083
  "messages": [
@@ -2119,9 +2119,9 @@
2119
  ]
2120
  },
2121
  "predict": {
2122
- "1": 0.20759260654449463,
2123
- "2": 0.7245693802833557,
2124
- "3": 0.06739544868469238
2125
  },
2126
  "sample": {
2127
  "messages": [
@@ -2163,9 +2163,9 @@
2163
  ]
2164
  },
2165
  "predict": {
2166
- "1": 0.13826103508472443,
2167
- "2": 0.7956374287605286,
2168
- "3": 0.06530989706516266
2169
  },
2170
  "sample": {
2171
  "messages": [
@@ -2207,9 +2207,9 @@
2207
  ]
2208
  },
2209
  "predict": {
2210
- "1": 0.9361106157302856,
2211
- "2": 0.017145464196801186,
2212
- "3": 0.04660620167851448
2213
  },
2214
  "sample": {
2215
  "messages": [
@@ -2251,9 +2251,9 @@
2251
  ]
2252
  },
2253
  "predict": {
2254
- "1": 0.12436019629240036,
2255
- "2": 0.715643584728241,
2256
- "3": 0.15968167781829834
2257
  },
2258
  "sample": {
2259
  "messages": [
@@ -2295,9 +2295,9 @@
2295
  ]
2296
  },
2297
  "predict": {
2298
- "1": 0.9603536128997803,
2299
- "2": 0.025592556223273277,
2300
- "3": 0.013698708266019821
2301
  },
2302
  "sample": {
2303
  "messages": [
@@ -2339,9 +2339,9 @@
2339
  ]
2340
  },
2341
  "predict": {
2342
- "1": 0.002444905461743474,
2343
- "2": 0.9863452315330505,
2344
- "3": 0.010957307182252407
2345
  },
2346
  "sample": {
2347
  "messages": [
@@ -2383,9 +2383,9 @@
2383
  ]
2384
  },
2385
  "predict": {
2386
- "1": 0.04067571833729744,
2387
- "2": 0.8169936537742615,
2388
- "3": 0.14197219908237457
2389
  },
2390
  "sample": {
2391
  "messages": [
@@ -2427,9 +2427,9 @@
2427
  ]
2428
  },
2429
  "predict": {
2430
- "1": 0.008217910304665565,
2431
- "2": 0.9498612880706787,
2432
- "3": 0.0417339950799942
2433
  },
2434
  "sample": {
2435
  "messages": [
@@ -2471,9 +2471,9 @@
2471
  ]
2472
  },
2473
  "predict": {
2474
- "1": 0.9949284791946411,
2475
- "2": 0.0027945495676249266,
2476
- "3": 0.0021763972472399473
2477
  },
2478
  "sample": {
2479
  "messages": [
@@ -2515,9 +2515,9 @@
2515
  ]
2516
  },
2517
  "predict": {
2518
- "1": 0.9272236227989197,
2519
- "2": 0.013226134702563286,
2520
- "3": 0.05927542224526405
2521
  },
2522
  "sample": {
2523
  "messages": [
@@ -2559,9 +2559,9 @@
2559
  ]
2560
  },
2561
  "predict": {
2562
- "1": 0.0690900906920433,
2563
- "2": 0.7427884936332703,
2564
- "3": 0.18780633807182312
2565
  },
2566
  "sample": {
2567
  "messages": [
@@ -2603,9 +2603,9 @@
2603
  ]
2604
  },
2605
  "predict": {
2606
- "1": 0.09954556822776794,
2607
- "2": 0.5055341124534607,
2608
- "3": 0.3937103748321533
2609
  },
2610
  "sample": {
2611
  "messages": [
@@ -2647,9 +2647,9 @@
2647
  ]
2648
  },
2649
  "predict": {
2650
- "1": 0.9165189862251282,
2651
- "2": 0.01678663119673729,
2652
- "3": 0.06639241427183151
2653
  },
2654
  "sample": {
2655
  "messages": [
@@ -2691,9 +2691,9 @@
2691
  ]
2692
  },
2693
  "predict": {
2694
- "1": 0.9872887134552002,
2695
- "2": 0.006652298849076033,
2696
- "3": 0.005870632827281952
2697
  },
2698
  "sample": {
2699
  "messages": [
@@ -2735,9 +2735,9 @@
2735
  ]
2736
  },
2737
  "predict": {
2738
- "1": 0.9459970593452454,
2739
- "2": 0.0285666361451149,
2740
- "3": 0.02520996704697609
2741
  },
2742
  "sample": {
2743
  "messages": [
@@ -2779,9 +2779,9 @@
2779
  ]
2780
  },
2781
  "predict": {
2782
- "1": 0.5121390223503113,
2783
- "2": 0.2741282880306244,
2784
- "3": 0.2134913057088852
2785
  },
2786
  "sample": {
2787
  "messages": [
@@ -2823,9 +2823,9 @@
2823
  ]
2824
  },
2825
  "predict": {
2826
- "1": 0.8579246401786804,
2827
- "2": 0.07979942113161087,
2828
- "3": 0.06214785575866699
2829
  },
2830
  "sample": {
2831
  "messages": [
@@ -2867,9 +2867,9 @@
2867
  ]
2868
  },
2869
  "predict": {
2870
- "1": 0.9891874194145203,
2871
- "2": 0.002163838827982545,
2872
- "3": 0.0075525385327637196
2873
  },
2874
  "sample": {
2875
  "messages": [
@@ -2911,9 +2911,9 @@
2911
  ]
2912
  },
2913
  "predict": {
2914
- "1": 0.6336058974266052,
2915
- "2": 0.20570170879364014,
2916
- "3": 0.16020065546035767
2917
  },
2918
  "sample": {
2919
  "messages": [
@@ -2955,9 +2955,9 @@
2955
  ]
2956
  },
2957
  "predict": {
2958
- "1": 0.17449556291103363,
2959
- "2": 0.5374841690063477,
2960
- "3": 0.2876945734024048
2961
  },
2962
  "sample": {
2963
  "messages": [
@@ -2999,9 +2999,9 @@
2999
  ]
3000
  },
3001
  "predict": {
3002
- "1": 0.9433525800704956,
3003
- "2": 0.019578658044338226,
3004
- "3": 0.0365777462720871
3005
  },
3006
  "sample": {
3007
  "messages": [
@@ -3043,9 +3043,9 @@
3043
  ]
3044
  },
3045
  "predict": {
3046
- "1": 0.5027901530265808,
3047
- "2": 0.4437107443809509,
3048
- "3": 0.052993688732385635
3049
  },
3050
  "sample": {
3051
  "messages": [
@@ -3087,9 +3087,9 @@
3087
  ]
3088
  },
3089
  "predict": {
3090
- "1": 0.9144974946975708,
3091
- "2": 0.018979789689183235,
3092
- "3": 0.06624598056077957
3093
  },
3094
  "sample": {
3095
  "messages": [
@@ -3131,9 +3131,9 @@
3131
  ]
3132
  },
3133
  "predict": {
3134
- "1": 0.08696205914020538,
3135
- "2": 0.7281243801116943,
3136
- "3": 0.18409867584705353
3137
  },
3138
  "sample": {
3139
  "messages": [
@@ -3175,9 +3175,9 @@
3175
  ]
3176
  },
3177
  "predict": {
3178
- "1": 0.7418547868728638,
3179
- "2": 0.12891501188278198,
3180
- "3": 0.12891501188278198
3181
  },
3182
  "sample": {
3183
  "messages": [
@@ -3219,9 +3219,9 @@
3219
  ]
3220
  },
3221
  "predict": {
3222
- "1": 0.9498790502548218,
3223
- "2": 0.008218063972890377,
3224
- "3": 0.04173477366566658
3225
  },
3226
  "sample": {
3227
  "messages": [
@@ -3263,9 +3263,9 @@
3263
  ]
3264
  },
3265
  "predict": {
3266
- "1": 0.013629980385303497,
3267
- "2": 0.7441717386245728,
3268
- "3": 0.24159717559814453
3269
  },
3270
  "sample": {
3271
  "messages": [
@@ -3307,9 +3307,9 @@
3307
  ]
3308
  },
3309
  "predict": {
3310
- "1": 0.620067834854126,
3311
- "2": 0.17765240371227264,
3312
- "3": 0.20130655169487
3313
  },
3314
  "sample": {
3315
  "messages": [
@@ -3351,9 +3351,9 @@
3351
  ]
3352
  },
3353
  "predict": {
3354
- "1": 0.7659636735916138,
3355
- "2": 0.06287412345409393,
3356
- "3": 0.1709095984697342
3357
  },
3358
  "sample": {
3359
  "messages": [
@@ -3391,13 +3391,13 @@
3391
  "acc": false,
3392
  "f1_macro": [
3393
  "3",
3394
- "1"
3395
  ]
3396
  },
3397
  "predict": {
3398
- "1": 0.3597775995731354,
3399
- "2": 0.3597775995731354,
3400
- "3": 0.28019505739212036
3401
  },
3402
  "sample": {
3403
  "messages": [
@@ -3427,7 +3427,7 @@
3427
  "prompt_len": 107,
3428
  "generated_len": 1,
3429
  "generated_cumulative_logprob": "TODO: calculate for hf model",
3430
- "generated_token": "1"
3431
  }
3432
  }
3433
  {
@@ -3439,9 +3439,9 @@
3439
  ]
3440
  },
3441
  "predict": {
3442
- "1": 0.4053135812282562,
3443
- "2": 0.27856767177581787,
3444
- "3": 0.3156585395336151
3445
  },
3446
  "sample": {
3447
  "messages": [
@@ -3483,9 +3483,9 @@
3483
  ]
3484
  },
3485
  "predict": {
3486
- "1": 0.8433544635772705,
3487
- "2": 0.04198814556002617,
3488
- "3": 0.11413560807704926
3489
  },
3490
  "sample": {
3491
  "messages": [
@@ -3527,9 +3527,9 @@
3527
  ]
3528
  },
3529
  "predict": {
3530
- "1": 0.004391205031424761,
3531
- "2": 0.9482361674308777,
3532
- "3": 0.04720989614725113
3533
  },
3534
  "sample": {
3535
  "messages": [
@@ -3571,9 +3571,9 @@
3571
  ]
3572
  },
3573
  "predict": {
3574
- "1": 0.019635289907455444,
3575
- "2": 0.8349137306213379,
3576
- "3": 0.14508624374866486
3577
  },
3578
  "sample": {
3579
  "messages": [
@@ -3615,9 +3615,9 @@
3615
  ]
3616
  },
3617
  "predict": {
3618
- "1": 0.9664026498794556,
3619
- "2": 0.015620443969964981,
3620
- "3": 0.017700282856822014
3621
  },
3622
  "sample": {
3623
  "messages": [
@@ -3659,9 +3659,9 @@
3659
  ]
3660
  },
3661
  "predict": {
3662
- "1": 0.5739468336105347,
3663
- "2": 0.23925663530826569,
3664
- "3": 0.18633325397968292
3665
  },
3666
  "sample": {
3667
  "messages": [
@@ -3703,9 +3703,9 @@
3703
  ]
3704
  },
3705
  "predict": {
3706
- "1": 0.9895949363708496,
3707
- "2": 0.00755565008148551,
3708
- "3": 0.0027795685455203056
3709
  },
3710
  "sample": {
3711
  "messages": [
@@ -3747,9 +3747,9 @@
3747
  ]
3748
  },
3749
  "predict": {
3750
- "1": 0.0007069944986142218,
3751
- "2": 0.9955223798751831,
3752
- "3": 0.0035904143005609512
3753
  },
3754
  "sample": {
3755
  "messages": [
@@ -3791,9 +3791,9 @@
3791
  ]
3792
  },
3793
  "predict": {
3794
- "1": 0.24979045987129211,
3795
- "2": 0.4666700065135956,
3796
- "3": 0.28304967284202576
3797
  },
3798
  "sample": {
3799
  "messages": [
@@ -3835,9 +3835,9 @@
3835
  ]
3836
  },
3837
  "predict": {
3838
- "1": 0.8632048964500427,
3839
- "2": 0.03347008675336838,
3840
- "3": 0.10309512913227081
3841
  },
3842
  "sample": {
3843
  "messages": [
@@ -3879,9 +3879,9 @@
3879
  ]
3880
  },
3881
  "predict": {
3882
- "1": 0.04315527155995369,
3883
- "2": 0.6750620603561401,
3884
- "3": 0.2814077138900757
3885
  },
3886
  "sample": {
3887
  "messages": [
@@ -3923,9 +3923,9 @@
3923
  ]
3924
  },
3925
  "predict": {
3926
- "1": 0.9749920964241028,
3927
- "2": 0.004515109583735466,
3928
- "3": 0.020235314965248108
3929
  },
3930
  "sample": {
3931
  "messages": [
@@ -3967,9 +3967,9 @@
3967
  ]
3968
  },
3969
  "predict": {
3970
- "1": 0.009249232709407806,
3971
- "2": 0.9434472918510437,
3972
- "3": 0.04697147384285927
3973
  },
3974
  "sample": {
3975
  "messages": [
@@ -4011,9 +4011,9 @@
4011
  ]
4012
  },
4013
  "predict": {
4014
- "1": 0.32653483748435974,
4015
- "2": 0.4751053750514984,
4016
- "3": 0.19805338978767395
4017
  },
4018
  "sample": {
4019
  "messages": [
@@ -4055,9 +4055,9 @@
4055
  ]
4056
  },
4057
  "predict": {
4058
- "1": 0.9872775673866272,
4059
- "2": 0.006652223877608776,
4060
- "3": 0.005870566703379154
4061
  },
4062
  "sample": {
4063
  "messages": [
@@ -4099,9 +4099,9 @@
4099
  ]
4100
  },
4101
  "predict": {
4102
- "1": 0.9535369873046875,
4103
- "2": 0.004415752366185188,
4104
- "3": 0.041895490139722824
4105
  },
4106
  "sample": {
4107
  "messages": [
@@ -4143,9 +4143,9 @@
4143
  ]
4144
  },
4145
  "predict": {
4146
- "1": 0.9775190353393555,
4147
- "2": 0.013943559490144253,
4148
- "3": 0.00845719687640667
4149
  },
4150
  "sample": {
4151
  "messages": [
@@ -4187,9 +4187,9 @@
4187
  ]
4188
  },
4189
  "predict": {
4190
- "1": 0.00010871761332964525,
4191
- "2": 0.9982447624206543,
4192
- "3": 0.0015008002519607544
4193
  },
4194
  "sample": {
4195
  "messages": [
@@ -4231,9 +4231,9 @@
4231
  ]
4232
  },
4233
  "predict": {
4234
- "1": 0.00023028242867439985,
4235
- "2": 0.9987967014312744,
4236
- "3": 0.0009107846999540925
4237
  },
4238
  "sample": {
4239
  "messages": [
@@ -4268,16 +4268,16 @@
4268
  }
4269
  {
4270
  "metric": {
4271
- "acc": false,
4272
  "f1_macro": [
4273
  "1",
4274
- "3"
4275
  ]
4276
  },
4277
  "predict": {
4278
- "1": 0.40675732493400574,
4279
- "2": 0.07068382203578949,
4280
- "3": 0.5222867727279663
4281
  },
4282
  "sample": {
4283
  "messages": [
@@ -4307,7 +4307,7 @@
4307
  "prompt_len": 101,
4308
  "generated_len": 1,
4309
  "generated_cumulative_logprob": "TODO: calculate for hf model",
4310
- "generated_token": "3"
4311
  }
4312
  }
4313
  {
@@ -4315,13 +4315,13 @@
4315
  "acc": false,
4316
  "f1_macro": [
4317
  "1",
4318
- "3"
4319
  ]
4320
  },
4321
  "predict": {
4322
- "1": 0.26727569103240967,
4323
- "2": 0.3431887626647949,
4324
- "3": 0.3888837993144989
4325
  },
4326
  "sample": {
4327
  "messages": [
@@ -4351,7 +4351,7 @@
4351
  "prompt_len": 98,
4352
  "generated_len": 1,
4353
  "generated_cumulative_logprob": "TODO: calculate for hf model",
4354
- "generated_token": "3"
4355
  }
4356
  }
4357
  {
@@ -4363,9 +4363,9 @@
4363
  ]
4364
  },
4365
  "predict": {
4366
- "1": 0.9885652661323547,
4367
- "2": 0.004577965941280127,
4368
- "3": 0.006660900544375181
4369
  },
4370
  "sample": {
4371
  "messages": [
@@ -4407,9 +4407,9 @@
4407
  ]
4408
  },
4409
  "predict": {
4410
- "1": 0.949755072593689,
4411
- "2": 0.017395371571183205,
4412
- "3": 0.03249882906675339
4413
  },
4414
  "sample": {
4415
  "messages": [
@@ -4444,16 +4444,16 @@
4444
  }
4445
  {
4446
  "metric": {
4447
- "acc": true,
4448
  "f1_macro": [
4449
  "3",
4450
- "3"
4451
  ]
4452
  },
4453
  "predict": {
4454
- "1": 0.2993669807910919,
4455
- "2": 0.2641904354095459,
4456
- "3": 0.4355763792991638
4457
  },
4458
  "sample": {
4459
  "messages": [
@@ -4483,7 +4483,7 @@
4483
  "prompt_len": 129,
4484
  "generated_len": 1,
4485
  "generated_cumulative_logprob": "TODO: calculate for hf model",
4486
- "generated_token": "3"
4487
  }
4488
  }
4489
  {
@@ -4495,9 +4495,9 @@
4495
  ]
4496
  },
4497
  "predict": {
4498
- "1": 0.16417229175567627,
4499
- "2": 0.7357691526412964,
4500
- "3": 0.09957552701234818
4501
  },
4502
  "sample": {
4503
  "messages": [
@@ -4532,16 +4532,16 @@
4532
  }
4533
  {
4534
  "metric": {
4535
- "acc": false,
4536
  "f1_macro": [
4537
  "2",
4538
- "1"
4539
  ]
4540
  },
4541
  "predict": {
4542
- "1": 0.5432703495025635,
4543
- "2": 0.2566227614879608,
4544
- "3": 0.19985802471637726
4545
  },
4546
  "sample": {
4547
  "messages": [
@@ -4571,7 +4571,7 @@
4571
  "prompt_len": 119,
4572
  "generated_len": 1,
4573
  "generated_cumulative_logprob": "TODO: calculate for hf model",
4574
- "generated_token": "1"
4575
  }
4576
  }
4577
  {
@@ -4583,9 +4583,9 @@
4583
  ]
4584
  },
4585
  "predict": {
4586
- "1": 0.9395626783370972,
4587
- "2": 0.053006500005722046,
4588
- "3": 0.007173649035394192
4589
  },
4590
  "sample": {
4591
  "messages": [
@@ -4627,9 +4627,9 @@
4627
  ]
4628
  },
4629
  "predict": {
4630
- "1": 0.319026380777359,
4631
- "2": 0.3615042567253113,
4632
- "3": 0.319026380777359
4633
  },
4634
  "sample": {
4635
  "messages": [
@@ -4671,9 +4671,9 @@
4671
  ]
4672
  },
4673
  "predict": {
4674
- "1": 0.5794939398765564,
4675
- "2": 0.27373358607292175,
4676
- "3": 0.1465190201997757
4677
  },
4678
  "sample": {
4679
  "messages": [
@@ -4715,9 +4715,9 @@
4715
  ]
4716
  },
4717
  "predict": {
4718
- "1": 0.1413666158914566,
4719
- "2": 0.5591158270835876,
4720
- "3": 0.29927313327789307
4721
  },
4722
  "sample": {
4723
  "messages": [
@@ -4759,9 +4759,9 @@
4759
  ]
4760
  },
4761
  "predict": {
4762
- "1": 0.903691828250885,
4763
- "2": 0.05098280683159828,
4764
- "3": 0.04499216750264168
4765
  },
4766
  "sample": {
4767
  "messages": [
@@ -4803,9 +4803,9 @@
4803
  ]
4804
  },
4805
  "predict": {
4806
- "1": 0.44351115822792053,
4807
- "2": 0.16315865516662598,
4808
- "3": 0.3913972079753876
4809
  },
4810
  "sample": {
4811
  "messages": [
@@ -4847,9 +4847,9 @@
4847
  ]
4848
  },
4849
  "predict": {
4850
- "1": 0.006333678495138884,
4851
- "2": 0.829548180103302,
4852
- "3": 0.16334772109985352
4853
  },
4854
  "sample": {
4855
  "messages": [
@@ -4891,9 +4891,9 @@
4891
  ]
4892
  },
4893
  "predict": {
4894
- "1": 0.9808608889579773,
4895
- "2": 0.006608989089727402,
4896
- "3": 0.012347216717898846
4897
  },
4898
  "sample": {
4899
  "messages": [
@@ -4935,9 +4935,9 @@
4935
  ]
4936
  },
4937
  "predict": {
4938
- "1": 0.98264080286026,
4939
- "2": 0.007502554450184107,
4940
- "3": 0.009633472189307213
4941
  },
4942
  "sample": {
4943
  "messages": [
@@ -4979,9 +4979,9 @@
4979
  ]
4980
  },
4981
  "predict": {
4982
- "1": 0.022703707218170166,
4983
- "2": 0.6634995937347412,
4984
- "3": 0.3134150207042694
4985
  },
4986
  "sample": {
4987
  "messages": [
@@ -5023,9 +5023,9 @@
5023
  ]
5024
  },
5025
  "predict": {
5026
- "1": 0.9980541467666626,
5027
- "2": 0.0011686012148857117,
5028
- "3": 0.0007087924750521779
5029
  },
5030
  "sample": {
5031
  "messages": [
@@ -5067,9 +5067,9 @@
5067
  ]
5068
  },
5069
  "predict": {
5070
- "1": 0.1470482498407364,
5071
- "2": 0.45294052362442017,
5072
- "3": 0.39971861243247986
5073
  },
5074
  "sample": {
5075
  "messages": [
@@ -5111,9 +5111,9 @@
5111
  ]
5112
  },
5113
  "predict": {
5114
- "1": 0.9826924800872803,
5115
- "2": 0.007502949330955744,
5116
- "3": 0.009633978828787804
5117
  },
5118
  "sample": {
5119
  "messages": [
@@ -5155,9 +5155,9 @@
5155
  ]
5156
  },
5157
  "predict": {
5158
- "1": 0.7108820080757141,
5159
- "2": 0.08490274846553802,
5160
- "3": 0.20367111265659332
5161
  },
5162
  "sample": {
5163
  "messages": [
@@ -5199,9 +5199,9 @@
5199
  ]
5200
  },
5201
  "predict": {
5202
- "1": 0.9970034956932068,
5203
- "2": 0.0011673710541799664,
5204
- "3": 0.0014989341143518686
5205
  },
5206
  "sample": {
5207
  "messages": [
@@ -5243,9 +5243,9 @@
5243
  ]
5244
  },
5245
  "predict": {
5246
- "1": 0.9684581160545349,
5247
- "2": 0.008378804661333561,
5248
- "3": 0.022775951772928238
5249
  },
5250
  "sample": {
5251
  "messages": [
@@ -5287,9 +5287,9 @@
5287
  ]
5288
  },
5289
  "predict": {
5290
- "1": 0.007999463938176632,
5291
- "2": 0.924612283706665,
5292
- "3": 0.06697869300842285
5293
  },
5294
  "sample": {
5295
  "messages": [
@@ -5331,9 +5331,9 @@
5331
  ]
5332
  },
5333
  "predict": {
5334
- "1": 0.8019711971282959,
5335
- "2": 0.05809459835290909,
5336
- "3": 0.1393616795539856
5337
  },
5338
  "sample": {
5339
  "messages": [
@@ -5375,9 +5375,9 @@
5375
  ]
5376
  },
5377
  "predict": {
5378
- "1": 0.9905189871788025,
5379
- "2": 0.004048024769872427,
5380
- "3": 0.005197766702622175
5381
  },
5382
  "sample": {
5383
  "messages": [
@@ -5419,9 +5419,9 @@
5419
  ]
5420
  },
5421
  "predict": {
5422
- "1": 0.8574181795120239,
5423
- "2": 0.010793302208185196,
5424
- "3": 0.1314893364906311
5425
  },
5426
  "sample": {
5427
  "messages": [
@@ -5463,9 +5463,9 @@
5463
  ]
5464
  },
5465
  "predict": {
5466
- "1": 0.8388268947601318,
5467
- "2": 0.06076442077755928,
5468
- "3": 0.10018359124660492
5469
  },
5470
  "sample": {
5471
  "messages": [
@@ -5507,9 +5507,9 @@
5507
  ]
5508
  },
5509
  "predict": {
5510
- "1": 0.9569981098175049,
5511
- "2": 0.022506438195705414,
5512
- "3": 0.019861862063407898
5513
  },
5514
  "sample": {
5515
  "messages": [
@@ -5551,9 +5551,9 @@
5551
  ]
5552
  },
5553
  "predict": {
5554
- "1": 0.0010050975251942873,
5555
- "2": 0.9727086424827576,
5556
- "3": 0.025921806693077087
5557
  },
5558
  "sample": {
5559
  "messages": [
@@ -5595,9 +5595,9 @@
5595
  ]
5596
  },
5597
  "predict": {
5598
- "1": 0.0016963096568360925,
5599
- "2": 0.9957089424133301,
5600
- "3": 0.002468115882948041
5601
  },
5602
  "sample": {
5603
  "messages": [
@@ -5632,16 +5632,16 @@
5632
  }
5633
  {
5634
  "metric": {
5635
- "acc": true,
5636
  "f1_macro": [
5637
  "3",
5638
- "3"
5639
  ]
5640
  },
5641
  "predict": {
5642
- "1": 0.15390941500663757,
5643
- "2": 0.06415899097919464,
5644
- "3": 0.7816165089607239
5645
  },
5646
  "sample": {
5647
  "messages": [
@@ -5671,7 +5671,7 @@
5671
  "prompt_len": 120,
5672
  "generated_len": 1,
5673
  "generated_cumulative_logprob": "TODO: calculate for hf model",
5674
- "generated_token": "3"
5675
  }
5676
  }
5677
  {
@@ -5683,9 +5683,9 @@
5683
  ]
5684
  },
5685
  "predict": {
5686
- "1": 0.8137553334236145,
5687
- "2": 0.07569102942943573,
5688
- "3": 0.11012980341911316
5689
  },
5690
  "sample": {
5691
  "messages": [
@@ -5727,9 +5727,9 @@
5727
  ]
5728
  },
5729
  "predict": {
5730
- "1": 0.09514957666397095,
5731
- "2": 0.7030655741691589,
5732
- "3": 0.20143166184425354
5733
  },
5734
  "sample": {
5735
  "messages": [
@@ -5771,9 +5771,9 @@
5771
  ]
5772
  },
5773
  "predict": {
5774
- "1": 0.7357979416847229,
5775
- "2": 0.09957942366600037,
5776
- "3": 0.16417871415615082
5777
  },
5778
  "sample": {
5779
  "messages": [
@@ -5808,16 +5808,16 @@
5808
  }
5809
  {
5810
  "metric": {
5811
- "acc": true,
5812
  "f1_macro": [
5813
  "2",
5814
- "2"
5815
  ]
5816
  },
5817
  "predict": {
5818
- "1": 0.3830280005931854,
5819
- "2": 0.4918177127838135,
5820
- "3": 0.12435098737478256
5821
  },
5822
  "sample": {
5823
  "messages": [
@@ -5847,7 +5847,7 @@
5847
  "prompt_len": 143,
5848
  "generated_len": 1,
5849
  "generated_cumulative_logprob": "TODO: calculate for hf model",
5850
- "generated_token": "2"
5851
  }
5852
  }
5853
  {
@@ -5859,9 +5859,9 @@
5859
  ]
5860
  },
5861
  "predict": {
5862
- "1": 0.8387274146080017,
5863
- "2": 0.03252099081873894,
5864
- "3": 0.12862302362918854
5865
  },
5866
  "sample": {
5867
  "messages": [
@@ -5903,9 +5903,9 @@
5903
  ]
5904
  },
5905
  "predict": {
5906
- "1": 0.028102239593863487,
5907
- "2": 0.930618405342102,
5908
- "3": 0.04088851809501648
5909
  },
5910
  "sample": {
5911
  "messages": [
@@ -5947,9 +5947,9 @@
5947
  ]
5948
  },
5949
  "predict": {
5950
- "1": 0.5222956538200378,
5951
- "2": 0.40676426887512207,
5952
- "3": 0.07068502902984619
5953
  },
5954
  "sample": {
5955
  "messages": [
@@ -5991,9 +5991,9 @@
5991
  ]
5992
  },
5993
  "predict": {
5994
- "1": 0.9886016249656677,
5995
- "2": 0.004578134045004845,
5996
- "3": 0.006661145482212305
5997
  },
5998
  "sample": {
5999
  "messages": [
@@ -6035,9 +6035,9 @@
6035
  ]
6036
  },
6037
  "predict": {
6038
- "1": 0.25357723236083984,
6039
- "2": 0.05658072605729103,
6040
- "3": 0.6892943382263184
6041
  },
6042
  "sample": {
6043
  "messages": [
@@ -6079,9 +6079,9 @@
6079
  ]
6080
  },
6081
  "predict": {
6082
- "1": 0.9673023223876953,
6083
- "2": 0.006517631467431784,
6084
- "3": 0.025777732953429222
6085
  },
6086
  "sample": {
6087
  "messages": [
@@ -6123,9 +6123,9 @@
6123
  ]
6124
  },
6125
  "predict": {
6126
- "1": 0.9694338440895081,
6127
- "2": 0.00740171829238534,
6128
- "3": 0.022798899561166763
6129
  },
6130
  "sample": {
6131
  "messages": [
@@ -6167,9 +6167,9 @@
6167
  ]
6168
  },
6169
  "predict": {
6170
- "1": 0.26623213291168213,
6171
- "2": 0.4973870813846588,
6172
- "3": 0.2349490225315094
6173
  },
6174
  "sample": {
6175
  "messages": [
@@ -6211,9 +6211,9 @@
6211
  ]
6212
  },
6213
  "predict": {
6214
- "1": 0.6893928647041321,
6215
- "2": 0.17430581152439117,
6216
- "3": 0.13574948906898499
6217
  },
6218
  "sample": {
6219
  "messages": [
@@ -6255,9 +6255,9 @@
6255
  ]
6256
  },
6257
  "predict": {
6258
- "1": 0.9904072880744934,
6259
- "2": 0.005197180435061455,
6260
- "3": 0.004047568421810865
6261
  },
6262
  "sample": {
6263
  "messages": [
@@ -6299,9 +6299,9 @@
6299
  ]
6300
  },
6301
  "predict": {
6302
- "1": 0.015625765547156334,
6303
- "2": 0.8531379103660583,
6304
- "3": 0.13083294034004211
6305
  },
6306
  "sample": {
6307
  "messages": [
@@ -6343,9 +6343,9 @@
6343
  ]
6344
  },
6345
  "predict": {
6346
- "1": 0.8878903985023499,
6347
- "2": 0.07288248091936111,
6348
- "3": 0.03901118040084839
6349
  },
6350
  "sample": {
6351
  "messages": [
@@ -6387,9 +6387,9 @@
6387
  ]
6388
  },
6389
  "predict": {
6390
- "1": 0.9854906797409058,
6391
- "2": 0.006640183739364147,
6392
- "3": 0.007524313870817423
6393
  },
6394
  "sample": {
6395
  "messages": [
@@ -6431,9 +6431,9 @@
6431
  ]
6432
  },
6433
  "predict": {
6434
- "1": 0.9973812699317932,
6435
- "2": 0.0014995021047070622,
6436
- "3": 0.0010305916657671332
6437
  },
6438
  "sample": {
6439
  "messages": [
@@ -6468,16 +6468,16 @@
6468
  }
6469
  {
6470
  "metric": {
6471
- "acc": false,
6472
  "f1_macro": [
6473
  "2",
6474
- "3"
6475
  ]
6476
  },
6477
  "predict": {
6478
- "1": 0.13205672800540924,
6479
- "2": 0.40676334500312805,
6480
- "3": 0.4609232544898987
6481
  },
6482
  "sample": {
6483
  "messages": [
@@ -6507,7 +6507,7 @@
6507
  "prompt_len": 133,
6508
  "generated_len": 1,
6509
  "generated_cumulative_logprob": "TODO: calculate for hf model",
6510
- "generated_token": "3"
6511
  }
6512
  }
6513
  {
@@ -6519,9 +6519,9 @@
6519
  ]
6520
  },
6521
  "predict": {
6522
- "1": 0.0009687349665910006,
6523
- "2": 0.7301396727561951,
6524
- "3": 0.2686033844947815
6525
  },
6526
  "sample": {
6527
  "messages": [
@@ -6563,9 +6563,9 @@
6563
  ]
6564
  },
6565
  "predict": {
6566
- "1": 0.8906763195991516,
6567
- "2": 0.04434416443109512,
6568
- "3": 0.06452038139104843
6569
  },
6570
  "sample": {
6571
  "messages": [
@@ -6607,9 +6607,9 @@
6607
  ]
6608
  },
6609
  "predict": {
6610
- "1": 0.9200575351715088,
6611
- "2": 0.027783330529928207,
6612
- "3": 0.051906097680330276
6613
  },
6614
  "sample": {
6615
  "messages": [
@@ -6651,9 +6651,9 @@
6651
  ]
6652
  },
6653
  "predict": {
6654
- "1": 0.7748290300369263,
6655
- "2": 0.07207032293081284,
6656
- "3": 0.1525728702545166
6657
  },
6658
  "sample": {
6659
  "messages": [
@@ -6695,9 +6695,9 @@
6695
  ]
6696
  },
6697
  "predict": {
6698
- "1": 0.9661503434181213,
6699
- "2": 0.022721678018569946,
6700
- "3": 0.010732961818575859
6701
  },
6702
  "sample": {
6703
  "messages": [
@@ -6739,9 +6739,9 @@
6739
  ]
6740
  },
6741
  "predict": {
6742
- "1": 0.7636806964874268,
6743
- "2": 0.10335294157266617,
6744
- "3": 0.13270780444145203
6745
  },
6746
  "sample": {
6747
  "messages": [
@@ -6783,9 +6783,9 @@
6783
  ]
6784
  },
6785
  "predict": {
6786
- "1": 0.4979809820652008,
6787
- "2": 0.23522956669330597,
6788
- "3": 0.2665500044822693
6789
  },
6790
  "sample": {
6791
  "messages": [
@@ -6827,9 +6827,9 @@
6827
  ]
6828
  },
6829
  "predict": {
6830
- "1": 0.6569244265556335,
6831
- "2": 0.12935608625411987,
6832
- "3": 0.21327213943004608
6833
  },
6834
  "sample": {
6835
  "messages": [
@@ -6871,9 +6871,9 @@
6871
  ]
6872
  },
6873
  "predict": {
6874
- "1": 0.9272952079772949,
6875
- "2": 0.01322715450078249,
6876
- "3": 0.059279996901750565
6877
  },
6878
  "sample": {
6879
  "messages": [
@@ -6915,9 +6915,9 @@
6915
  ]
6916
  },
6917
  "predict": {
6918
- "1": 0.047964341938495636,
6919
- "2": 0.8501882553100586,
6920
- "3": 0.10154051333665848
6921
  },
6922
  "sample": {
6923
  "messages": [
@@ -6959,9 +6959,9 @@
6959
  ]
6960
  },
6961
  "predict": {
6962
- "1": 0.20372076332569122,
6963
- "2": 0.08492344617843628,
6964
- "3": 0.7110552787780762
6965
  },
6966
  "sample": {
6967
  "messages": [
@@ -7003,9 +7003,9 @@
7003
  ]
7004
  },
7005
  "predict": {
7006
- "1": 0.28083983063697815,
7007
- "2": 0.19301821291446686,
7008
- "3": 0.5246778130531311
7009
  },
7010
  "sample": {
7011
  "messages": [
@@ -7047,9 +7047,9 @@
7047
  ]
7048
  },
7049
  "predict": {
7050
- "1": 0.8987541198730469,
7051
- "2": 0.027140023186802864,
7052
- "3": 0.07377423346042633
7053
  },
7054
  "sample": {
7055
  "messages": [
@@ -7091,9 +7091,9 @@
7091
  ]
7092
  },
7093
  "predict": {
7094
- "1": 0.16812677681446075,
7095
- "2": 0.586820125579834,
7096
- "3": 0.24462300539016724
7097
  },
7098
  "sample": {
7099
  "messages": [
@@ -7135,9 +7135,9 @@
7135
  ]
7136
  },
7137
  "predict": {
7138
- "1": 0.8127074837684631,
7139
- "2": 0.1412273645401001,
7140
- "3": 0.045849818736314774
7141
  },
7142
  "sample": {
7143
  "messages": [
@@ -7179,9 +7179,9 @@
7179
  ]
7180
  },
7181
  "predict": {
7182
- "1": 0.960555374622345,
7183
- "2": 0.013701586052775383,
7184
- "3": 0.025597933679819107
7185
  },
7186
  "sample": {
7187
  "messages": [
@@ -7223,9 +7223,9 @@
7223
  ]
7224
  },
7225
  "predict": {
7226
- "1": 0.7052439451217651,
7227
- "2": 0.2594447731971741,
7228
- "3": 0.03511202707886696
7229
  },
7230
  "sample": {
7231
  "messages": [
@@ -7267,9 +7267,9 @@
7267
  ]
7268
  },
7269
  "predict": {
7270
- "1": 0.5152425169944763,
7271
- "2": 0.130273699760437,
7272
- "3": 0.3541206419467926
7273
  },
7274
  "sample": {
7275
  "messages": [
@@ -7311,9 +7311,9 @@
7311
  ]
7312
  },
7313
  "predict": {
7314
- "1": 0.9908397793769836,
7315
- "2": 0.003153625875711441,
7316
- "3": 0.005891748238354921
7317
  },
7318
  "sample": {
7319
  "messages": [
@@ -7355,9 +7355,9 @@
7355
  ]
7356
  },
7357
  "predict": {
7358
- "1": 0.004544285591691732,
7359
- "2": 0.9812923669815063,
7360
- "3": 0.013997383415699005
7361
  },
7362
  "sample": {
7363
  "messages": [
@@ -7399,9 +7399,9 @@
7399
  ]
7400
  },
7401
  "predict": {
7402
- "1": 0.7480601668357849,
7403
- "2": 0.03724372014403343,
7404
- "3": 0.21432282030582428
7405
  },
7406
  "sample": {
7407
  "messages": [
@@ -7443,9 +7443,9 @@
7443
  ]
7444
  },
7445
  "predict": {
7446
- "1": 0.7029677033424377,
7447
- "2": 0.2014036327600479,
7448
- "3": 0.09513633698225021
7449
  },
7450
  "sample": {
7451
  "messages": [
@@ -7487,9 +7487,9 @@
7487
  ]
7488
  },
7489
  "predict": {
7490
- "1": 0.6841830015182495,
7491
- "2": 0.2516968846321106,
7492
- "3": 0.06363893300294876
7493
  },
7494
  "sample": {
7495
  "messages": [
@@ -7531,9 +7531,9 @@
7531
  ]
7532
  },
7533
  "predict": {
7534
- "1": 0.009945956990122795,
7535
- "2": 0.7901052236557007,
7536
- "3": 0.19976988434791565
7537
  },
7538
  "sample": {
7539
  "messages": [
@@ -7575,9 +7575,9 @@
7575
  ]
7576
  },
7577
  "predict": {
7578
- "1": 0.9773134589195251,
7579
- "2": 0.008455418050289154,
7580
- "3": 0.013940627686679363
7581
  },
7582
  "sample": {
7583
  "messages": [
@@ -7619,9 +7619,9 @@
7619
  ]
7620
  },
7621
  "predict": {
7622
- "1": 0.8682395815849304,
7623
- "2": 0.014033786021173,
7624
- "3": 0.11750344932079315
7625
  },
7626
  "sample": {
7627
  "messages": [
@@ -7663,9 +7663,9 @@
7663
  ]
7664
  },
7665
  "predict": {
7666
- "1": 0.9814985394477844,
7667
- "2": 0.010903464630246162,
7668
- "3": 0.0074938335455954075
7669
  },
7670
  "sample": {
7671
  "messages": [
@@ -7707,9 +7707,9 @@
7707
  ]
7708
  },
7709
  "predict": {
7710
- "1": 0.9429830312728882,
7711
- "2": 0.015241900458931923,
7712
- "3": 0.04143178090453148
7713
  },
7714
  "sample": {
7715
  "messages": [
@@ -7744,16 +7744,16 @@
7744
  }
7745
  {
7746
  "metric": {
7747
- "acc": true,
7748
  "f1_macro": [
7749
  "1",
7750
- "1"
7751
  ]
7752
  },
7753
  "predict": {
7754
- "1": 0.5882465839385986,
7755
- "2": 0.35678958892822266,
7756
- "3": 0.05471545457839966
7757
  },
7758
  "sample": {
7759
  "messages": [
@@ -7783,7 +7783,7 @@
7783
  "prompt_len": 87,
7784
  "generated_len": 1,
7785
  "generated_cumulative_logprob": "TODO: calculate for hf model",
7786
- "generated_token": "1"
7787
  }
7788
  }
7789
  {
@@ -7795,9 +7795,9 @@
7795
  ]
7796
  },
7797
  "predict": {
7798
- "1": 0.0013241945998743176,
7799
- "2": 0.9980510473251343,
7800
- "3": 0.000552006415091455
7801
  },
7802
  "sample": {
7803
  "messages": [
@@ -7832,16 +7832,16 @@
7832
  }
7833
  {
7834
  "metric": {
7835
- "acc": false,
7836
  "f1_macro": [
7837
  "2",
7838
- "3"
7839
  ]
7840
  },
7841
  "predict": {
7842
- "1": 0.015871042385697365,
7843
- "2": 0.21909299492835999,
7844
- "3": 0.7647096514701843
7845
  },
7846
  "sample": {
7847
  "messages": [
@@ -7871,7 +7871,7 @@
7871
  "prompt_len": 114,
7872
  "generated_len": 1,
7873
  "generated_cumulative_logprob": "TODO: calculate for hf model",
7874
- "generated_token": "3"
7875
  }
7876
  }
7877
  {
@@ -7883,9 +7883,9 @@
7883
  ]
7884
  },
7885
  "predict": {
7886
- "1": 0.007001660298556089,
7887
- "2": 0.9170365929603577,
7888
- "3": 0.07527495175600052
7889
  },
7890
  "sample": {
7891
  "messages": [
@@ -7927,9 +7927,9 @@
7927
  ]
7928
  },
7929
  "predict": {
7930
- "1": 0.693837583065033,
7931
- "2": 0.05026142671704292,
7932
- "3": 0.2552486062049866
7933
  },
7934
  "sample": {
7935
  "messages": [
@@ -7971,9 +7971,9 @@
7971
  ]
7972
  },
7973
  "predict": {
7974
- "1": 0.6638240814208984,
7975
- "2": 0.16784100234508514,
7976
- "3": 0.16784100234508514
7977
  },
7978
  "sample": {
7979
  "messages": [
@@ -8011,13 +8011,13 @@
8011
  "acc": false,
8012
  "f1_macro": [
8013
  "3",
8014
- "1"
8015
  ]
8016
  },
8017
  "predict": {
8018
- "1": 0.5483831167221069,
8019
- "2": 0.3768978416919708,
8020
- "3": 0.07421558350324631
8021
  },
8022
  "sample": {
8023
  "messages": [
@@ -8047,7 +8047,7 @@
8047
  "prompt_len": 145,
8048
  "generated_len": 1,
8049
  "generated_cumulative_logprob": "TODO: calculate for hf model",
8050
- "generated_token": "1"
8051
  }
8052
  }
8053
  {
@@ -8059,9 +8059,9 @@
8059
  ]
8060
  },
8061
  "predict": {
8062
- "1": 0.0010278039844706655,
8063
- "2": 0.9946834444999695,
8064
- "3": 0.00406504375860095
8065
  },
8066
  "sample": {
8067
  "messages": [
@@ -8103,9 +8103,9 @@
8103
  ]
8104
  },
8105
  "predict": {
8106
- "1": 0.9856196641921997,
8107
- "2": 0.004564324859529734,
8108
- "3": 0.00966267567127943
8109
  },
8110
  "sample": {
8111
  "messages": [
@@ -8147,9 +8147,9 @@
8147
  ]
8148
  },
8149
  "predict": {
8150
- "1": 0.9860061407089233,
8151
- "2": 0.004029581788927317,
8152
- "3": 0.009666464291512966
8153
  },
8154
  "sample": {
8155
  "messages": [
@@ -8191,9 +8191,9 @@
8191
  ]
8192
  },
8193
  "predict": {
8194
- "1": 0.9535747766494751,
8195
- "2": 0.01746533252298832,
8196
- "3": 0.02879546396434307
8197
  },
8198
  "sample": {
8199
  "messages": [
@@ -8235,9 +8235,9 @@
8235
  ]
8236
  },
8237
  "predict": {
8238
- "1": 0.9351570010185242,
8239
- "2": 0.01177188940346241,
8240
- "3": 0.052757952362298965
8241
  },
8242
  "sample": {
8243
  "messages": [
@@ -8279,9 +8279,9 @@
8279
  ]
8280
  },
8281
  "predict": {
8282
- "1": 0.008885451592504978,
8283
- "2": 0.9063406586647034,
8284
- "3": 0.08430281281471252
8285
  },
8286
  "sample": {
8287
  "messages": [
@@ -8323,9 +8323,9 @@
8323
  ]
8324
  },
8325
  "predict": {
8326
- "1": 0.19644363224506378,
8327
- "2": 0.19644363224506378,
8328
- "3": 0.6050889492034912
8329
  },
8330
  "sample": {
8331
  "messages": [
@@ -8367,9 +8367,9 @@
8367
  ]
8368
  },
8369
  "predict": {
8370
- "1": 0.039932429790496826,
8371
- "2": 0.6246483325958252,
8372
- "3": 0.3343501687049866
8373
  },
8374
  "sample": {
8375
  "messages": [
@@ -8411,9 +8411,9 @@
8411
  ]
8412
  },
8413
  "predict": {
8414
- "1": 0.895606517791748,
8415
- "2": 0.03064596839249134,
8416
- "3": 0.0735158622264862
8417
  },
8418
  "sample": {
8419
  "messages": [
@@ -8455,9 +8455,9 @@
8455
  ]
8456
  },
8457
  "predict": {
8458
- "1": 0.7030915021896362,
8459
- "2": 0.20143909752368927,
8460
- "3": 0.0951530858874321
8461
  },
8462
  "sample": {
8463
  "messages": [
@@ -8499,9 +8499,9 @@
8499
  ]
8500
  },
8501
  "predict": {
8502
- "1": 0.008257890120148659,
8503
- "2": 0.9544823169708252,
8504
- "3": 0.03700929507613182
8505
  },
8506
  "sample": {
8507
  "messages": [
@@ -8543,9 +8543,9 @@
8543
  ]
8544
  },
8545
  "predict": {
8546
- "1": 0.9234747290611267,
8547
- "2": 0.03580699861049652,
8548
- "3": 0.04057464748620987
8549
  },
8550
  "sample": {
8551
  "messages": [
@@ -8587,9 +8587,9 @@
8587
  ]
8588
  },
8589
  "predict": {
8590
- "1": 0.0003791072522290051,
8591
- "2": 0.9973121881484985,
8592
- "3": 0.0021816114895045757
8593
  },
8594
  "sample": {
8595
  "messages": [
@@ -8631,9 +8631,9 @@
8631
  ]
8632
  },
8633
  "predict": {
8634
- "1": 0.6739488840103149,
8635
- "2": 0.1930895894765854,
8636
- "3": 0.13270840048789978
8637
  },
8638
  "sample": {
8639
  "messages": [
@@ -8675,9 +8675,9 @@
8675
  ]
8676
  },
8677
  "predict": {
8678
- "1": 0.8136776685714722,
8679
- "2": 0.07568380981683731,
8680
- "3": 0.1101192906498909
8681
  },
8682
  "sample": {
8683
  "messages": [
@@ -8719,9 +8719,9 @@
8719
  ]
8720
  },
8721
  "predict": {
8722
- "1": 0.5865746140480042,
8723
- "2": 0.1680564433336258,
8724
- "3": 0.2445206642150879
8725
  },
8726
  "sample": {
8727
  "messages": [
@@ -8763,9 +8763,9 @@
8763
  ]
8764
  },
8765
  "predict": {
8766
- "1": 0.9765577912330627,
8767
- "2": 0.0074561103247106075,
8768
- "3": 0.01578458584845066
8769
  },
8770
  "sample": {
8771
  "messages": [
@@ -8807,9 +8807,9 @@
8807
  ]
8808
  },
8809
  "predict": {
8810
- "1": 0.0013082359218969941,
8811
- "2": 0.98602294921875,
8812
- "3": 0.012412196956574917
8813
  },
8814
  "sample": {
8815
  "messages": [
@@ -8851,9 +8851,9 @@
8851
  ]
8852
  },
8853
  "predict": {
8854
- "1": 0.12175899744033813,
8855
- "2": 0.7006747126579285,
8856
- "3": 0.17715831100940704
8857
  },
8858
  "sample": {
8859
  "messages": [
@@ -8895,9 +8895,9 @@
8895
  ]
8896
  },
8897
  "predict": {
8898
- "1": 0.9733036160469055,
8899
- "2": 0.017826678231358528,
8900
- "3": 0.008420726284384727
8901
  },
8902
  "sample": {
8903
  "messages": [
@@ -8939,9 +8939,9 @@
8939
  ]
8940
  },
8941
  "predict": {
8942
- "1": 0.9689202308654785,
8943
- "2": 0.005084426607936621,
8944
- "3": 0.02582084946334362
8945
  },
8946
  "sample": {
8947
  "messages": [
@@ -8983,9 +8983,9 @@
8983
  ]
8984
  },
8985
  "predict": {
8986
- "1": 0.9123460054397583,
8987
- "2": 0.06609012186527252,
8988
- "3": 0.021456321701407433
8989
  },
8990
  "sample": {
8991
  "messages": [
@@ -9027,9 +9027,9 @@
9027
  ]
9028
  },
9029
  "predict": {
9030
- "1": 0.3836027979850769,
9031
- "2": 0.43467894196510315,
9032
- "3": 0.18120113015174866
9033
  },
9034
  "sample": {
9035
  "messages": [
@@ -9071,9 +9071,9 @@
9071
  ]
9072
  },
9073
  "predict": {
9074
- "1": 0.9943023920059204,
9075
- "2": 0.0024646292440593243,
9076
- "3": 0.0031646466813981533
9077
  },
9078
  "sample": {
9079
  "messages": [
@@ -9115,9 +9115,9 @@
9115
  ]
9116
  },
9117
  "predict": {
9118
- "1": 0.8954528570175171,
9119
- "2": 0.021059034392237663,
9120
- "3": 0.08329009264707565
9121
  },
9122
  "sample": {
9123
  "messages": [
@@ -9159,9 +9159,9 @@
9159
  ]
9160
  },
9161
  "predict": {
9162
- "1": 0.00309029221534729,
9163
- "2": 0.970940887928009,
9164
- "3": 0.025874698534607887
9165
  },
9166
  "sample": {
9167
  "messages": [
@@ -9203,9 +9203,9 @@
9203
  ]
9204
  },
9205
  "predict": {
9206
- "1": 0.9393674731254578,
9207
- "2": 0.028366440907120705,
9208
- "3": 0.03214338794350624
9209
  },
9210
  "sample": {
9211
  "messages": [
@@ -9243,13 +9243,13 @@
9243
  "acc": false,
9244
  "f1_macro": [
9245
  "3",
9246
- "1"
9247
  ]
9248
  },
9249
  "predict": {
9250
- "1": 0.6094657182693481,
9251
- "2": 0.25406309962272644,
9252
- "3": 0.1359901875257492
9253
  },
9254
  "sample": {
9255
  "messages": [
@@ -9279,7 +9279,7 @@
9279
  "prompt_len": 187,
9280
  "generated_len": 1,
9281
  "generated_cumulative_logprob": "TODO: calculate for hf model",
9282
- "generated_token": "1"
9283
  }
9284
  }
9285
  {
@@ -9291,9 +9291,9 @@
9291
  ]
9292
  },
9293
  "predict": {
9294
- "1": 0.964984118938446,
9295
- "2": 0.005738005042076111,
9296
- "3": 0.029139995574951172
9297
  },
9298
  "sample": {
9299
  "messages": [
@@ -9335,9 +9335,9 @@
9335
  ]
9336
  },
9337
  "predict": {
9338
- "1": 0.11574511229991913,
9339
- "2": 0.6660671830177307,
9340
- "3": 0.21624034643173218
9341
  },
9342
  "sample": {
9343
  "messages": [
@@ -9379,9 +9379,9 @@
9379
  ]
9380
  },
9381
  "predict": {
9382
- "1": 0.955115556716919,
9383
- "2": 0.012023130431771278,
9384
- "3": 0.032682254910469055
9385
  },
9386
  "sample": {
9387
  "messages": [
@@ -9423,9 +9423,9 @@
9423
  ]
9424
  },
9425
  "predict": {
9426
- "1": 0.992239236831665,
9427
- "2": 0.004055055323988199,
9428
- "3": 0.0035785736981779337
9429
  },
9430
  "sample": {
9431
  "messages": [
@@ -9467,9 +9467,9 @@
9467
  ]
9468
  },
9469
  "predict": {
9470
- "1": 0.5369768738746643,
9471
- "2": 0.0933125764131546,
9472
- "3": 0.3690584599971771
9473
  },
9474
  "sample": {
9475
  "messages": [
@@ -9511,9 +9511,9 @@
9511
  ]
9512
  },
9513
  "predict": {
9514
- "1": 0.7285830974578857,
9515
- "2": 0.08701684325933456,
9516
- "3": 0.18421466648578644
9517
  },
9518
  "sample": {
9519
  "messages": [
@@ -9555,9 +9555,9 @@
9555
  ]
9556
  },
9557
  "predict": {
9558
- "1": 0.6943958401679993,
9559
- "2": 0.10648905485868454,
9560
- "3": 0.1989477425813675
9561
  },
9562
  "sample": {
9563
  "messages": [
@@ -9599,9 +9599,9 @@
9599
  ]
9600
  },
9601
  "predict": {
9602
- "1": 0.9943283200263977,
9603
- "2": 0.002175084315240383,
9604
- "3": 0.0027928638737648726
9605
  },
9606
  "sample": {
9607
  "messages": [
@@ -9643,9 +9643,9 @@
9643
  ]
9644
  },
9645
  "predict": {
9646
- "1": 0.3362922966480255,
9647
- "2": 0.43180787563323975,
9648
- "3": 0.23113010823726654
9649
  },
9650
  "sample": {
9651
  "messages": [
 
7
  ]
8
  },
9
  "predict": {
10
+ "1": 0.9068718552589417,
11
+ "2": 0.06569357961416245,
12
+ "3": 0.027385156601667404
13
  },
14
  "sample": {
15
  "messages": [
 
51
  ]
52
  },
53
  "predict": {
54
+ "1": 0.03540632501244545,
55
+ "2": 0.805844247341156,
56
+ "3": 0.15868012607097626
57
  },
58
  "sample": {
59
  "messages": [
 
95
  ]
96
  },
97
  "predict": {
98
+ "1": 0.0006252557504922152,
99
+ "2": 0.997653067111969,
100
+ "3": 0.0016996216727420688
101
  },
102
  "sample": {
103
  "messages": [
 
135
  "acc": false,
136
  "f1_macro": [
137
  "3",
138
+ "2"
139
  ]
140
  },
141
  "predict": {
142
+ "1": 0.2737521529197693,
143
+ "2": 0.5795333385467529,
144
+ "3": 0.14652897417545319
145
  },
146
  "sample": {
147
  "messages": [
 
171
  "prompt_len": 133,
172
  "generated_len": 1,
173
  "generated_cumulative_logprob": "TODO: calculate for hf model",
174
+ "generated_token": "2"
175
  }
176
  }
177
  {
 
183
  ]
184
  },
185
  "predict": {
186
+ "1": 0.9956747889518738,
187
+ "2": 0.003590964013710618,
188
+ "3": 0.0007071027648635209
189
  },
190
  "sample": {
191
  "messages": [
 
227
  ]
228
  },
229
  "predict": {
230
+ "1": 0.20147117972373962,
231
+ "2": 0.17779770493507385,
232
+ "3": 0.620574951171875
233
  },
234
  "sample": {
235
  "messages": [
 
271
  ]
272
  },
273
  "predict": {
274
+ "1": 0.9942213296890259,
275
+ "2": 0.003585722064599395,
276
+ "3": 0.002174850320443511
277
  },
278
  "sample": {
279
  "messages": [
 
315
  ]
316
  },
317
  "predict": {
318
+ "1": 0.10388226062059402,
319
+ "2": 0.8697955012321472,
320
+ "3": 0.026265548542141914
321
  },
322
  "sample": {
323
  "messages": [
 
359
  ]
360
  },
361
  "predict": {
362
+ "1": 0.9635001420974731,
363
+ "2": 0.02265935204923153,
364
+ "3": 0.01374359056353569
365
  },
366
  "sample": {
367
  "messages": [
 
403
  ]
404
  },
405
  "predict": {
406
+ "1": 0.4599602520465851,
407
+ "2": 0.4599602520465851,
408
+ "3": 0.07992909848690033
409
  },
410
  "sample": {
411
  "messages": [
 
447
  ]
448
  },
449
  "predict": {
450
+ "1": 0.4300953447818756,
451
+ "2": 0.4300953447818756,
452
+ "3": 0.1396315097808838
453
  },
454
  "sample": {
455
  "messages": [
 
491
  ]
492
  },
493
  "predict": {
494
+ "1": 0.00029538493254221976,
495
+ "2": 0.9977712631225586,
496
+ "3": 0.001926151686348021
497
  },
498
  "sample": {
499
  "messages": [
 
535
  ]
536
  },
537
  "predict": {
538
+ "1": 0.9967659711837769,
539
+ "2": 0.0021804168354719877,
540
+ "3": 0.0010299559216946363
541
  },
542
  "sample": {
543
  "messages": [
 
579
  ]
580
  },
581
  "predict": {
582
+ "1": 0.9971477389335632,
583
+ "2": 0.0009092810214497149,
584
+ "3": 0.0019249479519203305
585
  },
586
  "sample": {
587
  "messages": [
 
623
  ]
624
  },
625
  "predict": {
626
+ "1": 0.8246704339981079,
627
+ "2": 0.14330622553825378,
628
+ "3": 0.031975943595170975
629
  },
630
  "sample": {
631
  "messages": [
 
667
  ]
668
  },
669
  "predict": {
670
+ "1": 0.04464482143521309,
671
+ "2": 0.6983625292778015,
672
+ "3": 0.2569132447242737
673
  },
674
  "sample": {
675
  "messages": [
 
711
  ]
712
  },
713
  "predict": {
714
+ "1": 0.9775852560997009,
715
+ "2": 0.015801193192601204,
716
+ "3": 0.0065869176760315895
717
  },
718
  "sample": {
719
  "messages": [
 
748
  }
749
  {
750
  "metric": {
751
+ "acc": true,
752
  "f1_macro": [
753
  "3",
754
+ "3"
755
  ]
756
  },
757
  "predict": {
758
+ "1": 0.2925976514816284,
759
+ "2": 0.3315565884113312,
760
+ "3": 0.375702828168869
761
  },
762
  "sample": {
763
  "messages": [
 
787
  "prompt_len": 148,
788
  "generated_len": 1,
789
  "generated_cumulative_logprob": "TODO: calculate for hf model",
790
+ "generated_token": "3"
791
  }
792
  }
793
  {
794
  "metric": {
795
+ "acc": false,
796
  "f1_macro": [
797
  "3",
798
+ "1"
799
  ]
800
  },
801
  "predict": {
802
+ "1": 0.5740567445755005,
803
+ "2": 0.23930245637893677,
804
+ "3": 0.1863689422607422
805
  },
806
  "sample": {
807
  "messages": [
 
831
  "prompt_len": 106,
832
  "generated_len": 1,
833
  "generated_cumulative_logprob": "TODO: calculate for hf model",
834
+ "generated_token": "1"
835
  }
836
  }
837
  {
 
843
  ]
844
  },
845
  "predict": {
846
+ "1": 0.9546874165534973,
847
+ "2": 0.01981390453875065,
848
+ "3": 0.02544155716896057
849
  },
850
  "sample": {
851
  "messages": [
 
887
  ]
888
  },
889
  "predict": {
890
+ "1": 0.01058061420917511,
891
+ "2": 0.9524364471435547,
892
+ "3": 0.03692996874451637
893
  },
894
  "sample": {
895
  "messages": [
 
931
  ]
932
  },
933
  "predict": {
934
+ "1": 0.6927382349967957,
935
+ "2": 0.2887762486934662,
936
+ "3": 0.018460847437381744
937
  },
938
  "sample": {
939
  "messages": [
 
975
  ]
976
  },
977
  "predict": {
978
+ "1": 0.7544770240783691,
979
+ "2": 0.19076165556907654,
980
+ "3": 0.05465413257479668
981
  },
982
  "sample": {
983
  "messages": [
 
1019
  ]
1020
  },
1021
  "predict": {
1022
+ "1": 0.5029839873313904,
1023
+ "2": 0.4438818097114563,
1024
+ "3": 0.0530141219496727
1025
  },
1026
  "sample": {
1027
  "messages": [
 
1063
  ]
1064
  },
1065
  "predict": {
1066
+ "1": 0.974636971950531,
1067
+ "2": 0.0202279444783926,
1068
+ "3": 0.00511442543938756
1069
  },
1070
  "sample": {
1071
  "messages": [
 
1103
  "acc": false,
1104
  "f1_macro": [
1105
  "3",
1106
+ "2"
1107
  ]
1108
  },
1109
  "predict": {
1110
+ "1": 0.22233793139457703,
1111
+ "2": 0.6848490834236145,
1112
+ "3": 0.09268423914909363
1113
  },
1114
  "sample": {
1115
  "messages": [
 
1139
  "prompt_len": 97,
1140
  "generated_len": 1,
1141
  "generated_cumulative_logprob": "TODO: calculate for hf model",
1142
+ "generated_token": "2"
1143
  }
1144
  }
1145
  {
 
1151
  ]
1152
  },
1153
  "predict": {
1154
+ "1": 0.9815616011619568,
1155
+ "2": 0.007494315039366484,
1156
+ "3": 0.010904164984822273
1157
  },
1158
  "sample": {
1159
  "messages": [
 
1195
  ]
1196
  },
1197
  "predict": {
1198
+ "1": 0.6923824548721313,
1199
+ "2": 0.08269329369068146,
1200
+ "3": 0.22478367388248444
1201
  },
1202
  "sample": {
1203
  "messages": [
 
1239
  ]
1240
  },
1241
  "predict": {
1242
+ "1": 0.015733951702713966,
1243
+ "2": 0.9734251499176025,
1244
+ "3": 0.010813777334988117
1245
  },
1246
  "sample": {
1247
  "messages": [
 
1283
  ]
1284
  },
1285
  "predict": {
1286
+ "1": 0.8925301432609558,
1287
+ "2": 0.057057540863752365,
1288
+ "3": 0.05035310983657837
1289
  },
1290
  "sample": {
1291
  "messages": [
 
1327
  ]
1328
  },
1329
  "predict": {
1330
+ "1": 0.23933321237564087,
1331
+ "2": 0.5741305351257324,
1332
+ "3": 0.1863928884267807
1333
  },
1334
  "sample": {
1335
  "messages": [
 
1371
  ]
1372
  },
1373
  "predict": {
1374
+ "1": 0.9489874839782715,
1375
+ "2": 0.022318046540021896,
1376
+ "3": 0.028656939044594765
1377
  },
1378
  "sample": {
1379
  "messages": [
 
1415
  ]
1416
  },
1417
  "predict": {
1418
+ "1": 0.9962971806526184,
1419
+ "2": 0.0021793912164866924,
1420
+ "3": 0.0014978721737861633
1421
  },
1422
  "sample": {
1423
  "messages": [
 
1459
  ]
1460
  },
1461
  "predict": {
1462
+ "1": 0.00357483490370214,
1463
+ "2": 0.9912025928497314,
1464
+ "3": 0.005201353691518307
1465
  },
1466
  "sample": {
1467
  "messages": [
 
1503
  ]
1504
  },
1505
  "predict": {
1506
+ "1": 0.9249484539031982,
1507
+ "2": 0.0670030415058136,
1508
+ "3": 0.008002371527254581
1509
  },
1510
  "sample": {
1511
  "messages": [
 
1547
  ]
1548
  },
1549
  "predict": {
1550
+ "1": 0.983887255191803,
1551
+ "2": 0.007512071635574102,
1552
+ "3": 0.008512292988598347
1553
  },
1554
  "sample": {
1555
  "messages": [
 
1591
  ]
1592
  },
1593
  "predict": {
1594
+ "1": 0.9185863733291626,
1595
+ "2": 0.04573372006416321,
1596
+ "3": 0.03561745956540108
1597
  },
1598
  "sample": {
1599
  "messages": [
 
1635
  ]
1636
  },
1637
  "predict": {
1638
+ "1": 0.46684619784355164,
1639
+ "2": 0.28315654397010803,
1640
+ "3": 0.24988476932048798
1641
  },
1642
  "sample": {
1643
  "messages": [
 
1679
  ]
1680
  },
1681
  "predict": {
1682
+ "1": 0.9829544425010681,
1683
+ "2": 0.01237357035279274,
1684
+ "3": 0.004551982507109642
1685
  },
1686
  "sample": {
1687
  "messages": [
 
1723
  ]
1724
  },
1725
  "predict": {
1726
+ "1": 0.938510000705719,
1727
+ "2": 0.025010444223880768,
1728
+ "3": 0.03638998046517372
1729
  },
1730
  "sample": {
1731
  "messages": [
 
1767
  ]
1768
  },
1769
  "predict": {
1770
+ "1": 0.9432486295700073,
1771
+ "2": 0.0152461938560009,
1772
+ "3": 0.04144345223903656
1773
  },
1774
  "sample": {
1775
  "messages": [
 
1811
  ]
1812
  },
1813
  "predict": {
1814
+ "1": 0.975763201713562,
1815
+ "2": 0.015771742910146713,
1816
+ "3": 0.008442006073892117
1817
  },
1818
  "sample": {
1819
  "messages": [
 
1855
  ]
1856
  },
1857
  "predict": {
1858
+ "1": 0.00015792994236107916,
1859
+ "2": 0.9966465830802917,
1860
+ "3": 0.0031721077393740416
1861
  },
1862
  "sample": {
1863
  "messages": [
 
1899
  ]
1900
  },
1901
  "predict": {
1902
+ "1": 0.9340866208076477,
1903
+ "2": 0.046505432575941086,
1904
+ "3": 0.019386349245905876
1905
  },
1906
  "sample": {
1907
  "messages": [
 
1943
  ]
1944
  },
1945
  "predict": {
1946
+ "1": 0.9994193315505981,
1947
+ "2": 0.00043049242231063545,
1948
+ "3": 0.00013976043555885553
1949
  },
1950
  "sample": {
1951
  "messages": [
 
1987
  ]
1988
  },
1989
  "predict": {
1990
+ "1": 0.049970678985118866,
1991
+ "2": 0.8857514262199402,
1992
+ "3": 0.06416361778974533
1993
  },
1994
  "sample": {
1995
  "messages": [
 
2031
  ]
2032
  },
2033
  "predict": {
2034
+ "1": 0.18606755137443542,
2035
+ "2": 0.6494395732879639,
2036
+ "3": 0.16420403122901917
2037
  },
2038
  "sample": {
2039
  "messages": [
 
2075
  ]
2076
  },
2077
  "predict": {
2078
+ "1": 0.9836705923080444,
2079
+ "2": 0.0066279200837016106,
2080
+ "3": 0.009643567726016045
2081
  },
2082
  "sample": {
2083
  "messages": [
 
2119
  ]
2120
  },
2121
  "predict": {
2122
+ "1": 0.04638116806745529,
2123
+ "2": 0.9315906763076782,
2124
+ "3": 0.021908912807703018
2125
  },
2126
  "sample": {
2127
  "messages": [
 
2163
  ]
2164
  },
2165
  "predict": {
2166
+ "1": 0.07442279160022736,
2167
+ "2": 0.9066551923751831,
2168
+ "3": 0.018817028030753136
2169
  },
2170
  "sample": {
2171
  "messages": [
 
2207
  ]
2208
  },
2209
  "predict": {
2210
+ "1": 0.9791820049285889,
2211
+ "2": 0.00847158394753933,
2212
+ "3": 0.012326082214713097
2213
  },
2214
  "sample": {
2215
  "messages": [
 
2251
  ]
2252
  },
2253
  "predict": {
2254
+ "1": 0.10650104284286499,
2255
+ "2": 0.786942183971405,
2256
+ "3": 0.10650104284286499
2257
  },
2258
  "sample": {
2259
  "messages": [
 
2295
  ]
2296
  },
2297
  "predict": {
2298
+ "1": 0.9785165190696716,
2299
+ "2": 0.017922155559062958,
2300
+ "3": 0.0035290818195790052
2301
  },
2302
  "sample": {
2303
  "messages": [
 
2339
  ]
2340
  },
2341
  "predict": {
2342
+ "1": 0.0004871190758422017,
2343
+ "2": 0.9979999661445618,
2344
+ "3": 0.0015004322631284595
2345
  },
2346
  "sample": {
2347
  "messages": [
 
2383
  ]
2384
  },
2385
  "predict": {
2386
+ "1": 0.021320512518286705,
2387
+ "2": 0.8000463247299194,
2388
+ "3": 0.17851446568965912
2389
  },
2390
  "sample": {
2391
  "messages": [
 
2427
  ]
2428
  },
2429
  "predict": {
2430
+ "1": 0.0024418607354164124,
2431
+ "2": 0.9851168394088745,
2432
+ "3": 0.012400791049003601
2433
  },
2434
  "sample": {
2435
  "messages": [
 
2471
  ]
2472
  },
2473
  "predict": {
2474
+ "1": 0.9939330220222473,
2475
+ "2": 0.0035846822429448366,
2476
+ "3": 0.0024637137539684772
2477
  },
2478
  "sample": {
2479
  "messages": [
 
2515
  ]
2516
  },
2517
  "predict": {
2518
+ "1": 0.8998384475708008,
2519
+ "2": 0.03489052131772041,
2520
+ "3": 0.0651840791106224
2521
  },
2522
  "sample": {
2523
  "messages": [
 
2559
  ]
2560
  },
2561
  "predict": {
2562
+ "1": 0.026881221681833267,
2563
+ "2": 0.8901838064193726,
2564
+ "3": 0.08279999345541
2565
  },
2566
  "sample": {
2567
  "messages": [
 
2603
  ]
2604
  },
2605
  "predict": {
2606
+ "1": 0.04115879908204079,
2607
+ "2": 0.5681796669960022,
2608
+ "3": 0.39050379395484924
2609
  },
2610
  "sample": {
2611
  "messages": [
 
2647
  ]
2648
  },
2649
  "predict": {
2650
+ "1": 0.9664955139160156,
2651
+ "2": 0.010736796073615551,
2652
+ "3": 0.022729797288775444
2653
  },
2654
  "sample": {
2655
  "messages": [
 
2691
  ]
2692
  },
2693
  "predict": {
2694
+ "1": 0.9960212111473083,
2695
+ "2": 0.002797618741169572,
2696
+ "3": 0.0011662208708003163
2697
  },
2698
  "sample": {
2699
  "messages": [
 
2735
  ]
2736
  },
2737
  "predict": {
2738
+ "1": 0.9684169888496399,
2739
+ "2": 0.01773717626929283,
2740
+ "3": 0.013813725672662258
2741
  },
2742
  "sample": {
2743
  "messages": [
 
2779
  ]
2780
  },
2781
  "predict": {
2782
+ "1": 0.7759154438972473,
2783
+ "2": 0.11899048835039139,
2784
+ "3": 0.10500873625278473
2785
  },
2786
  "sample": {
2787
  "messages": [
 
2823
  ]
2824
  },
2825
  "predict": {
2826
+ "1": 0.7877723574638367,
2827
+ "2": 0.1551215648651123,
2828
+ "3": 0.05706603825092316
2829
  },
2830
  "sample": {
2831
  "messages": [
 
2867
  ]
2868
  },
2869
  "predict": {
2870
+ "1": 0.9927759170532227,
2871
+ "2": 0.004057248122990131,
2872
+ "3": 0.002788503421470523
2873
  },
2874
  "sample": {
2875
  "messages": [
 
2911
  ]
2912
  },
2913
  "predict": {
2914
+ "1": 0.6573037505149841,
2915
+ "2": 0.24180856347084045,
2916
+ "3": 0.10080080479383469
2917
  },
2918
  "sample": {
2919
  "messages": [
 
2955
  ]
2956
  },
2957
  "predict": {
2958
+ "1": 0.13865254819393158,
2959
+ "2": 0.7041357755661011,
2960
+ "3": 0.1571139246225357
2961
  },
2962
  "sample": {
2963
  "messages": [
 
2999
  ]
3000
  },
3001
  "predict": {
3002
+ "1": 0.9848692417144775,
3003
+ "2": 0.007519568782299757,
3004
+ "3": 0.007519568782299757
3005
  },
3006
  "sample": {
3007
  "messages": [
 
3043
  ]
3044
  },
3045
  "predict": {
3046
+ "1": 0.6987128853797913,
3047
+ "2": 0.29126685857772827,
3048
+ "3": 0.009966603480279446
3049
  },
3050
  "sample": {
3051
  "messages": [
 
3087
  ]
3088
  },
3089
  "predict": {
3090
+ "1": 0.9635623693466187,
3091
+ "2": 0.013744478113949299,
3092
+ "3": 0.022660814225673676
3093
  },
3094
  "sample": {
3095
  "messages": [
 
3131
  ]
3132
  },
3133
  "predict": {
3134
+ "1": 0.04016876220703125,
3135
+ "2": 0.9142367839813232,
3136
+ "3": 0.04551716893911362
3137
  },
3138
  "sample": {
3139
  "messages": [
 
3175
  ]
3176
  },
3177
  "predict": {
3178
+ "1": 0.9319369792938232,
3179
+ "2": 0.03188912943005562,
3180
+ "3": 0.03613511845469475
3181
  },
3182
  "sample": {
3183
  "messages": [
 
3219
  ]
3220
  },
3221
  "predict": {
3222
+ "1": 0.9954794645309448,
3223
+ "2": 0.0009077598224394023,
3224
+ "3": 0.003590259701013565
3225
  },
3226
  "sample": {
3227
  "messages": [
 
3263
  ]
3264
  },
3265
  "predict": {
3266
+ "1": 0.0035856638569384813,
3267
+ "2": 0.8773829936981201,
3268
+ "3": 0.11874087899923325
3269
  },
3270
  "sample": {
3271
  "messages": [
 
3307
  ]
3308
  },
3309
  "predict": {
3310
+ "1": 0.5542725324630737,
3311
+ "2": 0.3361833095550537,
3312
+ "3": 0.1091427281498909
3313
  },
3314
  "sample": {
3315
  "messages": [
 
3351
  ]
3352
  },
3353
  "predict": {
3354
+ "1": 0.9232763051986694,
3355
+ "2": 0.02460448071360588,
3356
+ "3": 0.0520876906812191
3357
  },
3358
  "sample": {
3359
  "messages": [
 
3391
  "acc": false,
3392
  "f1_macro": [
3393
  "3",
3394
+ "2"
3395
  ]
3396
  },
3397
  "predict": {
3398
+ "1": 0.12688569724559784,
3399
+ "2": 0.5686622262001038,
3400
+ "3": 0.30438297986984253
3401
  },
3402
  "sample": {
3403
  "messages": [
 
3427
  "prompt_len": 107,
3428
  "generated_len": 1,
3429
  "generated_cumulative_logprob": "TODO: calculate for hf model",
3430
+ "generated_token": "2"
3431
  }
3432
  }
3433
  {
 
3439
  ]
3440
  },
3441
  "predict": {
3442
+ "1": 0.4348577558994293,
3443
+ "2": 0.38376063108444214,
3444
+ "3": 0.18127568066120148
3445
  },
3446
  "sample": {
3447
  "messages": [
 
3483
  ]
3484
  },
3485
  "predict": {
3486
+ "1": 0.9453459978103638,
3487
+ "2": 0.022232407703995705,
3488
+ "3": 0.03234795853495598
3489
  },
3490
  "sample": {
3491
  "messages": [
 
3527
  ]
3528
  },
3529
  "predict": {
3530
+ "1": 0.0007927707047201693,
3531
+ "2": 0.985135018825531,
3532
+ "3": 0.014052196405827999
3533
  },
3534
  "sample": {
3535
  "messages": [
 
3571
  ]
3572
  },
3573
  "predict": {
3574
+ "1": 0.006444424856454134,
3575
+ "2": 0.9564374685287476,
3576
+ "3": 0.03708510473370552
3577
  },
3578
  "sample": {
3579
  "messages": [
 
3615
  ]
3616
  },
3617
  "predict": {
3618
+ "1": 0.9815508127212524,
3619
+ "2": 0.010904044844210148,
3620
+ "3": 0.00749423261731863
3621
  },
3622
  "sample": {
3623
  "messages": [
 
3659
  ]
3660
  },
3661
  "predict": {
3662
+ "1": 0.6485435366630554,
3663
+ "2": 0.23858585953712463,
3664
+ "3": 0.1126999631524086
3665
  },
3666
  "sample": {
3667
  "messages": [
 
3703
  ]
3704
  },
3705
  "predict": {
3706
+ "1": 0.9901036024093628,
3707
+ "2": 0.008566074073314667,
3708
+ "3": 0.0013136500492691994
3709
  },
3710
  "sample": {
3711
  "messages": [
 
3747
  ]
3748
  },
3749
  "predict": {
3750
+ "1": 0.000549855874851346,
3751
+ "2": 0.9941627383232117,
3752
+ "3": 0.005216887220740318
3753
  },
3754
  "sample": {
3755
  "messages": [
 
3791
  ]
3792
  },
3793
  "predict": {
3794
+ "1": 0.04863475635647774,
3795
+ "2": 0.6713820695877075,
3796
+ "3": 0.27987366914749146
3797
  },
3798
  "sample": {
3799
  "messages": [
 
3835
  ]
3836
  },
3837
  "predict": {
3838
+ "1": 0.8279116749763489,
3839
+ "2": 0.05997372418642044,
3840
+ "3": 0.11204566061496735
3841
  },
3842
  "sample": {
3843
  "messages": [
 
3879
  ]
3880
  },
3881
  "predict": {
3882
+ "1": 0.010608896613121033,
3883
+ "2": 0.8427690863609314,
3884
+ "3": 0.14645129442214966
3885
  },
3886
  "sample": {
3887
  "messages": [
 
3923
  ]
3924
  },
3925
  "predict": {
3926
+ "1": 0.9963377714157104,
3927
+ "2": 0.001697380910627544,
3928
+ "3": 0.001923384377732873
3929
  },
3930
  "sample": {
3931
  "messages": [
 
3967
  ]
3968
  },
3969
  "predict": {
3970
+ "1": 0.005067681428045034,
3971
+ "2": 0.9657291173934937,
3972
+ "3": 0.029162492603063583
3973
  },
3974
  "sample": {
3975
  "messages": [
 
4011
  ]
4012
  },
4013
  "predict": {
4014
+ "1": 0.4243760108947754,
4015
+ "2": 0.4808810353279114,
4016
+ "3": 0.09469108283519745
4017
  },
4018
  "sample": {
4019
  "messages": [
 
4055
  ]
4056
  },
4057
  "predict": {
4058
+ "1": 0.9982520937919617,
4059
+ "2": 0.001168832997791469,
4060
+ "3": 0.0005521176499314606
4061
  },
4062
  "sample": {
4063
  "messages": [
 
4099
  ]
4100
  },
4101
  "predict": {
4102
+ "1": 0.9947561025619507,
4103
+ "2": 0.0011647396022453904,
4104
+ "3": 0.004065340850502253
4105
  },
4106
  "sample": {
4107
  "messages": [
 
4143
  ]
4144
  },
4145
  "predict": {
4146
+ "1": 0.9959099292755127,
4147
+ "2": 0.003169763134792447,
4148
+ "3": 0.0009081523166969419
4149
  },
4150
  "sample": {
4151
  "messages": [
 
4187
  ]
4188
  },
4189
  "predict": {
4190
+ "1": 5.142214286024682e-05,
4191
+ "2": 0.9995583891868591,
4192
+ "3": 0.00033531448571011424
4193
  },
4194
  "sample": {
4195
  "messages": [
 
4231
  ]
4232
  },
4233
  "predict": {
4234
+ "1": 7.482008368242532e-05,
4235
+ "2": 0.9995757937431335,
4236
+ "3": 0.0003353203064762056
4237
  },
4238
  "sample": {
4239
  "messages": [
 
4268
  }
4269
  {
4270
  "metric": {
4271
+ "acc": true,
4272
  "f1_macro": [
4273
  "1",
4274
+ "1"
4275
  ]
4276
  },
4277
  "predict": {
4278
+ "1": 0.5793271660804749,
4279
+ "2": 0.06919076293706894,
4280
+ "3": 0.3513796925544739
4281
  },
4282
  "sample": {
4283
  "messages": [
 
4307
  "prompt_len": 101,
4308
  "generated_len": 1,
4309
  "generated_cumulative_logprob": "TODO: calculate for hf model",
4310
+ "generated_token": "1"
4311
  }
4312
  }
4313
  {
 
4315
  "acc": false,
4316
  "f1_macro": [
4317
  "1",
4318
+ "2"
4319
  ]
4320
  },
4321
  "predict": {
4322
+ "1": 0.16343984007835388,
4323
+ "2": 0.44427549839019775,
4324
+ "3": 0.3920717239379883
4325
  },
4326
  "sample": {
4327
  "messages": [
 
4351
  "prompt_len": 98,
4352
  "generated_len": 1,
4353
  "generated_cumulative_logprob": "TODO: calculate for hf model",
4354
+ "generated_token": "2"
4355
  }
4356
  }
4357
  {
 
4363
  ]
4364
  },
4365
  "predict": {
4366
+ "1": 0.9970000386238098,
4367
+ "2": 0.0019246629672124982,
4368
+ "3": 0.0010301978327333927
4369
  },
4370
  "sample": {
4371
  "messages": [
 
4407
  ]
4408
  },
4409
  "predict": {
4410
+ "1": 0.9737087488174438,
4411
+ "2": 0.017834099009633064,
4412
+ "3": 0.00842423178255558
4413
  },
4414
  "sample": {
4415
  "messages": [
 
4444
  }
4445
  {
4446
  "metric": {
4447
+ "acc": false,
4448
  "f1_macro": [
4449
  "3",
4450
+ "2"
4451
  ]
4452
  },
4453
  "predict": {
4454
+ "1": 0.03650171682238579,
4455
+ "2": 0.5709829330444336,
4456
+ "3": 0.39243048429489136
4457
  },
4458
  "sample": {
4459
  "messages": [
 
4483
  "prompt_len": 129,
4484
  "generated_len": 1,
4485
  "generated_cumulative_logprob": "TODO: calculate for hf model",
4486
+ "generated_token": "2"
4487
  }
4488
  }
4489
  {
 
4495
  ]
4496
  },
4497
  "predict": {
4498
+ "1": 0.10019335895776749,
4499
+ "2": 0.8389086723327637,
4500
+ "3": 0.060770343989133835
4501
  },
4502
  "sample": {
4503
  "messages": [
 
4532
  }
4533
  {
4534
  "metric": {
4535
+ "acc": true,
4536
  "f1_macro": [
4537
  "2",
4538
+ "2"
4539
  ]
4540
  },
4541
  "predict": {
4542
+ "1": 0.348142147064209,
4543
+ "2": 0.5065438151359558,
4544
+ "3": 0.14512723684310913
4545
  },
4546
  "sample": {
4547
  "messages": [
 
4571
  "prompt_len": 119,
4572
  "generated_len": 1,
4573
  "generated_cumulative_logprob": "TODO: calculate for hf model",
4574
+ "generated_token": "2"
4575
  }
4576
  }
4577
  {
 
4583
  ]
4584
  },
4585
  "predict": {
4586
+ "1": 0.921362578868866,
4587
+ "2": 0.07563004642724991,
4588
+ "3": 0.002932495204731822
4589
  },
4590
  "sample": {
4591
  "messages": [
 
4627
  ]
4628
  },
4629
  "predict": {
4630
+ "1": 0.2811756134033203,
4631
+ "2": 0.5253051519393921,
4632
+ "3": 0.19324898719787598
4633
  },
4634
  "sample": {
4635
  "messages": [
 
4671
  ]
4672
  },
4673
  "predict": {
4674
+ "1": 0.5177655220031738,
4675
+ "2": 0.3140406608581543,
4676
+ "3": 0.16809384524822235
4677
  },
4678
  "sample": {
4679
  "messages": [
 
4715
  ]
4716
  },
4717
  "predict": {
4718
+ "1": 0.029254857450723648,
4719
+ "2": 0.7544927597045898,
4720
+ "3": 0.21616579592227936
4721
  },
4722
  "sample": {
4723
  "messages": [
 
4759
  ]
4760
  },
4761
  "predict": {
4762
+ "1": 0.933957576751709,
4763
+ "2": 0.04649900645017624,
4764
+ "3": 0.019383670762181282
4765
  },
4766
  "sample": {
4767
  "messages": [
 
4803
  ]
4804
  },
4805
  "predict": {
4806
+ "1": 0.6896592378616333,
4807
+ "2": 0.17437316477298737,
4808
+ "3": 0.13580194115638733
4809
  },
4810
  "sample": {
4811
  "messages": [
 
4847
  ]
4848
  },
4849
  "predict": {
4850
+ "1": 0.004825746640563011,
4851
+ "2": 0.9196245074272156,
4852
+ "3": 0.07548737525939941
4853
  },
4854
  "sample": {
4855
  "messages": [
 
4891
  ]
4892
  },
4893
  "predict": {
4894
+ "1": 0.9969658255577087,
4895
+ "2": 0.0016984508838504553,
4896
+ "3": 0.0013227547751739621
4897
  },
4898
  "sample": {
4899
  "messages": [
 
4935
  ]
4936
  },
4937
  "predict": {
4938
+ "1": 0.9873858690261841,
4939
+ "2": 0.00854256097227335,
4940
+ "3": 0.004035220481455326
4941
  },
4942
  "sample": {
4943
  "messages": [
 
4979
  ]
4980
  },
4981
  "predict": {
4982
+ "1": 0.005040068179368973,
4983
+ "2": 0.8476091623306274,
4984
+ "3": 0.1472923755645752
4985
  },
4986
  "sample": {
4987
  "messages": [
 
5023
  ]
5024
  },
5025
  "predict": {
5026
+ "1": 0.9995957016944885,
5027
+ "2": 0.0002959250414278358,
5028
+ "3": 9.60727920755744e-05
5029
  },
5030
  "sample": {
5031
  "messages": [
 
5067
  ]
5068
  },
5069
  "predict": {
5070
+ "1": 0.013323570601642132,
5071
+ "2": 0.8243001103401184,
5072
+ "3": 0.162314310669899
5073
  },
5074
  "sample": {
5075
  "messages": [
 
5111
  ]
5112
  },
5113
  "predict": {
5114
+ "1": 0.9829668998718262,
5115
+ "2": 0.008504330180585384,
5116
+ "3": 0.008504330180585384
5117
  },
5118
  "sample": {
5119
  "messages": [
 
5155
  ]
5156
  },
5157
  "predict": {
5158
+ "1": 0.7294701933860779,
5159
+ "2": 0.14364118874073029,
5160
+ "3": 0.12676289677619934
5161
  },
5162
  "sample": {
5163
  "messages": [
 
5199
  ]
5200
  },
5201
  "predict": {
5202
+ "1": 0.9988341927528381,
5203
+ "2": 0.0006259960355237126,
5204
+ "3": 0.00043024038313888013
5205
  },
5206
  "sample": {
5207
  "messages": [
 
5243
  ]
5244
  },
5245
  "predict": {
5246
+ "1": 0.9976025223731995,
5247
+ "2": 0.0010308203054592013,
5248
+ "3": 0.0013235994847491384
5249
  },
5250
  "sample": {
5251
  "messages": [
 
5287
  ]
5288
  },
5289
  "predict": {
5290
+ "1": 0.0027506183832883835,
5291
+ "2": 0.9792879223823547,
5292
+ "3": 0.017936285585165024
5293
  },
5294
  "sample": {
5295
  "messages": [
 
5331
  ]
5332
  },
5333
  "predict": {
5334
+ "1": 0.8858155012130737,
5335
+ "2": 0.06416825950145721,
5336
+ "3": 0.049974292516708374
5337
  },
5338
  "sample": {
5339
  "messages": [
 
5375
  ]
5376
  },
5377
  "predict": {
5378
+ "1": 0.9976467490196228,
5379
+ "2": 0.0011681242613121867,
5380
+ "3": 0.0011681242613121867
5381
  },
5382
  "sample": {
5383
  "messages": [
 
5419
  ]
5420
  },
5421
  "predict": {
5422
+ "1": 0.9215928316116333,
5423
+ "2": 0.011601141653954983,
5424
+ "3": 0.06675996631383896
5425
  },
5426
  "sample": {
5427
  "messages": [
 
5463
  ]
5464
  },
5465
  "predict": {
5466
+ "1": 0.8699459433555603,
5467
+ "2": 0.08091757446527481,
5468
+ "3": 0.04907899722456932
5469
  },
5470
  "sample": {
5471
  "messages": [
 
5507
  ]
5508
  },
5509
  "predict": {
5510
+ "1": 0.981459379196167,
5511
+ "2": 0.01235475018620491,
5512
+ "3": 0.005835970398038626
5513
  },
5514
  "sample": {
5515
  "messages": [
 
5551
  ]
5552
  },
5553
  "predict": {
5554
+ "1": 0.0003639419737737626,
5555
+ "2": 0.9574170708656311,
5556
+ "3": 0.04206597059965134
5557
  },
5558
  "sample": {
5559
  "messages": [
 
5595
  ]
5596
  },
5597
  "predict": {
5598
+ "1": 0.0024682956282049417,
5599
+ "2": 0.9957815408706665,
5600
+ "3": 0.0016964332899078727
5601
  },
5602
  "sample": {
5603
  "messages": [
 
5632
  }
5633
  {
5634
  "metric": {
5635
+ "acc": false,
5636
  "f1_macro": [
5637
  "3",
5638
+ "1"
5639
  ]
5640
  },
5641
  "predict": {
5642
+ "1": 0.4017336964607239,
5643
+ "2": 0.24366381764411926,
5644
+ "3": 0.3545287549495697
5645
  },
5646
  "sample": {
5647
  "messages": [
 
5671
  "prompt_len": 120,
5672
  "generated_len": 1,
5673
  "generated_cumulative_logprob": "TODO: calculate for hf model",
5674
+ "generated_token": "1"
5675
  }
5676
  }
5677
  {
 
5683
  ]
5684
  },
5685
  "predict": {
5686
+ "1": 0.9453281760215759,
5687
+ "2": 0.03234735131263733,
5688
+ "3": 0.022231988608837128
5689
  },
5690
  "sample": {
5691
  "messages": [
 
5727
  ]
5728
  },
5729
  "predict": {
5730
+ "1": 0.07759241759777069,
5731
+ "2": 0.7361764311790466,
5732
+ "3": 0.18613454699516296
5733
  },
5734
  "sample": {
5735
  "messages": [
 
5771
  ]
5772
  },
5773
  "predict": {
5774
+ "1": 0.8957749605178833,
5775
+ "2": 0.0735296830534935,
5776
+ "3": 0.03065173141658306
5777
  },
5778
  "sample": {
5779
  "messages": [
 
5808
  }
5809
  {
5810
  "metric": {
5811
+ "acc": false,
5812
  "f1_macro": [
5813
  "2",
5814
+ "1"
5815
  ]
5816
  },
5817
  "predict": {
5818
+ "1": 0.7399768829345703,
5819
+ "2": 0.2402353137731552,
5820
+ "3": 0.019719716161489487
5821
  },
5822
  "sample": {
5823
  "messages": [
 
5847
  "prompt_len": 143,
5848
  "generated_len": 1,
5849
  "generated_cumulative_logprob": "TODO: calculate for hf model",
5850
+ "generated_token": "1"
5851
  }
5852
  }
5853
  {
 
5859
  ]
5860
  },
5861
  "predict": {
5862
+ "1": 0.9120930433273315,
5863
+ "2": 0.013010308146476746,
5864
+ "3": 0.07486915588378906
5865
  },
5866
  "sample": {
5867
  "messages": [
 
5903
  ]
5904
  },
5905
  "predict": {
5906
+ "1": 0.009534475393593311,
5907
+ "2": 0.9725428223609924,
5908
+ "3": 0.01781274378299713
5909
  },
5910
  "sample": {
5911
  "messages": [
 
5947
  ]
5948
  },
5949
  "predict": {
5950
+ "1": 0.7108290791511536,
5951
+ "2": 0.26149943470954895,
5952
+ "3": 0.027561835944652557
5953
  },
5954
  "sample": {
5955
  "messages": [
 
5991
  ]
5992
  },
5993
  "predict": {
5994
+ "1": 0.9836913347244263,
5995
+ "2": 0.00662806024774909,
5996
+ "3": 0.00964377075433731
5997
  },
5998
  "sample": {
5999
  "messages": [
 
6035
  ]
6036
  },
6037
  "predict": {
6038
+ "1": 0.262827068567276,
6039
+ "2": 0.18063820898532867,
6040
+ "3": 0.5564048886299133
6041
  },
6042
  "sample": {
6043
  "messages": [
 
6079
  ]
6080
  },
6081
  "predict": {
6082
+ "1": 0.9941277503967285,
6083
+ "2": 0.0021746456623077393,
6084
+ "3": 0.0035853844601660967
6085
  },
6086
  "sample": {
6087
  "messages": [
 
6123
  ]
6124
  },
6125
  "predict": {
6126
+ "1": 0.996992826461792,
6127
+ "2": 0.0010301903821527958,
6128
+ "3": 0.001924648997373879
6129
  },
6130
  "sample": {
6131
  "messages": [
 
6167
  ]
6168
  },
6169
  "predict": {
6170
+ "1": 0.04585421085357666,
6171
+ "2": 0.812785267829895,
6172
+ "3": 0.1412408947944641
6173
  },
6174
  "sample": {
6175
  "messages": [
 
6211
  ]
6212
  },
6213
  "predict": {
6214
+ "1": 0.807905912399292,
6215
+ "2": 0.1403929740190506,
6216
+ "3": 0.051647692918777466
6217
  },
6218
  "sample": {
6219
  "messages": [
 
6255
  ]
6256
  },
6257
  "predict": {
6258
+ "1": 0.9963781237602234,
6259
+ "2": 0.0027986213099211454,
6260
+ "3": 0.0008018183871172369
6261
  },
6262
  "sample": {
6263
  "messages": [
 
6299
  ]
6300
  },
6301
  "predict": {
6302
+ "1": 0.0018456815741956234,
6303
+ "2": 0.9560866951942444,
6304
+ "3": 0.04200751706957817
6305
  },
6306
  "sample": {
6307
  "messages": [
 
6343
  ]
6344
  },
6345
  "predict": {
6346
+ "1": 0.9878526926040649,
6347
+ "2": 0.010974053293466568,
6348
+ "3": 0.0011566565372049809
6349
  },
6350
  "sample": {
6351
  "messages": [
 
6387
  ]
6388
  },
6389
  "predict": {
6390
+ "1": 0.9896767735481262,
6391
+ "2": 0.006668389309197664,
6392
+ "3": 0.003569331718608737
6393
  },
6394
  "sample": {
6395
  "messages": [
 
6431
  ]
6432
  },
6433
  "predict": {
6434
+ "1": 0.9899300932884216,
6435
+ "2": 0.008564572781324387,
6436
+ "3": 0.0014882995747029781
6437
  },
6438
  "sample": {
6439
  "messages": [
 
6468
  }
6469
  {
6470
  "metric": {
6471
+ "acc": true,
6472
  "f1_macro": [
6473
  "2",
6474
+ "2"
6475
  ]
6476
  },
6477
  "predict": {
6478
+ "1": 0.06609950959682465,
6479
+ "2": 0.5534443855285645,
6480
+ "3": 0.380376398563385
6481
  },
6482
  "sample": {
6483
  "messages": [
 
6507
  "prompt_len": 133,
6508
  "generated_len": 1,
6509
  "generated_cumulative_logprob": "TODO: calculate for hf model",
6510
+ "generated_token": "2"
6511
  }
6512
  }
6513
  {
 
6519
  ]
6520
  },
6521
  "predict": {
6522
+ "1": 0.00039885262958705425,
6523
+ "2": 0.8171613812446594,
6524
+ "3": 0.18233336508274078
6525
  },
6526
  "sample": {
6527
  "messages": [
 
6563
  ]
6564
  },
6565
  "predict": {
6566
+ "1": 0.9892650842666626,
6567
+ "2": 0.006665615830570459,
6568
+ "3": 0.004042900633066893
6569
  },
6570
  "sample": {
6571
  "messages": [
 
6607
  ]
6608
  },
6609
  "predict": {
6610
+ "1": 0.9259400963783264,
6611
+ "2": 0.052237968891859055,
6612
+ "3": 0.021776024252176285
6613
  },
6614
  "sample": {
6615
  "messages": [
 
6651
  ]
6652
  },
6653
  "predict": {
6654
+ "1": 0.9232752919197083,
6655
+ "2": 0.052087631076574326,
6656
+ "3": 0.024604452773928642
6657
  },
6658
  "sample": {
6659
  "messages": [
 
6695
  ]
6696
  },
6697
  "predict": {
6698
+ "1": 0.9856587052345276,
6699
+ "2": 0.012407612055540085,
6700
+ "3": 0.0019027689704671502
6701
  },
6702
  "sample": {
6703
  "messages": [
 
6739
  ]
6740
  },
6741
  "predict": {
6742
+ "1": 0.8998776078224182,
6743
+ "2": 0.06518691778182983,
6744
+ "3": 0.034892041236162186
6745
  },
6746
  "sample": {
6747
  "messages": [
 
6783
  ]
6784
  },
6785
  "predict": {
6786
+ "1": 0.8059348464012146,
6787
+ "2": 0.10907141864299774,
6788
+ "3": 0.08494490385055542
6789
  },
6790
  "sample": {
6791
  "messages": [
 
6827
  ]
6828
  },
6829
  "predict": {
6830
+ "1": 0.7040882110595703,
6831
+ "2": 0.15710331499576569,
6832
+ "3": 0.13864317536354065
6833
  },
6834
  "sample": {
6835
  "messages": [
 
6871
  ]
6872
  },
6873
  "predict": {
6874
+ "1": 0.9878662824630737,
6875
+ "2": 0.003562802216038108,
6876
+ "3": 0.008546718396246433
6877
  },
6878
  "sample": {
6879
  "messages": [
 
6915
  ]
6916
  },
6917
  "predict": {
6918
+ "1": 0.04308432340621948,
6919
+ "2": 0.7636878490447998,
6920
+ "3": 0.1930905282497406
6921
  },
6922
  "sample": {
6923
  "messages": [
 
6959
  ]
6960
  },
6961
  "predict": {
6962
+ "1": 0.13272711634635925,
6963
+ "2": 0.19311684370040894,
6964
+ "3": 0.6740439534187317
6965
  },
6966
  "sample": {
6967
  "messages": [
 
7003
  ]
7004
  },
7005
  "predict": {
7006
+ "1": 0.26278257369995117,
7007
+ "2": 0.1806076318025589,
7008
+ "3": 0.5563106536865234
7009
  },
7010
  "sample": {
7011
  "messages": [
 
7047
  ]
7048
  },
7049
  "predict": {
7050
+ "1": 0.8022602200508118,
7051
+ "2": 0.12303059548139572,
7052
+ "3": 0.07462182641029358
7053
  },
7054
  "sample": {
7055
  "messages": [
 
7091
  ]
7092
  },
7093
  "predict": {
7094
+ "1": 0.06149691715836525,
7095
+ "2": 0.8489387035369873,
7096
+ "3": 0.08947747945785522
7097
  },
7098
  "sample": {
7099
  "messages": [
 
7135
  ]
7136
  },
7137
  "predict": {
7138
+ "1": 0.9564388990402222,
7139
+ "2": 0.03708516061306,
7140
+ "3": 0.0064444346353411674
7141
  },
7142
  "sample": {
7143
  "messages": [
 
7179
  ]
7180
  },
7181
  "predict": {
7182
+ "1": 0.9918093085289001,
7183
+ "2": 0.0035770228132605553,
7184
+ "3": 0.0045929886400699615
7185
  },
7186
  "sample": {
7187
  "messages": [
 
7223
  ]
7224
  },
7225
  "predict": {
7226
+ "1": 0.7902092933654785,
7227
+ "2": 0.19979619979858398,
7228
+ "3": 0.009947266429662704
7229
  },
7230
  "sample": {
7231
  "messages": [
 
7267
  ]
7268
  },
7269
  "predict": {
7270
+ "1": 0.4359055459499359,
7271
+ "2": 0.2995932102203369,
7272
+ "3": 0.26439008116722107
7273
  },
7274
  "sample": {
7275
  "messages": [
 
7311
  ]
7312
  },
7313
  "predict": {
7314
+ "1": 0.9979111552238464,
7315
+ "2": 0.00090997718507424,
7316
+ "3": 0.0011684338096529245
7317
  },
7318
  "sample": {
7319
  "messages": [
 
7355
  ]
7356
  },
7357
  "predict": {
7358
+ "1": 0.0045744976960122585,
7359
+ "2": 0.9878163933753967,
7360
+ "3": 0.007542070932686329
7361
  },
7362
  "sample": {
7363
  "messages": [
 
7399
  ]
7400
  },
7401
  "predict": {
7402
+ "1": 0.7596085667610168,
7403
+ "2": 0.09072230756282806,
7404
+ "3": 0.14957578480243683
7405
  },
7406
  "sample": {
7407
  "messages": [
 
7443
  ]
7444
  },
7445
  "predict": {
7446
+ "1": 0.6568360924720764,
7447
+ "2": 0.2738099992275238,
7448
+ "3": 0.06923001259565353
7449
  },
7450
  "sample": {
7451
  "messages": [
 
7487
  ]
7488
  },
7489
  "predict": {
7490
+ "1": 0.7170509696006775,
7491
+ "2": 0.2637883424758911,
7492
+ "3": 0.019108761101961136
7493
  },
7494
  "sample": {
7495
  "messages": [
 
7531
  ]
7532
  },
7533
  "predict": {
7534
+ "1": 0.002903394168242812,
7535
+ "2": 0.9122192859649658,
7536
+ "3": 0.08484961092472076
7537
  },
7538
  "sample": {
7539
  "messages": [
 
7575
  ]
7576
  },
7577
  "predict": {
7578
+ "1": 0.9978582262992859,
7579
+ "2": 0.001323938718996942,
7580
+ "3": 0.0008030094904825091
7581
  },
7582
  "sample": {
7583
  "messages": [
 
7619
  ]
7620
  },
7621
  "predict": {
7622
+ "1": 0.990522563457489,
7623
+ "2": 0.0027821743860840797,
7624
+ "3": 0.006674088537693024
7625
  },
7626
  "sample": {
7627
  "messages": [
 
7663
  ]
7664
  },
7665
  "predict": {
7666
+ "1": 0.9925897121429443,
7667
+ "2": 0.0059021539054811,
7668
+ "3": 0.0014922982081770897
7669
  },
7670
  "sample": {
7671
  "messages": [
 
7707
  ]
7708
  },
7709
  "predict": {
7710
+ "1": 0.9857420921325684,
7711
+ "2": 0.007526233326643705,
7712
+ "3": 0.006641877815127373
7713
  },
7714
  "sample": {
7715
  "messages": [
 
7744
  }
7745
  {
7746
  "metric": {
7747
+ "acc": false,
7748
  "f1_macro": [
7749
  "1",
7750
+ "2"
7751
  ]
7752
  },
7753
  "predict": {
7754
+ "1": 0.3446155786514282,
7755
+ "2": 0.5681750774383545,
7756
+ "3": 0.08713246881961823
7757
  },
7758
  "sample": {
7759
  "messages": [
 
7783
  "prompt_len": 87,
7784
  "generated_len": 1,
7785
  "generated_cumulative_logprob": "TODO: calculate for hf model",
7786
+ "generated_token": "2"
7787
  }
7788
  }
7789
  {
 
7795
  ]
7796
  },
7797
  "predict": {
7798
+ "1": 0.001031822874210775,
7799
+ "2": 0.9985727071762085,
7800
+ "3": 0.00037958641769364476
7801
  },
7802
  "sample": {
7803
  "messages": [
 
7832
  }
7833
  {
7834
  "metric": {
7835
+ "acc": true,
7836
  "f1_macro": [
7837
  "2",
7838
+ "2"
7839
  ]
7840
  },
7841
  "predict": {
7842
+ "1": 0.04464208334684372,
7843
+ "2": 0.698319673538208,
7844
+ "3": 0.2568974792957306
7845
  },
7846
  "sample": {
7847
  "messages": [
 
7871
  "prompt_len": 114,
7872
  "generated_len": 1,
7873
  "generated_cumulative_logprob": "TODO: calculate for hf model",
7874
+ "generated_token": "2"
7875
  }
7876
  }
7877
  {
 
7883
  ]
7884
  },
7885
  "predict": {
7886
+ "1": 0.0045158397406339645,
7887
+ "2": 0.9751498103141785,
7888
+ "3": 0.020238587632775307
7889
  },
7890
  "sample": {
7891
  "messages": [
 
7927
  ]
7928
  },
7929
  "predict": {
7930
+ "1": 0.887066125869751,
7931
+ "2": 0.030353732407093048,
7932
+ "3": 0.08250999450683594
7933
  },
7934
  "sample": {
7935
  "messages": [
 
7971
  ]
7972
  },
7973
  "predict": {
7974
+ "1": 0.752650797367096,
7975
+ "2": 0.16793909668922424,
7976
+ "3": 0.07932881265878677
7977
  },
7978
  "sample": {
7979
  "messages": [
 
8011
  "acc": false,
8012
  "f1_macro": [
8013
  "3",
8014
+ "2"
8015
  ]
8016
  },
8017
  "predict": {
8018
+ "1": 0.3630360960960388,
8019
+ "2": 0.5985453128814697,
8020
+ "3": 0.038263723254203796
8021
  },
8022
  "sample": {
8023
  "messages": [
 
8047
  "prompt_len": 145,
8048
  "generated_len": 1,
8049
  "generated_cumulative_logprob": "TODO: calculate for hf model",
8050
+ "generated_token": "2"
8051
  }
8052
  }
8053
  {
 
8059
  ]
8060
  },
8061
  "predict": {
8062
+ "1": 0.0003797942481469363,
8063
+ "2": 0.9991194605827332,
8064
+ "3": 0.0004876655002590269
8065
  },
8066
  "sample": {
8067
  "messages": [
 
8103
  ]
8104
  },
8105
  "predict": {
8106
+ "1": 0.9874229431152344,
8107
+ "2": 0.006653203163295984,
8108
+ "3": 0.005871430970728397
8109
  },
8110
  "sample": {
8111
  "messages": [
 
8147
  ]
8148
  },
8149
  "predict": {
8150
+ "1": 0.9850678443908691,
8151
+ "2": 0.005169161595404148,
8152
+ "3": 0.009657265618443489
8153
  },
8154
  "sample": {
8155
  "messages": [
 
8191
  ]
8192
  },
8193
  "predict": {
8194
+ "1": 0.9720292091369629,
8195
+ "2": 0.015711387619376183,
8196
+ "3": 0.012236041948199272
8197
  },
8198
  "sample": {
8199
  "messages": [
 
8235
  ]
8236
  },
8237
  "predict": {
8238
+ "1": 0.9478249549865723,
8239
+ "2": 0.019671479240059853,
8240
+ "3": 0.032432783395051956
8241
  },
8242
  "sample": {
8243
  "messages": [
 
8279
  ]
8280
  },
8281
  "predict": {
8282
+ "1": 0.0021104495972394943,
8283
+ "2": 0.9647808074951172,
8284
+ "3": 0.033012982457876205
8285
  },
8286
  "sample": {
8287
  "messages": [
 
8323
  ]
8324
  },
8325
  "predict": {
8326
+ "1": 0.1386866271495819,
8327
+ "2": 0.37698930501937866,
8328
+ "3": 0.48406386375427246
8329
  },
8330
  "sample": {
8331
  "messages": [
 
8367
  ]
8368
  },
8369
  "predict": {
8370
+ "1": 0.05184370279312134,
8371
+ "2": 0.7156802415847778,
8372
+ "3": 0.23234733939170837
8373
  },
8374
  "sample": {
8375
  "messages": [
 
8411
  ]
8412
  },
8413
  "predict": {
8414
+ "1": 0.9601175785064697,
8415
+ "2": 0.019926603883504868,
8416
+ "3": 0.019926603883504868
8417
  },
8418
  "sample": {
8419
  "messages": [
 
8455
  ]
8456
  },
8457
  "predict": {
8458
+ "1": 0.9432734251022339,
8459
+ "2": 0.04144454374909401,
8460
+ "3": 0.01524659525603056
8461
  },
8462
  "sample": {
8463
  "messages": [
 
8499
  ]
8500
  },
8501
  "predict": {
8502
+ "1": 0.0008018215303309262,
8503
+ "2": 0.9963819980621338,
8504
+ "3": 0.002798632252961397
8505
  },
8506
  "sample": {
8507
  "messages": [
 
8543
  ]
8544
  },
8545
  "predict": {
8546
+ "1": 0.9588665962219238,
8547
+ "2": 0.03281060978770256,
8548
+ "3": 0.008295821957290173
8549
  },
8550
  "sample": {
8551
  "messages": [
 
8587
  ]
8588
  },
8589
  "predict": {
8590
+ "1": 0.00012330948084127158,
8591
+ "2": 0.9991870522499084,
8592
+ "3": 0.0006262171664275229
8593
  },
8594
  "sample": {
8595
  "messages": [
 
8631
  ]
8632
  },
8633
  "predict": {
8634
+ "1": 0.7593835592269897,
8635
+ "2": 0.19200223684310913,
8636
+ "3": 0.04854576662182808
8637
  },
8638
  "sample": {
8639
  "messages": [
 
8675
  ]
8676
  },
8677
  "predict": {
8678
+ "1": 0.8733714818954468,
8679
+ "2": 0.063266821205616,
8680
+ "3": 0.063266821205616
8681
  },
8682
  "sample": {
8683
  "messages": [
 
8719
  ]
8720
  },
8721
  "predict": {
8722
+ "1": 0.8831384181976318,
8723
+ "2": 0.07249242067337036,
8724
+ "3": 0.04396887123584747
8725
  },
8726
  "sample": {
8727
  "messages": [
 
8763
  ]
8764
  },
8765
  "predict": {
8766
+ "1": 0.9881987571716309,
8767
+ "2": 0.0058760447427630424,
8768
+ "3": 0.0058760447427630424
8769
  },
8770
  "sample": {
8771
  "messages": [
 
8807
  ]
8808
  },
8809
  "predict": {
8810
+ "1": 0.0011606181506067514,
8811
+ "2": 0.9912360906600952,
8812
+ "3": 0.007568180561065674
8813
  },
8814
  "sample": {
8815
  "messages": [
 
8851
  ]
8852
  },
8853
  "predict": {
8854
+ "1": 0.04855668172240257,
8855
+ "2": 0.8606877326965332,
8856
+ "3": 0.09071581810712814
8857
  },
8858
  "sample": {
8859
  "messages": [
 
8895
  ]
8896
  },
8897
  "predict": {
8898
+ "1": 0.9889312982559204,
8899
+ "2": 0.0096951425075531,
8900
+ "3": 0.0013120947405695915
8901
  },
8902
  "sample": {
8903
  "messages": [
 
8939
  ]
8940
  },
8941
  "predict": {
8942
+ "1": 0.9905210733413696,
8943
+ "2": 0.0027821699623018503,
8944
+ "3": 0.006674078293144703
8945
  },
8946
  "sample": {
8947
  "messages": [
 
8983
  ]
8984
  },
8985
  "predict": {
8986
+ "1": 0.8997890949249268,
8987
+ "2": 0.08369342237710953,
8988
+ "3": 0.016480213031172752
8989
  },
8990
  "sample": {
8991
  "messages": [
 
9027
  ]
9028
  },
9029
  "predict": {
9030
+ "1": 0.09234262257814407,
9031
+ "2": 0.7731752991676331,
9032
+ "3": 0.13435770571231842
9033
  },
9034
  "sample": {
9035
  "messages": [
 
9071
  ]
9072
  },
9073
  "predict": {
9074
+ "1": 0.9953448176383972,
9075
+ "2": 0.002467213198542595,
9076
+ "3": 0.0021773080807179213
9077
  },
9078
  "sample": {
9079
  "messages": [
 
9115
  ]
9116
  },
9117
  "predict": {
9118
+ "1": 0.9589095711708069,
9119
+ "2": 0.01207089051604271,
9120
+ "3": 0.028956560418009758
9121
  },
9122
  "sample": {
9123
  "messages": [
 
9159
  ]
9160
  },
9161
  "predict": {
9162
+ "1": 0.0021383720450103283,
9163
+ "2": 0.977545440196991,
9164
+ "3": 0.020288309082388878
9165
  },
9166
  "sample": {
9167
  "messages": [
 
9203
  ]
9204
  },
9205
  "predict": {
9206
+ "1": 0.9794090390205383,
9207
+ "2": 0.013970519416034222,
9208
+ "3": 0.0065992060117423534
9209
  },
9210
  "sample": {
9211
  "messages": [
 
9243
  "acc": false,
9244
  "f1_macro": [
9245
  "3",
9246
+ "2"
9247
  ]
9248
  },
9249
  "predict": {
9250
+ "1": 0.3513769209384918,
9251
+ "2": 0.5793225765228271,
9252
+ "3": 0.06919021904468536
9253
  },
9254
  "sample": {
9255
  "messages": [
 
9279
  "prompt_len": 187,
9280
  "generated_len": 1,
9281
  "generated_cumulative_logprob": "TODO: calculate for hf model",
9282
+ "generated_token": "2"
9283
  }
9284
  }
9285
  {
 
9291
  ]
9292
  },
9293
  "predict": {
9294
+ "1": 0.99443119764328,
9295
+ "2": 0.0014950667973607779,
9296
+ "3": 0.004064013250172138
9297
  },
9298
  "sample": {
9299
  "messages": [
 
9335
  ]
9336
  },
9337
  "predict": {
9338
+ "1": 0.033020373433828354,
9339
+ "2": 0.8516066074371338,
9340
+ "3": 0.11525242030620575
9341
  },
9342
  "sample": {
9343
  "messages": [
 
9379
  ]
9380
  },
9381
  "predict": {
9382
+ "1": 0.9939881563186646,
9383
+ "2": 0.001918848603963852,
9384
+ "3": 0.004062202293425798
9385
  },
9386
  "sample": {
9387
  "messages": [
 
9423
  ]
9424
  },
9425
  "predict": {
9426
+ "1": 0.9967954754829407,
9427
+ "2": 0.0024708090350031853,
9428
+ "3": 0.0007078985800035298
9429
  },
9430
  "sample": {
9431
  "messages": [
 
9467
  ]
9468
  },
9469
  "predict": {
9470
+ "1": 0.9223564863204956,
9471
+ "2": 0.03156130388379097,
9472
+ "3": 0.04592142254114151
9473
  },
9474
  "sample": {
9475
  "messages": [
 
9511
  ]
9512
  },
9513
  "predict": {
9514
+ "1": 0.6097311973571777,
9515
+ "2": 0.13604941964149475,
9516
+ "3": 0.25417378544807434
9517
  },
9518
  "sample": {
9519
  "messages": [
 
9555
  ]
9556
  },
9557
  "predict": {
9558
+ "1": 0.6044155359268188,
9559
+ "2": 0.17316794395446777,
9560
+ "3": 0.22235207259655
9561
  },
9562
  "sample": {
9563
  "messages": [
 
9599
  ]
9600
  },
9601
  "predict": {
9602
+ "1": 0.9965786337852478,
9603
+ "2": 0.0016977912746369839,
9604
+ "3": 0.0014982953434810042
9605
  },
9606
  "sample": {
9607
  "messages": [
 
9643
  ]
9644
  },
9645
  "predict": {
9646
+ "1": 0.3261321485042572,
9647
+ "2": 0.5377010107040405,
9648
+ "3": 0.13595211505889893
9649
  },
9650
  "sample": {
9651
  "messages": [
llmtf_eval/darumeru_RCB_params.jsonl CHANGED
@@ -1,7 +1,7 @@
1
  {
2
  "custom_generation_config": null,
3
  "model_params": {
4
- "model_name_or_path": "/scratch/tikhomirov/workdir/data/models/ruadapt_qwen2.5_7B_ext_u48_full_two_stage_lr5e4_peft_mlp_32_32_lm_head_lora_bs256_as1.5_pv14/simpo2",
5
  "generation_config": {
6
  "bos_token_id": 147075,
7
  "do_sample": true,
 
1
  {
2
  "custom_generation_config": null,
3
  "model_params": {
4
+ "model_name_or_path": "/workdir/data/models/qwen/ruadapt_qwen2.5_7B_ext_u48_part1-2_lr5e4_peft_mlp_32_32_bs128_as1.5_pv8_ft0_as1.35_kto1_as0.75_simpo2_as1.0",
5
  "generation_config": {
6
  "bos_token_id": 147075,
7
  "do_sample": true,
llmtf_eval/darumeru_RCB_total.jsonl CHANGED
@@ -2,7 +2,7 @@
2
  "task_name": "darumeru/RCB",
3
  "results": {
4
  "acc": 0.5863636363636363,
5
- "f1_macro": 0.520344156087331
6
  },
7
- "leaderboard_result": 0.5533538962254836
8
  }
 
2
  "task_name": "darumeru/RCB",
3
  "results": {
4
  "acc": 0.5863636363636363,
5
+ "f1_macro": 0.5032640286161413
6
  },
7
+ "leaderboard_result": 0.5448138324898888
8
  }
llmtf_eval/darumeru_RWSD.jsonl CHANGED
@@ -3,8 +3,8 @@
3
  "acc": true
4
  },
5
  "predict": {
6
- "Да": 0.032863784581422806,
7
- "Нет": 0.960420548915863
8
  },
9
  "sample": {
10
  "messages": [
@@ -42,8 +42,8 @@
42
  "acc": false
43
  },
44
  "predict": {
45
- "Да": 0.9371574521064758,
46
- "Нет": 0.05991046875715256
47
  },
48
  "sample": {
49
  "messages": [
@@ -81,8 +81,8 @@
81
  "acc": true
82
  },
83
  "predict": {
84
- "Да": 0.9854857921600342,
85
- "Нет": 0.01094775926321745
86
  },
87
  "sample": {
88
  "messages": [
@@ -120,8 +120,8 @@
120
  "acc": true
121
  },
122
  "predict": {
123
- "Да": 0.986465334892273,
124
- "Нет": 0.010958640836179256
125
  },
126
  "sample": {
127
  "messages": [
@@ -159,8 +159,8 @@
159
  "acc": false
160
  },
161
  "predict": {
162
- "Да": 0.7939510941505432,
163
- "Нет": 0.20074227452278137
164
  },
165
  "sample": {
166
  "messages": [
@@ -198,8 +198,8 @@
198
  "acc": false
199
  },
200
  "predict": {
201
- "Да": 0.9801527857780457,
202
- "Нет": 0.01584269292652607
203
  },
204
  "sample": {
205
  "messages": [
@@ -237,8 +237,8 @@
237
  "acc": true
238
  },
239
  "predict": {
240
- "Да": 0.9867241978645325,
241
- "Нет": 0.010961515828967094
242
  },
243
  "sample": {
244
  "messages": [
@@ -276,8 +276,8 @@
276
  "acc": false
277
  },
278
  "predict": {
279
- "Да": 0.6746264100074768,
280
- "Нет": 0.2190191149711609
281
  },
282
  "sample": {
283
  "messages": [
@@ -315,8 +315,8 @@
315
  "acc": false
316
  },
317
  "predict": {
318
- "Да": 0.522964358329773,
319
- "Нет": 0.4615144431591034
320
  },
321
  "sample": {
322
  "messages": [
@@ -354,8 +354,8 @@
354
  "acc": true
355
  },
356
  "predict": {
357
- "Да": 0.6992032527923584,
358
- "Нет": 0.2914712727069855
359
  },
360
  "sample": {
361
  "messages": [
@@ -390,11 +390,11 @@
390
  }
391
  {
392
  "metric": {
393
- "acc": true
394
  },
395
  "predict": {
396
- "Да": 0.5266246795654297,
397
- "Нет": 0.4647446572780609
398
  },
399
  "sample": {
400
  "messages": [
@@ -424,7 +424,7 @@
424
  "prompt_len": 143,
425
  "generated_len": 1,
426
  "generated_cumulative_logprob": "TODO: calculate for hf model",
427
- "generated_token": " Да"
428
  }
429
  }
430
  {
@@ -432,8 +432,8 @@
432
  "acc": false
433
  },
434
  "predict": {
435
- "Да": 0.8775055408477783,
436
- "Нет": 0.1187574565410614
437
  },
438
  "sample": {
439
  "messages": [
@@ -471,8 +471,8 @@
471
  "acc": false
472
  },
473
  "predict": {
474
- "Да": 0.8865439891815186,
475
- "Нет": 0.10588258504867554
476
  },
477
  "sample": {
478
  "messages": [
@@ -510,8 +510,8 @@
510
  "acc": true
511
  },
512
  "predict": {
513
- "Да": 0.9848932027816772,
514
- "Нет": 0.012397975660860538
515
  },
516
  "sample": {
517
  "messages": [
@@ -549,8 +549,8 @@
549
  "acc": false
550
  },
551
  "predict": {
552
- "Да": 0.9760686159133911,
553
- "Нет": 0.020257657393813133
554
  },
555
  "sample": {
556
  "messages": [
@@ -588,8 +588,8 @@
588
  "acc": false
589
  },
590
  "predict": {
591
- "Да": 0.242937833070755,
592
- "Нет": 0.7483012080192566
593
  },
594
  "sample": {
595
  "messages": [
@@ -627,8 +627,8 @@
627
  "acc": true
628
  },
629
  "predict": {
630
- "Да": 0.3468029201030731,
631
- "Нет": 0.6479131579399109
632
  },
633
  "sample": {
634
  "messages": [
@@ -666,8 +666,8 @@
666
  "acc": false
667
  },
668
  "predict": {
669
- "Да": 0.5013747215270996,
670
- "Нет": 0.162772536277771
671
  },
672
  "sample": {
673
  "messages": [
@@ -705,8 +705,8 @@
705
  "acc": true
706
  },
707
  "predict": {
708
- "Да": 0.7420929670333862,
709
- "Нет": 0.24092231690883636
710
  },
711
  "sample": {
712
  "messages": [
@@ -744,8 +744,8 @@
744
  "acc": true
745
  },
746
  "predict": {
747
- "Да": 0.9416826367378235,
748
- "Нет": 0.053126104176044464
749
  },
750
  "sample": {
751
  "messages": [
@@ -783,8 +783,8 @@
783
  "acc": false
784
  },
785
  "predict": {
786
- "Да": 0.24287085235118866,
787
- "Нет": 0.748094916343689
788
  },
789
  "sample": {
790
  "messages": [
@@ -822,8 +822,8 @@
822
  "acc": false
823
  },
824
  "predict": {
825
- "Да": 0.8775652647018433,
826
- "Нет": 0.11876554787158966
827
  },
828
  "sample": {
829
  "messages": [
@@ -858,11 +858,11 @@
858
  }
859
  {
860
  "metric": {
861
- "acc": false
862
  },
863
  "predict": {
864
- "Да": 0.5893592238426208,
865
- "Нет": 0.4050602912902832
866
  },
867
  "sample": {
868
  "messages": [
@@ -892,7 +892,7 @@
892
  "prompt_len": 123,
893
  "generated_len": 1,
894
  "generated_cumulative_logprob": "TODO: calculate for hf model",
895
- "generated_token": " Да"
896
  }
897
  }
898
  {
@@ -900,8 +900,8 @@
900
  "acc": false
901
  },
902
  "predict": {
903
- "Да": 0.8630791306495667,
904
- "Нет": 0.13235747814178467
905
  },
906
  "sample": {
907
  "messages": [
@@ -939,8 +939,8 @@
939
  "acc": false
940
  },
941
  "predict": {
942
- "Да": 0.8480771780014038,
943
- "Нет": 0.14737370610237122
944
  },
945
  "sample": {
946
  "messages": [
@@ -978,8 +978,8 @@
978
  "acc": false
979
  },
980
  "predict": {
981
- "Да": 0.9694455862045288,
982
- "Нет": 0.02583484910428524
983
  },
984
  "sample": {
985
  "messages": [
@@ -1017,8 +1017,8 @@
1017
  "acc": true
1018
  },
1019
  "predict": {
1020
- "Да": 0.06725172698497772,
1021
- "Нет": 0.9283813834190369
1022
  },
1023
  "sample": {
1024
  "messages": [
@@ -1056,8 +1056,8 @@
1056
  "acc": false
1057
  },
1058
  "predict": {
1059
- "Да": 0.38966134190559387,
1060
- "Нет": 0.44154417514801025
1061
  },
1062
  "sample": {
1063
  "messages": [
@@ -1095,8 +1095,8 @@
1095
  "acc": true
1096
  },
1097
  "predict": {
1098
- "Да": 0.9259219169616699,
1099
- "Нет": 0.05919220671057701
1100
  },
1101
  "sample": {
1102
  "messages": [
@@ -1134,8 +1134,8 @@
1134
  "acc": false
1135
  },
1136
  "predict": {
1137
- "Да": 0.9430623054504395,
1138
- "Нет": 0.05320393666625023
1139
  },
1140
  "sample": {
1141
  "messages": [
@@ -1173,8 +1173,8 @@
1173
  "acc": true
1174
  },
1175
  "predict": {
1176
- "Да": 0.14642727375030518,
1177
- "Нет": 0.8426308035850525
1178
  },
1179
  "sample": {
1180
  "messages": [
@@ -1212,8 +1212,8 @@
1212
  "acc": false
1213
  },
1214
  "predict": {
1215
- "Да": 0.9503581523895264,
1216
- "Нет": 0.04731554538011551
1217
  },
1218
  "sample": {
1219
  "messages": [
@@ -1251,8 +1251,8 @@
1251
  "acc": true
1252
  },
1253
  "predict": {
1254
- "Да": 0.9854260683059692,
1255
- "Нет": 0.012404683977365494
1256
  },
1257
  "sample": {
1258
  "messages": [
@@ -1287,11 +1287,11 @@
1287
  }
1288
  {
1289
  "metric": {
1290
- "acc": true
1291
  },
1292
  "predict": {
1293
- "Да": 0.7919309735298157,
1294
- "Нет": 0.20023150742053986
1295
  },
1296
  "sample": {
1297
  "messages": [
@@ -1321,7 +1321,7 @@
1321
  "prompt_len": 140,
1322
  "generated_len": 1,
1323
  "generated_cumulative_logprob": "TODO: calculate for hf model",
1324
- "generated_token": " Да"
1325
  }
1326
  }
1327
  {
@@ -1329,8 +1329,8 @@
1329
  "acc": false
1330
  },
1331
  "predict": {
1332
- "Да": 0.910967230796814,
1333
- "Нет": 0.08473315089941025
1334
  },
1335
  "sample": {
1336
  "messages": [
@@ -1368,8 +1368,8 @@
1368
  "acc": false
1369
  },
1370
  "predict": {
1371
- "Да": 0.9060622453689575,
1372
- "Нет": 0.08427691459655762
1373
  },
1374
  "sample": {
1375
  "messages": [
@@ -1407,8 +1407,8 @@
1407
  "acc": true
1408
  },
1409
  "predict": {
1410
- "Да": 0.6469748020172119,
1411
- "Нет": 0.3463006615638733
1412
  },
1413
  "sample": {
1414
  "messages": [
@@ -1446,8 +1446,8 @@
1446
  "acc": true
1447
  },
1448
  "predict": {
1449
- "Да": 0.25853535532951355,
1450
- "Нет": 0.620194137096405
1451
  },
1452
  "sample": {
1453
  "messages": [
@@ -1485,8 +1485,8 @@
1485
  "acc": true
1486
  },
1487
  "predict": {
1488
- "Да": 0.13199639320373535,
1489
- "Нет": 0.8607245683670044
1490
  },
1491
  "sample": {
1492
  "messages": [
@@ -1524,8 +1524,8 @@
1524
  "acc": false
1525
  },
1526
  "predict": {
1527
- "Да": 0.7227441072463989,
1528
- "Нет": 0.2658827304840088
1529
  },
1530
  "sample": {
1531
  "messages": [
@@ -1560,11 +1560,11 @@
1560
  }
1561
  {
1562
  "metric": {
1563
- "acc": true
1564
  },
1565
  "predict": {
1566
- "Да": 0.40283966064453125,
1567
- "Нет": 0.5861282348632812
1568
  },
1569
  "sample": {
1570
  "messages": [
@@ -1594,7 +1594,7 @@
1594
  "prompt_len": 133,
1595
  "generated_len": 1,
1596
  "generated_cumulative_logprob": "TODO: calculate for hf model",
1597
- "generated_token": " Нет"
1598
  }
1599
  }
1600
  {
@@ -1602,8 +1602,8 @@
1602
  "acc": false
1603
  },
1604
  "predict": {
1605
- "Да": 0.8903025984764099,
1606
- "Нет": 0.1063314825296402
1607
  },
1608
  "sample": {
1609
  "messages": [
@@ -1641,8 +1641,8 @@
1641
  "acc": true
1642
  },
1643
  "predict": {
1644
- "Да": 0.9681287407875061,
1645
- "Нет": 0.029234955087304115
1646
  },
1647
  "sample": {
1648
  "messages": [
@@ -1680,8 +1680,8 @@
1680
  "acc": true
1681
  },
1682
  "predict": {
1683
- "Да": 0.9937479496002197,
1684
- "Нет": 0.0031628820579499006
1685
  },
1686
  "sample": {
1687
  "messages": [
@@ -1719,8 +1719,8 @@
1719
  "acc": false
1720
  },
1721
  "predict": {
1722
- "Да": 0.9675365686416626,
1723
- "Нет": 0.029217073693871498
1724
  },
1725
  "sample": {
1726
  "messages": [
@@ -1758,8 +1758,8 @@
1758
  "acc": false
1759
  },
1760
  "predict": {
1761
- "Да": 0.8741616606712341,
1762
- "Нет": 0.11830490827560425
1763
  },
1764
  "sample": {
1765
  "messages": [
@@ -1797,8 +1797,8 @@
1797
  "acc": true
1798
  },
1799
  "predict": {
1800
- "Да": 0.7925537824630737,
1801
- "Нет": 0.20038898289203644
1802
  },
1803
  "sample": {
1804
  "messages": [
@@ -1836,8 +1836,8 @@
1836
  "acc": true
1837
  },
1838
  "predict": {
1839
- "Да": 0.019403239712119102,
1840
- "Нет": 0.9349005222320557
1841
  },
1842
  "sample": {
1843
  "messages": [
@@ -1875,8 +1875,8 @@
1875
  "acc": true
1876
  },
1877
  "predict": {
1878
- "Да": 0.11796693503856659,
1879
- "Нет": 0.8716643452644348
1880
  },
1881
  "sample": {
1882
  "messages": [
@@ -1914,8 +1914,8 @@
1914
  "acc": false
1915
  },
1916
  "predict": {
1917
- "Да": 0.7912249565124512,
1918
- "Нет": 0.20005299150943756
1919
  },
1920
  "sample": {
1921
  "messages": [
@@ -1953,8 +1953,8 @@
1953
  "acc": true
1954
  },
1955
  "predict": {
1956
- "Да": 0.9463266730308533,
1957
- "Нет": 0.04711483046412468
1958
  },
1959
  "sample": {
1960
  "messages": [
@@ -1992,8 +1992,8 @@
1992
  "acc": false
1993
  },
1994
  "predict": {
1995
- "Да": 0.832128643989563,
1996
- "Нет": 0.16385583579540253
1997
  },
1998
  "sample": {
1999
  "messages": [
@@ -2031,8 +2031,8 @@
2031
  "acc": true
2032
  },
2033
  "predict": {
2034
- "Да": 0.014033690094947815,
2035
- "Нет": 0.9838376641273499
2036
  },
2037
  "sample": {
2038
  "messages": [
@@ -2070,8 +2070,8 @@
2070
  "acc": true
2071
  },
2072
  "predict": {
2073
- "Да": 0.9858428835868835,
2074
- "Нет": 0.010951725766062737
2075
  },
2076
  "sample": {
2077
  "messages": [
@@ -2109,8 +2109,8 @@
2109
  "acc": false
2110
  },
2111
  "predict": {
2112
- "Да": 0.8302971124649048,
2113
- "Нет": 0.16349518299102783
2114
  },
2115
  "sample": {
2116
  "messages": [
@@ -2148,8 +2148,8 @@
2148
  "acc": true
2149
  },
2150
  "predict": {
2151
- "Да": 0.9885531663894653,
2152
- "Нет": 0.007547696121037006
2153
  },
2154
  "sample": {
2155
  "messages": [
@@ -2187,8 +2187,8 @@
2187
  "acc": false
2188
  },
2189
  "predict": {
2190
- "Да": 0.2920709252357483,
2191
- "Нет": 0.7006417512893677
2192
  },
2193
  "sample": {
2194
  "messages": [
@@ -2223,11 +2223,11 @@
2223
  }
2224
  {
2225
  "metric": {
2226
- "acc": true
2227
  },
2228
  "predict": {
2229
- "Да": 0.6678000688552856,
2230
- "Нет": 0.2168029397726059
2231
  },
2232
  "sample": {
2233
  "messages": [
@@ -2257,7 +2257,7 @@
2257
  "prompt_len": 235,
2258
  "generated_len": 1,
2259
  "generated_cumulative_logprob": "TODO: calculate for hf model",
2260
- "generated_token": " Да"
2261
  }
2262
  }
2263
  {
@@ -2265,8 +2265,8 @@
2265
  "acc": false
2266
  },
2267
  "predict": {
2268
- "Да": 0.7976894974708557,
2269
- "Нет": 0.17798858880996704
2270
  },
2271
  "sample": {
2272
  "messages": [
@@ -2304,8 +2304,8 @@
2304
  "acc": true
2305
  },
2306
  "predict": {
2307
- "Да": 0.07527783513069153,
2308
- "Нет": 0.9170718193054199
2309
  },
2310
  "sample": {
2311
  "messages": [
@@ -2340,11 +2340,11 @@
2340
  }
2341
  {
2342
  "metric": {
2343
- "acc": false
2344
  },
2345
  "predict": {
2346
- "Да": 0.37255871295928955,
2347
- "Нет": 0.6142454743385315
2348
  },
2349
  "sample": {
2350
  "messages": [
@@ -2374,7 +2374,7 @@
2374
  "prompt_len": 104,
2375
  "generated_len": 1,
2376
  "generated_cumulative_logprob": "TODO: calculate for hf model",
2377
- "generated_token": " Нет"
2378
  }
2379
  }
2380
  {
@@ -2382,8 +2382,8 @@
2382
  "acc": false
2383
  },
2384
  "predict": {
2385
- "Да": 0.9293378591537476,
2386
- "Нет": 0.06732100993394852
2387
  },
2388
  "sample": {
2389
  "messages": [
@@ -2421,8 +2421,8 @@
2421
  "acc": true
2422
  },
2423
  "predict": {
2424
- "Да": 0.04727458953857422,
2425
- "Нет": 0.9495355486869812
2426
  },
2427
  "sample": {
2428
  "messages": [
@@ -2460,8 +2460,8 @@
2460
  "acc": false
2461
  },
2462
  "predict": {
2463
- "Да": 0.025871502235531807,
2464
- "Нет": 0.9708210229873657
2465
  },
2466
  "sample": {
2467
  "messages": [
@@ -2499,8 +2499,8 @@
2499
  "acc": false
2500
  },
2501
  "predict": {
2502
- "Да": 0.9473260045051575,
2503
- "Нет": 0.04716458544135094
2504
  },
2505
  "sample": {
2506
  "messages": [
@@ -2538,8 +2538,8 @@
2538
  "acc": false
2539
  },
2540
  "predict": {
2541
- "Да": 0.9853531718254089,
2542
- "Нет": 0.009660063311457634
2543
  },
2544
  "sample": {
2545
  "messages": [
@@ -2577,8 +2577,8 @@
2577
  "acc": true
2578
  },
2579
  "predict": {
2580
- "Да": 0.9712432026863098,
2581
- "Нет": 0.022841451689600945
2582
  },
2583
  "sample": {
2584
  "messages": [
@@ -2613,11 +2613,11 @@
2613
  }
2614
  {
2615
  "metric": {
2616
- "acc": false
2617
  },
2618
  "predict": {
2619
- "Да": 0.7352510690689087,
2620
- "Нет": 0.07749488949775696
2621
  },
2622
  "sample": {
2623
  "messages": [
@@ -2647,16 +2647,16 @@
2647
  "prompt_len": 168,
2648
  "generated_len": 1,
2649
  "generated_cumulative_logprob": "TODO: calculate for hf model",
2650
- "generated_token": " Да"
2651
  }
2652
  }
2653
  {
2654
  "metric": {
2655
- "acc": true
2656
  },
2657
  "predict": {
2658
- "Да": 0.4624602794647217,
2659
- "Нет": 0.524036169052124
2660
  },
2661
  "sample": {
2662
  "messages": [
@@ -2686,7 +2686,7 @@
2686
  "prompt_len": 118,
2687
  "generated_len": 1,
2688
  "generated_cumulative_logprob": "TODO: calculate for hf model",
2689
- "generated_token": " Нет"
2690
  }
2691
  }
2692
  {
@@ -2694,8 +2694,8 @@
2694
  "acc": false
2695
  },
2696
  "predict": {
2697
- "Да": 0.970051646232605,
2698
- "Нет": 0.025851000100374222
2699
  },
2700
  "sample": {
2701
  "messages": [
@@ -2733,8 +2733,8 @@
2733
  "acc": false
2734
  },
2735
  "predict": {
2736
- "Да": 0.10544466227293015,
2737
- "Нет": 0.8828773498535156
2738
  },
2739
  "sample": {
2740
  "messages": [
@@ -2772,8 +2772,8 @@
2772
  "acc": true
2773
  },
2774
  "predict": {
2775
- "Да": 0.9641790986061096,
2776
- "Нет": 0.032992392778396606
2777
  },
2778
  "sample": {
2779
  "messages": [
@@ -2811,8 +2811,8 @@
2811
  "acc": true
2812
  },
2813
  "predict": {
2814
- "Да": 0.7006149888038635,
2815
- "Нет": 0.2920597493648529
2816
  },
2817
  "sample": {
2818
  "messages": [
@@ -2850,8 +2850,8 @@
2850
  "acc": true
2851
  },
2852
  "predict": {
2853
- "Да": 0.3749728798866272,
2854
- "Нет": 0.6182257533073425
2855
  },
2856
  "sample": {
2857
  "messages": [
@@ -2889,8 +2889,8 @@
2889
  "acc": false
2890
  },
2891
  "predict": {
2892
- "Да": 0.9091452956199646,
2893
- "Нет": 0.08456367999315262
2894
  },
2895
  "sample": {
2896
  "messages": [
@@ -2928,8 +2928,8 @@
2928
  "acc": true
2929
  },
2930
  "predict": {
2931
- "Да": 0.981313943862915,
2932
- "Нет": 0.013997690752148628
2933
  },
2934
  "sample": {
2935
  "messages": [
@@ -2967,8 +2967,8 @@
2967
  "acc": true
2968
  },
2969
  "predict": {
2970
- "Да": 0.7885371446609497,
2971
- "Нет": 0.19937340915203094
2972
  },
2973
  "sample": {
2974
  "messages": [
@@ -3003,11 +3003,11 @@
3003
  }
3004
  {
3005
  "metric": {
3006
- "acc": false
3007
  },
3008
  "predict": {
3009
- "Да": 0.48503968119621277,
3010
- "Нет": 0.3333625793457031
3011
  },
3012
  "sample": {
3013
  "messages": [
@@ -3037,7 +3037,7 @@
3037
  "prompt_len": 185,
3038
  "generated_len": 1,
3039
  "generated_cumulative_logprob": "TODO: calculate for hf model",
3040
- "generated_token": " Да"
3041
  }
3042
  }
3043
  {
@@ -3045,8 +3045,8 @@
3045
  "acc": true
3046
  },
3047
  "predict": {
3048
- "Да": 0.6606457233428955,
3049
- "Нет": 0.3120669722557068
3050
  },
3051
  "sample": {
3052
  "messages": [
@@ -3084,8 +3084,8 @@
3084
  "acc": true
3085
  },
3086
  "predict": {
3087
- "Да": 0.8993855714797974,
3088
- "Нет": 0.09479454159736633
3089
  },
3090
  "sample": {
3091
  "messages": [
@@ -3123,8 +3123,8 @@
3123
  "acc": true
3124
  },
3125
  "predict": {
3126
- "Да": 0.9123592972755432,
3127
- "Нет": 0.07489100843667984
3128
  },
3129
  "sample": {
3130
  "messages": [
@@ -3162,8 +3162,8 @@
3162
  "acc": false
3163
  },
3164
  "predict": {
3165
- "Да": 0.9777423739433289,
3166
- "Нет": 0.02029239386320114
3167
  },
3168
  "sample": {
3169
  "messages": [
@@ -3201,8 +3201,8 @@
3201
  "acc": true
3202
  },
3203
  "predict": {
3204
- "Да": 0.9744960069656372,
3205
- "Нет": 0.02291795052587986
3206
  },
3207
  "sample": {
3208
  "messages": [
@@ -3237,11 +3237,11 @@
3237
  }
3238
  {
3239
  "metric": {
3240
- "acc": true
3241
  },
3242
  "predict": {
3243
- "Да": 0.8751058578491211,
3244
- "Нет": 0.11843269318342209
3245
  },
3246
  "sample": {
3247
  "messages": [
@@ -3271,7 +3271,7 @@
3271
  "prompt_len": 124,
3272
  "generated_len": 1,
3273
  "generated_cumulative_logprob": "TODO: calculate for hf model",
3274
- "generated_token": " Да"
3275
  }
3276
  }
3277
  {
@@ -3279,8 +3279,8 @@
3279
  "acc": false
3280
  },
3281
  "predict": {
3282
- "Да": 0.9587691426277161,
3283
- "Нет": 0.03717551380395889
3284
  },
3285
  "sample": {
3286
  "messages": [
@@ -3318,8 +3318,8 @@
3318
  "acc": true
3319
  },
3320
  "predict": {
3321
- "Да": 0.9576495885848999,
3322
- "Нет": 0.037132102996110916
3323
  },
3324
  "sample": {
3325
  "messages": [
@@ -3357,8 +3357,8 @@
3357
  "acc": false
3358
  },
3359
  "predict": {
3360
- "Да": 0.9477784633636475,
3361
- "Нет": 0.04718710854649544
3362
  },
3363
  "sample": {
3364
  "messages": [
@@ -3396,8 +3396,8 @@
3396
  "acc": true
3397
  },
3398
  "predict": {
3399
- "Да": 0.11363499611616135,
3400
- "Нет": 0.7409932017326355
3401
  },
3402
  "sample": {
3403
  "messages": [
@@ -3435,8 +3435,8 @@
3435
  "acc": true
3436
  },
3437
  "predict": {
3438
- "Да": 0.3720705509185791,
3439
- "Нет": 0.6134406328201294
3440
  },
3441
  "sample": {
3442
  "messages": [
@@ -3474,8 +3474,8 @@
3474
  "acc": true
3475
  },
3476
  "predict": {
3477
- "Да": 0.9702175855636597,
3478
- "Нет": 0.025855422019958496
3479
  },
3480
  "sample": {
3481
  "messages": [
@@ -3513,8 +3513,8 @@
3513
  "acc": true
3514
  },
3515
  "predict": {
3516
- "Да": 0.18046143651008606,
3517
- "Нет": 0.8087720274925232
3518
  },
3519
  "sample": {
3520
  "messages": [
@@ -3552,8 +3552,8 @@
3552
  "acc": false
3553
  },
3554
  "predict": {
3555
- "Да": 0.9559286236763,
3556
- "Нет": 0.04200057312846184
3557
  },
3558
  "sample": {
3559
  "messages": [
@@ -3591,8 +3591,8 @@
3591
  "acc": true
3592
  },
3593
  "predict": {
3594
- "Да": 0.7273849248886108,
3595
- "Нет": 0.2675899863243103
3596
  },
3597
  "sample": {
3598
  "messages": [
@@ -3630,8 +3630,8 @@
3630
  "acc": false
3631
  },
3632
  "predict": {
3633
- "Да": 0.84706050157547,
3634
- "Нет": 0.14719703793525696
3635
  },
3636
  "sample": {
3637
  "messages": [
@@ -3669,8 +3669,8 @@
3669
  "acc": true
3670
  },
3671
  "predict": {
3672
- "Да": 0.9708594083786011,
3673
- "Нет": 0.025872526690363884
3674
  },
3675
  "sample": {
3676
  "messages": [
@@ -3708,8 +3708,8 @@
3708
  "acc": true
3709
  },
3710
  "predict": {
3711
- "Да": 0.9549539685249329,
3712
- "Нет": 0.03702758252620697
3713
  },
3714
  "sample": {
3715
  "messages": [
@@ -3747,8 +3747,8 @@
3747
  "acc": true
3748
  },
3749
  "predict": {
3750
- "Да": 0.986004650592804,
3751
- "Нет": 0.010953523218631744
3752
  },
3753
  "sample": {
3754
  "messages": [
@@ -3783,11 +3783,11 @@
3783
  }
3784
  {
3785
  "metric": {
3786
- "acc": false
3787
  },
3788
  "predict": {
3789
- "Да": 0.6196132302284241,
3790
- "Нет": 0.20115895569324493
3791
  },
3792
  "sample": {
3793
  "messages": [
@@ -3817,7 +3817,7 @@
3817
  "prompt_len": 190,
3818
  "generated_len": 1,
3819
  "generated_cumulative_logprob": "TODO: calculate for hf model",
3820
- "generated_token": " Да"
3821
  }
3822
  }
3823
  {
@@ -3825,8 +3825,8 @@
3825
  "acc": true
3826
  },
3827
  "predict": {
3828
- "Да": 0.8544347286224365,
3829
- "Нет": 0.1310318112373352
3830
  },
3831
  "sample": {
3832
  "messages": [
@@ -3864,8 +3864,8 @@
3864
  "acc": true
3865
  },
3866
  "predict": {
3867
- "Да": 0.909803032875061,
3868
- "Нет": 0.08462486416101456
3869
  },
3870
  "sample": {
3871
  "messages": [
@@ -3903,8 +3903,8 @@
3903
  "acc": true
3904
  },
3905
  "predict": {
3906
- "Да": 0.1803765594959259,
3907
- "Нет": 0.8083916306495667
3908
  },
3909
  "sample": {
3910
  "messages": [
@@ -3939,11 +3939,11 @@
3939
  }
3940
  {
3941
  "metric": {
3942
- "acc": false
3943
  },
3944
  "predict": {
3945
- "Да": 0.8490814566612244,
3946
- "Нет": 0.14754821360111237
3947
  },
3948
  "sample": {
3949
  "messages": [
@@ -3973,7 +3973,7 @@
3973
  "prompt_len": 145,
3974
  "generated_len": 1,
3975
  "generated_cumulative_logprob": "TODO: calculate for hf model",
3976
- "generated_token": " Да"
3977
  }
3978
  }
3979
  {
@@ -3981,8 +3981,8 @@
3981
  "acc": true
3982
  },
3983
  "predict": {
3984
- "Да": 0.005900894291698933,
3985
- "Нет": 0.9923778772354126
3986
  },
3987
  "sample": {
3988
  "messages": [
@@ -4017,11 +4017,11 @@
4017
  }
4018
  {
4019
  "metric": {
4020
- "acc": false
4021
  },
4022
  "predict": {
4023
- "Да": 0.6464490294456482,
4024
- "Нет": 0.34601926803588867
4025
  },
4026
  "sample": {
4027
  "messages": [
@@ -4051,7 +4051,7 @@
4051
  "prompt_len": 136,
4052
  "generated_len": 1,
4053
  "generated_cumulative_logprob": "TODO: calculate for hf model",
4054
- "generated_token": " Да"
4055
  }
4056
  }
4057
  {
@@ -4059,8 +4059,8 @@
4059
  "acc": true
4060
  },
4061
  "predict": {
4062
- "Да": 0.7941810488700867,
4063
- "Нет": 0.20080041885375977
4064
  },
4065
  "sample": {
4066
  "messages": [
@@ -4098,8 +4098,8 @@
4098
  "acc": true
4099
  },
4100
  "predict": {
4101
- "Да": 0.9935044050216675,
4102
- "Нет": 0.004060225561261177
4103
  },
4104
  "sample": {
4105
  "messages": [
@@ -4137,8 +4137,8 @@
4137
  "acc": false
4138
  },
4139
  "predict": {
4140
- "Да": 0.6163051724433899,
4141
- "Нет": 0.37380799651145935
4142
  },
4143
  "sample": {
4144
  "messages": [
@@ -4176,8 +4176,8 @@
4176
  "acc": true
4177
  },
4178
  "predict": {
4179
- "Да": 0.8577578067779541,
4180
- "Нет": 0.013864363543689251
4181
  },
4182
  "sample": {
4183
  "messages": [
@@ -4215,8 +4215,8 @@
4215
  "acc": false
4216
  },
4217
  "predict": {
4218
- "Да": 0.04719367250800133,
4219
- "Нет": 0.9479103088378906
4220
  },
4221
  "sample": {
4222
  "messages": [
@@ -4254,8 +4254,8 @@
4254
  "acc": false
4255
  },
4256
  "predict": {
4257
- "Да": 0.6457539796829224,
4258
- "Нет": 0.3456471860408783
4259
  },
4260
  "sample": {
4261
  "messages": [
@@ -4293,8 +4293,8 @@
4293
  "acc": true
4294
  },
4295
  "predict": {
4296
- "Да": 0.9581839442253113,
4297
- "Нет": 0.03715282306075096
4298
  },
4299
  "sample": {
4300
  "messages": [
@@ -4332,8 +4332,8 @@
4332
  "acc": false
4333
  },
4334
  "predict": {
4335
- "Да": 0.901879072189331,
4336
- "Нет": 0.09505735337734222
4337
  },
4338
  "sample": {
4339
  "messages": [
@@ -4371,8 +4371,8 @@
4371
  "acc": true
4372
  },
4373
  "predict": {
4374
- "Да": 0.9956146478652954,
4375
- "Нет": 0.0027964769396930933
4376
  },
4377
  "sample": {
4378
  "messages": [
@@ -4410,8 +4410,8 @@
4410
  "acc": false
4411
  },
4412
  "predict": {
4413
- "Да": 0.9656834006309509,
4414
- "Нет": 0.029161112383008003
4415
  },
4416
  "sample": {
4417
  "messages": [
@@ -4449,8 +4449,8 @@
4449
  "acc": true
4450
  },
4451
  "predict": {
4452
- "Да": 0.959088146686554,
4453
- "Нет": 0.037187881767749786
4454
  },
4455
  "sample": {
4456
  "messages": [
@@ -4488,8 +4488,8 @@
4488
  "acc": false
4489
  },
4490
  "predict": {
4491
- "Да": 0.8877012133598328,
4492
- "Нет": 0.10602079331874847
4493
  },
4494
  "sample": {
4495
  "messages": [
@@ -4527,8 +4527,8 @@
4527
  "acc": true
4528
  },
4529
  "predict": {
4530
- "Да": 0.9932858347892761,
4531
- "Нет": 0.004059332422912121
4532
  },
4533
  "sample": {
4534
  "messages": [
@@ -4566,8 +4566,8 @@
4566
  "acc": false
4567
  },
4568
  "predict": {
4569
- "Да": 0.8301488161087036,
4570
- "Нет": 0.01184143591672182
4571
  },
4572
  "sample": {
4573
  "messages": [
@@ -4605,8 +4605,8 @@
4605
  "acc": false
4606
  },
4607
  "predict": {
4608
- "Да": 0.743435263633728,
4609
- "Нет": 0.24135808646678925
4610
  },
4611
  "sample": {
4612
  "messages": [
@@ -4641,11 +4641,11 @@
4641
  }
4642
  {
4643
  "metric": {
4644
- "acc": false
4645
  },
4646
  "predict": {
4647
- "Да": 0.7268633246421814,
4648
- "Нет": 0.26739808917045593
4649
  },
4650
  "sample": {
4651
  "messages": [
@@ -4675,7 +4675,7 @@
4675
  "prompt_len": 250,
4676
  "generated_len": 1,
4677
  "generated_cumulative_logprob": "TODO: calculate for hf model",
4678
- "generated_token": " Да"
4679
  }
4680
  }
4681
  {
@@ -4683,8 +4683,8 @@
4683
  "acc": false
4684
  },
4685
  "predict": {
4686
- "Да": 0.9581593871116638,
4687
- "Нет": 0.03278641030192375
4688
  },
4689
  "sample": {
4690
  "messages": [
@@ -4722,8 +4722,8 @@
4722
  "acc": false
4723
  },
4724
  "predict": {
4725
- "Да": 0.9012726545333862,
4726
- "Нет": 0.09499343484640121
4727
  },
4728
  "sample": {
4729
  "messages": [
@@ -4761,8 +4761,8 @@
4761
  "acc": true
4762
  },
4763
  "predict": {
4764
- "Да": 0.01095911767333746,
4765
- "Нет": 0.9865082502365112
4766
  },
4767
  "sample": {
4768
  "messages": [
@@ -4800,8 +4800,8 @@
4800
  "acc": true
4801
  },
4802
  "predict": {
4803
- "Да": 0.9733633399009705,
4804
- "Нет": 0.022891312837600708
4805
  },
4806
  "sample": {
4807
  "messages": [
@@ -4839,8 +4839,8 @@
4839
  "acc": false
4840
  },
4841
  "predict": {
4842
- "Да": 0.8874251246452332,
4843
- "Нет": 0.10598782449960709
4844
  },
4845
  "sample": {
4846
  "messages": [
@@ -4878,8 +4878,8 @@
4878
  "acc": false
4879
  },
4880
  "predict": {
4881
- "Да": 0.7905874252319336,
4882
- "Нет": 0.1998918056488037
4883
  },
4884
  "sample": {
4885
  "messages": [
@@ -4917,8 +4917,8 @@
4917
  "acc": false
4918
  },
4919
  "predict": {
4920
- "Да": 0.8457257151603699,
4921
- "Нет": 0.14696508646011353
4922
  },
4923
  "sample": {
4924
  "messages": [
@@ -4956,8 +4956,8 @@
4956
  "acc": true
4957
  },
4958
  "predict": {
4959
- "Да": 0.16352517902851105,
4960
- "Нет": 0.7328689694404602
4961
  },
4962
  "sample": {
4963
  "messages": [
@@ -4995,8 +4995,8 @@
4995
  "acc": true
4996
  },
4997
  "predict": {
4998
- "Да": 0.9039379954338074,
4999
- "Нет": 0.07419975101947784
5000
  },
5001
  "sample": {
5002
  "messages": [
@@ -5034,8 +5034,8 @@
5034
  "acc": true
5035
  },
5036
  "predict": {
5037
- "Да": 0.9675398468971252,
5038
- "Нет": 0.029217170551419258
5039
  },
5040
  "sample": {
5041
  "messages": [
@@ -5073,8 +5073,8 @@
5073
  "acc": true
5074
  },
5075
  "predict": {
5076
- "Да": 0.9691106081008911,
5077
- "Нет": 0.025825923308730125
5078
  },
5079
  "sample": {
5080
  "messages": [
@@ -5112,8 +5112,8 @@
5112
  "acc": false
5113
  },
5114
  "predict": {
5115
- "Да": 0.8907557129859924,
5116
- "Нет": 0.10638559609651566
5117
  },
5118
  "sample": {
5119
  "messages": [
@@ -5151,8 +5151,8 @@
5151
  "acc": true
5152
  },
5153
  "predict": {
5154
- "Да": 0.13233713805675507,
5155
- "Нет": 0.8629465103149414
5156
  },
5157
  "sample": {
5158
  "messages": [
@@ -5187,11 +5187,11 @@
5187
  }
5188
  {
5189
  "metric": {
5190
- "acc": true
5191
  },
5192
  "predict": {
5193
- "Да": 0.6174233555793762,
5194
- "Нет": 0.37448617815971375
5195
  },
5196
  "sample": {
5197
  "messages": [
@@ -5221,7 +5221,7 @@
5221
  "prompt_len": 142,
5222
  "generated_len": 1,
5223
  "generated_cumulative_logprob": "TODO: calculate for hf model",
5224
- "generated_token": " Да"
5225
  }
5226
  }
5227
  {
@@ -5229,8 +5229,8 @@
5229
  "acc": false
5230
  },
5231
  "predict": {
5232
- "Да": 0.7012699842453003,
5233
- "Нет": 0.29233282804489136
5234
  },
5235
  "sample": {
5236
  "messages": [
@@ -5268,8 +5268,8 @@
5268
  "acc": false
5269
  },
5270
  "predict": {
5271
- "Да": 0.9821435809135437,
5272
- "Нет": 0.014009525068104267
5273
  },
5274
  "sample": {
5275
  "messages": [
@@ -5304,11 +5304,11 @@
5304
  }
5305
  {
5306
  "metric": {
5307
- "acc": false
5308
  },
5309
  "predict": {
5310
- "Да": 0.4635418951511383,
5311
- "Нет": 0.5252618193626404
5312
  },
5313
  "sample": {
5314
  "messages": [
@@ -5338,7 +5338,7 @@
5338
  "prompt_len": 93,
5339
  "generated_len": 1,
5340
  "generated_cumulative_logprob": "TODO: calculate for hf model",
5341
- "generated_token": " Нет"
5342
  }
5343
  }
5344
  {
@@ -5346,8 +5346,8 @@
5346
  "acc": false
5347
  },
5348
  "predict": {
5349
- "Да": 0.38681039214134216,
5350
- "Нет": 0.4383136034011841
5351
  },
5352
  "sample": {
5353
  "messages": [
@@ -5385,8 +5385,8 @@
5385
  "acc": true
5386
  },
5387
  "predict": {
5388
- "Да": 0.4322775602340698,
5389
- "Нет": 0.5550553798675537
5390
  },
5391
  "sample": {
5392
  "messages": [
@@ -5424,8 +5424,8 @@
5424
  "acc": false
5425
  },
5426
  "predict": {
5427
- "Да": 0.6173576712608337,
5428
- "Нет": 0.3744463622570038
5429
  },
5430
  "sample": {
5431
  "messages": [
@@ -5463,8 +5463,8 @@
5463
  "acc": true
5464
  },
5465
  "predict": {
5466
- "Да": 0.032827626913785934,
5467
- "Нет": 0.9593639373779297
5468
  },
5469
  "sample": {
5470
  "messages": [
@@ -5502,8 +5502,8 @@
5502
  "acc": true
5503
  },
5504
  "predict": {
5505
- "Да": 0.9372721314430237,
5506
- "Нет": 0.05991780012845993
5507
  },
5508
  "sample": {
5509
  "messages": [
@@ -5541,8 +5541,8 @@
5541
  "acc": false
5542
  },
5543
  "predict": {
5544
- "Да": 0.31896644830703735,
5545
- "Нет": 0.6752519607543945
5546
  },
5547
  "sample": {
5548
  "messages": [
@@ -5580,8 +5580,8 @@
5580
  "acc": false
5581
  },
5582
  "predict": {
5583
- "Да": 0.26729798316955566,
5584
- "Нет": 0.726591169834137
5585
  },
5586
  "sample": {
5587
  "messages": [
@@ -5619,8 +5619,8 @@
5619
  "acc": true
5620
  },
5621
  "predict": {
5622
- "Да": 0.9336684942245483,
5623
- "Нет": 0.059687428176403046
5624
  },
5625
  "sample": {
5626
  "messages": [
@@ -5658,8 +5658,8 @@
5658
  "acc": true
5659
  },
5660
  "predict": {
5661
- "Да": 0.9812307953834534,
5662
- "Нет": 0.013996505178511143
5663
  },
5664
  "sample": {
5665
  "messages": [
@@ -5697,8 +5697,8 @@
5697
  "acc": true
5698
  },
5699
  "predict": {
5700
- "Да": 0.8759110569953918,
5701
- "Нет": 0.1185416653752327
5702
  },
5703
  "sample": {
5704
  "messages": [
@@ -5736,8 +5736,8 @@
5736
  "acc": true
5737
  },
5738
  "predict": {
5739
- "Да": 0.017087290063500404,
5740
- "Нет": 0.9329343438148499
5741
  },
5742
  "sample": {
5743
  "messages": [
@@ -5772,11 +5772,11 @@
5772
  }
5773
  {
5774
  "metric": {
5775
- "acc": false
5776
  },
5777
  "predict": {
5778
- "Да": 0.43314412236213684,
5779
- "Нет": 0.5561680793762207
5780
  },
5781
  "sample": {
5782
  "messages": [
@@ -5806,7 +5806,7 @@
5806
  "prompt_len": 128,
5807
  "generated_len": 1,
5808
  "generated_cumulative_logprob": "TODO: calculate for hf model",
5809
- "generated_token": " Нет"
5810
  }
5811
  }
5812
  {
@@ -5814,8 +5814,8 @@
5814
  "acc": true
5815
  },
5816
  "predict": {
5817
- "Да": 0.9359888434410095,
5818
- "Нет": 0.0598357617855072
5819
  },
5820
  "sample": {
5821
  "messages": [
@@ -5853,8 +5853,8 @@
5853
  "acc": true
5854
  },
5855
  "predict": {
5856
- "Да": 0.09441380202770233,
5857
- "Нет": 0.8957732319831848
5858
  },
5859
  "sample": {
5860
  "messages": [
@@ -5892,8 +5892,8 @@
5892
  "acc": false
5893
  },
5894
  "predict": {
5895
- "Да": 0.9841708540916443,
5896
- "Нет": 0.014038442634046078
5897
  },
5898
  "sample": {
5899
  "messages": [
@@ -5931,8 +5931,8 @@
5931
  "acc": true
5932
  },
5933
  "predict": {
5934
- "Да": 0.845679759979248,
5935
- "Нет": 0.14695709943771362
5936
  },
5937
  "sample": {
5938
  "messages": [
@@ -5970,8 +5970,8 @@
5970
  "acc": false
5971
  },
5972
  "predict": {
5973
- "Да": 0.9694148898124695,
5974
- "Нет": 0.025834031403064728
5975
  },
5976
  "sample": {
5977
  "messages": [
@@ -6009,8 +6009,8 @@
6009
  "acc": false
6010
  },
6011
  "predict": {
6012
- "Да": 0.8619088530540466,
6013
- "Нет": 0.13217800855636597
6014
  },
6015
  "sample": {
6016
  "messages": [
@@ -6048,8 +6048,8 @@
6048
  "acc": true
6049
  },
6050
  "predict": {
6051
- "Да": 0.9895976185798645,
6052
- "Нет": 0.005884361919015646
6053
  },
6054
  "sample": {
6055
  "messages": [
@@ -6087,8 +6087,8 @@
6087
  "acc": true
6088
  },
6089
  "predict": {
6090
- "Да": 0.9162819385528564,
6091
- "Нет": 0.0752130001783371
6092
  },
6093
  "sample": {
6094
  "messages": [
@@ -6126,8 +6126,8 @@
6126
  "acc": true
6127
  },
6128
  "predict": {
6129
- "Да": 0.1768205761909485,
6130
- "Нет": 0.699338972568512
6131
  },
6132
  "sample": {
6133
  "messages": [
@@ -6165,8 +6165,8 @@
6165
  "acc": true
6166
  },
6167
  "predict": {
6168
- "Да": 0.7893483638763428,
6169
- "Нет": 0.17612743377685547
6170
  },
6171
  "sample": {
6172
  "messages": [
@@ -6204,8 +6204,8 @@
6204
  "acc": true
6205
  },
6206
  "predict": {
6207
- "Да": 0.7707903981208801,
6208
- "Нет": 0.2208351492881775
6209
  },
6210
  "sample": {
6211
  "messages": [
@@ -6240,11 +6240,11 @@
6240
  }
6241
  {
6242
  "metric": {
6243
- "acc": false
6244
  },
6245
  "predict": {
6246
- "Да": 0.5577213168144226,
6247
- "Нет": 0.4343538284301758
6248
  },
6249
  "sample": {
6250
  "messages": [
@@ -6274,7 +6274,7 @@
6274
  "prompt_len": 145,
6275
  "generated_len": 1,
6276
  "generated_cumulative_logprob": "TODO: calculate for hf model",
6277
- "generated_token": " Да"
6278
  }
6279
  }
6280
  {
@@ -6282,8 +6282,8 @@
6282
  "acc": false
6283
  },
6284
  "predict": {
6285
- "Да": 0.9500029683113098,
6286
- "Нет": 0.04729786142706871
6287
  },
6288
  "sample": {
6289
  "messages": [
@@ -6321,8 +6321,8 @@
6321
  "acc": false
6322
  },
6323
  "predict": {
6324
- "Да": 0.03722477704286575,
6325
- "Нет": 0.9600396752357483
6326
  },
6327
  "sample": {
6328
  "messages": [
@@ -6360,8 +6360,8 @@
6360
  "acc": false
6361
  },
6362
  "predict": {
6363
- "Да": 0.7925233840942383,
6364
- "Нет": 0.2003812938928604
6365
  },
6366
  "sample": {
6367
  "messages": [
@@ -6399,8 +6399,8 @@
6399
  "acc": true
6400
  },
6401
  "predict": {
6402
- "Да": 0.9727248549461365,
6403
- "Нет": 0.022876296192407608
6404
  },
6405
  "sample": {
6406
  "messages": [
@@ -6438,8 +6438,8 @@
6438
  "acc": true
6439
  },
6440
  "predict": {
6441
- "Да": 0.9886521697044373,
6442
- "Нет": 0.008553517051041126
6443
  },
6444
  "sample": {
6445
  "messages": [
@@ -6477,8 +6477,8 @@
6477
  "acc": true
6478
  },
6479
  "predict": {
6480
- "Да": 0.1635088175535202,
6481
- "Нет": 0.830366313457489
6482
  },
6483
  "sample": {
6484
  "messages": [
@@ -6516,8 +6516,8 @@
6516
  "acc": true
6517
  },
6518
  "predict": {
6519
- "Да": 0.8635572195053101,
6520
- "Нет": 0.02954930253326893
6521
  },
6522
  "sample": {
6523
  "messages": [
@@ -6555,8 +6555,8 @@
6555
  "acc": true
6556
  },
6557
  "predict": {
6558
- "Да": 0.9627586007118225,
6559
- "Нет": 0.019981415942311287
6560
  },
6561
  "sample": {
6562
  "messages": [
@@ -6594,8 +6594,8 @@
6594
  "acc": true
6595
  },
6596
  "predict": {
6597
- "Да": 0.9411863088607788,
6598
- "Нет": 0.053098101168870926
6599
  },
6600
  "sample": {
6601
  "messages": [
@@ -6630,11 +6630,11 @@
6630
  }
6631
  {
6632
  "metric": {
6633
- "acc": true
6634
  },
6635
  "predict": {
6636
- "Да": 0.4943678677082062,
6637
- "Нет": 0.4943678677082062
6638
  },
6639
  "sample": {
6640
  "messages": [
@@ -6664,7 +6664,7 @@
6664
  "prompt_len": 144,
6665
  "generated_len": 1,
6666
  "generated_cumulative_logprob": "TODO: calculate for hf model",
6667
- "generated_token": " Да"
6668
  }
6669
  }
6670
  {
@@ -6672,8 +6672,8 @@
6672
  "acc": false
6673
  },
6674
  "predict": {
6675
- "Да": 0.9552298784255981,
6676
- "Нет": 0.04196987301111221
6677
  },
6678
  "sample": {
6679
  "messages": [
@@ -6711,8 +6711,8 @@
6711
  "acc": true
6712
  },
6713
  "predict": {
6714
- "Да": 0.20047374069690704,
6715
- "Нет": 0.7928889989852905
6716
  },
6717
  "sample": {
6718
  "messages": [
@@ -6750,8 +6750,8 @@
6750
  "acc": false
6751
  },
6752
  "predict": {
6753
- "Да": 0.8746775388717651,
6754
- "Нет": 0.11837472766637802
6755
  },
6756
  "sample": {
6757
  "messages": [
@@ -6789,8 +6789,8 @@
6789
  "acc": true
6790
  },
6791
  "predict": {
6792
- "Да": 0.8764585852622986,
6793
- "Нет": 0.1186157688498497
6794
  },
6795
  "sample": {
6796
  "messages": [
@@ -6828,8 +6828,8 @@
6828
  "acc": false
6829
  },
6830
  "predict": {
6831
- "Да": 0.8873726725578308,
6832
- "Нет": 0.10598155111074448
6833
  },
6834
  "sample": {
6835
  "messages": [
@@ -6867,8 +6867,8 @@
6867
  "acc": false
6868
  },
6869
  "predict": {
6870
- "Да": 0.8469632863998413,
6871
- "Нет": 0.14718014001846313
6872
  },
6873
  "sample": {
6874
  "messages": [
@@ -6906,8 +6906,8 @@
6906
  "acc": true
6907
  },
6908
  "predict": {
6909
- "Да": 0.9308017492294312,
6910
- "Нет": 0.013277173973619938
6911
  },
6912
  "sample": {
6913
  "messages": [
@@ -6945,8 +6945,8 @@
6945
  "acc": true
6946
  },
6947
  "predict": {
6948
- "Да": 0.9480711817741394,
6949
- "Нет": 0.041655343025922775
6950
  },
6951
  "sample": {
6952
  "messages": [
@@ -6984,8 +6984,8 @@
6984
  "acc": false
6985
  },
6986
  "predict": {
6987
- "Да": 0.6168244481086731,
6988
- "Нет": 0.3741229176521301
6989
  },
6990
  "sample": {
6991
  "messages": [
@@ -7023,8 +7023,8 @@
7023
  "acc": true
7024
  },
7025
  "predict": {
7026
- "Да": 0.059505194425582886,
7027
- "Нет": 0.9308179020881653
7028
  },
7029
  "sample": {
7030
  "messages": [
@@ -7062,8 +7062,8 @@
7062
  "acc": false
7063
  },
7064
  "predict": {
7065
- "Да": 0.9873995780944824,
7066
- "Нет": 0.010969019494950771
7067
  },
7068
  "sample": {
7069
  "messages": [
@@ -7101,8 +7101,8 @@
7101
  "acc": true
7102
  },
7103
  "predict": {
7104
- "Да": 0.0754489004611969,
7105
- "Нет": 0.9191557765007019
7106
  },
7107
  "sample": {
7108
  "messages": [
@@ -7137,11 +7137,11 @@
7137
  }
7138
  {
7139
  "metric": {
7140
- "acc": false
7141
  },
7142
  "predict": {
7143
- "Да": 0.557893693447113,
7144
- "Нет": 0.4344880282878876
7145
  },
7146
  "sample": {
7147
  "messages": [
@@ -7171,7 +7171,7 @@
7171
  "prompt_len": 114,
7172
  "generated_len": 1,
7173
  "generated_cumulative_logprob": "TODO: calculate for hf model",
7174
- "generated_token": " Да"
7175
  }
7176
  }
7177
  {
@@ -7179,8 +7179,8 @@
7179
  "acc": false
7180
  },
7181
  "predict": {
7182
- "Да": 0.7928799390792847,
7183
- "Нет": 0.2004714459180832
7184
  },
7185
  "sample": {
7186
  "messages": [
@@ -7218,8 +7218,8 @@
7218
  "acc": true
7219
  },
7220
  "predict": {
7221
- "Да": 0.9572935104370117,
7222
- "Нет": 0.037118297070264816
7223
  },
7224
  "sample": {
7225
  "messages": [
@@ -7257,8 +7257,8 @@
7257
  "acc": true
7258
  },
7259
  "predict": {
7260
- "Да": 0.7723864316940308,
7261
- "Нет": 0.2212924212217331
7262
  },
7263
  "sample": {
7264
  "messages": [
@@ -7296,8 +7296,8 @@
7296
  "acc": false
7297
  },
7298
  "predict": {
7299
- "Да": 0.8944242000579834,
7300
- "Нет": 0.03468059003353119
7301
  },
7302
  "sample": {
7303
  "messages": [
@@ -7335,8 +7335,8 @@
7335
  "acc": true
7336
  },
7337
  "predict": {
7338
- "Да": 0.9493322372436523,
7339
- "Нет": 0.0223261546343565
7340
  },
7341
  "sample": {
7342
  "messages": [
@@ -7374,8 +7374,8 @@
7374
  "acc": false
7375
  },
7376
  "predict": {
7377
- "Да": 0.8883539438247681,
7378
- "Нет": 0.10609874874353409
7379
  },
7380
  "sample": {
7381
  "messages": [
@@ -7410,11 +7410,11 @@
7410
  }
7411
  {
7412
  "metric": {
7413
- "acc": false
7414
  },
7415
  "predict": {
7416
- "Да": 0.6958121657371521,
7417
- "Нет": 0.2900576591491699
7418
  },
7419
  "sample": {
7420
  "messages": [
@@ -7444,7 +7444,7 @@
7444
  "prompt_len": 115,
7445
  "generated_len": 1,
7446
  "generated_cumulative_logprob": "TODO: calculate for hf model",
7447
- "generated_token": " Да"
7448
  }
7449
  }
7450
  {
@@ -7452,8 +7452,8 @@
7452
  "acc": false
7453
  },
7454
  "predict": {
7455
- "Да": 0.8900085091590881,
7456
- "Нет": 0.1062963604927063
7457
  },
7458
  "sample": {
7459
  "messages": [
@@ -7491,8 +7491,8 @@
7491
  "acc": false
7492
  },
7493
  "predict": {
7494
- "Да": 0.43441683053970337,
7495
- "Нет": 0.5578022599220276
7496
  },
7497
  "sample": {
7498
  "messages": [
@@ -7530,8 +7530,8 @@
7530
  "acc": true
7531
  },
7532
  "predict": {
7533
- "Да": 0.9803441762924194,
7534
- "Нет": 0.015845786780118942
7535
  },
7536
  "sample": {
7537
  "messages": [
@@ -7569,8 +7569,8 @@
7569
  "acc": false
7570
  },
7571
  "predict": {
7572
- "Да": 0.9195212721824646,
7573
- "Нет": 0.07547890394926071
7574
  },
7575
  "sample": {
7576
  "messages": [
@@ -7608,8 +7608,8 @@
7608
  "acc": true
7609
  },
7610
  "predict": {
7611
- "Да": 0.9808001518249512,
7612
- "Нет": 0.013990362174808979
7613
  },
7614
  "sample": {
7615
  "messages": [
@@ -7647,8 +7647,8 @@
7647
  "acc": false
7648
  },
7649
  "predict": {
7650
- "Да": 0.8470878005027771,
7651
- "Нет": 0.1472017765045166
7652
  },
7653
  "sample": {
7654
  "messages": [
@@ -7686,8 +7686,8 @@
7686
  "acc": true
7687
  },
7688
  "predict": {
7689
- "Да": 0.0599033385515213,
7690
- "Нет": 0.8269400596618652
7691
  },
7692
  "sample": {
7693
  "messages": [
@@ -7722,11 +7722,11 @@
7722
  }
7723
  {
7724
  "metric": {
7725
- "acc": true
7726
  },
7727
  "predict": {
7728
- "Да": 0.3442055881023407,
7729
- "Нет": 0.6430606842041016
7730
  },
7731
  "sample": {
7732
  "messages": [
@@ -7756,16 +7756,16 @@
7756
  "prompt_len": 103,
7757
  "generated_len": 1,
7758
  "generated_cumulative_logprob": "TODO: calculate for hf model",
7759
- "generated_token": " Нет"
7760
  }
7761
  }
7762
  {
7763
  "metric": {
7764
- "acc": true
7765
  },
7766
  "predict": {
7767
- "Да": 0.5572391152381897,
7768
- "Нет": 0.43397825956344604
7769
  },
7770
  "sample": {
7771
  "messages": [
@@ -7795,7 +7795,7 @@
7795
  "prompt_len": 255,
7796
  "generated_len": 1,
7797
  "generated_cumulative_logprob": "TODO: calculate for hf model",
7798
- "generated_token": " Да"
7799
  }
7800
  }
7801
  {
@@ -7803,8 +7803,8 @@
7803
  "acc": true
7804
  },
7805
  "predict": {
7806
- "Да": 0.9387038946151733,
7807
- "Нет": 0.05295805260539055
7808
  },
7809
  "sample": {
7810
  "messages": [
@@ -7842,8 +7842,8 @@
7842
  "acc": false
7843
  },
7844
  "predict": {
7845
- "Да": 0.9373016357421875,
7846
- "Нет": 0.05991968885064125
7847
  },
7848
  "sample": {
7849
  "messages": [
@@ -7878,11 +7878,11 @@
7878
  }
7879
  {
7880
  "metric": {
7881
- "acc": true
7882
  },
7883
  "predict": {
7884
- "Да": 0.5583488345146179,
7885
- "Нет": 0.4348425269126892
7886
  },
7887
  "sample": {
7888
  "messages": [
@@ -7912,7 +7912,7 @@
7912
  "prompt_len": 91,
7913
  "generated_len": 1,
7914
  "generated_cumulative_logprob": "TODO: calculate for hf model",
7915
- "generated_token": " Да"
7916
  }
7917
  }
7918
  {
@@ -7920,8 +7920,8 @@
7920
  "acc": false
7921
  },
7922
  "predict": {
7923
- "Да": 0.9197360277175903,
7924
- "Нет": 0.07549653202295303
7925
  },
7926
  "sample": {
7927
  "messages": [
 
3
  "acc": true
4
  },
5
  "predict": {
6
+ "Да": 0.0009101922623813152,
7
+ "Нет": 0.9981470108032227
8
  },
9
  "sample": {
10
  "messages": [
 
42
  "acc": false
43
  },
44
  "predict": {
45
+ "Да": 0.87908935546875,
46
+ "Нет": 0.1189718022942543
47
  },
48
  "sample": {
49
  "messages": [
 
81
  "acc": true
82
  },
83
  "predict": {
84
+ "Да": 0.9857453107833862,
85
+ "Нет": 0.01240870263427496
86
  },
87
  "sample": {
88
  "messages": [
 
120
  "acc": true
121
  },
122
  "predict": {
123
+ "Да": 0.9977813363075256,
124
+ "Нет": 0.001699840184301138
125
  },
126
  "sample": {
127
  "messages": [
 
159
  "acc": false
160
  },
161
  "predict": {
162
+ "Да": 0.6485772728919983,
163
+ "Нет": 0.34715840220451355
164
  },
165
  "sample": {
166
  "messages": [
 
198
  "acc": false
199
  },
200
  "predict": {
201
+ "Да": 0.9979397654533386,
202
+ "Нет": 0.0005519448895938694
203
  },
204
  "sample": {
205
  "messages": [
 
237
  "acc": true
238
  },
239
  "predict": {
240
+ "Да": 0.9728478193283081,
241
+ "Нет": 0.025925515219569206
242
  },
243
  "sample": {
244
  "messages": [
 
276
  "acc": false
277
  },
278
  "predict": {
279
+ "Да": 0.7405515313148499,
280
+ "Нет": 0.10022275149822235
281
  },
282
  "sample": {
283
  "messages": [
 
315
  "acc": false
316
  },
317
  "predict": {
318
+ "Да": 0.9393686652183533,
319
+ "Нет": 0.04676840826869011
320
  },
321
  "sample": {
322
  "messages": [
 
354
  "acc": true
355
  },
356
  "predict": {
357
+ "Да": 0.5892989635467529,
358
+ "Нет": 0.4050188660621643
359
  },
360
  "sample": {
361
  "messages": [
 
390
  }
391
  {
392
  "metric": {
393
+ "acc": false
394
  },
395
  "predict": {
396
+ "Да": 0.09505680948495865,
397
+ "Нет": 0.9018739461898804
398
  },
399
  "sample": {
400
  "messages": [
 
424
  "prompt_len": 143,
425
  "generated_len": 1,
426
  "generated_cumulative_logprob": "TODO: calculate for hf model",
427
+ "generated_token": " Нет"
428
  }
429
  }
430
  {
 
432
  "acc": false
433
  },
434
  "predict": {
435
+ "Да": 0.7037761807441711,
436
+ "Нет": 0.293377548456192
437
  },
438
  "sample": {
439
  "messages": [
 
471
  "acc": false
472
  },
473
  "predict": {
474
+ "Да": 0.9742387533187866,
475
+ "Нет": 0.022911900654435158
476
  },
477
  "sample": {
478
  "messages": [
 
510
  "acc": true
511
  },
512
  "predict": {
513
+ "Да": 0.9971185922622681,
514
+ "Нет": 0.0021811879705637693
515
  },
516
  "sample": {
517
  "messages": [
 
549
  "acc": false
550
  },
551
  "predict": {
552
+ "Да": 0.9715492725372314,
553
+ "Нет": 0.025890910997986794
554
  },
555
  "sample": {
556
  "messages": [
 
588
  "acc": false
589
  },
590
  "predict": {
591
+ "Да": 0.2662963569164276,
592
+ "Нет": 0.7238684296607971
593
  },
594
  "sample": {
595
  "messages": [
 
627
  "acc": true
628
  },
629
  "predict": {
630
+ "Да": 0.22212526202201843,
631
+ "Нет": 0.7752933502197266
632
  },
633
  "sample": {
634
  "messages": [
 
666
  "acc": false
667
  },
668
  "predict": {
669
+ "Да": 0.494692862033844,
670
+ "Нет": 0.18198736011981964
671
  },
672
  "sample": {
673
  "messages": [
 
705
  "acc": true
706
  },
707
  "predict": {
708
+ "Да": 0.9787436127662659,
709
+ "Нет": 0.009595265612006187
710
  },
711
  "sample": {
712
  "messages": [
 
744
  "acc": true
745
  },
746
  "predict": {
747
+ "Да": 0.9297987222671509,
748
+ "Нет": 0.06735439598560333
749
  },
750
  "sample": {
751
  "messages": [
 
783
  "acc": false
784
  },
785
  "predict": {
786
+ "Да": 0.16405551135540009,
787
+ "Нет": 0.8331426978111267
788
  },
789
  "sample": {
790
  "messages": [
 
822
  "acc": false
823
  },
824
  "predict": {
825
+ "Да": 0.8790034651756287,
826
+ "Нет": 0.1189601868391037
827
  },
828
  "sample": {
829
  "messages": [
 
858
  }
859
  {
860
  "metric": {
861
+ "acc": true
862
  },
863
  "predict": {
864
+ "Да": 0.29325181245803833,
865
+ "Нет": 0.7034745216369629
866
  },
867
  "sample": {
868
  "messages": [
 
892
  "prompt_len": 123,
893
  "generated_len": 1,
894
  "generated_cumulative_logprob": "TODO: calculate for hf model",
895
+ "generated_token": " Нет"
896
  }
897
  }
898
  {
 
900
  "acc": false
901
  },
902
  "predict": {
903
+ "Да": 0.980563759803772,
904
+ "Нет": 0.017959652468562126
905
  },
906
  "sample": {
907
  "messages": [
 
939
  "acc": false
940
  },
941
  "predict": {
942
+ "Да": 0.7748723030090332,
943
+ "Нет": 0.22200463712215424
944
  },
945
  "sample": {
946
  "messages": [
 
978
  "acc": false
979
  },
980
  "predict": {
981
+ "Да": 0.9963346719741821,
982
+ "Нет": 0.0016973756719380617
983
  },
984
  "sample": {
985
  "messages": [
 
1017
  "acc": true
1018
  },
1019
  "predict": {
1020
+ "Да": 0.0024708013515919447,
1021
+ "Нет": 0.9967923760414124
1022
  },
1023
  "sample": {
1024
  "messages": [
 
1056
  "acc": false
1057
  },
1058
  "predict": {
1059
+ "Да": 0.15077032148838043,
1060
+ "Нет": 0.6757057309150696
1061
  },
1062
  "sample": {
1063
  "messages": [
 
1095
  "acc": true
1096
  },
1097
  "predict": {
1098
+ "Да": 0.9954113364219666,
1099
+ "Нет": 0.00048585556214675307
1100
  },
1101
  "sample": {
1102
  "messages": [
 
1134
  "acc": false
1135
  },
1136
  "predict": {
1137
+ "Да": 0.9902888536453247,
1138
+ "Нет": 0.00856767687946558
1139
  },
1140
  "sample": {
1141
  "messages": [
 
1173
  "acc": true
1174
  },
1175
  "predict": {
1176
+ "Да": 0.005210899282246828,
1177
+ "Нет": 0.9930216670036316
1178
  },
1179
  "sample": {
1180
  "messages": [
 
1212
  "acc": false
1213
  },
1214
  "predict": {
1215
+ "Да": 0.9385889768600464,
1216
+ "Нет": 0.06000198423862457
1217
  },
1218
  "sample": {
1219
  "messages": [
 
1251
  "acc": true
1252
  },
1253
  "predict": {
1254
+ "Да": 0.9931262731552124,
1255
+ "Нет": 0.005905344616621733
1256
  },
1257
  "sample": {
1258
  "messages": [
 
1287
  }
1288
  {
1289
  "metric": {
1290
+ "acc": false
1291
  },
1292
  "predict": {
1293
+ "Да": 0.059942666441202164,
1294
+ "Нет": 0.9376611113548279
1295
  },
1296
  "sample": {
1297
  "messages": [
 
1321
  "prompt_len": 140,
1322
  "generated_len": 1,
1323
  "generated_cumulative_logprob": "TODO: calculate for hf model",
1324
+ "generated_token": " Нет"
1325
  }
1326
  }
1327
  {
 
1329
  "acc": false
1330
  },
1331
  "predict": {
1332
+ "Да": 0.9441565275192261,
1333
+ "Нет": 0.05326566845178604
1334
  },
1335
  "sample": {
1336
  "messages": [
 
1368
  "acc": false
1369
  },
1370
  "predict": {
1371
+ "Да": 0.9880475997924805,
1372
+ "Нет": 0.008548286743462086
1373
  },
1374
  "sample": {
1375
  "messages": [
 
1407
  "acc": true
1408
  },
1409
  "predict": {
1410
+ "Да": 0.5294978618621826,
1411
+ "Нет": 0.46728020906448364
1412
  },
1413
  "sample": {
1414
  "messages": [
 
1446
  "acc": true
1447
  },
1448
  "predict": {
1449
+ "Да": 0.14737920463085175,
1450
+ "Нет": 0.7484533786773682
1451
  },
1452
  "sample": {
1453
  "messages": [
 
1485
  "acc": true
1486
  },
1487
  "predict": {
1488
+ "Да": 0.0948791354894638,
1489
+ "Нет": 0.9001882076263428
1490
  },
1491
  "sample": {
1492
  "messages": [
 
1524
  "acc": false
1525
  },
1526
  "predict": {
1527
+ "Да": 0.4968169927597046,
1528
+ "Нет": 0.4968169927597046
1529
  },
1530
  "sample": {
1531
  "messages": [
 
1560
  }
1561
  {
1562
  "metric": {
1563
+ "acc": false
1564
  },
1565
  "predict": {
1566
+ "Да": 0.8787282705307007,
1567
+ "Нет": 0.11892293393611908
1568
  },
1569
  "sample": {
1570
  "messages": [
 
1594
  "prompt_len": 133,
1595
  "generated_len": 1,
1596
  "generated_cumulative_logprob": "TODO: calculate for hf model",
1597
+ "generated_token": " Да"
1598
  }
1599
  }
1600
  {
 
1602
  "acc": false
1603
  },
1604
  "predict": {
1605
+ "Да": 0.9029900431632996,
1606
+ "Нет": 0.09517444670200348
1607
  },
1608
  "sample": {
1609
  "messages": [
 
1641
  "acc": true
1642
  },
1643
  "predict": {
1644
+ "Да": 0.9376850128173828,
1645
+ "Нет": 0.05994419753551483
1646
  },
1647
  "sample": {
1648
  "messages": [
 
1680
  "acc": true
1681
  },
1682
  "predict": {
1683
+ "Да": 0.9987090826034546,
1684
+ "Нет": 0.0006259176298044622
1685
  },
1686
  "sample": {
1687
  "messages": [
 
1719
  "acc": false
1720
  },
1721
  "predict": {
1722
+ "Да": 0.995770275592804,
1723
+ "Нет": 0.003169318661093712
1724
  },
1725
  "sample": {
1726
  "messages": [
 
1758
  "acc": false
1759
  },
1760
  "predict": {
1761
+ "Да": 0.9952654838562012,
1762
+ "Нет": 0.0019213143968954682
1763
  },
1764
  "sample": {
1765
  "messages": [
 
1797
  "acc": true
1798
  },
1799
  "predict": {
1800
+ "Да": 0.9368468523025513,
1801
+ "Нет": 0.059890612959861755
1802
  },
1803
  "sample": {
1804
  "messages": [
 
1836
  "acc": true
1837
  },
1838
  "predict": {
1839
+ "Да": 0.005742038134485483,
1840
+ "Нет": 0.96566241979599
1841
  },
1842
  "sample": {
1843
  "messages": [
 
1875
  "acc": true
1876
  },
1877
  "predict": {
1878
+ "Да": 0.0672793909907341,
1879
+ "Нет": 0.9287633299827576
1880
  },
1881
  "sample": {
1882
  "messages": [
 
1914
  "acc": false
1915
  },
1916
  "predict": {
1917
+ "Да": 0.9116905331611633,
1918
+ "Нет": 0.08480042964220047
1919
  },
1920
  "sample": {
1921
  "messages": [
 
1953
  "acc": true
1954
  },
1955
  "predict": {
1956
+ "Да": 0.9562659859657288,
1957
+ "Нет": 0.04201539605855942
1958
  },
1959
  "sample": {
1960
  "messages": [
 
1992
  "acc": false
1993
  },
1994
  "predict": {
1995
+ "Да": 0.8789796233177185,
1996
+ "Нет": 0.11895695328712463
1997
  },
1998
  "sample": {
1999
  "messages": [
 
2031
  "acc": true
2032
  },
2033
  "predict": {
2034
+ "Да": 0.004067633766680956,
2035
+ "Нет": 0.9953172206878662
2036
  },
2037
  "sample": {
2038
  "messages": [
 
2070
  "acc": true
2071
  },
2072
  "predict": {
2073
+ "Да": 0.9979013204574585,
2074
+ "Нет": 0.001500283950008452
2075
  },
2076
  "sample": {
2077
  "messages": [
 
2109
  "acc": false
2110
  },
2111
  "predict": {
2112
+ "Да": 0.7949158549308777,
2113
+ "Нет": 0.20098620653152466
2114
  },
2115
  "sample": {
2116
  "messages": [
 
2148
  "acc": true
2149
  },
2150
  "predict": {
2151
+ "Да": 0.9975123405456543,
2152
+ "Нет": 0.0006251675658859313
2153
  },
2154
  "sample": {
2155
  "messages": [
 
2187
  "acc": false
2188
  },
2189
  "predict": {
2190
+ "Да": 0.3760920464992523,
2191
+ "Нет": 0.6200709342956543
2192
  },
2193
  "sample": {
2194
  "messages": [
 
2223
  }
2224
  {
2225
  "metric": {
2226
+ "acc": false
2227
  },
2228
  "predict": {
2229
+ "Да": 0.1990211009979248,
2230
+ "Нет": 0.6946519017219543
2231
  },
2232
  "sample": {
2233
  "messages": [
 
2257
  "prompt_len": 235,
2258
  "generated_len": 1,
2259
  "generated_cumulative_logprob": "TODO: calculate for hf model",
2260
+ "generated_token": " Нет"
2261
  }
2262
  }
2263
  {
 
2265
  "acc": false
2266
  },
2267
  "predict": {
2268
+ "Да": 0.9801114201545715,
2269
+ "Нет": 0.005143152549862862
2270
  },
2271
  "sample": {
2272
  "messages": [
 
2304
  "acc": true
2305
  },
2306
  "predict": {
2307
+ "Да": 0.003583510871976614,
2308
+ "Нет": 0.9936082363128662
2309
  },
2310
  "sample": {
2311
  "messages": [
 
2340
  }
2341
  {
2342
  "metric": {
2343
+ "acc": true
2344
  },
2345
  "predict": {
2346
+ "Да": 0.5901849269866943,
2347
+ "Нет": 0.4056277871131897
2348
  },
2349
  "sample": {
2350
  "messages": [
 
2374
  "prompt_len": 104,
2375
  "generated_len": 1,
2376
  "generated_cumulative_logprob": "TODO: calculate for hf model",
2377
+ "generated_token": " Да"
2378
  }
2379
  }
2380
  {
 
2382
  "acc": false
2383
  },
2384
  "predict": {
2385
+ "Да": 0.9450209736824036,
2386
+ "Нет": 0.053314436227083206
2387
  },
2388
  "sample": {
2389
  "messages": [
 
2421
  "acc": true
2422
  },
2423
  "predict": {
2424
+ "Да": 0.005905441008508205,
2425
+ "Нет": 0.9931424856185913
2426
  },
2427
  "sample": {
2428
  "messages": [
 
2460
  "acc": false
2461
  },
2462
  "predict": {
2463
+ "Да": 0.0006259930087253451,
2464
+ "Нет": 0.9988294243812561
2465
  },
2466
  "sample": {
2467
  "messages": [
 
2499
  "acc": false
2500
  },
2501
  "predict": {
2502
+ "Да": 0.9432969689369202,
2503
+ "Нет": 0.05321717634797096
2504
  },
2505
  "sample": {
2506
  "messages": [
 
2538
  "acc": false
2539
  },
2540
  "predict": {
2541
+ "Да": 0.9971207976341248,
2542
+ "Нет": 0.0004295023682061583
2543
  },
2544
  "sample": {
2545
  "messages": [
 
2577
  "acc": true
2578
  },
2579
  "predict": {
2580
+ "Да": 0.9686570763587952,
2581
+ "Нет": 0.02925090864300728
2582
  },
2583
  "sample": {
2584
  "messages": [
 
2613
  }
2614
  {
2615
  "metric": {
2616
+ "acc": true
2617
  },
2618
  "predict": {
2619
+ "Да": 0.30602359771728516,
2620
+ "Нет": 0.5045475959777832
2621
  },
2622
  "sample": {
2623
  "messages": [
 
2647
  "prompt_len": 168,
2648
  "generated_len": 1,
2649
  "generated_cumulative_logprob": "TODO: calculate for hf model",
2650
+ "generated_token": " Нет"
2651
  }
2652
  }
2653
  {
2654
  "metric": {
2655
+ "acc": false
2656
  },
2657
  "predict": {
2658
+ "Да": 0.6088294386863708,
2659
+ "Нет": 0.36927372217178345
2660
  },
2661
  "sample": {
2662
  "messages": [
 
2686
  "prompt_len": 118,
2687
  "generated_len": 1,
2688
  "generated_cumulative_logprob": "TODO: calculate for hf model",
2689
+ "generated_token": " Да"
2690
  }
2691
  }
2692
  {
 
2694
  "acc": false
2695
  },
2696
  "predict": {
2697
+ "Да": 0.9895563721656799,
2698
+ "Нет": 0.008561340160667896
2699
  },
2700
  "sample": {
2701
  "messages": [
 
2733
  "acc": false
2734
  },
2735
  "predict": {
2736
+ "Да": 0.008557534776628017,
2737
+ "Нет": 0.9891164898872375
2738
  },
2739
  "sample": {
2740
  "messages": [
 
2772
  "acc": true
2773
  },
2774
  "predict": {
2775
+ "Да": 0.9760570526123047,
2776
+ "Нет": 0.022954661399126053
2777
  },
2778
  "sample": {
2779
  "messages": [
 
2811
  "acc": true
2812
  },
2813
  "predict": {
2814
+ "Да": 0.8137819766998291,
2815
+ "Нет": 0.18157930672168732
2816
  },
2817
  "sample": {
2818
  "messages": [
 
2850
  "acc": true
2851
  },
2852
  "predict": {
2853
+ "Да": 0.13251744210720062,
2854
+ "Нет": 0.864122211933136
2855
  },
2856
  "sample": {
2857
  "messages": [
 
2889
  "acc": false
2890
  },
2891
  "predict": {
2892
+ "Да": 0.9009689092636108,
2893
+ "Нет": 0.09496141970157623
2894
  },
2895
  "sample": {
2896
  "messages": [
 
2928
  "acc": true
2929
  },
2930
  "predict": {
2931
+ "Да": 0.9982324242591858,
2932
+ "Нет": 0.0003794570511672646
2933
  },
2934
  "sample": {
2935
  "messages": [
 
2967
  "acc": true
2968
  },
2969
  "predict": {
2970
+ "Да": 0.675281286239624,
2971
+ "Нет": 0.31898030638694763
2972
  },
2973
  "sample": {
2974
  "messages": [
 
3003
  }
3004
  {
3005
  "metric": {
3006
+ "acc": true
3007
  },
3008
  "predict": {
3009
+ "Да": 0.034908607602119446,
3010
+ "Нет": 0.900304913520813
3011
  },
3012
  "sample": {
3013
  "messages": [
 
3037
  "prompt_len": 185,
3038
  "generated_len": 1,
3039
  "generated_cumulative_logprob": "TODO: calculate for hf model",
3040
+ "generated_token": " Нет"
3041
  }
3042
  }
3043
  {
 
3045
  "acc": true
3046
  },
3047
  "predict": {
3048
+ "Да": 0.9942964911460876,
3049
+ "Нет": 0.000549929856788367
3050
  },
3051
  "sample": {
3052
  "messages": [
 
3084
  "acc": true
3085
  },
3086
  "predict": {
3087
+ "Да": 0.9121109843254089,
3088
+ "Нет": 0.08483953028917313
3089
  },
3090
  "sample": {
3091
  "messages": [
 
3123
  "acc": true
3124
  },
3125
  "predict": {
3126
+ "Да": 0.9441512227058411,
3127
+ "Нет": 0.053265370428562164
3128
  },
3129
  "sample": {
3130
  "messages": [
 
3162
  "acc": false
3163
  },
3164
  "predict": {
3165
+ "Да": 0.9759252071380615,
3166
+ "Нет": 0.022951561957597733
3167
  },
3168
  "sample": {
3169
  "messages": [
 
3201
  "acc": true
3202
  },
3203
  "predict": {
3204
+ "Да": 0.9951752424240112,
3205
+ "Нет": 0.004067054018378258
3206
  },
3207
  "sample": {
3208
  "messages": [
 
3237
  }
3238
  {
3239
  "metric": {
3240
+ "acc": false
3241
  },
3242
  "predict": {
3243
+ "Да": 0.4357108473777771,
3244
+ "Нет": 0.5594637989997864
3245
  },
3246
  "sample": {
3247
  "messages": [
 
3271
  "prompt_len": 124,
3272
  "generated_len": 1,
3273
  "generated_cumulative_logprob": "TODO: calculate for hf model",
3274
+ "generated_token": " Нет"
3275
  }
3276
  }
3277
  {
 
3279
  "acc": false
3280
  },
3281
  "predict": {
3282
+ "Да": 0.9855395555496216,
3283
+ "Нет": 0.01240611169487238
3284
  },
3285
  "sample": {
3286
  "messages": [
 
3318
  "acc": true
3319
  },
3320
  "predict": {
3321
+ "Да": 0.9919529557228088,
3322
+ "Нет": 0.004593654070049524
3323
  },
3324
  "sample": {
3325
  "messages": [
 
3357
  "acc": false
3358
  },
3359
  "predict": {
3360
+ "Да": 0.9647388458251953,
3361
+ "Нет": 0.0330115482211113
3362
  },
3363
  "sample": {
3364
  "messages": [
 
3396
  "acc": true
3397
  },
3398
  "predict": {
3399
+ "Да": 0.00720560597255826,
3400
+ "Нет": 0.9437482357025146
3401
  },
3402
  "sample": {
3403
  "messages": [
 
3435
  "acc": true
3436
  },
3437
  "predict": {
3438
+ "Да": 0.13218553364276886,
3439
+ "Нет": 0.8619579076766968
3440
  },
3441
  "sample": {
3442
  "messages": [
 
3474
  "acc": true
3475
  },
3476
  "predict": {
3477
+ "Да": 0.9950782060623169,
3478
+ "Нет": 0.0035888124257326126
3479
  },
3480
  "sample": {
3481
  "messages": [
 
3513
  "acc": true
3514
  },
3515
  "predict": {
3516
+ "Да": 0.041978299617767334,
3517
+ "Нет": 0.9554216861724854
3518
  },
3519
  "sample": {
3520
  "messages": [
 
3552
  "acc": false
3553
  },
3554
  "predict": {
3555
+ "Да": 0.9225624203681946,
3556
+ "Нет": 0.07572853565216064
3557
  },
3558
  "sample": {
3559
  "messages": [
 
3591
  "acc": true
3592
  },
3593
  "predict": {
3594
+ "Да": 0.9849860668182373,
3595
+ "Нет": 0.014050071127712727
3596
  },
3597
  "sample": {
3598
  "messages": [
 
3630
  "acc": false
3631
  },
3632
  "predict": {
3633
+ "Да": 0.9603575468063354,
3634
+ "Нет": 0.037237104028463364
3635
  },
3636
  "sample": {
3637
  "messages": [
 
3669
  "acc": true
3670
  },
3671
  "predict": {
3672
+ "Да": 0.983910322189331,
3673
+ "Нет": 0.014034726656973362
3674
  },
3675
  "sample": {
3676
  "messages": [
 
3708
  "acc": true
3709
  },
3710
  "predict": {
3711
+ "Да": 0.9965747594833374,
3712
+ "Нет": 0.0009087585494853556
3713
  },
3714
  "sample": {
3715
  "messages": [
 
3747
  "acc": true
3748
  },
3749
  "predict": {
3750
+ "Да": 0.998910665512085,
3751
+ "Нет": 0.00043027332867495716
3752
  },
3753
  "sample": {
3754
  "messages": [
 
3783
  }
3784
  {
3785
  "metric": {
3786
+ "acc": true
3787
  },
3788
  "predict": {
3789
+ "Да": 0.11587158590555191,
3790
+ "Нет": 0.7555776238441467
3791
  },
3792
  "sample": {
3793
  "messages": [
 
3817
  "prompt_len": 190,
3818
  "generated_len": 1,
3819
  "generated_cumulative_logprob": "TODO: calculate for hf model",
3820
+ "generated_token": " Нет"
3821
  }
3822
  }
3823
  {
 
3825
  "acc": true
3826
  },
3827
  "predict": {
3828
+ "Да": 0.9935997724533081,
3829
+ "Нет": 0.0024628876708447933
3830
  },
3831
  "sample": {
3832
  "messages": [
 
3864
  "acc": true
3865
  },
3866
  "predict": {
3867
+ "Да": 0.9504597783088684,
3868
+ "Нет": 0.04732060432434082
3869
  },
3870
  "sample": {
3871
  "messages": [
 
3903
  "acc": true
3904
  },
3905
  "predict": {
3906
+ "Да": 0.017950840294361115,
3907
+ "Нет": 0.9800826907157898
3908
  },
3909
  "sample": {
3910
  "messages": [
 
3939
  }
3940
  {
3941
  "metric": {
3942
+ "acc": true
3943
  },
3944
  "predict": {
3945
+ "Да": 0.3196840286254883,
3946
+ "Нет": 0.6767711043357849
3947
  },
3948
  "sample": {
3949
  "messages": [
 
3973
  "prompt_len": 145,
3974
  "generated_len": 1,
3975
  "generated_cumulative_logprob": "TODO: calculate for hf model",
3976
+ "generated_token": " Нет"
3977
  }
3978
  }
3979
  {
 
3981
  "acc": true
3982
  },
3983
  "predict": {
3984
+ "Да": 0.0002611143863759935,
3985
+ "Нет": 0.9994482398033142
3986
  },
3987
  "sample": {
3988
  "messages": [
 
4017
  }
4018
  {
4019
  "metric": {
4020
+ "acc": true
4021
  },
4022
  "predict": {
4023
+ "Да": 0.31936371326446533,
4024
+ "Нет": 0.6760929822921753
4025
  },
4026
  "sample": {
4027
  "messages": [
 
4051
  "prompt_len": 136,
4052
  "generated_len": 1,
4053
  "generated_cumulative_logprob": "TODO: calculate for hf model",
4054
+ "generated_token": " Нет"
4055
  }
4056
  }
4057
  {
 
4059
  "acc": true
4060
  },
4061
  "predict": {
4062
+ "Да": 0.7956498265266418,
4063
+ "Нет": 0.20117178559303284
4064
  },
4065
  "sample": {
4066
  "messages": [
 
4098
  "acc": true
4099
  },
4100
  "predict": {
4101
+ "Да": 0.9989946484565735,
4102
+ "Нет": 0.0002957471297122538
4103
  },
4104
  "sample": {
4105
  "messages": [
 
4137
  "acc": false
4138
  },
4139
  "predict": {
4140
+ "Да": 0.7737246155738831,
4141
+ "Нет": 0.2216758280992508
4142
  },
4143
  "sample": {
4144
  "messages": [
 
4176
  "acc": true
4177
  },
4178
  "predict": {
4179
+ "Да": 0.8372783660888672,
4180
+ "Нет": 0.028650088235735893
4181
  },
4182
  "sample": {
4183
  "messages": [
 
4215
  "acc": false
4216
  },
4217
  "predict": {
4218
+ "Да": 0.01241317018866539,
4219
+ "Нет": 0.9861002564430237
4220
  },
4221
  "sample": {
4222
  "messages": [
 
4254
  "acc": false
4255
  },
4256
  "predict": {
4257
+ "Да": 0.7518507838249207,
4258
+ "Нет": 0.24409019947052002
4259
  },
4260
  "sample": {
4261
  "messages": [
 
4293
  "acc": true
4294
  },
4295
  "predict": {
4296
+ "Да": 0.9377730488777161,
4297
+ "Нет": 0.05994982644915581
4298
  },
4299
  "sample": {
4300
  "messages": [
 
4332
  "acc": false
4333
  },
4334
  "predict": {
4335
+ "Да": 0.7960202693939209,
4336
+ "Нет": 0.20126543939113617
4337
  },
4338
  "sample": {
4339
  "messages": [
 
4371
  "acc": true
4372
  },
4373
  "predict": {
4374
+ "Да": 0.9995843768119812,
4375
+ "Нет": 0.00013978351489640772
4376
  },
4377
  "sample": {
4378
  "messages": [
 
4410
  "acc": false
4411
  },
4412
  "predict": {
4413
+ "Да": 0.9554628133773804,
4414
+ "Нет": 0.04198010638356209
4415
  },
4416
  "sample": {
4417
  "messages": [
 
4449
  "acc": true
4450
  },
4451
  "predict": {
4452
+ "Да": 0.9594995379447937,
4453
+ "Нет": 0.0372038334608078
4454
  },
4455
  "sample": {
4456
  "messages": [
 
4488
  "acc": false
4489
  },
4490
  "predict": {
4491
+ "Да": 0.9700769186019897,
4492
+ "Нет": 0.025851672515273094
4493
  },
4494
  "sample": {
4495
  "messages": [
 
4527
  "acc": true
4528
  },
4529
  "predict": {
4530
+ "Да": 0.9993027448654175,
4531
+ "Нет": 0.0002958383411169052
4532
  },
4533
  "sample": {
4534
  "messages": [
 
4566
  "acc": false
4567
  },
4568
  "predict": {
4569
+ "Да": 0.8346498012542725,
4570
+ "Нет": 0.015287145040929317
4571
  },
4572
  "sample": {
4573
  "messages": [
 
4605
  "acc": false
4606
  },
4607
  "predict": {
4608
+ "Да": 0.8914243578910828,
4609
+ "Нет": 0.09395543485879898
4610
  },
4611
  "sample": {
4612
  "messages": [
 
4641
  }
4642
  {
4643
  "metric": {
4644
+ "acc": true
4645
  },
4646
  "predict": {
4647
+ "Да": 0.34696969389915466,
4648
+ "Нет": 0.6482247114181519
4649
  },
4650
  "sample": {
4651
  "messages": [
 
4675
  "prompt_len": 250,
4676
  "generated_len": 1,
4677
  "generated_cumulative_logprob": "TODO: calculate for hf model",
4678
+ "generated_token": " Нет"
4679
  }
4680
  }
4681
  {
 
4683
  "acc": false
4684
  },
4685
  "predict": {
4686
+ "Да": 0.9843570590019226,
4687
+ "Нет": 0.014041098766028881
4688
  },
4689
  "sample": {
4690
  "messages": [
 
4722
  "acc": false
4723
  },
4724
  "predict": {
4725
+ "Да": 0.9513174891471863,
4726
+ "Нет": 0.04736330732703209
4727
  },
4728
  "sample": {
4729
  "messages": [
 
4761
  "acc": true
4762
  },
4763
  "predict": {
4764
+ "Да": 0.00048762941150926054,
4765
+ "Нет": 0.9990455508232117
4766
  },
4767
  "sample": {
4768
  "messages": [
 
4800
  "acc": true
4801
  },
4802
  "predict": {
4803
+ "Да": 0.9647670388221741,
4804
+ "Нет": 0.0330125130712986
4805
  },
4806
  "sample": {
4807
  "messages": [
 
4839
  "acc": false
4840
  },
4841
  "predict": {
4842
+ "Да": 0.8886758089065552,
4843
+ "Нет": 0.10613718628883362
4844
  },
4845
  "sample": {
4846
  "messages": [
 
4878
  "acc": false
4879
  },
4880
  "predict": {
4881
+ "Да": 0.9869338274002075,
4882
+ "Нет": 0.00853865034878254
4883
  },
4884
  "sample": {
4885
  "messages": [
 
4917
  "acc": false
4918
  },
4919
  "predict": {
4920
+ "Да": 0.9677151441574097,
4921
+ "Нет": 0.02922246605157852
4922
  },
4923
  "sample": {
4924
  "messages": [
 
4956
  "acc": true
4957
  },
4958
  "predict": {
4959
+ "Да": 0.13170552253723145,
4960
+ "Нет": 0.7579130530357361
4961
  },
4962
  "sample": {
4963
  "messages": [
 
4995
  "acc": true
4996
  },
4997
  "predict": {
4998
+ "Да": 0.9837205410003662,
4999
+ "Нет": 0.005849415902048349
5000
  },
5001
  "sample": {
5002
  "messages": [
 
5034
  "acc": true
5035
  },
5036
  "predict": {
5037
+ "Да": 0.9917393922805786,
5038
+ "Нет": 0.006682287435978651
5039
  },
5040
  "sample": {
5041
  "messages": [
 
5073
  "acc": true
5074
  },
5075
  "predict": {
5076
+ "Да": 0.9750467538833618,
5077
+ "Нет": 0.022930901497602463
5078
  },
5079
  "sample": {
5080
  "messages": [
 
5112
  "acc": false
5113
  },
5114
  "predict": {
5115
+ "Да": 0.7291420698165894,
5116
+ "Нет": 0.2682363986968994
5117
  },
5118
  "sample": {
5119
  "messages": [
 
5151
  "acc": true
5152
  },
5153
  "predict": {
5154
+ "Да": 0.05994865298271179,
5155
+ "Нет": 0.93775475025177
5156
  },
5157
  "sample": {
5158
  "messages": [
 
5187
  }
5188
  {
5189
  "metric": {
5190
+ "acc": false
5191
  },
5192
  "predict": {
5193
+ "Да": 0.31936290860176086,
5194
+ "Нет": 0.6760912537574768
5195
  },
5196
  "sample": {
5197
  "messages": [
 
5221
  "prompt_len": 142,
5222
  "generated_len": 1,
5223
  "generated_cumulative_logprob": "TODO: calculate for hf model",
5224
+ "generated_token": " Нет"
5225
  }
5226
  }
5227
  {
 
5229
  "acc": false
5230
  },
5231
  "predict": {
5232
+ "Да": 0.6484516859054565,
5233
+ "Нет": 0.3470911979675293
5234
  },
5235
  "sample": {
5236
  "messages": [
 
5268
  "acc": false
5269
  },
5270
  "predict": {
5271
+ "Да": 0.991758406162262,
5272
+ "Нет": 0.004592753015458584
5273
  },
5274
  "sample": {
5275
  "messages": [
 
5304
  }
5305
  {
5306
  "metric": {
5307
+ "acc": true
5308
  },
5309
  "predict": {
5310
+ "Да": 0.9371646642684937,
5311
+ "Нет": 0.05991093069314957
5312
  },
5313
  "sample": {
5314
  "messages": [
 
5338
  "prompt_len": 93,
5339
  "generated_len": 1,
5340
  "generated_cumulative_logprob": "TODO: calculate for hf model",
5341
+ "generated_token": " Да"
5342
  }
5343
  }
5344
  {
 
5346
  "acc": false
5347
  },
5348
  "predict": {
5349
+ "Да": 0.030796915292739868,
5350
+ "Нет": 0.9000177979469299
5351
  },
5352
  "sample": {
5353
  "messages": [
 
5385
  "acc": true
5386
  },
5387
  "predict": {
5388
+ "Да": 0.13232561945915222,
5389
+ "Нет": 0.8628714084625244
5390
  },
5391
  "sample": {
5392
  "messages": [
 
5424
  "acc": false
5425
  },
5426
  "predict": {
5427
+ "Да": 0.8320919275283813,
5428
+ "Нет": 0.16384859383106232
5429
  },
5430
  "sample": {
5431
  "messages": [
 
5463
  "acc": true
5464
  },
5465
  "predict": {
5466
+ "Да": 0.0004872935824096203,
5467
+ "Нет": 0.9983574748039246
5468
  },
5469
  "sample": {
5470
  "messages": [
 
5502
  "acc": true
5503
  },
5504
  "predict": {
5505
+ "Да": 0.9310119152069092,
5506
+ "Нет": 0.06744227558374405
5507
  },
5508
  "sample": {
5509
  "messages": [
 
5541
  "acc": false
5542
  },
5543
  "predict": {
5544
+ "Да": 0.04733540117740631,
5545
+ "Нет": 0.9507570266723633
5546
  },
5547
  "sample": {
5548
  "messages": [
 
5580
  "acc": false
5581
  },
5582
  "predict": {
5583
+ "Да": 0.18187052011489868,
5584
+ "Нет": 0.815087080001831
5585
  },
5586
  "sample": {
5587
  "messages": [
 
5619
  "acc": true
5620
  },
5621
  "predict": {
5622
+ "Да": 0.9099515080451965,
5623
+ "Нет": 0.08463867008686066
5624
  },
5625
  "sample": {
5626
  "messages": [
 
5658
  "acc": true
5659
  },
5660
  "predict": {
5661
+ "Да": 0.9968468546867371,
5662
+ "Нет": 0.0009090066887438297
5663
  },
5664
  "sample": {
5665
  "messages": [
 
5697
  "acc": true
5698
  },
5699
  "predict": {
5700
+ "Да": 0.9605898261070251,
5701
+ "Нет": 0.037246108055114746
5702
  },
5703
  "sample": {
5704
  "messages": [
 
5736
  "acc": true
5737
  },
5738
  "predict": {
5739
+ "Да": 0.0024113699328154325,
5740
+ "Нет": 0.972815990447998
5741
  },
5742
  "sample": {
5743
  "messages": [
 
5772
  }
5773
  {
5774
  "metric": {
5775
+ "acc": true
5776
  },
5777
  "predict": {
5778
+ "Да": 0.7490108609199524,
5779
+ "Нет": 0.24316821992397308
5780
  },
5781
  "sample": {
5782
  "messages": [
 
5806
  "prompt_len": 128,
5807
  "generated_len": 1,
5808
  "generated_cumulative_logprob": "TODO: calculate for hf model",
5809
+ "generated_token": " Да"
5810
  }
5811
  }
5812
  {
 
5814
  "acc": true
5815
  },
5816
  "predict": {
5817
+ "Да": 0.7953344583511353,
5818
+ "Нет": 0.20109203457832336
5819
  },
5820
  "sample": {
5821
  "messages": [
 
5853
  "acc": true
5854
  },
5855
  "predict": {
5856
+ "Да": 0.0052118925377726555,
5857
+ "Нет": 0.9932109713554382
5858
  },
5859
  "sample": {
5860
  "messages": [
 
5892
  "acc": false
5893
  },
5894
  "predict": {
5895
+ "Да": 0.9696946144104004,
5896
+ "Нет": 0.029282240197062492
5897
  },
5898
  "sample": {
5899
  "messages": [
 
5931
  "acc": true
5932
  },
5933
  "predict": {
5934
+ "Да": 0.8631463050842285,
5935
+ "Нет": 0.13236777484416962
5936
  },
5937
  "sample": {
5938
  "messages": [
 
5970
  "acc": false
5971
  },
5972
  "predict": {
5973
+ "Да": 0.9298466444015503,
5974
+ "Нет": 0.0673578679561615
5975
  },
5976
  "sample": {
5977
  "messages": [
 
6009
  "acc": false
6010
  },
6011
  "predict": {
6012
+ "Да": 0.648496687412262,
6013
+ "Нет": 0.34711527824401855
6014
  },
6015
  "sample": {
6016
  "messages": [
 
6048
  "acc": true
6049
  },
6050
  "predict": {
6051
+ "Да": 0.9967240691184998,
6052
+ "Нет": 0.0014985139714553952
6053
  },
6054
  "sample": {
6055
  "messages": [
 
6087
  "acc": true
6088
  },
6089
  "predict": {
6090
+ "Да": 0.8478701710700989,
6091
+ "Нет": 0.14733773469924927
6092
  },
6093
  "sample": {
6094
  "messages": [
 
6126
  "acc": true
6127
  },
6128
  "predict": {
6129
+ "Да": 0.013336419127881527,
6130
+ "Нет": 0.9349552392959595
6131
  },
6132
  "sample": {
6133
  "messages": [
 
6165
  "acc": true
6166
  },
6167
  "predict": {
6168
+ "Да": 0.9814848899841309,
6169
+ "Нет": 0.00353978737257421
6170
  },
6171
  "sample": {
6172
  "messages": [
 
6204
  "acc": true
6205
  },
6206
  "predict": {
6207
+ "Да": 0.7275295853614807,
6208
+ "Нет": 0.2676432132720947
6209
  },
6210
  "sample": {
6211
  "messages": [
 
6240
  }
6241
  {
6242
  "metric": {
6243
+ "acc": true
6244
  },
6245
  "predict": {
6246
+ "Да": 0.24412353336811066,
6247
+ "Нет": 0.7519534230232239
6248
  },
6249
  "sample": {
6250
  "messages": [
 
6274
  "prompt_len": 145,
6275
  "generated_len": 1,
6276
  "generated_cumulative_logprob": "TODO: calculate for hf model",
6277
+ "generated_token": " Нет"
6278
  }
6279
  }
6280
  {
 
6282
  "acc": false
6283
  },
6284
  "predict": {
6285
+ "Да": 0.9451982378959656,
6286
+ "Нет": 0.053324438631534576
6287
  },
6288
  "sample": {
6289
  "messages": [
 
6321
  "acc": false
6322
  },
6323
  "predict": {
6324
+ "Да": 0.004606299567967653,
6325
+ "Нет": 0.9946836829185486
6326
  },
6327
  "sample": {
6328
  "messages": [
 
6360
  "acc": false
6361
  },
6362
  "predict": {
6363
+ "Да": 0.5289238691329956,
6364
+ "Нет": 0.4667736887931824
6365
  },
6366
  "sample": {
6367
  "messages": [
 
6399
  "acc": true
6400
  },
6401
  "predict": {
6402
+ "Да": 0.9960262775421143,
6403
+ "Нет": 0.0027976329438388348
6404
  },
6405
  "sample": {
6406
  "messages": [
 
6438
  "acc": true
6439
  },
6440
  "predict": {
6441
+ "Да": 0.9986042380332947,
6442
+ "Нет": 0.00048741401406005025
6443
  },
6444
  "sample": {
6445
  "messages": [
 
6477
  "acc": true
6478
  },
6479
  "predict": {
6480
+ "Да": 0.012419172562658787,
6481
+ "Нет": 0.986577033996582
6482
  },
6483
  "sample": {
6484
  "messages": [
 
6516
  "acc": true
6517
  },
6518
  "predict": {
6519
+ "Да": 0.822433590888977,
6520
+ "Нет": 0.052576418966054916
6521
  },
6522
  "sample": {
6523
  "messages": [
 
6555
  "acc": true
6556
  },
6557
  "predict": {
6558
+ "Да": 0.9949613809585571,
6559
+ "Нет": 0.00025994214229285717
6560
  },
6561
  "sample": {
6562
  "messages": [
 
6594
  "acc": true
6595
  },
6596
  "predict": {
6597
+ "Да": 0.9376339912414551,
6598
+ "Нет": 0.05994093418121338
6599
  },
6600
  "sample": {
6601
  "messages": [
 
6630
  }
6631
  {
6632
  "metric": {
6633
+ "acc": false
6634
  },
6635
  "predict": {
6636
+ "Да": 0.1475498080253601,
6637
+ "Нет": 0.849090576171875
6638
  },
6639
  "sample": {
6640
  "messages": [
 
6664
  "prompt_len": 144,
6665
  "generated_len": 1,
6666
  "generated_cumulative_logprob": "TODO: calculate for hf model",
6667
+ "generated_token": " Нет"
6668
  }
6669
  }
6670
  {
 
6672
  "acc": false
6673
  },
6674
  "predict": {
6675
+ "Да": 0.9759706258773804,
6676
+ "Нет": 0.022952629253268242
6677
  },
6678
  "sample": {
6679
  "messages": [
 
6711
  "acc": true
6712
  },
6713
  "predict": {
6714
+ "Да": 0.13257503509521484,
6715
+ "Нет": 0.8644978404045105
6716
  },
6717
  "sample": {
6718
  "messages": [
 
6750
  "acc": false
6751
  },
6752
  "predict": {
6753
+ "Да": 0.8489236831665039,
6754
+ "Нет": 0.14752081036567688
6755
  },
6756
  "sample": {
6757
  "messages": [
 
6789
  "acc": true
6790
  },
6791
  "predict": {
6792
+ "Да": 0.9444520473480225,
6793
+ "Нет": 0.05328234285116196
6794
  },
6795
  "sample": {
6796
  "messages": [
 
6828
  "acc": false
6829
  },
6830
  "predict": {
6831
+ "Да": 0.9968646168708801,
6832
+ "Нет": 0.0010300579015165567
6833
  },
6834
  "sample": {
6835
  "messages": [
 
6867
  "acc": false
6868
  },
6869
  "predict": {
6870
+ "Да": 0.7520197033882141,
6871
+ "Нет": 0.24414503574371338
6872
  },
6873
  "sample": {
6874
  "messages": [
 
6906
  "acc": true
6907
  },
6908
  "predict": {
6909
+ "Да": 0.9178116917610168,
6910
+ "Нет": 0.0061841667629778385
6911
  },
6912
  "sample": {
6913
  "messages": [
 
6945
  "acc": true
6946
  },
6947
  "predict": {
6948
+ "Да": 0.9809539318084717,
6949
+ "Нет": 0.007489675190299749
6950
  },
6951
  "sample": {
6952
  "messages": [
 
6984
  "acc": false
6985
  },
6986
  "predict": {
6987
+ "Да": 0.5280488729476929,
6988
+ "Нет": 0.4660015106201172
6989
  },
6990
  "sample": {
6991
  "messages": [
 
7023
  "acc": true
7024
  },
7025
  "predict": {
7026
+ "Да": 0.002796539571136236,
7027
+ "Нет": 0.9956369996070862
7028
  },
7029
  "sample": {
7030
  "messages": [
 
7062
  "acc": false
7063
  },
7064
  "predict": {
7065
+ "Да": 0.969736635684967,
7066
+ "Нет": 0.029283510521054268
7067
  },
7068
  "sample": {
7069
  "messages": [
 
7101
  "acc": true
7102
  },
7103
  "predict": {
7104
+ "Да": 0.0046051787212491035,
7105
+ "Нет": 0.994441568851471
7106
  },
7107
  "sample": {
7108
  "messages": [
 
7137
  }
7138
  {
7139
  "metric": {
7140
+ "acc": true
7141
  },
7142
  "predict": {
7143
+ "Да": 0.18177473545074463,
7144
+ "Нет": 0.8146578073501587
7145
  },
7146
  "sample": {
7147
  "messages": [
 
7171
  "prompt_len": 114,
7172
  "generated_len": 1,
7173
  "generated_cumulative_logprob": "TODO: calculate for hf model",
7174
+ "generated_token": " Нет"
7175
  }
7176
  }
7177
  {
 
7179
  "acc": false
7180
  },
7181
  "predict": {
7182
+ "Да": 0.7515117526054382,
7183
+ "Нет": 0.24398013949394226
7184
  },
7185
  "sample": {
7186
  "messages": [
 
7218
  "acc": true
7219
  },
7220
  "predict": {
7221
+ "Да": 0.997649610042572,
7222
+ "Нет": 0.0009097387082874775
7223
  },
7224
  "sample": {
7225
  "messages": [
 
7257
  "acc": true
7258
  },
7259
  "predict": {
7260
+ "Да": 0.9931893348693848,
7261
+ "Нет": 0.0059057194739580154
7262
  },
7263
  "sample": {
7264
  "messages": [
 
7296
  "acc": false
7297
  },
7298
  "predict": {
7299
+ "Да": 0.9268401861190796,
7300
+ "Нет": 0.010296264663338661
7301
  },
7302
  "sample": {
7303
  "messages": [
 
7335
  "acc": true
7336
  },
7337
  "predict": {
7338
+ "Да": 0.9959421753883362,
7339
+ "Нет": 6.578845932381228e-05
7340
  },
7341
  "sample": {
7342
  "messages": [
 
7374
  "acc": false
7375
  },
7376
  "predict": {
7377
+ "Да": 0.8323367238044739,
7378
+ "Нет": 0.16389679908752441
7379
  },
7380
  "sample": {
7381
  "messages": [
 
7410
  }
7411
  {
7412
  "metric": {
7413
+ "acc": true
7414
  },
7415
  "predict": {
7416
+ "Да": 0.22137397527694702,
7417
+ "Нет": 0.772671103477478
7418
  },
7419
  "sample": {
7420
  "messages": [
 
7444
  "prompt_len": 115,
7445
  "generated_len": 1,
7446
  "generated_cumulative_logprob": "TODO: calculate for hf model",
7447
+ "generated_token": " Нет"
7448
  }
7449
  }
7450
  {
 
7452
  "acc": false
7453
  },
7454
  "predict": {
7455
+ "Да": 0.9384414553642273,
7456
+ "Нет": 0.05999255180358887
7457
  },
7458
  "sample": {
7459
  "messages": [
 
7491
  "acc": false
7492
  },
7493
  "predict": {
7494
+ "Да": 0.43566492199897766,
7495
+ "Нет": 0.5594048500061035
7496
  },
7497
  "sample": {
7498
  "messages": [
 
7530
  "acc": true
7531
  },
7532
  "predict": {
7533
+ "Да": 0.9826499223709106,
7534
+ "Нет": 0.015883056446909904
7535
  },
7536
  "sample": {
7537
  "messages": [
 
7569
  "acc": false
7570
  },
7571
  "predict": {
7572
+ "Да": 0.8485281467437744,
7573
+ "Нет": 0.14745207130908966
7574
  },
7575
  "sample": {
7576
  "messages": [
 
7608
  "acc": true
7609
  },
7610
  "predict": {
7611
+ "Да": 0.997142493724823,
7612
+ "Нет": 0.0008024335256777704
7613
  },
7614
  "sample": {
7615
  "messages": [
 
7647
  "acc": false
7648
  },
7649
  "predict": {
7650
+ "Да": 0.9024802446365356,
7651
+ "Нет": 0.09512071311473846
7652
  },
7653
  "sample": {
7654
  "messages": [
 
7686
  "acc": true
7687
  },
7688
  "predict": {
7689
+ "Да": 0.05354682356119156,
7690
+ "Нет": 0.8376132845878601
7691
  },
7692
  "sample": {
7693
  "messages": [
 
7722
  }
7723
  {
7724
  "metric": {
7725
+ "acc": false
7726
  },
7727
  "predict": {
7728
+ "Да": 0.7445687651634216,
7729
+ "Нет": 0.2417260855436325
7730
  },
7731
  "sample": {
7732
  "messages": [
 
7756
  "prompt_len": 103,
7757
  "generated_len": 1,
7758
  "generated_cumulative_logprob": "TODO: calculate for hf model",
7759
+ "generated_token": " Да"
7760
  }
7761
  }
7762
  {
7763
  "metric": {
7764
+ "acc": false
7765
  },
7766
  "predict": {
7767
+ "Да": 0.09495588392019272,
7768
+ "Нет": 0.9009163975715637
7769
  },
7770
  "sample": {
7771
  "messages": [
 
7795
  "prompt_len": 255,
7796
  "generated_len": 1,
7797
  "generated_cumulative_logprob": "TODO: calculate for hf model",
7798
+ "generated_token": " Нет"
7799
  }
7800
  }
7801
  {
 
7803
  "acc": true
7804
  },
7805
  "predict": {
7806
+ "Да": 0.9936006665229797,
7807
+ "Нет": 0.005213937722146511
7808
  },
7809
  "sample": {
7810
  "messages": [
 
7842
  "acc": false
7843
  },
7844
  "predict": {
7845
+ "Да": 0.8501814603805542,
7846
+ "Нет": 0.14773938059806824
7847
  },
7848
  "sample": {
7849
  "messages": [
 
7878
  }
7879
  {
7880
  "metric": {
7881
+ "acc": false
7882
  },
7883
  "predict": {
7884
+ "Да": 0.13254651427268982,
7885
+ "Нет": 0.8643118739128113
7886
  },
7887
  "sample": {
7888
  "messages": [
 
7912
  "prompt_len": 91,
7913
  "generated_len": 1,
7914
  "generated_cumulative_logprob": "TODO: calculate for hf model",
7915
+ "generated_token": " Нет"
7916
  }
7917
  }
7918
  {
 
7920
  "acc": false
7921
  },
7922
  "predict": {
7923
+ "Да": 0.9826809763908386,
7924
+ "Нет": 0.015883559361100197
7925
  },
7926
  "sample": {
7927
  "messages": [
llmtf_eval/darumeru_RWSD_params.jsonl CHANGED
@@ -1,7 +1,7 @@
1
  {
2
  "custom_generation_config": null,
3
  "model_params": {
4
- "model_name_or_path": "/scratch/tikhomirov/workdir/data/models/ruadapt_qwen2.5_7B_ext_u48_full_two_stage_lr5e4_peft_mlp_32_32_lm_head_lora_bs256_as1.5_pv14/simpo2",
5
  "generation_config": {
6
  "bos_token_id": 147075,
7
  "do_sample": true,
 
1
  {
2
  "custom_generation_config": null,
3
  "model_params": {
4
+ "model_name_or_path": "/workdir/data/models/qwen/ruadapt_qwen2.5_7B_ext_u48_part1-2_lr5e4_peft_mlp_32_32_bs128_as1.5_pv8_ft0_as1.35_kto1_as0.75_simpo2_as1.0",
5
  "generation_config": {
6
  "bos_token_id": 147075,
7
  "do_sample": true,
llmtf_eval/darumeru_RWSD_total.jsonl CHANGED
@@ -1,7 +1,7 @@
1
  {
2
  "task_name": "darumeru/RWSD",
3
  "results": {
4
- "acc": 0.5343137254901961
5
  },
6
- "leaderboard_result": 0.5343137254901961
7
  }
 
1
  {
2
  "task_name": "darumeru/RWSD",
3
  "results": {
4
+ "acc": 0.5441176470588235
5
  },
6
+ "leaderboard_result": 0.5441176470588235
7
  }
llmtf_eval/darumeru_cp_para_ru.jsonl CHANGED
@@ -1,7 +1,7 @@
1
  {
2
  "metric": {
3
- "symbol_per_token": 2.5393939393939395,
4
- "len": 1.0,
5
  "lcs": 1.0
6
  },
7
  "predict": {
@@ -44,6 +44,7 @@
44
  13999,
45
  12,
46
  117288,
 
47
  13,
48
  5524,
49
  10124,
@@ -171,7 +172,7 @@
171
  25262,
172
  13
173
  ],
174
- "text": " Сб. «Киноварь» Альманах «Литературного особняка» No 1. М.,1922 «Коралловый корабль» «Литературно-худож. сб. голодающим Поволжья» «Из недр земли» «Балтийский альманах» «Новые стихи» 1. 1926 «Плетень. Антология». 1924 «Сегодня. ― Рязань,1921 «Сопо» Сб. «Голгофа строф» Строфы века. ― М., 1995 Сто поэтесс Серебряного века. ― СПб, 1996 Наталья Кугушева. Некрашеные весла. Проржавленные дни: Собрание стихотворений / Сост."
175
  },
176
  "sample": {
177
  "messages": [
@@ -199,8 +200,8 @@
199
  }
200
  {
201
  "metric": {
202
- "symbol_per_token": 4.137566137566138,
203
- "len": 0.9893617021276596,
204
  "lcs": 1.0
205
  },
206
  "predict": {
@@ -255,9 +256,7 @@
255
  102730,
256
  125258,
257
  100994,
258
- 126138,
259
- 7094,
260
- 104564,
261
  2001,
262
  108849,
263
  100303,
@@ -394,7 +393,7 @@
394
  102735,
395
  13
396
  ],
397
- "text": " Замок терял оборонительные функции и постепенно становился роскошным жильём дворцового типа для лица с высоким статусом. Процесс завершился в XVII веке, когда замок стал резиденцией государственного чиновника и просвещённого вельможи нового типа, каким был сын мэра города Амстердама — Питер Хофт. Писатель, поэт и драматург, член одной камеры риторов Амстердама, Питер Хофт превратил бывшую крепость в известный литературный салон. Он жил и трудился в замке 39 лет, где собирал вокруг себя литературно одарённых современников, среди которых — Вондел, Бредеро, Якоб Катс, художница-график и мастерица Мария Тесселсхаде Виссер и её сестра Анна Виссер, поэтесса, поэт и композитор Константин Гюйгенс. За рвами с водой были спланированы голландские сады, где были сад слив и сад трав."
398
  },
399
  "sample": {
400
  "messages": [
@@ -465,7 +464,7 @@
465
  101302,
466
  129315,
467
  103633,
468
- 113376,
469
  106110,
470
  5524,
471
  18335,
@@ -655,7 +654,7 @@
655
  15,
656
  13
657
  ],
658
- "text": " Холлинджер рассчитал PER таким образом, что средний показатель по лиге в каждом сезоне составляет всегда 15. 00Всего 24 раза в истории НБА игрок завершил сезон с PER выше 30,0. Самый высокий PER за сезон был зафиксирован у Янниса Адетокунбо в сезоне 2019/2020 и составил 31. 86. Майкл Джордан и Леброн Джеймс провели по 4 сезона с PER выше 30,0, Шакил О’Нил и Уилт Чемберлен — по 3 сезона, Энтони Дэвис и Яннис Адетокунбо — по 2 сезона, Дэвид Робинсон, Дуэйн Уэйд, Крис Пол, Трэйси Макгрэди, Стефен Карри, Рассел Уэстбрук и Джеймс Харден — по одному сезону в карьере. Сезон НБА 2008/2009 и 2018/2019 — единственный на данный момент в истории сезоны, когда более одного игрока получили PER более 30,0."
659
  },
660
  "sample": {
661
  "messages": [
@@ -1917,8 +1916,8 @@
1917
  }
1918
  {
1919
  "metric": {
1920
- "symbol_per_token": 3.9468085106382977,
1921
- "len": 0.9946524064171123,
1922
  "lcs": 1.0
1923
  },
1924
  "predict": {
@@ -1998,8 +1997,7 @@
1998
  13337,
1999
  44155,
2000
  13289,
2001
- 138743,
2002
- 31443,
2003
  100752,
2004
  126316,
2005
  57297,
@@ -2111,7 +2109,7 @@
2111
  104450,
2112
  13
2113
  ],
2114
- "text": " Гран-при Германии 1965 года — седьмой этап чемпионата мира по автогонкам в классе Формула-1 сезона 1965 года. Автогонки прошли 1 августа 1965 года на трассе Нюрбургринг в ФРГ. Команда «Хонда» пропустила этот этап чемпионата. «Лотус» расширила свою заявку до трёх автомобилей, усадив за руль на одну гонку местного пилота Герхарда Миттера. К постоянным участникам чемпионата добавились пилоты команды «Скудерия Чентро Суд» Мастен Грегори и не прошедший в итоге квалификацию Роберто Буссинелло. Также за руль автомобиля собственной команды вернулся Джек Брэбем. Крис Эймон вновь стартовал за частную команду Реджа Парнелла. В гонке Джим Кларк одержал победу, завоевав «большой шлем» и звание чемпиона мира за три этапа до окончания чемпионата."
2115
  },
2116
  "sample": {
2117
  "messages": [
@@ -2914,8 +2912,8 @@
2914
  }
2915
  {
2916
  "metric": {
2917
- "symbol_per_token": 4.295857988165681,
2918
- "len": 1.0,
2919
  "lcs": 1.0
2920
  },
2921
  "predict": {
@@ -2998,8 +2996,7 @@
2998
  5927,
2999
  110734,
3000
  13,
3001
- 107881,
3002
- 12507,
3003
  100702,
3004
  143914,
3005
  131011,
@@ -3089,7 +3086,7 @@
3089
  126333,
3090
  13
3091
  ],
3092
- "text": " В июле 1968 года в результате бескровного переворота к власти в Ираке пришла партия «Баас». Президенту республики по Конституции 1968 года давались также широкие полномочия. Вся власть сосредотачивалась в руках только одного человека — Ахмада аль-Бакра. В июле 1979 года аль-Бакр ушёл в отставку. Президентом стал Саддам Хусейн, хотя уже был де-факто лидером Ирака несколько лет до этого, имея контроль над спецслужбами. После ликвидации всех политических противников, в основном левого толка, Саддам получил фактически диктаторские полномочия в результате совмещения всех высших постов. В апреле 2003 года международная коалиция во главе с США вторглась в Ирак и свергла режим Саддама Хусейна, а сам он был схвачен и казнен."
3093
  },
3094
  "sample": {
3095
  "messages": [
@@ -4185,8 +4182,8 @@
4185
  }
4186
  {
4187
  "metric": {
4188
- "symbol_per_token": 4.468599033816425,
4189
- "len": 1.0,
4190
  "lcs": 1.0
4191
  },
4192
  "predict": {
@@ -4255,7 +4252,7 @@
4255
  21,
4256
  100281,
4257
  11,
4258
- 116737,
4259
  100706,
4260
  12769,
4261
  114288,
@@ -4272,7 +4269,7 @@
4272
  11,
4273
  100376,
4274
  102508,
4275
- 272,
4276
  100876,
4277
  12507,
4278
  103297,
@@ -4336,9 +4333,7 @@
4336
  94962,
4337
  44946,
4338
  137793,
4339
- 100265,
4340
- 66,
4341
- 103824,
4342
  105290,
4343
  100853,
4344
  5927,
@@ -4370,9 +4365,8 @@
4370
  8341,
4371
  101266,
4372
  103513,
4373
- 11,
4374
  101925,
4375
- 145333,
4376
  109464,
4377
  115403,
4378
  39900,
@@ -4387,7 +4381,6 @@
4387
  15,
4388
  4,
4389
  104990,
4390
- 11,
4391
  37405,
4392
  116382,
4393
  100447,
@@ -4398,7 +4391,7 @@
4398
  102988,
4399
  13
4400
  ],
4401
- "text": " Точная медицина — инновационный подход в системе здравоохранения, при котором профилактика и лечение заболеваний подбирается главным образом по генетической информации. Он появился благодаря технологиям больших данных и снижению стоимости секвенирования ДНК. Первой страной, запустившей проект точной медицины, стали США в 2016 году,Термин «точная медицина» появился в 2009 году, после случая c Ником Волкером. У мальчика в 2 года сильно болел кишечник. К 6 годам он перенёс 160 операций. Потом, к его лечению подключился Ховард Джейкоб, который секвенировал геном мальчика и нашёл мутацию в гене XIAP, ответственном за редкий воcпалительный процесс в кишечнике, который лечится трансплантацией костного мозга. После операции Ник полностью выздоровел. Таким образом, только генетический анализ, помог побороть болезнь неясного происхождения. Он помогает приблизительно в 30% случаев, при неопределённом диагнозе. Примечания."
4402
  },
4403
  "sample": {
4404
  "messages": [
@@ -4548,7 +4541,7 @@
4548
  20,
4549
  11562,
4550
  13,
4551
- 139911,
4552
  128349,
4553
  110576,
4554
  2001,
@@ -4573,7 +4566,7 @@
4573
  114466,
4574
  13
4575
  ],
4576
- "text": " Рябинки Рябинки — деревня в Можайском районе Московской области, в составе сельского поселения Замошинское. Численность постоянного населения по Всероссийской переписи 2010 года — 5 человек. До 2006 года Рябинки входили в состав Замошинского сельского округа. Деревня расположена на западе района, примерно в 11 км к юго-востоку от Уваровки, на суходоле, на автодороге \"46К-1130\" Уваровка — Можайск, высота над уровнем моря 235 м. Ближайшие населённые пункты — Храброво на северо-западе, Захаровка на севере и Высокое на северо-востоке."
4577
  },
4578
  "sample": {
4579
  "messages": [
@@ -5561,8 +5554,8 @@
5561
  }
5562
  {
5563
  "metric": {
5564
- "symbol_per_token": 5.2846715328467155,
5565
- "len": 0.9926470588235294,
5566
  "lcs": 1.0
5567
  },
5568
  "predict": {
@@ -5574,8 +5567,7 @@
5574
  141432,
5575
  68088,
5576
  62731,
5577
- 25,
5578
- 674,
5579
  117801,
5580
  48150,
5581
  13,
@@ -5704,7 +5696,7 @@
5704
  104501,
5705
  13
5706
  ],
5707
- "text": " По форме морское страхование может быть: # Договорное. Предполагает заключение договора морского страхования со страховщиком, который за определённую плату обязуется возместить страхователю или выгодоприобретателю убытки, причинённые страховым случаем. Договорное морское страхование является одним из первых видов страхования. Первый известный договор морского страхования был заключён в 1347 году# Взаимное. Взаимное страхование осуществляется в клубах взаимного страхования. Клубы взаимного страхования впервые возникли в Англии после 1720 года. Особенностью взаимного страхования является то, что возможные убытки члена клуба взаимного страхования возмещаются из общего фонда, формируемого за счёт взносов членов клуба."
5708
  },
5709
  "sample": {
5710
  "messages": [
@@ -6843,7 +6835,7 @@
6843
  102326,
6844
  5927,
6845
  99491,
6846
- 146065,
6847
  127040,
6848
  100625,
6849
  111394,
@@ -6928,7 +6920,7 @@
6928
  109507,
6929
  13
6930
  ],
6931
- "text": " Фильм стал первым опытом сотрудничества Китона с Metro-Goldwyn-Mayer и имел успех, однако уже через год компания лишила Китона творческого контроля над его фильмами, нанеся тем самым серьёзный и долговременный ущерб его карьере. Китон позднее назвал переход в MGM величайшей ошибкой своей карьеры. Фильм долгое время считался утерянным. Полная копия была обнаружена в 1968 году в Париже. В 1991 году выявили ещё одну копию, гораздо более высокого качества, но с отсутствием некоторых фрагментов. На их основе была смонтирована полная качественная версия. В 2005 году «Кинооператор» был включён в Национальный реестр фильмов."
6932
  },
6933
  "sample": {
6934
  "messages": [
@@ -9576,7 +9568,7 @@
9576
  "info": {
9577
  "prompt_len": 130,
9578
  "generated_len": [
9579
- 233
9580
  ],
9581
  "generated_cumulative_logprob": "TODO: calculate for hf model"
9582
  }
@@ -9713,7 +9705,7 @@
9713
  "info": {
9714
  "prompt_len": 124,
9715
  "generated_len": [
9716
- 233
9717
  ],
9718
  "generated_cumulative_logprob": "TODO: calculate for hf model"
9719
  }
@@ -9842,7 +9834,7 @@
9842
  "info": {
9843
  "prompt_len": 116,
9844
  "generated_len": [
9845
- 233
9846
  ],
9847
  "generated_cumulative_logprob": "TODO: calculate for hf model"
9848
  }
@@ -9961,7 +9953,7 @@
9961
  "info": {
9962
  "prompt_len": 106,
9963
  "generated_len": [
9964
- 233
9965
  ],
9966
  "generated_cumulative_logprob": "TODO: calculate for hf model"
9967
  }
@@ -10211,14 +10203,14 @@
10211
  "info": {
10212
  "prompt_len": 237,
10213
  "generated_len": [
10214
- 233
10215
  ],
10216
  "generated_cumulative_logprob": "TODO: calculate for hf model"
10217
  }
10218
  }
10219
  {
10220
  "metric": {
10221
- "symbol_per_token": 3.3884297520661155,
10222
  "len": 0.9916666666666667,
10223
  "lcs": 1.0
10224
  },
@@ -10290,7 +10282,7 @@
10290
  102894,
10291
  13,
10292
  118889,
10293
- 100431,
10294
  11,
10295
  108941,
10296
  5524,
@@ -10345,7 +10337,7 @@
10345
  104491,
10346
  13
10347
  ],
10348
- "text": " Образовано в 1957 году путем объединения сел \"Великие Хутора\", \"Малые Хутора\" и \"Кайдачиха\". На карте Винницы, датируемой 1916-м годом, находится рядом с Малыми хуторами в составе Винницы под названием Большие хутора. Числись, наряду с Малыми хуторами, как предместье Винницы. Исторически в состав Винницких хуторов входили села: Кайдачиха, Тененки и Геталка. Название Кайдачиха сохранила за собой часть села."
10349
  },
10350
  "sample": {
10351
  "messages": [
@@ -10366,15 +10358,15 @@
10366
  "info": {
10367
  "prompt_len": 141,
10368
  "generated_len": [
10369
- 233
10370
  ],
10371
  "generated_cumulative_logprob": "TODO: calculate for hf model"
10372
  }
10373
  }
10374
  {
10375
  "metric": {
10376
- "symbol_per_token": 3.9785407725321886,
10377
- "len": 0.9956896551724138,
10378
  "lcs": 1.0
10379
  },
10380
  "predict": {
@@ -10468,8 +10460,7 @@
10468
  101300,
10469
  100339,
10470
  136892,
10471
- 117901,
10472
- 100490,
10473
  101632,
10474
  100806,
10475
  103659,
@@ -10633,7 +10624,7 @@
10633
  "info": {
10634
  "prompt_len": 253,
10635
  "generated_len": [
10636
- 233
10637
  ],
10638
  "generated_cumulative_logprob": "TODO: calculate for hf model"
10639
  }
@@ -10813,7 +10804,7 @@
10813
  "info": {
10814
  "prompt_len": 167,
10815
  "generated_len": [
10816
- 233
10817
  ],
10818
  "generated_cumulative_logprob": "TODO: calculate for hf model"
10819
  }
@@ -13445,8 +13436,8 @@
13445
  }
13446
  {
13447
  "metric": {
13448
- "symbol_per_token": 3.739130434782609,
13449
- "len": 1.0,
13450
  "lcs": 1.0
13451
  },
13452
  "predict": {
@@ -13519,8 +13510,10 @@
13519
  101534,
13520
  101226,
13521
  13373,
13522
- 143000,
13523
- 47273,
 
 
13524
  13,
13525
  23784,
13526
  12769,
@@ -13570,7 +13563,7 @@
13570
  102606,
13571
  11,
13572
  8379,
13573
- 120657,
13574
  136712,
13575
  100351,
13576
  15088,
@@ -13589,7 +13582,7 @@
13589
  109966,
13590
  13
13591
  ],
13592
- "text": " Русалка «Руса́лка: Письмо́ для краса́вицъ» — галицко-русская газета, которая издавалась для женщин в 1868—1870 во Львове. Выходила дважды в месяц. Издатель и редактор Северин Шехович. Печаталась на язычии. В «Русалке» публиковались художественные произведения, лирические поэзии, подавалась светская хроника, полезные советы по ведению хозяйства, печатались заметки о других народах, сообщалось о положении женщин в Англии и Германии, о намерение львовянок создать высшее женское учебное заведение. Вышло 24 номера."
13593
  },
13594
  "sample": {
13595
  "messages": [
@@ -13617,8 +13610,8 @@
13617
  }
13618
  {
13619
  "metric": {
13620
- "symbol_per_token": 3.9846938775510203,
13621
- "len": 0.9948717948717949,
13622
  "lcs": 1.0
13623
  },
13624
  "predict": {
@@ -13792,8 +13785,7 @@
13792
  102026,
13793
  102810,
13794
  100334,
13795
- 5372,
13796
- 16742,
13797
  13,
13798
  105244,
13799
  104531,
@@ -13819,7 +13811,7 @@
13819
  94565,
13820
  75608
13821
  ],
13822
- "text": " В 1980-х годах популярность Национальной баскетбольной ассоциации резко возросла, и стало ясно, что 12 888 мест в «Memorial Coliseum», в котором в то время играл свои домашние игры «Портленд Трэйл Блэйзерс», больше не хватает. Начиная с 5 апреля 1977 года «Трэйл Блэйзерс» распродавали полностью все билеты на свои домашние игры. В 1988 году команду купил Пол Аллен, после чего команда выходила �� финал чемпионата в 1990 и 1992 годах. Вскоре Аллен решил построить новую арену для своей команды и в 1991 году основал Oregon Arena Corporation, частную компанию, в которой Аллен был единственным акционером, для строительства и управления новой ареной. Вскоре команда договорилась с городом Портленд о строительстве нового мультифункционального комплекса рядом с «Memorial Coliseum»."
13823
  },
13824
  "sample": {
13825
  "messages": [
@@ -15684,7 +15676,7 @@
15684
  97065,
15685
  12,
15686
  100446,
15687
- 119653,
15688
  12769,
15689
  132254,
15690
  100434,
@@ -15743,7 +15735,7 @@
15743
  121286,
15744
  13
15745
  ],
15746
- "text": " Эрхарт часто упоминается в работах музыкантов, таких как Джони Митчелл, Патти Смит, Хитер Нова. Амелия Эрхарт явилась одним из главных персонажей фантастического фильма «Ночь в музее 2», где её роль исполнила актриса Эми Адамс. Амелия Эрхарт — центральный персонаж 1 серии 2 сезона «Тридцать Седьмые» сериала «». В телесериала-антологию «Американская история ужасов» одним из важных персонажей является Амелия Эрхарт. Её роль исполнила Лили Рэйб. В 2009 году вышел биографический фильм Миры Наир «Амелия», в главной роли — Хилари Суонк."
15747
  },
15748
  "sample": {
15749
  "messages": [
@@ -16898,7 +16890,7 @@
16898
  81856,
16899
  11,
16900
  98851,
16901
- 124079,
16902
  104754,
16903
  3865,
16904
  117461,
@@ -16914,7 +16906,7 @@
16914
  30,
16915
  9135
16916
  ],
16917
- "text": " В мистическом триллере Яна Нэза «Властелин старости», первая часть книги носит название «Чёрный дембель» и также посвящена одноименному персонажу. В книге Чёрный дембель — это лесной идол, обладающий телепортирующим свойством и отправляющий домой вся��ого, кто помажет его кровью из левого мизинца. Фильм Андрея Прошкина «Солдатский декамерон» в прессе называют «Возвращением Чёрного дембеля». Аналогичным представляется четвёртый сезон телесериала «Lost». В 17-ом эпизоде 15-го сезона сериала «Солдаты» старослужащие решили пошутить над молодыми, придумав легенду о Чёрном дембеле, который произносит капитану фразу: \"Покурим, служивый?!\""
16918
  },
16919
  "sample": {
16920
  "messages": [
@@ -16942,7 +16934,7 @@
16942
  }
16943
  {
16944
  "metric": {
16945
- "symbol_per_token": 2.706896551724138,
16946
  "len": 1.0,
16947
  "lcs": 1.0
16948
  },
@@ -16958,7 +16950,7 @@
16958
  13,
16959
  143366,
16960
  5591,
16961
- 117063,
16962
  13,
16963
  131652,
16964
  100273,
@@ -17006,7 +16998,7 @@
17006
  23,
17007
  13
17008
  ],
17009
- "text": " Доходный дом М. П. Кудрявцева. Дмитровский переулок, 3. Доходный дом Якоби. Улица Декабристов, 5. Переулок Пирогова, 4. Доходный дом. Поварской переулок, 8."
17010
  },
17011
  "sample": {
17012
  "messages": [
@@ -17191,8 +17183,8 @@
17191
  }
17192
  {
17193
  "metric": {
17194
- "symbol_per_token": 3.7412587412587412,
17195
- "len": 1.0,
17196
  "lcs": 1.0
17197
  },
17198
  "predict": {
@@ -17200,11 +17192,9 @@
17200
  102612,
17201
  100957,
17202
  101767,
17203
- 100835,
17204
- 9882,
17205
- 4268,
17206
- 254,
17207
- 18437,
17208
  108175,
17209
  5927,
17210
  110488,
@@ -17340,7 +17330,7 @@
17340
  103588,
17341
  497
17342
  ],
17343
- "text": " Географическое положениеРасположен в южной части Приазово-Кубанской равнины, в южно-предгорной зоне, на левом берегу Кубани в 3 км на северо-запад от административного центра поселения — хутора Ольгинский.; Климатумеренно континентальный, без резких колебаний суточных и месячных температур. Продолжительность периода с температурой выше 0° С достигает 9-10 месяцев, из них половина — 4-5 месяцев — лето. Среднегодовая температура около +11°, постепенно нарастая от 15° в мае до 30° в августе. Годовая сумма осадков достигает 800 мм.."
17344
  },
17345
  "sample": {
17346
  "messages": [
@@ -18234,8 +18224,8 @@
18234
  }
18235
  {
18236
  "metric": {
18237
- "symbol_per_token": 4.52808988764045,
18238
- "len": 0.9886363636363636,
18239
  "lcs": 1.0
18240
  },
18241
  "predict": {
@@ -18306,8 +18296,7 @@
18306
  102055,
18307
  13,
18308
  101132,
18309
- 100607,
18310
- 101312,
18311
  100983,
18312
  108290,
18313
  105801,
@@ -18329,7 +18318,7 @@
18329
  101629,
18330
  13
18331
  ],
18332
- "text": " Стюарт родился в Сан-Филипе на Барбадосе. По состоянию на октябрь 2010 года он одинок и воспитывает дочь. Он окончил университет Вест-Индии и имеет степень в области политологии и права. Стюарт является адвокатом и его практику составляли дела из уголовного и корпоративного права. Поддерживал ряд общественных организаций и сейчас спонсирует Dayrells United Achievers Community клуб и спортивный клуб."
18333
  },
18334
  "sample": {
18335
  "messages": [
@@ -18554,7 +18543,7 @@
18554
  }
18555
  {
18556
  "metric": {
18557
- "symbol_per_token": 3.265625,
18558
  "len": 1.0,
18559
  "lcs": 1.0
18560
  },
@@ -18804,7 +18793,7 @@
18804
  18,
18805
  24,
18806
  16,
18807
- 100312,
18808
  11,
18809
  5927,
18810
  105277,
@@ -18816,7 +18805,7 @@
18816
  102988,
18817
  13
18818
  ],
18819
- "text": " Известна с XV века, когда относилась к Бобольскому стану Боровского уезда. В материалах дозора 1613 года значится «За боярином, за князем Борисом Михайловичем Лыковым... Кухтина, а в ней пашни паханые крестьянские три полуосмины, да по речке по Кщеме по берегу сена пять копен». В 1782 году Кухтина и слобода на реке Кшома вместе с деревнями Алешина, Левина, Глухова и Реткина во владениях князя Василия Ивановича Долгорукова и Евдокии Александровны Зиновьевой. В 1780 году В. И. Долгоруков выставлял на продажу свои деревни в Медынском уезде, в том числе и Кухтину с 504 крепостными в ней. К 1859 году значилась как деревня 1-го стана Медынского уезда и насчитывала 33 двора и 328 жителей. После реформ 1861 года вошла в Глуховскую волость. К 1914 году население возросло до 391 человек, в деревне открылась земская школа. Примечания."
18820
  },
18821
  "sample": {
18822
  "messages": [
 
1
  {
2
  "metric": {
3
+ "symbol_per_token": 2.5602409638554215,
4
+ "len": 0.9939393939393939,
5
  "lcs": 1.0
6
  },
7
  "predict": {
 
44
  13999,
45
  12,
46
  117288,
47
+ 100605,
48
  13,
49
  5524,
50
  10124,
 
172
  25262,
173
  13
174
  ],
175
+ "text": " Сб. «Киноварь» Альманах «Литературного особняка» No 1. М.,1922 «Коралловый корабль» «Литературно-художествен. сб. голодающим Поволжья» «Из недр земли» «Балтийский альманах» «Новые стихи» 1. 1926 «Плетень. Антология». 1924 «Сегодня. ― Рязань,1921 «Сопо» Сб. «Голгофа строф» Строфы века. ― М., 1995 Сто поэтесс Серебряного века. ― СПб, 1996 Наталья Кугушева. Некрашеные весла. Проржавленные дни: Собрание стихотворений / Сост."
176
  },
177
  "sample": {
178
  "messages": [
 
200
  }
201
  {
202
  "metric": {
203
+ "symbol_per_token": 4.176470588235294,
204
+ "len": 1.0,
205
  "lcs": 1.0
206
  },
207
  "predict": {
 
256
  102730,
257
  125258,
258
  100994,
259
+ 127826,
 
 
260
  2001,
261
  108849,
262
  100303,
 
393
  102735,
394
  13
395
  ],
396
+ "text": " Замок терял оборонительные функции и постепенно становился роскошным жильём дворцового типа для лица с высоким статусом. Процесс завершился в XVII веке, когда замок стал резиденцией государственного чиновника и просвещённого вельможи нового типа, каким был сын мэра города Амстердам — Питер Хофт. Писатель, поэт и драматург, член одной камеры риторов Амстердама, Питер Хофт превратил бывшую крепость в известный литературный салон. Он жил и трудился в замке 39 лет, где собирал вокруг себя литературно одарённых современников, среди которых — Вондел, Бредеро, Якоб Катс, художница-график и маст��рица Мария Тесселсхаде Виссер и её сестра Анна Виссер, поэтесса, поэт и композитор Константин Гюйгенс. За рвами с водой были спланированы голландские сады, где были сад слив и сад трав."
397
  },
398
  "sample": {
399
  "messages": [
 
464
  101302,
465
  129315,
466
  103633,
467
+ 110076,
468
  106110,
469
  5524,
470
  18335,
 
654
  15,
655
  13
656
  ],
657
+ "text": " Холлинджер рассчитал PER таким образом, что средний показатель по лиге в каждом сезоне составляет всегда 15. 00Всего 24 раза в истории НБА игрок закончил сезон с PER выше 30,0. Самый высокий PER за сезон был зафиксирован у Янниса Адетокунбо в сезоне 2019/2020 и составил 31. 86. Майкл Джордан и Леброн Джеймс провели по 4 сезона с PER выше 30,0, Шакил О’Нил и Уилт Чемберлен — по 3 сезона, Энтони Дэвис и Яннис Адетокунбо — по 2 сезона, Дэвид Робинсон, Дуэйн Уэйд, Крис Пол, Трэйси Макгрэди, Стефен Карри, Рассел Уэстбрук и Джеймс Харден — по одному сезону в карьере. Сезон НБА 2008/2009 и 2018/2019 — единственный на данный момент в истории сезоны, когда более одного игрока получили PER более 30,0."
658
  },
659
  "sample": {
660
  "messages": [
 
1916
  }
1917
  {
1918
  "metric": {
1919
+ "symbol_per_token": 3.962566844919786,
1920
+ "len": 1.0,
1921
  "lcs": 1.0
1922
  },
1923
  "predict": {
 
1997
  13337,
1998
  44155,
1999
  13289,
2000
+ 127690,
 
2001
  100752,
2002
  126316,
2003
  57297,
 
2109
  104450,
2110
  13
2111
  ],
2112
+ "text": " Гран-при Германии 1965 года — седьмой эта�� чемпионата мира по автогонкам в классе Формула-1 сезона 1965 года. Автогонки прошли 1 августа 1965 года на трассе Нюрбургринг в ФРГ. Команда «Хонда» пропустила этот этап чемпионата. «Лотус» расширил свою заявку до трёх автомобилей, усадив за руль на одну гонку местного пилота Герхарда Миттера. К постоянным участникам чемпионата добавились пилоты команды «Скудерия Чентро Суд» Мастен Грегори и не прошедший в итоге квалификацию Роберто Буссинелло. Также за руль автомобиля собственной команды вернулся Джек Брэбем. Крис Эймон вновь стартовал за частную команду Реджа Парнелла. В гонке Джим Кларк одержал победу, завоевав «большой шлем» и звание чемпиона мира за три этапа до окончания чемпионата."
2113
  },
2114
  "sample": {
2115
  "messages": [
 
2912
  }
2913
  {
2914
  "metric": {
2915
+ "symbol_per_token": 4.321428571428571,
2916
+ "len": 0.9940476190476191,
2917
  "lcs": 1.0
2918
  },
2919
  "predict": {
 
2996
  5927,
2997
  110734,
2998
  13,
2999
+ 109621,
 
3000
  100702,
3001
  143914,
3002
  131011,
 
3086
  126333,
3087
  13
3088
  ],
3089
+ "text": " В июле 1968 года в результате бескровного переворота к власти в Ираке пришла партия «Баас». Президенту республики по Конституции 1968 года давались также широкие полномочия. Вся власть сосредотачивалась в руках только одного человека — Ахмада аль-Бакра. В июле 1979 года аль-Бакр ушёл в отставку. президентом стал Саддам Хусейн, хотя уже был де-факто лидером Ирака несколько лет до этого, имея контроль над спецслужбами. После ликвидации всех политических противников, в основном левого толка, Саддам получил фактически диктаторские полномочия в результате совмещения всех высших постов. В апреле 2003 года международная коалиция во главе с США вторглась в Ирак и свергла режим Саддама Хусейна, а сам он был схвачен и казнен."
3090
  },
3091
  "sample": {
3092
  "messages": [
 
4182
  }
4183
  {
4184
  "metric": {
4185
+ "symbol_per_token": 4.551724137931035,
4186
+ "len": 0.9805825242718447,
4187
  "lcs": 1.0
4188
  },
4189
  "predict": {
 
4252
  21,
4253
  100281,
4254
  11,
4255
+ 104265,
4256
  100706,
4257
  12769,
4258
  114288,
 
4269
  11,
4270
  100376,
4271
  102508,
4272
+ 5524,
4273
  100876,
4274
  12507,
4275
  103297,
 
4333
  94962,
4334
  44946,
4335
  137793,
4336
+ 115795,
 
 
4337
  105290,
4338
  100853,
4339
  5927,
 
4365
  8341,
4366
  101266,
4367
  103513,
 
4368
  101925,
4369
+ 120482,
4370
  109464,
4371
  115403,
4372
  39900,
 
4381
  15,
4382
  4,
4383
  104990,
 
4384
  37405,
4385
  116382,
4386
  100447,
 
4391
  102988,
4392
  13
4393
  ],
4394
+ "text": " Точная медицина — инновационный подход в системе здравоохранения, при котором профилактика и лечение заболеваний подбирается главным образом по генетической информации. Он появился благодаря технологиям больших данных и снижению стоимости секвенирования ДНК. Первой страной, запустившей проект точной медицины, стали США в 2016 году, Термин «точная медицина» появился в 2009 году, после случая с Ником Волкером. У мальчика в 2 года сильно болел кишечник. К 6 годам он перенёс 160 операций. Потом, к его лечению подключился Ховард Джейкоб, который секвенировал геном мальчика и нашёл мутацию в гене XIAP, ответственном за редкий воспалительный процесс в кишечнике, который лечится трансплантацией костного мозга. После операции Ник полностью выздоровел. Таким образом, только генетический анализ помог победить болезнь неясного происхождения. Он помогает приблизительно в 30% случаев при неопределённом диагнозе. Примечания."
4395
  },
4396
  "sample": {
4397
  "messages": [
 
4541
  20,
4542
  11562,
4543
  13,
4544
+ 116347,
4545
  128349,
4546
  110576,
4547
  2001,
 
4566
  114466,
4567
  13
4568
  ],
4569
+ "text": " Рябинки Рябинки — деревня в Можайском районе Московской области, в составе сельского поселения Замошинское. Численность постоянного населения по Всероссийской переписи 2010 года — 5 человек. До 2006 года Рябинки входили в состав Замошинского сельского округа. Деревня расположена на западе района, примерно в 11 км к юго-востоку от Уваровки, на суходоле, на автодороге \"46К-1130\" Уваровка — Можайск, высота над уровнем моря 235 м. ближайшие населённые пункты — Храброво на северо-западе, Захаровка на севере и Высокое на северо-востоке."
4570
  },
4571
  "sample": {
4572
  "messages": [
 
5554
  }
5555
  {
5556
  "metric": {
5557
+ "symbol_per_token": 5.3161764705882355,
5558
+ "len": 1.0,
5559
  "lcs": 1.0
5560
  },
5561
  "predict": {
 
5567
  141432,
5568
  68088,
5569
  62731,
5570
+ 14443,
 
5571
  117801,
5572
  48150,
5573
  13,
 
5696
  104501,
5697
  13
5698
  ],
5699
+ "text": " По форме морское страхование может быть:# Договорное. Предполагает заключение договора морского страхования со страховщиком, который за определённую плату обязуется возместить страхователю или выгодоприобретателю убытки, причинённые страховым случаем. Договорное морское страхование является одним из первых видов страхования. Первый известный договор морского страхования был заключён в 1347 году# Взаимное. Взаимное страхование осуществляется в клубах взаимного страхования. Клубы взаимного страхования впервые возникли в Англии после 1720 года. Особенностью взаимного страхования является то, что возможные убытки члена клуба взаимного страхования возмещаются из общего фонда, формируемого за счёт взносов членов клуба."
5700
  },
5701
  "sample": {
5702
  "messages": [
 
6835
  102326,
6836
  5927,
6837
  99491,
6838
+ 140756,
6839
  127040,
6840
  100625,
6841
  111394,
 
6920
  109507,
6921
  13
6922
  ],
6923
+ "text": " Фильм стал первым опытом сотрудничества Китона с Metro-Goldwyn-Mayer и имел успех, однако уже через год компания лишила Китона творческого контроля над его фильмами, нанеся тем самым серьёзный и долговременный ущерб его карьере. Китон позднее назвал переход в MGM крупнейшей ошибкой своей карьеры. Фильм долгое время считался утерянным. Полная копия была обнаружена в 1968 году в Париже. В 1991 году выявили ещё одну копию, гораздо более высокого качества, но с отсутствием некоторых фрагментов. На их основе была смонтирована полная качественная версия. В 2005 году «Кинооператор» был включён в Национальный реестр фильмов."
6924
  },
6925
  "sample": {
6926
  "messages": [
 
9568
  "info": {
9569
  "prompt_len": 130,
9570
  "generated_len": [
9571
+ 232
9572
  ],
9573
  "generated_cumulative_logprob": "TODO: calculate for hf model"
9574
  }
 
9705
  "info": {
9706
  "prompt_len": 124,
9707
  "generated_len": [
9708
+ 232
9709
  ],
9710
  "generated_cumulative_logprob": "TODO: calculate for hf model"
9711
  }
 
9834
  "info": {
9835
  "prompt_len": 116,
9836
  "generated_len": [
9837
+ 232
9838
  ],
9839
  "generated_cumulative_logprob": "TODO: calculate for hf model"
9840
  }
 
9953
  "info": {
9954
  "prompt_len": 106,
9955
  "generated_len": [
9956
+ 232
9957
  ],
9958
  "generated_cumulative_logprob": "TODO: calculate for hf model"
9959
  }
 
10203
  "info": {
10204
  "prompt_len": 237,
10205
  "generated_len": [
10206
+ 232
10207
  ],
10208
  "generated_cumulative_logprob": "TODO: calculate for hf model"
10209
  }
10210
  }
10211
  {
10212
  "metric": {
10213
+ "symbol_per_token": 3.4049586776859506,
10214
  "len": 0.9916666666666667,
10215
  "lcs": 1.0
10216
  },
 
10282
  102894,
10283
  13,
10284
  118889,
10285
+ 122415,
10286
  11,
10287
  108941,
10288
  5524,
 
10337
  104491,
10338
  13
10339
  ],
10340
+ "text": " Образовано в 1957 году путем объединения сел \"Великие Хутора\", \"Малые Хутора\" и \"Кайдачиха\". На карте Винницы, датируемой 1916-м годом, находится рядом с Малыми хуторами в составе Винницы под названием Большие хутора. Числились, наряду с Малыми хуторами, как предместье Винницы. Исторически в состав Винницких хуторов входили села: Кайдачиха, Тененки и Геталка. Название Кайдачиха сохранила за собой часть села."
10341
  },
10342
  "sample": {
10343
  "messages": [
 
10358
  "info": {
10359
  "prompt_len": 141,
10360
  "generated_len": [
10361
+ 232
10362
  ],
10363
  "generated_cumulative_logprob": "TODO: calculate for hf model"
10364
  }
10365
  }
10366
  {
10367
  "metric": {
10368
+ "symbol_per_token": 3.9956896551724137,
10369
+ "len": 1.0,
10370
  "lcs": 1.0
10371
  },
10372
  "predict": {
 
10460
  101300,
10461
  100339,
10462
  136892,
10463
+ 146493,
 
10464
  101632,
10465
  100806,
10466
  103659,
 
10624
  "info": {
10625
  "prompt_len": 253,
10626
  "generated_len": [
10627
+ 232
10628
  ],
10629
  "generated_cumulative_logprob": "TODO: calculate for hf model"
10630
  }
 
10804
  "info": {
10805
  "prompt_len": 167,
10806
  "generated_len": [
10807
+ 232
10808
  ],
10809
  "generated_cumulative_logprob": "TODO: calculate for hf model"
10810
  }
 
13436
  }
13437
  {
13438
  "metric": {
13439
+ "symbol_per_token": 3.692857142857143,
13440
+ "len": 0.9856115107913669,
13441
  "lcs": 1.0
13442
  },
13443
  "predict": {
 
13510
  101534,
13511
  101226,
13512
  13373,
13513
+ 100734,
13514
+ 54939,
13515
+ 104554,
13516
+ 1840,
13517
  13,
13518
  23784,
13519
  12769,
 
13563
  102606,
13564
  11,
13565
  8379,
13566
+ 128004,
13567
  136712,
13568
  100351,
13569
  15088,
 
13582
  109966,
13583
  13
13584
  ],
13585
+ "text": " Русалка «Руса́лка: Письмо́ для краса́вицъ» — галицко-русская газета, которая издавалась для женщин в 1868—1870 во Львове. Выходила дважды в месяц. Издатель и редактор Северин Шехович. Печаталась на язы́чьи. В «Русалке» публиковались художественные произведения, лирические поэзии, подавалась светская хроника, полезные советы по ведению хозяйства, печатались заметки о других народах, сообщалось о положении женщин в Англии и Германии, о намерении львовянок создать высшее женское учебное заведение. Вышло 24 номера."
13586
  },
13587
  "sample": {
13588
  "messages": [
 
13610
  }
13611
  {
13612
  "metric": {
13613
+ "symbol_per_token": 4.0,
13614
+ "len": 1.0,
13615
  "lcs": 1.0
13616
  },
13617
  "predict": {
 
13785
  102026,
13786
  102810,
13787
  100334,
13788
+ 79686,
 
13789
  13,
13790
  105244,
13791
  104531,
 
13811
  94565,
13812
  75608
13813
  ],
13814
+ "text": " В 1980-х годах популярность Национальной баскетбольной ассоциации резко возросла, и стало ясно, что 12 888 мест в «Memorial Coliseum», в котором в то время играл свои домашние игры «Портленд Трэйл Блэйзерс», больше не хватает. Начиная с 5 апреля 1977 года «Трэйл Блэйзерс» распродавали полностью все билеты на свои домашние игры. В 1988 году команду купил Пол Аллен, после чего команда выходила в финал чемпионата в 1990 и 1992 годах. Вскоре Аллен решил построить новую арену для своей команды и в 1991 году основал Oregon Arena Corporation, частную компанию, в которой Аллен был единственным акционером, для строительства и управления новой арены. Вскоре команда договорилась с городом Портленд о строительстве нового мультифункционального комплекса рядом с «Memorial Coliseum»."
13815
  },
13816
  "sample": {
13817
  "messages": [
 
15676
  97065,
15677
  12,
15678
  100446,
15679
+ 101621,
15680
  12769,
15681
  132254,
15682
  100434,
 
15735
  121286,
15736
  13
15737
  ],
15738
+ "text": " Эрхарт часто упоминается в работах музыкантов, таких как Джони Митчелл, Патти Смит, Хитер Нова. Амелия Эрхарт явилась одним из главных персонажей фантастического фильма «Ночь в музее 2», где её роль исполнила актриса Эми Адамс. Амелия Эрхарт — центральный персонаж 1 серии 2 сезона «Тридцать Седьмые» сериала «». В телесериала-антологии «Американская история ужасов» одним из важных персонажей является Амелия Эрхарт. Её роль исполнила Лили Рэйб. В 2009 году вышел биографический фильм Миры Наир «Амелия», в главной роли — Хилари Суонк."
15739
  },
15740
  "sample": {
15741
  "messages": [
 
16890
  81856,
16891
  11,
16892
  98851,
16893
+ 133768,
16894
  104754,
16895
  3865,
16896
  117461,
 
16906
  30,
16907
  9135
16908
  ],
16909
+ "text": " В мистическом триллере Яна Нэза «Властелин старости», первая часть книги носит название «Чёрный дембель» и также посвящена одноименному персонажу. В книге Чёрный дембель — это лесной идол, обладающий телепортирующим свойством и отправляющий домой всякого, кто помажет его кровью из левого мизинца. Фильм Андрея Прошкина «Солдатский декамерон» в прессе называют «Возвращением Чёрного дембеля». Аналогичным представляется четвёртый сезон телесериала «Lost». В 17-ом эпизоде 15-го сезона сериала «Солдаты» старослужащие решили пошутить над молодыми, придумав легенду о Чёрном дембеле, который произносил капитану фразу: \"Покурим, служивый?!\""
16910
  },
16911
  "sample": {
16912
  "messages": [
 
16934
  }
16935
  {
16936
  "metric": {
16937
+ "symbol_per_token": 2.7241379310344827,
16938
  "len": 1.0,
16939
  "lcs": 1.0
16940
  },
 
16950
  13,
16951
  143366,
16952
  5591,
16953
+ 136350,
16954
  13,
16955
  131652,
16956
  100273,
 
16998
  23,
16999
  13
17000
  ],
17001
+ "text": " Доходный дом М. П. Кудрявцевой. Дмитровский переулок, 3. Доходный дом Якоби. Улица Декабристов, 5. Переулок Пирогова, 4. Доходный дом. Поварской переулок, 8."
17002
  },
17003
  "sample": {
17004
  "messages": [
 
17183
  }
17184
  {
17185
  "metric": {
17186
+ "symbol_per_token": 3.801418439716312,
17187
+ "len": 0.9859154929577465,
17188
  "lcs": 1.0
17189
  },
17190
  "predict": {
 
17192
  102612,
17193
  100957,
17194
  101767,
17195
+ 102752,
17196
+ 198,
17197
+ 111697,
 
 
17198
  108175,
17199
  5927,
17200
  110488,
 
17330
  103588,
17331
  497
17332
  ],
17333
+ "text": " Географическое положение\nРасположен в южной части Приазово-Кубанской равнины, в южно-предгорной зоне, на левом берегу Кубани в 3 км на северо-запад от административного центра поселения — хутора Ольгинский.; Климатумеренно континентальный, без резких колебаний суточных и месячных температур. Продолжительность периода с температурой выше 0° С достигает 9-10 месяцев, из них половина — 4-5 месяцев — лето. Среднегодовая температура около +11°, постепенно нарастая от 15° в мае до 30° в августе. Годовая сумма осадков достигает 800 мм.."
17334
  },
17335
  "sample": {
17336
  "messages": [
 
18224
  }
18225
  {
18226
  "metric": {
18227
+ "symbol_per_token": 4.556818181818182,
18228
+ "len": 1.0,
18229
  "lcs": 1.0
18230
  },
18231
  "predict": {
 
18296
  102055,
18297
  13,
18298
  101132,
18299
+ 125989,
 
18300
  100983,
18301
  108290,
18302
  105801,
 
18318
  101629,
18319
  13
18320
  ],
18321
+ "text": " Стюарт родился в Сан-Филипе на Барбадосе. По состоянию на октябрь 2010 года он одинок и воспитывает дочь. Он окончил университет Вест-Индии и имеет степень в области политологии и права. Стюарт является адвокатом и его практику составляли дела из уголовного и корпоративного права. Поддержал ряд общественных организаций и сейчас спонсирует Dayrells United Achievers Community клуб и спортивный клуб."
18322
  },
18323
  "sample": {
18324
  "messages": [
 
18543
  }
18544
  {
18545
  "metric": {
18546
+ "symbol_per_token": 3.26953125,
18547
  "len": 1.0,
18548
  "lcs": 1.0
18549
  },
 
18793
  18,
18794
  24,
18795
  16,
18796
+ 100739,
18797
  11,
18798
  5927,
18799
  105277,
 
18805
  102988,
18806
  13
18807
  ],
18808
+ "text": " Известна с XV века, когда относилась к Бобольскому стану Боровского уезда. В материалах дозора 1613 года значится «За боярином, за князем Борисом Михайловичем Лыковым... Кухтина, а в ней пашни паханые крестьянские три полуосмины, да по речке по Кщеме по берегу сена пять копен». В 1782 году Кухтина и слобода на реке Кшома вместе с деревнями Алешина, Левина, Глухова и Реткина во владениях князя Василия Ивановича Долгорукова и Евдокии Александровны Зиновьевой. В 1780 году В. И. Долгоруков выставлял на продажу свои деревни в Медынском уезде, в том числе и Кухтину с 504 крепостными в ней. К 1859 году значилась как деревня 1-го стана Медынского уезда и насчитывала 33 двора и 328 жителей. После реформ 1861 года вошла в Глуховскую волость. К 1914 году население возросло до 391 человека, в деревне открылась земская школа. Примечания."
18809
  },
18810
  "sample": {
18811
  "messages": [
llmtf_eval/darumeru_cp_para_ru_params.jsonl CHANGED
@@ -1,7 +1,7 @@
1
  {
2
  "custom_generation_config": null,
3
  "model_params": {
4
- "model_name_or_path": "/scratch/tikhomirov/workdir/data/models/ruadapt_qwen2.5_7B_ext_u48_full_two_stage_lr5e4_peft_mlp_32_32_lm_head_lora_bs256_as1.5_pv14/simpo2",
5
  "generation_config": {
6
  "bos_token_id": 147075,
7
  "do_sample": true,
 
1
  {
2
  "custom_generation_config": null,
3
  "model_params": {
4
+ "model_name_or_path": "/workdir/data/models/qwen/ruadapt_qwen2.5_7B_ext_u48_part1-2_lr5e4_peft_mlp_32_32_bs128_as1.5_pv8_ft0_as1.35_kto1_as0.75_simpo2_as1.0",
5
  "generation_config": {
6
  "bos_token_id": 147075,
7
  "do_sample": true,
llmtf_eval/darumeru_cp_para_ru_total.jsonl CHANGED
@@ -1,8 +1,8 @@
1
  {
2
  "task_name": "darumeru/cp_para_ru",
3
  "results": {
4
- "symbol_per_token": 3.9920472926206347,
5
- "len": 0.9992233172309354,
6
  "lcs": 1.0
7
  },
8
  "leaderboard_result": 1.0
 
1
  {
2
  "task_name": "darumeru/cp_para_ru",
3
  "results": {
4
+ "symbol_per_token": 3.9953318595732386,
5
+ "len": 0.9990656928305265,
6
  "lcs": 1.0
7
  },
8
  "leaderboard_result": 1.0
llmtf_eval/darumeru_ruOpenBookQA.jsonl CHANGED
The diff for this file is too large to render. See raw diff
 
llmtf_eval/darumeru_ruOpenBookQA_params.jsonl CHANGED
@@ -1,7 +1,7 @@
1
  {
2
  "custom_generation_config": null,
3
  "model_params": {
4
- "model_name_or_path": "/scratch/tikhomirov/workdir/data/models/ruadapt_qwen2.5_7B_ext_u48_full_two_stage_lr5e4_peft_mlp_32_32_lm_head_lora_bs256_as1.5_pv14/simpo2",
5
  "generation_config": {
6
  "bos_token_id": 147075,
7
  "do_sample": true,
 
1
  {
2
  "custom_generation_config": null,
3
  "model_params": {
4
+ "model_name_or_path": "/workdir/data/models/qwen/ruadapt_qwen2.5_7B_ext_u48_part1-2_lr5e4_peft_mlp_32_32_bs128_as1.5_pv8_ft0_as1.35_kto1_as0.75_simpo2_as1.0",
5
  "generation_config": {
6
  "bos_token_id": 147075,
7
  "do_sample": true,
llmtf_eval/darumeru_ruOpenBookQA_total.jsonl CHANGED
@@ -1,8 +1,8 @@
1
  {
2
  "task_name": "darumeru/ruOpenBookQA",
3
  "results": {
4
- "acc": 0.8191580756013745,
5
- "f1_macro": 0.8196610608491144
6
  },
7
- "leaderboard_result": 0.8194095682252445
8
  }
 
1
  {
2
  "task_name": "darumeru/ruOpenBookQA",
3
  "results": {
4
+ "acc": 0.8256013745704467,
5
+ "f1_macro": 0.8262484506706507
6
  },
7
+ "leaderboard_result": 0.8259249126205487
8
  }
llmtf_eval/darumeru_ruWorldTree.jsonl CHANGED
@@ -7,10 +7,10 @@
7
  ]
8
  },
9
  "predict": {
10
- "A": 0.9267042279243469,
11
- "B": 0.006244083866477013,
12
- "C": 0.019233131781220436,
13
- "D": 0.0003991709090769291
14
  },
15
  "sample": {
16
  "messages": [
@@ -55,10 +55,10 @@
55
  ]
56
  },
57
  "predict": {
58
- "A": 0.06993252038955688,
59
- "B": 0.04241621494293213,
60
- "C": 0.009464338421821594,
61
- "D": 0.8519524931907654
62
  },
63
  "sample": {
64
  "messages": [
@@ -103,10 +103,10 @@
103
  ]
104
  },
105
  "predict": {
106
- "A": 0.04956065118312836,
107
- "B": 0.020659951493144035,
108
- "C": 0.0052236532792449,
109
- "D": 0.8784834742546082
110
  },
111
  "sample": {
112
  "messages": [
@@ -151,10 +151,10 @@
151
  ]
152
  },
153
  "predict": {
154
- "A": 0.0031011193059384823,
155
- "B": 0.9743426442146301,
156
- "C": 0.010823969729244709,
157
- "D": 0.00037037587026134133
158
  },
159
  "sample": {
160
  "messages": [
@@ -199,10 +199,10 @@
199
  ]
200
  },
201
  "predict": {
202
- "A": 0.00047633916256017983,
203
- "B": 0.9759142994880676,
204
- "C": 8.277532469946891e-05,
205
- "D": 0.00012043739116052166
206
  },
207
  "sample": {
208
  "messages": [
@@ -247,10 +247,10 @@
247
  ]
248
  },
249
  "predict": {
250
- "A": 0.9008681178092957,
251
- "B": 0.006070001516491175,
252
- "C": 0.0010548080317676067,
253
- "D": 0.05759056657552719
254
  },
255
  "sample": {
256
  "messages": [
@@ -295,10 +295,10 @@
295
  ]
296
  },
297
  "predict": {
298
- "A": 0.19447897374629974,
299
- "B": 0.7691792249679565,
300
- "C": 0.003143459791317582,
301
- "D": 0.0014848652062937617
302
  },
303
  "sample": {
304
  "messages": [
@@ -336,17 +336,17 @@
336
  }
337
  {
338
  "metric": {
339
- "acc": false,
340
  "f1_macro": [
341
  "B",
342
- "A"
343
  ]
344
  },
345
  "predict": {
346
- "A": 0.42820805311203003,
347
- "B": 0.42820805311203003,
348
- "C": 0.08431915938854218,
349
- "D": 0.0015443594893440604
350
  },
351
  "sample": {
352
  "messages": [
@@ -379,7 +379,7 @@
379
  "prompt_len": 100,
380
  "generated_len": 1,
381
  "generated_cumulative_logprob": "TODO: calculate for hf model",
382
- "generated_token": " A"
383
  }
384
  }
385
  {
@@ -391,10 +391,10 @@
391
  ]
392
  },
393
  "predict": {
394
- "A": 0.0010158381192013621,
395
- "B": 0.001304362085647881,
396
- "C": 0.0002266641240566969,
397
- "D": 0.9831031560897827
398
  },
399
  "sample": {
400
  "messages": [
@@ -439,10 +439,10 @@
439
  ]
440
  },
441
  "predict": {
442
- "A": 0.0008937068632803857,
443
- "B": 0.980068564414978,
444
- "C": 0.0002560512803029269,
445
- "D": 0.0002901441475842148
446
  },
447
  "sample": {
448
  "messages": [
@@ -487,10 +487,10 @@
487
  ]
488
  },
489
  "predict": {
490
- "A": 0.958181619644165,
491
- "B": 0.00028366464539431036,
492
- "C": 2.6384921511635184e-05,
493
- "D": 0.00010435438889544457
494
  },
495
  "sample": {
496
  "messages": [
@@ -535,10 +535,10 @@
535
  ]
536
  },
537
  "predict": {
538
- "A": 0.0002925069711636752,
539
- "B": 0.9880499243736267,
540
- "C": 0.00010760730219772086,
541
- "D": 8.380464714718983e-05
542
  },
543
  "sample": {
544
  "messages": [
@@ -583,10 +583,10 @@
583
  ]
584
  },
585
  "predict": {
586
- "A": 0.9481245875358582,
587
- "B": 0.00638841325417161,
588
- "C": 0.0012579531176015735,
589
- "D": 0.0007629871251992881
590
  },
591
  "sample": {
592
  "messages": [
@@ -631,10 +631,10 @@
631
  ]
632
  },
633
  "predict": {
634
- "A": 0.0007998207001946867,
635
- "B": 0.0007058392511680722,
636
- "C": 0.9938957095146179,
637
- "D": 0.00025966373505070806
638
  },
639
  "sample": {
640
  "messages": [
@@ -679,10 +679,10 @@
679
  ]
680
  },
681
  "predict": {
682
- "A": 0.6329915523529053,
683
- "B": 0.26387014985084534,
684
- "C": 0.05195911228656769,
685
- "D": 0.02781170792877674
686
  },
687
  "sample": {
688
  "messages": [
@@ -727,10 +727,10 @@
727
  ]
728
  },
729
  "predict": {
730
- "A": 0.9591424465179443,
731
- "B": 0.001634014188311994,
732
- "C": 0.00015198698383755982,
733
- "D": 0.0003645978285931051
734
  },
735
  "sample": {
736
  "messages": [
@@ -775,10 +775,10 @@
775
  ]
776
  },
777
  "predict": {
778
- "A": 0.0019080494530498981,
779
- "B": 0.0016838478622958064,
780
- "C": 0.988394021987915,
781
- "D": 0.00022788399655837566
782
  },
783
  "sample": {
784
  "messages": [
@@ -823,10 +823,10 @@
823
  ]
824
  },
825
  "predict": {
826
- "A": 0.0010133893229067326,
827
- "B": 0.0006146517116576433,
828
- "C": 0.00025622494285926223,
829
- "D": 0.9807332754135132
830
  },
831
  "sample": {
832
  "messages": [
@@ -871,10 +871,10 @@
871
  ]
872
  },
873
  "predict": {
874
- "A": 0.005092415027320385,
875
- "B": 0.970442533493042,
876
- "C": 0.0014590013306587934,
877
- "D": 0.005770462099462748
878
  },
879
  "sample": {
880
  "messages": [
@@ -919,10 +919,10 @@
919
  ]
920
  },
921
  "predict": {
922
- "A": 0.0001554303744342178,
923
- "B": 0.980872631072998,
924
- "C": 7.342011667788029e-05,
925
- "D": 0.00042250356636941433
926
  },
927
  "sample": {
928
  "messages": [
@@ -967,10 +967,10 @@
967
  ]
968
  },
969
  "predict": {
970
- "A": 0.0006083791959099472,
971
- "B": 0.9707249402999878,
972
- "C": 5.6588083680253476e-05,
973
- "D": 0.0001357477594865486
974
  },
975
  "sample": {
976
  "messages": [
@@ -1015,10 +1015,10 @@
1015
  ]
1016
  },
1017
  "predict": {
1018
- "A": 0.807960569858551,
1019
- "B": 0.01152493804693222,
1020
- "C": 0.0037416000850498676,
1021
- "D": 0.1590968668460846
1022
  },
1023
  "sample": {
1024
  "messages": [
@@ -1063,10 +1063,10 @@
1063
  ]
1064
  },
1065
  "predict": {
1066
- "A": 0.8553978800773621,
1067
- "B": 0.10216271132230759,
1068
- "C": 0.001286038663238287,
1069
- "D": 0.007400641683489084
1070
  },
1071
  "sample": {
1072
  "messages": [
@@ -1111,10 +1111,10 @@
1111
  ]
1112
  },
1113
  "predict": {
1114
- "A": 0.023307716473937035,
1115
- "B": 0.7718455195426941,
1116
- "C": 0.029927698895335197,
1117
- "D": 0.15198539197444916
1118
  },
1119
  "sample": {
1120
  "messages": [
@@ -1159,10 +1159,10 @@
1159
  ]
1160
  },
1161
  "predict": {
1162
- "A": 0.9551103115081787,
1163
- "B": 0.0056792935356497765,
1164
- "C": 0.00019433474517427385,
1165
- "D": 0.0002202101022703573
1166
  },
1167
  "sample": {
1168
  "messages": [
@@ -1207,10 +1207,10 @@
1207
  ]
1208
  },
1209
  "predict": {
1210
- "A": 0.005171413999050856,
1211
- "B": 0.002155766123905778,
1212
- "C": 0.9854970574378967,
1213
- "D": 0.0005802165251225233
1214
  },
1215
  "sample": {
1216
  "messages": [
@@ -1255,10 +1255,10 @@
1255
  ]
1256
  },
1257
  "predict": {
1258
- "A": 0.9729668498039246,
1259
- "B": 0.004505730699747801,
1260
- "C": 0.0005381327355280519,
1261
- "D": 0.0008872309699654579
1262
  },
1263
  "sample": {
1264
  "messages": [
@@ -1303,10 +1303,10 @@
1303
  ]
1304
  },
1305
  "predict": {
1306
- "A": 0.0007963357493281364,
1307
- "B": 0.0003761623811442405,
1308
- "C": 0.9895651340484619,
1309
- "D": 7.407076918752864e-05
1310
  },
1311
  "sample": {
1312
  "messages": [
@@ -1351,10 +1351,10 @@
1351
  ]
1352
  },
1353
  "predict": {
1354
- "A": 0.0006172035355120897,
1355
- "B": 0.000898025871720165,
1356
- "C": 0.001017596572637558,
1357
- "D": 0.9848049283027649
1358
  },
1359
  "sample": {
1360
  "messages": [
@@ -1399,10 +1399,10 @@
1399
  ]
1400
  },
1401
  "predict": {
1402
- "A": 0.022696077823638916,
1403
- "B": 0.002111064037308097,
1404
- "C": 0.9650617241859436,
1405
- "D": 0.0008267044904641807
1406
  },
1407
  "sample": {
1408
  "messages": [
@@ -1447,10 +1447,10 @@
1447
  ]
1448
  },
1449
  "predict": {
1450
- "A": 0.0003325058496557176,
1451
- "B": 0.0005482094711624086,
1452
- "C": 0.9911859631538391,
1453
- "D": 3.5045857657678425e-05
1454
  },
1455
  "sample": {
1456
  "messages": [
@@ -1495,10 +1495,10 @@
1495
  ]
1496
  },
1497
  "predict": {
1498
- "A": 9.53021299210377e-05,
1499
- "B": 0.9915772676467896,
1500
- "C": 1.0044770533568226e-05,
1501
- "D": 0.00020175462123006582
1502
  },
1503
  "sample": {
1504
  "messages": [
@@ -1543,10 +1543,10 @@
1543
  ]
1544
  },
1545
  "predict": {
1546
- "A": 0.00516895018517971,
1547
- "B": 0.0003304399433545768,
1548
- "C": 0.0003304399433545768,
1549
- "D": 0.985027551651001
1550
  },
1551
  "sample": {
1552
  "messages": [
@@ -1591,10 +1591,10 @@
1591
  ]
1592
  },
1593
  "predict": {
1594
- "A": 0.9588794112205505,
1595
- "B": 0.002693295245990157,
1596
- "C": 0.00017217658751178533,
1597
- "D": 0.00010443038627272472
1598
  },
1599
  "sample": {
1600
  "messages": [
@@ -1639,10 +1639,10 @@
1639
  ]
1640
  },
1641
  "predict": {
1642
- "A": 0.0003672928723972291,
1643
- "B": 0.9662322402000427,
1644
- "C": 0.00032413480221293867,
1645
- "D": 0.0011313415598124266
1646
  },
1647
  "sample": {
1648
  "messages": [
@@ -1687,10 +1687,10 @@
1687
  ]
1688
  },
1689
  "predict": {
1690
- "A": 0.0019159945659339428,
1691
- "B": 0.0003772817144636065,
1692
- "C": 0.9925097227096558,
1693
- "D": 7.42911797715351e-05
1694
  },
1695
  "sample": {
1696
  "messages": [
@@ -1735,10 +1735,10 @@
1735
  ]
1736
  },
1737
  "predict": {
1738
- "A": 0.012313049286603928,
1739
- "B": 0.004529717843979597,
1740
- "C": 0.9781466126441956,
1741
- "D": 0.00025554915191605687
1742
  },
1743
  "sample": {
1744
  "messages": [
@@ -1783,10 +1783,10 @@
1783
  ]
1784
  },
1785
  "predict": {
1786
- "A": 2.728473918978125e-05,
1787
- "B": 8.404290565522388e-05,
1788
- "C": 3.503429616102949e-05,
1789
- "D": 0.9908589720726013
1790
  },
1791
  "sample": {
1792
  "messages": [
@@ -1831,10 +1831,10 @@
1831
  ]
1832
  },
1833
  "predict": {
1834
- "A": 0.0007857180899009109,
1835
- "B": 0.00016469546244479716,
1836
- "C": 0.0031075754668563604,
1837
- "D": 0.976371169090271
1838
  },
1839
  "sample": {
1840
  "messages": [
@@ -1879,10 +1879,10 @@
1879
  ]
1880
  },
1881
  "predict": {
1882
- "A": 0.949167013168335,
1883
- "B": 0.0063954368233680725,
1884
- "C": 0.00046328394091688097,
1885
- "D": 0.00046328394091688097
1886
  },
1887
  "sample": {
1888
  "messages": [
@@ -1927,10 +1927,10 @@
1927
  ]
1928
  },
1929
  "predict": {
1930
- "A": 0.0021619710605591536,
1931
- "B": 0.0016837448347359896,
1932
- "C": 0.9883335828781128,
1933
- "D": 0.0016837448347359896
1934
  },
1935
  "sample": {
1936
  "messages": [
@@ -1975,10 +1975,10 @@
1975
  ]
1976
  },
1977
  "predict": {
1978
- "A": 0.9732915163040161,
1979
- "B": 0.0045072343200445175,
1980
- "C": 0.0006912067183293402,
1981
- "D": 0.00047505900147370994
1982
  },
1983
  "sample": {
1984
  "messages": [
@@ -2023,10 +2023,10 @@
2023
  ]
2024
  },
2025
  "predict": {
2026
- "A": 0.8787161111831665,
2027
- "B": 0.10494767874479294,
2028
- "C": 5.1224458729848266e-05,
2029
- "D": 0.0002947764005511999
2030
  },
2031
  "sample": {
2032
  "messages": [
@@ -2071,10 +2071,10 @@
2071
  ]
2072
  },
2073
  "predict": {
2074
- "A": 0.6028928756713867,
2075
- "B": 0.13452358543872833,
2076
- "C": 0.018205787986516953,
2077
- "D": 0.22179192304611206
2078
  },
2079
  "sample": {
2080
  "messages": [
@@ -2119,10 +2119,10 @@
2119
  ]
2120
  },
2121
  "predict": {
2122
- "A": 0.1136971041560173,
2123
- "B": 0.5774015784263611,
2124
- "C": 0.27274519205093384,
2125
- "D": 0.005660646129399538
2126
  },
2127
  "sample": {
2128
  "messages": [
@@ -2167,10 +2167,10 @@
2167
  ]
2168
  },
2169
  "predict": {
2170
- "A": 0.0011578967096284032,
2171
- "B": 0.001684729941189289,
2172
- "C": 0.9889118671417236,
2173
- "D": 0.00021418934920802712
2174
  },
2175
  "sample": {
2176
  "messages": [
@@ -2215,10 +2215,10 @@
2215
  ]
2216
  },
2217
  "predict": {
2218
- "A": 0.009518876671791077,
2219
- "B": 0.0030903269071131945,
2220
- "C": 0.9709517955780029,
2221
- "D": 0.0021239484194666147
2222
  },
2223
  "sample": {
2224
  "messages": [
@@ -2263,10 +2263,10 @@
2263
  ]
2264
  },
2265
  "predict": {
2266
- "A": 0.0010208814637735486,
2267
- "B": 0.00017740258772391826,
2268
- "C": 6.526276411022991e-05,
2269
- "D": 0.9879839420318604
2270
  },
2271
  "sample": {
2272
  "messages": [
@@ -2311,10 +2311,10 @@
2311
  ]
2312
  },
2313
  "predict": {
2314
- "A": 0.001136316917836666,
2315
- "B": 0.9704814553260803,
2316
- "C": 7.264231680892408e-05,
2317
- "D": 0.00019746228645090014
2318
  },
2319
  "sample": {
2320
  "messages": [
@@ -2359,10 +2359,10 @@
2359
  ]
2360
  },
2361
  "predict": {
2362
- "A": 0.002425240119919181,
2363
- "B": 0.9784116744995117,
2364
- "C": 0.0021402668207883835,
2365
- "D": 0.001470982446335256
2366
  },
2367
  "sample": {
2368
  "messages": [
@@ -2407,10 +2407,10 @@
2407
  ]
2408
  },
2409
  "predict": {
2410
- "A": 0.0003258752403780818,
2411
- "B": 0.0003258752403780818,
2412
- "C": 0.000135845024487935,
2413
- "D": 0.9714204668998718
2414
  },
2415
  "sample": {
2416
  "messages": [
@@ -2455,10 +2455,10 @@
2455
  ]
2456
  },
2457
  "predict": {
2458
- "A": 0.9573699831962585,
2459
- "B": 0.0023730830289423466,
2460
- "C": 0.0009892481612041593,
2461
- "D": 0.015474444255232811
2462
  },
2463
  "sample": {
2464
  "messages": [
@@ -2503,10 +2503,10 @@
2503
  ]
2504
  },
2505
  "predict": {
2506
- "A": 0.003989450167864561,
2507
- "B": 0.9761862754821777,
2508
- "C": 0.0024197238963097334,
2509
- "D": 0.0008901666733436286
2510
  },
2511
  "sample": {
2512
  "messages": [
@@ -2551,10 +2551,10 @@
2551
  ]
2552
  },
2553
  "predict": {
2554
- "A": 0.004001671448349953,
2555
- "B": 0.0018902558367699385,
2556
- "C": 0.0008928935858421028,
2557
- "D": 0.9791767001152039
2558
  },
2559
  "sample": {
2560
  "messages": [
@@ -2599,10 +2599,10 @@
2599
  ]
2600
  },
2601
  "predict": {
2602
- "A": 0.005133773200213909,
2603
- "B": 0.005817327182739973,
2604
- "C": 0.9783239960670471,
2605
- "D": 0.0005083123687654734
2606
  },
2607
  "sample": {
2608
  "messages": [
@@ -2647,10 +2647,10 @@
2647
  ]
2648
  },
2649
  "predict": {
2650
- "A": 0.0044960579834878445,
2651
- "B": 0.01078548189252615,
2652
- "C": 0.9708780646324158,
2653
- "D": 0.0007812976255081594
2654
  },
2655
  "sample": {
2656
  "messages": [
@@ -2695,10 +2695,10 @@
2695
  ]
2696
  },
2697
  "predict": {
2698
- "A": 0.2579152286052704,
2699
- "B": 0.011332003399729729,
2700
- "C": 0.7010862231254578,
2701
- "D": 0.0025285116862505674
2702
  },
2703
  "sample": {
2704
  "messages": [
@@ -2743,10 +2743,10 @@
2743
  ]
2744
  },
2745
  "predict": {
2746
- "A": 0.9646680951118469,
2747
- "B": 0.007365331053733826,
2748
- "C": 0.0006850825739093125,
2749
- "D": 0.00015286257257685065
2750
  },
2751
  "sample": {
2752
  "messages": [
@@ -2784,17 +2784,17 @@
2784
  }
2785
  {
2786
  "metric": {
2787
- "acc": true,
2788
  "f1_macro": [
2789
  "D",
2790
- "D"
2791
  ]
2792
  },
2793
  "predict": {
2794
- "A": 0.02033146843314171,
2795
- "B": 0.008475417271256447,
2796
- "C": 0.280667245388031,
2797
- "D": 0.6732857823371887
2798
  },
2799
  "sample": {
2800
  "messages": [
@@ -2827,7 +2827,7 @@
2827
  "prompt_len": 107,
2828
  "generated_len": 1,
2829
  "generated_cumulative_logprob": "TODO: calculate for hf model",
2830
- "generated_token": " D"
2831
  }
2832
  }
2833
  {
@@ -2839,10 +2839,10 @@
2839
  ]
2840
  },
2841
  "predict": {
2842
- "A": 0.0016785148764029145,
2843
- "B": 0.002155255526304245,
2844
- "C": 0.9852637052536011,
2845
- "D": 7.37487935111858e-05
2846
  },
2847
  "sample": {
2848
  "messages": [
@@ -2887,10 +2887,10 @@
2887
  ]
2888
  },
2889
  "predict": {
2890
- "A": 0.934412956237793,
2891
- "B": 0.028216825798153877,
2892
- "C": 0.0006635961472056806,
2893
- "D": 0.0026245738845318556
2894
  },
2895
  "sample": {
2896
  "messages": [
@@ -2935,10 +2935,10 @@
2935
  ]
2936
  },
2937
  "predict": {
2938
- "A": 0.9757316708564758,
2939
- "B": 0.0024185969959944487,
2940
- "C": 0.00013644791033584625,
2941
- "D": 3.9092974475352094e-05
2942
  },
2943
  "sample": {
2944
  "messages": [
@@ -2983,10 +2983,10 @@
2983
  ]
2984
  },
2985
  "predict": {
2986
- "A": 0.9602599143981934,
2987
- "B": 0.0006018204730935395,
2988
- "C": 0.0002508760953787714,
2989
- "D": 5.5978031014092267e-05
2990
  },
2991
  "sample": {
2992
  "messages": [
@@ -3031,10 +3031,10 @@
3031
  ]
3032
  },
3033
  "predict": {
3034
- "A": 0.0005483828717842698,
3035
- "B": 0.00042708098771981895,
3036
- "C": 0.9914994835853577,
3037
- "D": 0.00022859997989144176
3038
  },
3039
  "sample": {
3040
  "messages": [
@@ -3079,10 +3079,10 @@
3079
  ]
3080
  },
3081
  "predict": {
3082
- "A": 0.0011572608491405845,
3083
- "B": 0.00025821977760642767,
3084
- "C": 0.000546651310287416,
3085
- "D": 0.9883687496185303
3086
  },
3087
  "sample": {
3088
  "messages": [
@@ -3127,10 +3127,10 @@
3127
  ]
3128
  },
3129
  "predict": {
3130
- "A": 0.9641531705856323,
3131
- "B": 0.0044649154879152775,
3132
- "C": 0.0004153017944190651,
3133
- "D": 0.0005332580185495317
3134
  },
3135
  "sample": {
3136
  "messages": [
@@ -3175,10 +3175,10 @@
3175
  ]
3176
  },
3177
  "predict": {
3178
- "A": 0.9255848526954651,
3179
- "B": 0.001576844835653901,
3180
- "C": 0.011651393957436085,
3181
- "D": 0.0003104991337750107
3182
  },
3183
  "sample": {
3184
  "messages": [
@@ -3223,10 +3223,10 @@
3223
  ]
3224
  },
3225
  "predict": {
3226
- "A": 0.0014470161404460669,
3227
- "B": 0.00034369644708931446,
3228
- "C": 0.010692084208130836,
3229
- "D": 0.9624707102775574
3230
  },
3231
  "sample": {
3232
  "messages": [
@@ -3271,10 +3271,10 @@
3271
  ]
3272
  },
3273
  "predict": {
3274
- "A": 0.9591203927993774,
3275
- "B": 0.0008746046223677695,
3276
- "C": 0.0006811427301727235,
3277
- "D": 0.000151983491377905
3278
  },
3279
  "sample": {
3280
  "messages": [
@@ -3319,10 +3319,10 @@
3319
  ]
3320
  },
3321
  "predict": {
3322
- "A": 0.9620494246482849,
3323
- "B": 0.0034696918446570635,
3324
- "C": 4.949249705532566e-05,
3325
- "D": 0.0002513436193112284
3326
  },
3327
  "sample": {
3328
  "messages": [
@@ -3367,10 +3367,10 @@
3367
  ]
3368
  },
3369
  "predict": {
3370
- "A": 0.0011606268817558885,
3371
- "B": 0.0009038971620611846,
3372
- "C": 0.9912436008453369,
3373
- "D": 0.0007976864580996335
3374
  },
3375
  "sample": {
3376
  "messages": [
@@ -3415,10 +3415,10 @@
3415
  ]
3416
  },
3417
  "predict": {
3418
- "A": 0.20963551104068756,
3419
- "B": 0.11220978200435638,
3420
- "C": 0.569848358631134,
3421
- "D": 0.06006157025694847
3422
  },
3423
  "sample": {
3424
  "messages": [
@@ -3463,10 +3463,10 @@
3463
  ]
3464
  },
3465
  "predict": {
3466
- "A": 0.00020123437570873648,
3467
- "B": 0.9890204071998596,
3468
- "C": 4.490145875024609e-05,
3469
- "D": 0.0006198454648256302
3470
  },
3471
  "sample": {
3472
  "messages": [
@@ -3511,10 +3511,10 @@
3511
  ]
3512
  },
3513
  "predict": {
3514
- "A": 0.046383075416088104,
3515
- "B": 0.019335340708494186,
3516
- "C": 0.8221595883369446,
3517
- "D": 0.0981929674744606
3518
  },
3519
  "sample": {
3520
  "messages": [
@@ -3559,10 +3559,10 @@
3559
  ]
3560
  },
3561
  "predict": {
3562
- "A": 0.9512759447097778,
3563
- "B": 0.0006755717913620174,
3564
- "C": 0.0001935545587912202,
3565
- "D": 5.545431122300215e-05
3566
  },
3567
  "sample": {
3568
  "messages": [
@@ -3607,10 +3607,10 @@
3607
  ]
3608
  },
3609
  "predict": {
3610
- "A": 0.06585405766963959,
3611
- "B": 0.010099046863615513,
3612
- "C": 0.9090871214866638,
3613
- "D": 0.0004437211318872869
3614
  },
3615
  "sample": {
3616
  "messages": [
@@ -3655,10 +3655,10 @@
3655
  ]
3656
  },
3657
  "predict": {
3658
- "A": 0.9536270499229431,
3659
- "B": 0.0014337202301248908,
3660
- "C": 0.0002823162649292499,
3661
- "D": 0.0016246180748566985
3662
  },
3663
  "sample": {
3664
  "messages": [
@@ -3703,10 +3703,10 @@
3703
  ]
3704
  },
3705
  "predict": {
3706
- "A": 0.0006195997702889144,
3707
- "B": 0.9886283874511719,
3708
- "C": 0.00012200643686810508,
3709
- "D": 0.0002582876186352223
3710
  },
3711
  "sample": {
3712
  "messages": [
@@ -3751,10 +3751,10 @@
3751
  ]
3752
  },
3753
  "predict": {
3754
- "A": 0.0054350425489246845,
3755
- "B": 0.058432213962078094,
3756
- "C": 0.9140336513519287,
3757
- "D": 0.0025673327036201954
3758
  },
3759
  "sample": {
3760
  "messages": [
@@ -3799,10 +3799,10 @@
3799
  ]
3800
  },
3801
  "predict": {
3802
- "A": 0.9477488994598389,
3803
- "B": 0.00266203167848289,
3804
- "C": 0.0005241850740276277,
3805
- "D": 0.0006730669992975891
3806
  },
3807
  "sample": {
3808
  "messages": [
@@ -3847,10 +3847,10 @@
3847
  ]
3848
  },
3849
  "predict": {
3850
- "A": 0.010807669721543789,
3851
- "B": 0.0012907920172438025,
3852
- "C": 0.0006097269360907376,
3853
- "D": 0.9728753566741943
3854
  },
3855
  "sample": {
3856
  "messages": [
@@ -3895,10 +3895,10 @@
3895
  ]
3896
  },
3897
  "predict": {
3898
- "A": 0.006523268762975931,
3899
- "B": 0.010755052790045738,
3900
- "C": 0.0011335740564391017,
3901
- "D": 0.9681389331817627
3902
  },
3903
  "sample": {
3904
  "messages": [
@@ -3943,10 +3943,10 @@
3943
  ]
3944
  },
3945
  "predict": {
3946
- "A": 0.0004279864951968193,
3947
- "B": 0.0004279864951968193,
3948
- "C": 0.9936016201972961,
3949
- "D": 4.2376399505883455e-05
3950
  },
3951
  "sample": {
3952
  "messages": [
@@ -3991,10 +3991,10 @@
3991
  ]
3992
  },
3993
  "predict": {
3994
- "A": 0.9749540686607361,
3995
- "B": 0.0007845777436159551,
3996
- "C": 5.683461859007366e-05,
3997
- "D": 0.000692387402523309
3998
  },
3999
  "sample": {
4000
  "messages": [
@@ -4039,10 +4039,10 @@
4039
  ]
4040
  },
4041
  "predict": {
4042
- "A": 0.0009315163479186594,
4043
- "B": 0.02256857603788376,
4044
- "C": 0.9596402645111084,
4045
- "D": 0.00046839588321745396
4046
  },
4047
  "sample": {
4048
  "messages": [
@@ -4087,10 +4087,10 @@
4087
  ]
4088
  },
4089
  "predict": {
4090
- "A": 0.0006124175270088017,
4091
- "B": 0.0002552935911808163,
4092
- "C": 0.0001988228759728372,
4093
- "D": 0.9771684408187866
4094
  },
4095
  "sample": {
4096
  "messages": [
@@ -4135,10 +4135,10 @@
4135
  ]
4136
  },
4137
  "predict": {
4138
- "A": 0.0005479357205331326,
4139
- "B": 0.0005479357205331326,
4140
- "C": 0.990691065788269,
4141
- "D": 4.497730333241634e-05
4142
  },
4143
  "sample": {
4144
  "messages": [
@@ -4183,10 +4183,10 @@
4183
  ]
4184
  },
4185
  "predict": {
4186
- "A": 0.028838220983743668,
4187
- "B": 0.00567858200520277,
4188
- "C": 0.9549907445907593,
4189
- "D": 0.00010400686733191833
4190
  },
4191
  "sample": {
4192
  "messages": [
@@ -4231,10 +4231,10 @@
4231
  ]
4232
  },
4233
  "predict": {
4234
- "A": 0.0013048736145719886,
4235
- "B": 0.0040192934684455395,
4236
- "C": 0.9834887385368347,
4237
- "D": 0.00029115666984580457
4238
  },
4239
  "sample": {
4240
  "messages": [
@@ -4279,10 +4279,10 @@
4279
  ]
4280
  },
4281
  "predict": {
4282
- "A": 0.06617826968431473,
4283
- "B": 0.08497458696365356,
4284
- "C": 0.7114834785461426,
4285
- "D": 0.12363728135824203
4286
  },
4287
  "sample": {
4288
  "messages": [
@@ -4327,10 +4327,10 @@
4327
  ]
4328
  },
4329
  "predict": {
4330
- "A": 0.0027580747846513987,
4331
- "B": 0.004547296557575464,
4332
- "C": 0.9819425940513611,
4333
- "D": 0.00025654089404270053
4334
  },
4335
  "sample": {
4336
  "messages": [
@@ -4375,10 +4375,10 @@
4375
  ]
4376
  },
4377
  "predict": {
4378
- "A": 0.032655343413352966,
4379
- "B": 0.9543290734291077,
4380
- "C": 0.00032014172757044435,
4381
- "D": 0.00022002997866366059
4382
  },
4383
  "sample": {
4384
  "messages": [
@@ -4423,10 +4423,10 @@
4423
  ]
4424
  },
4425
  "predict": {
4426
- "A": 0.9640735983848572,
4427
- "B": 0.0016424150671809912,
4428
- "C": 0.00017310924886260182,
4429
- "D": 0.000533214071765542
4430
  },
4431
  "sample": {
4432
  "messages": [
@@ -4471,10 +4471,10 @@
4471
  ]
4472
  },
4473
  "predict": {
4474
- "A": 0.0009053238318301737,
4475
- "B": 0.0005491066258400679,
4476
- "C": 0.9928081035614014,
4477
- "D": 5.787541522295214e-05
4478
  },
4479
  "sample": {
4480
  "messages": [
@@ -4519,10 +4519,10 @@
4519
  ]
4520
  },
4521
  "predict": {
4522
- "A": 0.0011523454450070858,
4523
- "B": 0.0010169412707909942,
4524
- "C": 0.11754243075847626,
4525
- "D": 0.8685275912284851
4526
  },
4527
  "sample": {
4528
  "messages": [
@@ -4567,10 +4567,10 @@
4567
  ]
4568
  },
4569
  "predict": {
4570
- "A": 0.9004296660423279,
4571
- "B": 0.03081100806593895,
4572
- "C": 0.00882750190794468,
4573
- "D": 0.011334736831486225
4574
  },
4575
  "sample": {
4576
  "messages": [
@@ -4615,10 +4615,10 @@
4615
  ]
4616
  },
4617
  "predict": {
4618
- "A": 0.0018768664449453354,
4619
- "B": 0.003973326180130243,
4620
- "C": 0.0012899501016363502,
4621
- "D": 0.9722408652305603
4622
  },
4623
  "sample": {
4624
  "messages": [
@@ -4663,10 +4663,10 @@
4663
  ]
4664
  },
4665
  "predict": {
4666
- "A": 0.0003932033432647586,
4667
- "B": 0.9717237949371338,
4668
- "C": 0.001655448111705482,
4669
- "D": 0.005099138710647821
4670
  },
4671
  "sample": {
4672
  "messages": [
@@ -4711,10 +4711,10 @@
4711
  ]
4712
  },
4713
  "predict": {
4714
- "A": 0.005782830063253641,
4715
- "B": 0.9725225567817688,
4716
- "C": 0.00047468364937230945,
4717
- "D": 0.0003696839848998934
4718
  },
4719
  "sample": {
4720
  "messages": [
@@ -4759,10 +4759,10 @@
4759
  ]
4760
  },
4761
  "predict": {
4762
- "A": 8.387576963286847e-05,
4763
- "B": 0.0035664886236190796,
4764
- "C": 0.9888884425163269,
4765
- "D": 0.00037590513238683343
4766
  },
4767
  "sample": {
4768
  "messages": [
@@ -4807,10 +4807,10 @@
4807
  ]
4808
  },
4809
  "predict": {
4810
- "A": 0.000883266213349998,
4811
- "B": 0.9686190485954285,
4812
- "C": 6.010701690684073e-05,
4813
- "D": 6.010701690684073e-05
4814
  },
4815
  "sample": {
4816
  "messages": [
@@ -4855,10 +4855,10 @@
4855
  ]
4856
  },
4857
  "predict": {
4858
- "A": 0.002416313858702779,
4859
- "B": 0.9748104810714722,
4860
- "C": 0.0027380422689020634,
4861
- "D": 0.0035157157108187675
4862
  },
4863
  "sample": {
4864
  "messages": [
@@ -4903,10 +4903,10 @@
4903
  ]
4904
  },
4905
  "predict": {
4906
- "A": 0.00025676790392026305,
4907
- "B": 0.9828115105628967,
4908
- "C": 2.8808563001803122e-05,
4909
- "D": 6.910815136507154e-05
4910
  },
4911
  "sample": {
4912
  "messages": [
@@ -4951,10 +4951,10 @@
4951
  ]
4952
  },
4953
  "predict": {
4954
- "A": 0.002145660575479269,
4955
- "B": 0.005832509603351355,
4956
- "C": 0.0002261509362142533,
4957
- "D": 0.9808773398399353
4958
  },
4959
  "sample": {
4960
  "messages": [
@@ -4999,10 +4999,10 @@
4999
  ]
5000
  },
5001
  "predict": {
5002
- "A": 0.003138886531814933,
5003
- "B": 0.003138886531814933,
5004
- "C": 0.9862087965011597,
5005
- "D": 0.0001379130408167839
5006
  },
5007
  "sample": {
5008
  "messages": [
 
7
  ]
8
  },
9
  "predict": {
10
+ "A": 0.8083646893501282,
11
+ "B": 0.002003735862672329,
12
+ "C": 0.00792492926120758,
13
+ "D": 0.0005740798660553992
14
  },
15
  "sample": {
16
  "messages": [
 
55
  ]
56
  },
57
  "predict": {
58
+ "A": 0.15475726127624512,
59
+ "B": 0.012703250162303448,
60
+ "C": 0.00563703291118145,
61
+ "D": 0.7859222292900085
62
  },
63
  "sample": {
64
  "messages": [
 
103
  ]
104
  },
105
  "predict": {
106
+ "A": 0.31166568398475647,
107
+ "B": 0.04217936098575592,
108
+ "C": 0.022576985880732536,
109
+ "D": 0.5138497948646545
110
  },
111
  "sample": {
112
  "messages": [
 
151
  ]
152
  },
153
  "predict": {
154
+ "A": 0.003776660654693842,
155
+ "B": 0.9241183996200562,
156
+ "C": 0.013181840069591999,
157
+ "D": 0.00031000719172880054
158
  },
159
  "sample": {
160
  "messages": [
 
199
  ]
200
  },
201
  "predict": {
202
+ "A": 0.00042170536471530795,
203
+ "B": 0.9197037816047668,
204
+ "C": 9.409518679603934e-05,
205
+ "D": 0.0001457374746678397
206
  },
207
  "sample": {
208
  "messages": [
 
247
  ]
248
  },
249
  "predict": {
250
+ "A": 0.9196767210960388,
251
+ "B": 0.0005414644838310778,
252
+ "C": 0.00019919364422094077,
253
+ "D": 0.011577022261917591
254
  },
255
  "sample": {
256
  "messages": [
 
295
  ]
296
  },
297
  "predict": {
298
+ "A": 0.12421192973852158,
299
+ "B": 0.8099634647369385,
300
+ "C": 0.0035236210096627474,
301
+ "D": 0.0018860583659261465
302
  },
303
  "sample": {
304
  "messages": [
 
336
  }
337
  {
338
  "metric": {
339
+ "acc": true,
340
  "f1_macro": [
341
  "B",
342
+ "B"
343
  ]
344
  },
345
  "predict": {
346
+ "A": 0.034649889916181564,
347
+ "B": 0.8936324119567871,
348
+ "C": 0.023814497515559196,
349
+ "D": 0.0012621221831068397
350
  },
351
  "sample": {
352
  "messages": [
 
379
  "prompt_len": 100,
380
  "generated_len": 1,
381
  "generated_cumulative_logprob": "TODO: calculate for hf model",
382
+ "generated_token": " B"
383
  }
384
  }
385
  {
 
391
  ]
392
  },
393
  "predict": {
394
+ "A": 0.0006095240241847932,
395
+ "B": 0.00032625472522340715,
396
+ "C": 0.00010591940372250974,
397
+ "D": 0.9725516438484192
398
  },
399
  "sample": {
400
  "messages": [
 
439
  ]
440
  },
441
  "predict": {
442
+ "A": 0.0008576838881708682,
443
+ "B": 0.8835787177085876,
444
+ "C": 0.000230842488235794,
445
+ "D": 0.0003155242884531617
446
  },
447
  "sample": {
448
  "messages": [
 
487
  ]
488
  },
489
  "predict": {
490
+ "A": 0.8171983361244202,
491
+ "B": 2.5498946342850104e-05,
492
+ "C": 6.05653076490853e-06,
493
+ "D": 2.889409188355785e-05
494
  },
495
  "sample": {
496
  "messages": [
 
535
  ]
536
  },
537
  "predict": {
538
+ "A": 0.00019500845519360155,
539
+ "B": 0.9003536701202393,
540
+ "C": 9.211547148879617e-05,
541
+ "D": 5.947421959717758e-05
542
  },
543
  "sample": {
544
  "messages": [
 
583
  ]
584
  },
585
  "predict": {
586
+ "A": 0.8504703044891357,
587
+ "B": 0.0007755285478197038,
588
+ "C": 0.00013476665480993688,
589
+ "D": 0.00015271062147803605
590
  },
591
  "sample": {
592
  "messages": [
 
631
  ]
632
  },
633
  "predict": {
634
+ "A": 0.00022923716460354626,
635
+ "B": 0.00013903938815928996,
636
+ "C": 0.9942631125450134,
637
+ "D": 3.102387927356176e-05
638
  },
639
  "sample": {
640
  "messages": [
 
679
  ]
680
  },
681
  "predict": {
682
+ "A": 0.5274410247802734,
683
+ "B": 0.0432949960231781,
684
+ "C": 0.3625045716762543,
685
+ "D": 0.009660419076681137
686
  },
687
  "sample": {
688
  "messages": [
 
727
  ]
728
  },
729
  "predict": {
730
+ "A": 0.8802456259727478,
731
+ "B": 0.00020294930436648428,
732
+ "C": 6.189604755491018e-05,
733
+ "D": 7.947609992697835e-05
734
  },
735
  "sample": {
736
  "messages": [
 
775
  ]
776
  },
777
  "predict": {
778
+ "A": 0.0004528310673777014,
779
+ "B": 0.00029236971749924123,
780
+ "C": 0.987586259841919,
781
+ "D": 5.4082956921774894e-05
782
  },
783
  "sample": {
784
  "messages": [
 
823
  ]
824
  },
825
  "predict": {
826
+ "A": 0.0006091722170822322,
827
+ "B": 0.00011995313252555206,
828
+ "C": 0.00018578703748062253,
829
+ "D": 0.9131003022193909
830
  },
831
  "sample": {
832
  "messages": [
 
871
  ]
872
  },
873
  "predict": {
874
+ "A": 0.024812722578644753,
875
+ "B": 0.9310905337333679,
876
+ "C": 0.0004544608818832785,
877
+ "D": 0.010343481786549091
878
  },
879
  "sample": {
880
  "messages": [
 
919
  ]
920
  },
921
  "predict": {
922
+ "A": 0.00020775984739884734,
923
+ "B": 0.9011102318763733,
924
+ "C": 0.0001427911192877218,
925
+ "D": 0.0004983899416401982
926
  },
927
  "sample": {
928
  "messages": [
 
967
  ]
968
  },
969
  "predict": {
970
+ "A": 0.00038656190736219287,
971
+ "B": 0.8430588245391846,
972
+ "C": 6.717438373016194e-05,
973
+ "D": 0.00019437551964074373
974
  },
975
  "sample": {
976
  "messages": [
 
1015
  ]
1016
  },
1017
  "predict": {
1018
+ "A": 0.7685906887054443,
1019
+ "B": 0.0031410546507686377,
1020
+ "C": 0.004570207092911005,
1021
+ "D": 0.17149576544761658
1022
  },
1023
  "sample": {
1024
  "messages": [
 
1063
  ]
1064
  },
1065
  "predict": {
1066
+ "A": 0.8609814643859863,
1067
+ "B": 0.005119582638144493,
1068
+ "C": 0.0002548890479374677,
1069
+ "D": 0.0006928602233529091
1070
  },
1071
  "sample": {
1072
  "messages": [
 
1111
  ]
1112
  },
1113
  "predict": {
1114
+ "A": 0.009837214834988117,
1115
+ "B": 0.7814667820930481,
1116
+ "C": 0.04995749518275261,
1117
+ "D": 0.09333289414644241
1118
  },
1119
  "sample": {
1120
  "messages": [
 
1159
  ]
1160
  },
1161
  "predict": {
1162
+ "A": 0.8799240589141846,
1163
+ "B": 0.000295181613182649,
1164
+ "C": 5.460310785565525e-05,
1165
+ "D": 3.9948488847585395e-05
1166
  },
1167
  "sample": {
1168
  "messages": [
 
1207
  ]
1208
  },
1209
  "predict": {
1210
+ "A": 0.0035674353130161762,
1211
+ "B": 0.00042606936767697334,
1212
+ "C": 0.989150881767273,
1213
+ "D": 0.0001220709236804396
1214
  },
1215
  "sample": {
1216
  "messages": [
 
1255
  ]
1256
  },
1257
  "predict": {
1258
+ "A": 0.9231448769569397,
1259
+ "B": 0.00047964268014766276,
1260
+ "C": 0.00016576008056290448,
1261
+ "D": 0.00013741993461735547
1262
  },
1263
  "sample": {
1264
  "messages": [
 
1303
  ]
1304
  },
1305
  "predict": {
1306
+ "A": 0.0008886674768291414,
1307
+ "B": 0.00010613619815558195,
1308
+ "C": 0.9745422005653381,
1309
+ "D": 2.0899455194012262e-05
1310
  },
1311
  "sample": {
1312
  "messages": [
 
1351
  ]
1352
  },
1353
  "predict": {
1354
+ "A": 0.0020921395625919104,
1355
+ "B": 0.0009283812250941992,
1356
+ "C": 0.002370704896748066,
1357
+ "D": 0.9564105272293091
1358
  },
1359
  "sample": {
1360
  "messages": [
 
1399
  ]
1400
  },
1401
  "predict": {
1402
+ "A": 0.02012338675558567,
1403
+ "B": 0.000570856558624655,
1404
+ "C": 0.9695991277694702,
1405
+ "D": 0.0004176475922577083
1406
  },
1407
  "sample": {
1408
  "messages": [
 
1447
  ]
1448
  },
1449
  "predict": {
1450
+ "A": 0.00018826460291165859,
1451
+ "B": 6.506250792881474e-05,
1452
+ "C": 0.9849522709846497,
1453
+ "D": 1.1306168744340539e-05
1454
  },
1455
  "sample": {
1456
  "messages": [
 
1495
  ]
1496
  },
1497
  "predict": {
1498
+ "A": 0.00017164651944767684,
1499
+ "B": 0.9559273719787598,
1500
+ "C": 1.3235958249424584e-05,
1501
+ "D": 9.780123218661174e-05
1502
  },
1503
  "sample": {
1504
  "messages": [
 
1543
  ]
1544
  },
1545
  "predict": {
1546
+ "A": 0.0006828533369116485,
1547
+ "B": 2.1950285372440703e-05,
1548
+ "C": 5.605201658909209e-05,
1549
+ "D": 0.9615291357040405
1550
  },
1551
  "sample": {
1552
  "messages": [
 
1591
  ]
1592
  },
1593
  "predict": {
1594
+ "A": 0.9041392803192139,
1595
+ "B": 0.00019582838285714388,
1596
+ "C": 4.104786057723686e-05,
1597
+ "D": 2.6502490072743967e-05
1598
  },
1599
  "sample": {
1600
  "messages": [
 
1639
  ]
1640
  },
1641
  "predict": {
1642
+ "A": 0.000404251622967422,
1643
+ "B": 0.8816385865211487,
1644
+ "C": 0.0003797592653427273,
1645
+ "D": 0.001325489953160286
1646
  },
1647
  "sample": {
1648
  "messages": [
 
1687
  ]
1688
  },
1689
  "predict": {
1690
+ "A": 0.0010193608468398452,
1691
+ "B": 9.481532470090315e-05,
1692
+ "C": 0.986512303352356,
1693
+ "D": 3.27672969433479e-05
1694
  },
1695
  "sample": {
1696
  "messages": [
 
1735
  ]
1736
  },
1737
  "predict": {
1738
+ "A": 0.0014960976550355554,
1739
+ "B": 0.00017868337454274297,
1740
+ "C": 0.9951168298721313,
1741
+ "D": 4.2441020923433825e-05
1742
  },
1743
  "sample": {
1744
  "messages": [
 
1783
  ]
1784
  },
1785
  "predict": {
1786
+ "A": 2.6055766284116544e-05,
1787
+ "B": 0.00011677383008645847,
1788
+ "C": 2.6055766284116544e-05,
1789
+ "D": 0.9462281465530396
1790
  },
1791
  "sample": {
1792
  "messages": [
 
1831
  ]
1832
  },
1833
  "predict": {
1834
+ "A": 0.00031024852069094777,
1835
+ "B": 3.2699954317649826e-05,
1836
+ "C": 0.007061223033815622,
1837
+ "D": 0.9248377680778503
1838
  },
1839
  "sample": {
1840
  "messages": [
 
1879
  ]
1880
  },
1881
  "predict": {
1882
+ "A": 0.8788755536079407,
1883
+ "B": 0.0013213359052315354,
1884
+ "C": 0.00011545705638127401,
1885
+ "D": 0.00021570218086708337
1886
  },
1887
  "sample": {
1888
  "messages": [
 
1927
  ]
1928
  },
1929
  "predict": {
1930
+ "A": 0.0008992572547867894,
1931
+ "B": 0.00039904299774207175,
1932
+ "C": 0.9861553311347961,
1933
+ "D": 0.00039904299774207175
1934
  },
1935
  "sample": {
1936
  "messages": [
 
1975
  ]
1976
  },
1977
  "predict": {
1978
+ "A": 0.9313504099845886,
1979
+ "B": 0.0004545877454802394,
1980
+ "C": 0.00021473201923072338,
1981
+ "D": 0.00015710131265223026
1982
  },
1983
  "sample": {
1984
  "messages": [
 
2023
  ]
2024
  },
2025
  "predict": {
2026
+ "A": 0.8250501155853271,
2027
+ "B": 0.11165838688611984,
2028
+ "C": 0.00010181927063968033,
2029
+ "D": 0.00031362546724267304
2030
  },
2031
  "sample": {
2032
  "messages": [
 
2071
  ]
2072
  },
2073
  "predict": {
2074
+ "A": 0.7817774415016174,
2075
+ "B": 0.09337000548839569,
2076
+ "C": 0.0076642767526209354,
2077
+ "D": 0.034348905086517334
2078
  },
2079
  "sample": {
2080
  "messages": [
 
2119
  ]
2120
  },
2121
  "predict": {
2122
+ "A": 0.16010281443595886,
2123
+ "B": 0.43520450592041016,
2124
+ "C": 0.3389376103878021,
2125
+ "D": 0.0025878206361085176
2126
  },
2127
  "sample": {
2128
  "messages": [
 
2167
  ]
2168
  },
2169
  "predict": {
2170
+ "A": 0.00048233545385301113,
2171
+ "B": 0.000258175510680303,
2172
+ "C": 0.9881993532180786,
2173
+ "D": 4.7757675929460675e-05
2174
  },
2175
  "sample": {
2176
  "messages": [
 
2215
  ]
2216
  },
2217
  "predict": {
2218
+ "A": 0.0031023963820189238,
2219
+ "B": 0.00039442541310563684,
2220
+ "C": 0.9747439026832581,
2221
+ "D": 0.0004757678834721446
2222
  },
2223
  "sample": {
2224
  "messages": [
 
2263
  ]
2264
  },
2265
  "predict": {
2266
+ "A": 0.0004945184336975217,
2267
+ "B": 1.317846999882022e-05,
2268
+ "C": 1.317846999882022e-05,
2269
+ "D": 0.9517754316329956
2270
  },
2271
  "sample": {
2272
  "messages": [
 
2311
  ]
2312
  },
2313
  "predict": {
2314
+ "A": 0.0019184870179742575,
2315
+ "B": 0.8238899111747742,
2316
+ "C": 0.00011521411215653643,
2317
+ "D": 0.0004556806234177202
2318
  },
2319
  "sample": {
2320
  "messages": [
 
2359
  ]
2360
  },
2361
  "predict": {
2362
+ "A": 0.0014164040330797434,
2363
+ "B": 0.9421092867851257,
2364
+ "C": 0.0012499721487984061,
2365
+ "D": 0.0013305884785950184
2366
  },
2367
  "sample": {
2368
  "messages": [
 
2407
  ]
2408
  },
2409
  "predict": {
2410
+ "A": 0.00013452829443849623,
2411
+ "B": 8.15955427242443e-05,
2412
+ "C": 7.20078096492216e-05,
2413
+ "D": 0.9037197828292847
2414
  },
2415
  "sample": {
2416
  "messages": [
 
2455
  ]
2456
  },
2457
  "predict": {
2458
+ "A": 0.952965259552002,
2459
+ "B": 0.0004104826657567173,
2460
+ "C": 0.0005972487269900739,
2461
+ "D": 0.0038945511914789677
2462
  },
2463
  "sample": {
2464
  "messages": [
 
2503
  ]
2504
  },
2505
  "predict": {
2506
+ "A": 0.005962250754237175,
2507
+ "B": 0.8848764896392822,
2508
+ "C": 0.002193389693275094,
2509
+ "D": 0.00033636720036156476
2510
  },
2511
  "sample": {
2512
  "messages": [
 
2551
  ]
2552
  },
2553
  "predict": {
2554
+ "A": 0.00024997632135637105,
2555
+ "B": 0.00010420564649393782,
2556
+ "C": 0.00046701732208020985,
2557
+ "D": 0.9568158984184265
2558
  },
2559
  "sample": {
2560
  "messages": [
 
2599
  ]
2600
  },
2601
  "predict": {
2602
+ "A": 0.002452207962051034,
2603
+ "B": 0.0009602983482182026,
2604
+ "C": 0.989291250705719,
2605
+ "D": 9.508241782896221e-05
2606
  },
2607
  "sample": {
2608
  "messages": [
 
2647
  ]
2648
  },
2649
  "predict": {
2650
+ "A": 0.0018877492984756827,
2651
+ "B": 0.003112372476607561,
2652
+ "C": 0.9778783321380615,
2653
+ "D": 0.00021179959003347903
2654
  },
2655
  "sample": {
2656
  "messages": [
 
2695
  ]
2696
  },
2697
  "predict": {
2698
+ "A": 0.28472578525543213,
2699
+ "B": 0.006696108728647232,
2700
+ "C": 0.6027644872665405,
2701
+ "D": 0.002173908054828644
2702
  },
2703
  "sample": {
2704
  "messages": [
 
2743
  ]
2744
  },
2745
  "predict": {
2746
+ "A": 0.9139541983604431,
2747
+ "B": 0.0005727994721382856,
2748
+ "C": 0.00012006530596408993,
2749
+ "D": 2.6790188712766394e-05
2750
  },
2751
  "sample": {
2752
  "messages": [
 
2784
  }
2785
  {
2786
  "metric": {
2787
+ "acc": false,
2788
  "f1_macro": [
2789
  "D",
2790
+ "C"
2791
  ]
2792
  },
2793
  "predict": {
2794
+ "A": 0.023137446492910385,
2795
+ "B": 0.003333265194669366,
2796
+ "C": 0.5266058444976807,
2797
+ "D": 0.41012105345726013
2798
  },
2799
  "sample": {
2800
  "messages": [
 
2827
  "prompt_len": 107,
2828
  "generated_len": 1,
2829
  "generated_cumulative_logprob": "TODO: calculate for hf model",
2830
+ "generated_token": " C"
2831
  }
2832
  }
2833
  {
 
2839
  ]
2840
  },
2841
  "predict": {
2842
+ "A": 0.001142913824878633,
2843
+ "B": 0.0005071649793535471,
2844
+ "C": 0.9761156439781189,
2845
+ "D": 3.045762423425913e-05
2846
  },
2847
  "sample": {
2848
  "messages": [
 
2887
  ]
2888
  },
2889
  "predict": {
2890
+ "A": 0.862457275390625,
2891
+ "B": 0.003524665953591466,
2892
+ "C": 0.0002553259546402842,
2893
+ "D": 0.0006940478342585266
2894
  },
2895
  "sample": {
2896
  "messages": [
 
2935
  ]
2936
  },
2937
  "predict": {
2938
+ "A": 0.9318557977676392,
2939
+ "B": 0.0003126027877442539,
2940
+ "C": 2.73149289569119e-05,
2941
+ "D": 8.330582204507664e-06
2942
  },
2943
  "sample": {
2944
  "messages": [
 
2983
  ]
2984
  },
2985
  "predict": {
2986
+ "A": 0.8516117334365845,
2987
+ "B": 4.964441905030981e-05,
2988
+ "C": 6.374470103764907e-05,
2989
+ "D": 1.040603547153296e-05
2990
  },
2991
  "sample": {
2992
  "messages": [
 
3031
  ]
3032
  },
3033
  "predict": {
3034
+ "A": 0.0002588847419247031,
3035
+ "B": 4.7888868721202016e-05,
3036
+ "C": 0.990913987159729,
3037
+ "D": 3.29135000356473e-05
3038
  },
3039
  "sample": {
3040
  "messages": [
 
3079
  ]
3080
  },
3081
  "predict": {
3082
+ "A": 0.0004712917434517294,
3083
+ "B": 7.227493188111112e-05,
3084
+ "C": 0.00026853394228965044,
3085
+ "D": 0.965573251247406
3086
  },
3087
  "sample": {
3088
  "messages": [
 
3127
  ]
3128
  },
3129
  "predict": {
3130
+ "A": 0.8506309986114502,
3131
+ "B": 0.0005674959975294769,
3132
+ "C": 0.00023656753182876855,
3133
+ "D": 0.0001347921061096713
3134
  },
3135
  "sample": {
3136
  "messages": [
 
3175
  ]
3176
  },
3177
  "predict": {
3178
+ "A": 0.8284039497375488,
3179
+ "B": 0.00045817726640962064,
3180
+ "C": 0.007167098578065634,
3181
+ "D": 0.00010882664355449378
3182
  },
3183
  "sample": {
3184
  "messages": [
 
3223
  ]
3224
  },
3225
  "predict": {
3226
+ "A": 0.0004875806043855846,
3227
+ "B": 7.024264778010547e-05,
3228
+ "C": 0.0001487036788603291,
3229
+ "D": 0.9384225606918335
3230
  },
3231
  "sample": {
3232
  "messages": [
 
3271
  ]
3272
  },
3273
  "predict": {
3274
+ "A": 0.8664288520812988,
3275
+ "B": 0.00013729545753449202,
3276
+ "C": 0.00018766064022202045,
3277
+ "D": 3.471372474450618e-05
3278
  },
3279
  "sample": {
3280
  "messages": [
 
3319
  ]
3320
  },
3321
  "predict": {
3322
+ "A": 0.913275420665741,
3323
+ "B": 0.00106933549977839,
3324
+ "C": 2.6770290787681006e-05,
3325
+ "D": 5.323908044374548e-05
3326
  },
3327
  "sample": {
3328
  "messages": [
 
3367
  ]
3368
  },
3369
  "predict": {
3370
+ "A": 0.0003124263312201947,
3371
+ "B": 0.0001672297512413934,
3372
+ "C": 0.9913952946662903,
3373
+ "D": 0.00018949611694552004
3374
  },
3375
  "sample": {
3376
  "messages": [
 
3415
  ]
3416
  },
3417
  "predict": {
3418
+ "A": 0.14045383036136627,
3419
+ "B": 0.0355122908949852,
3420
+ "C": 0.7132834792137146,
3421
+ "D": 0.07517952471971512
3422
  },
3423
  "sample": {
3424
  "messages": [
 
3463
  ]
3464
  },
3465
  "predict": {
3466
+ "A": 0.00028015353018417954,
3467
+ "B": 0.9463216066360474,
3468
+ "C": 0.00014087003364693373,
3469
+ "D": 0.0005930849583819509
3470
  },
3471
  "sample": {
3472
  "messages": [
 
3511
  ]
3512
  },
3513
  "predict": {
3514
+ "A": 0.022060750052332878,
3515
+ "B": 0.00434401910752058,
3516
+ "C": 0.7305517196655273,
3517
+ "D": 0.20930656790733337
3518
  },
3519
  "sample": {
3520
  "messages": [
 
3559
  ]
3560
  },
3561
  "predict": {
3562
+ "A": 0.8805655241012573,
3563
+ "B": 9.590131230652332e-05,
3564
+ "C": 5.133227023179643e-05,
3565
+ "D": 1.297883045481285e-05
3566
  },
3567
  "sample": {
3568
  "messages": [
 
3607
  ]
3608
  },
3609
  "predict": {
3610
+ "A": 0.02225474826991558,
3611
+ "B": 0.0020700141321867704,
3612
+ "C": 0.946295976638794,
3613
+ "D": 0.00010305993055226281
3614
  },
3615
  "sample": {
3616
  "messages": [
 
3655
  ]
3656
  },
3657
  "predict": {
3658
+ "A": 0.9033163785934448,
3659
+ "B": 0.00019565015099942684,
3660
+ "C": 0.0002846693096216768,
3661
+ "D": 0.0006026449264027178
3662
  },
3663
  "sample": {
3664
  "messages": [
 
3703
  ]
3704
  },
3705
  "predict": {
3706
+ "A": 0.00046633565216325223,
3707
+ "B": 0.8975334763526917,
3708
+ "C": 4.9151414714287966e-05,
3709
+ "D": 0.00023448828142136335
3710
  },
3711
  "sample": {
3712
  "messages": [
 
3751
  ]
3752
  },
3753
  "predict": {
3754
+ "A": 0.004041610285639763,
3755
+ "B": 0.04081881791353226,
3756
+ "C": 0.9290319681167603,
3757
+ "D": 0.001232621492817998
3758
  },
3759
  "sample": {
3760
  "messages": [
 
3799
  ]
3800
  },
3801
  "predict": {
3802
+ "A": 0.8338299989700317,
3803
+ "B": 0.000630356022156775,
3804
+ "C": 0.0004069884598720819,
3805
+ "D": 0.0003169629198964685
3806
  },
3807
  "sample": {
3808
  "messages": [
 
3847
  ]
3848
  },
3849
  "predict": {
3850
+ "A": 0.022072235122323036,
3851
+ "B": 0.000458094640634954,
3852
+ "C": 0.00040426707710139453,
3853
+ "D": 0.9385353326797485
3854
  },
3855
  "sample": {
3856
  "messages": [
 
3895
  ]
3896
  },
3897
  "predict": {
3898
+ "A": 0.0034444406628608704,
3899
+ "B": 0.0025200066156685352,
3900
+ "C": 0.0006782505661249161,
3901
+ "D": 0.9550479054450989
3902
  },
3903
  "sample": {
3904
  "messages": [
 
3943
  ]
3944
  },
3945
  "predict": {
3946
+ "A": 0.00016578385839238763,
3947
+ "B": 5.382213566917926e-05,
3948
+ "C": 0.9828234910964966,
3949
+ "D": 1.4486030522675719e-05
3950
  },
3951
  "sample": {
3952
  "messages": [
 
3991
  ]
3992
  },
3993
  "predict": {
3994
+ "A": 0.9040003418922424,
3995
+ "B": 0.0001839354808907956,
3996
+ "C": 2.6498417355469428e-05,
3997
+ "D": 0.00023617781698703766
3998
  },
3999
  "sample": {
4000
  "messages": [
 
4039
  ]
4040
  },
4041
  "predict": {
4042
+ "A": 0.0003953882842324674,
4043
+ "B": 0.001886292127892375,
4044
+ "C": 0.977123498916626,
4045
+ "D": 8.287788659799844e-05
4046
  },
4047
  "sample": {
4048
  "messages": [
 
4087
  ]
4088
  },
4089
  "predict": {
4090
+ "A": 0.00046344229485839605,
4091
+ "B": 7.565486885141581e-05,
4092
+ "C": 0.00011007719149347395,
4093
+ "D": 0.8919647336006165
4094
  },
4095
  "sample": {
4096
  "messages": [
 
4135
  ]
4136
  },
4137
  "predict": {
4138
+ "A": 0.00033002824056893587,
4139
+ "B": 8.344421075889841e-05,
4140
+ "C": 0.9838003516197205,
4141
+ "D": 1.3621893231174909e-05
4142
  },
4143
  "sample": {
4144
  "messages": [
 
4183
  ]
4184
  },
4185
  "predict": {
4186
+ "A": 0.01547334622591734,
4187
+ "B": 0.001439245417714119,
4188
+ "C": 0.9573020339012146,
4189
+ "D": 5.940474875387736e-05
4190
  },
4191
  "sample": {
4192
  "messages": [
 
4231
  ]
4232
  },
4233
  "predict": {
4234
+ "A": 0.0004255225940141827,
4235
+ "B": 0.0004255225940141827,
4236
+ "C": 0.9878815412521362,
4237
+ "D": 6.525600474560633e-05
4238
  },
4239
  "sample": {
4240
  "messages": [
 
4279
  ]
4280
  },
4281
  "predict": {
4282
+ "A": 0.05640007555484772,
4283
+ "B": 0.011105834506452084,
4284
+ "C": 0.882245659828186,
4285
+ "D": 0.034208375960588455
4286
  },
4287
  "sample": {
4288
  "messages": [
 
4327
  ]
4328
  },
4329
  "predict": {
4330
+ "A": 0.0013033975847065449,
4331
+ "B": 0.0010805545607581735,
4332
+ "C": 0.982376217842102,
4333
+ "D": 5.379764115787111e-05
4334
  },
4335
  "sample": {
4336
  "messages": [
 
4375
  ]
4376
  },
4377
  "predict": {
4378
+ "A": 0.0012170878471806645,
4379
+ "B": 0.8617463707923889,
4380
+ "C": 0.00023965880973264575,
4381
+ "D": 0.00032757475855760276
4382
  },
4383
  "sample": {
4384
  "messages": [
 
4423
  ]
4424
  },
4425
  "predict": {
4426
+ "A": 0.8509471416473389,
4427
+ "B": 0.0006043208413757384,
4428
+ "C": 0.00012667253031395376,
4429
+ "D": 0.00017314082651864737
4430
  },
4431
  "sample": {
4432
  "messages": [
 
4471
  ]
4472
  },
4473
  "predict": {
4474
+ "A": 0.0005093108047731221,
4475
+ "B": 0.00013707915786653757,
4476
+ "C": 0.9802456498146057,
4477
+ "D": 2.8733349608955905e-05
4478
  },
4479
  "sample": {
4480
  "messages": [
 
4519
  ]
4520
  },
4521
  "predict": {
4522
+ "A": 0.0011250952957198024,
4523
+ "B": 0.0008762250654399395,
4524
+ "C": 0.11476283520460129,
4525
+ "D": 0.8479890823364258
4526
  },
4527
  "sample": {
4528
  "messages": [
 
4567
  ]
4568
  },
4569
  "predict": {
4570
+ "A": 0.8803030252456665,
4571
+ "B": 0.004619406070560217,
4572
+ "C": 0.002982512814924121,
4573
+ "D": 0.004619406070560217
4574
  },
4575
  "sample": {
4576
  "messages": [
 
4615
  ]
4616
  },
4617
  "predict": {
4618
+ "A": 0.0012638963526114821,
4619
+ "B": 0.0016228752210736275,
4620
+ "C": 0.0012638963526114821,
4621
+ "D": 0.9526039958000183
4622
  },
4623
  "sample": {
4624
  "messages": [
 
4663
  ]
4664
  },
4665
  "predict": {
4666
+ "A": 0.0002721854252740741,
4667
+ "B": 0.9194064140319824,
4668
+ "C": 0.0009500204469077289,
4669
+ "D": 0.006194911431521177
4670
  },
4671
  "sample": {
4672
  "messages": [
 
4711
  ]
4712
  },
4713
  "predict": {
4714
+ "A": 0.01438629999756813,
4715
+ "B": 0.8900488615036011,
4716
+ "C": 0.0007162516703829169,
4717
+ "D": 0.0004081079096067697
4718
  },
4719
  "sample": {
4720
  "messages": [
 
4759
  ]
4760
  },
4761
  "predict": {
4762
+ "A": 1.3694114386453293e-05,
4763
+ "B": 0.0003317780210636556,
4764
+ "C": 0.9890163540840149,
4765
+ "D": 0.0001220543053932488
4766
  },
4767
  "sample": {
4768
  "messages": [
 
4807
  ]
4808
  },
4809
  "predict": {
4810
+ "A": 0.0006961707258597016,
4811
+ "B": 0.8650952577590942,
4812
+ "C": 5.0430437113391235e-05,
4813
+ "D": 7.33758497517556e-05
4814
  },
4815
  "sample": {
4816
  "messages": [
 
4855
  ]
4856
  },
4857
  "predict": {
4858
+ "A": 0.0009528240188956261,
4859
+ "B": 0.9221196174621582,
4860
+ "C": 0.002017128514125943,
4861
+ "D": 0.0015709414146840572
4862
  },
4863
  "sample": {
4864
  "messages": [
 
4903
  ]
4904
  },
4905
  "predict": {
4906
+ "A": 0.0002208972437074408,
4907
+ "B": 0.900042712688446,
4908
+ "C": 2.8083930374123156e-05,
4909
+ "D": 4.928883208776824e-05
4910
  },
4911
  "sample": {
4912
  "messages": [
 
4951
  ]
4952
  },
4953
  "predict": {
4954
+ "A": 0.0003653603489510715,
4955
+ "B": 0.0005315961316227913,
4956
+ "C": 0.00010467749234521762,
4957
+ "D": 0.9611483812332153
4958
  },
4959
  "sample": {
4960
  "messages": [
 
4999
  ]
5000
  },
5001
  "predict": {
5002
+ "A": 0.0014809591230005026,
5003
+ "B": 0.00039859474054537714,
5004
+ "C": 0.9850475788116455,
5005
+ "D": 3.2718646252760664e-05
5006
  },
5007
  "sample": {
5008
  "messages": [
llmtf_eval/darumeru_ruWorldTree_params.jsonl CHANGED
@@ -1,7 +1,7 @@
1
  {
2
  "custom_generation_config": null,
3
  "model_params": {
4
- "model_name_or_path": "/scratch/tikhomirov/workdir/data/models/ruadapt_qwen2.5_7B_ext_u48_full_two_stage_lr5e4_peft_mlp_32_32_lm_head_lora_bs256_as1.5_pv14/simpo2",
5
  "generation_config": {
6
  "bos_token_id": 147075,
7
  "do_sample": true,
 
1
  {
2
  "custom_generation_config": null,
3
  "model_params": {
4
+ "model_name_or_path": "/workdir/data/models/qwen/ruadapt_qwen2.5_7B_ext_u48_part1-2_lr5e4_peft_mlp_32_32_bs128_as1.5_pv8_ft0_as1.35_kto1_as0.75_simpo2_as1.0",
5
  "generation_config": {
6
  "bos_token_id": 147075,
7
  "do_sample": true,
llmtf_eval/darumeru_ruWorldTree_total.jsonl CHANGED
@@ -2,7 +2,7 @@
2
  "task_name": "darumeru/ruWorldTree",
3
  "results": {
4
  "acc": 0.9047619047619048,
5
- "f1_macro": 0.9048601269315972
6
  },
7
- "leaderboard_result": 0.904811015846751
8
  }
 
2
  "task_name": "darumeru/ruWorldTree",
3
  "results": {
4
  "acc": 0.9047619047619048,
5
+ "f1_macro": 0.9038817229146561
6
  },
7
+ "leaderboard_result": 0.9043218138382805
8
  }
llmtf_eval/evaluation_log.txt CHANGED
@@ -1,251 +1,251 @@
1
- INFO: 2024-10-26 10:00:21,600: llmtf.base.evaluator: Starting eval on ['darumeru/multiq']
2
- INFO: 2024-10-26 10:00:21,601: llmtf.base.hfmodel: Updated generation_config.eos_token_id: [147077]
3
- INFO: 2024-10-26 10:00:21,601: llmtf.base.hfmodel: Updated generation_config.stop_strings: ['<|im_end|>']
4
- INFO: 2024-10-26 10:00:23,554: llmtf.base.evaluator: Starting eval on ['darumeru/parus']
5
- INFO: 2024-10-26 10:00:23,554: llmtf.base.hfmodel: Updated generation_config.eos_token_id: [147077]
6
- INFO: 2024-10-26 10:00:23,554: llmtf.base.hfmodel: Updated generation_config.stop_strings: ['<|im_end|>']
7
- INFO: 2024-10-26 10:00:25,061: llmtf.base.evaluator: Starting eval on ['darumeru/rcb']
8
- INFO: 2024-10-26 10:00:25,062: llmtf.base.hfmodel: Updated generation_config.eos_token_id: [147077]
9
- INFO: 2024-10-26 10:00:25,062: llmtf.base.hfmodel: Updated generation_config.stop_strings: ['<|im_end|>']
10
- INFO: 2024-10-26 10:00:25,825: llmtf.base.darumeru/MultiQ: Loading Dataset: 4.22s
11
- INFO: 2024-10-26 10:00:25,839: llmtf.base.darumeru/PARus: Loading Dataset: 2.28s
12
- INFO: 2024-10-26 10:00:27,118: llmtf.base.evaluator: Starting eval on ['darumeru/ruopenbookqa']
13
- INFO: 2024-10-26 10:00:27,118: llmtf.base.hfmodel: Updated generation_config.eos_token_id: [147077]
14
- INFO: 2024-10-26 10:00:27,118: llmtf.base.hfmodel: Updated generation_config.stop_strings: ['<|im_end|>']
15
- INFO: 2024-10-26 10:00:27,739: llmtf.base.darumeru/RCB: Loading Dataset: 2.68s
16
- INFO: 2024-10-26 10:00:29,086: llmtf.base.darumeru/PARus: Processing Dataset: 3.25s
17
- INFO: 2024-10-26 10:00:29,088: llmtf.base.darumeru/PARus: Results for darumeru/PARus:
18
- INFO: 2024-10-26 10:00:29,102: llmtf.base.darumeru/PARus: {'acc': 0.8}
19
- INFO: 2024-10-26 10:00:29,102: llmtf.base.evaluator: Ended eval
20
- INFO: 2024-10-26 10:00:29,105: llmtf.base.evaluator:
21
  mean darumeru/PARus
22
- 0.800 0.800
23
- INFO: 2024-10-26 10:00:30,121: llmtf.base.evaluator: Starting eval on ['darumeru/ruworldtree']
24
- INFO: 2024-10-26 10:00:30,122: llmtf.base.hfmodel: Updated generation_config.eos_token_id: [147077]
25
- INFO: 2024-10-26 10:00:30,122: llmtf.base.hfmodel: Updated generation_config.stop_strings: ['<|im_end|>']
26
- INFO: 2024-10-26 10:00:30,879: llmtf.base.darumeru/ruOpenBookQA: Loading Dataset: 3.76s
27
- INFO: 2024-10-26 10:00:31,330: llmtf.base.evaluator: Starting eval on ['darumeru/rwsd']
28
- INFO: 2024-10-26 10:00:31,330: llmtf.base.hfmodel: Updated generation_config.eos_token_id: [147077]
29
- INFO: 2024-10-26 10:00:31,330: llmtf.base.hfmodel: Updated generation_config.stop_strings: ['<|im_end|>']
30
- INFO: 2024-10-26 10:00:32,861: llmtf.base.darumeru/RCB: Processing Dataset: 5.12s
31
- INFO: 2024-10-26 10:00:32,862: llmtf.base.darumeru/RCB: Results for darumeru/RCB:
32
- INFO: 2024-10-26 10:00:32,870: llmtf.base.darumeru/RCB: {'acc': 0.5863636363636363, 'f1_macro': 0.520344156087331}
33
- INFO: 2024-10-26 10:00:32,871: llmtf.base.evaluator: Ended eval
34
- INFO: 2024-10-26 10:00:32,874: llmtf.base.evaluator:
35
- mean darumeru/PARus darumeru/RCB
36
- 0.677 0.800 0.553
37
- INFO: 2024-10-26 10:00:33,148: llmtf.base.darumeru/ruWorldTree: Loading Dataset: 3.03s
38
- INFO: 2024-10-26 10:00:33,497: llmtf.base.evaluator: Starting eval on ['daru/treewayextractive']
39
- INFO: 2024-10-26 10:00:33,498: llmtf.base.hfmodel: Updated generation_config.eos_token_id: [147077]
40
- INFO: 2024-10-26 10:00:33,498: llmtf.base.hfmodel: Updated generation_config.stop_strings: ['<|im_end|>']
41
- INFO: 2024-10-26 10:00:34,009: llmtf.base.darumeru/RWSD: Loading Dataset: 2.68s
42
- INFO: 2024-10-26 10:00:35,785: llmtf.base.darumeru/ruWorldTree: Processing Dataset: 2.64s
43
- INFO: 2024-10-26 10:00:35,787: llmtf.base.darumeru/ruWorldTree: Results for darumeru/ruWorldTree:
44
- INFO: 2024-10-26 10:00:35,795: llmtf.base.darumeru/ruWorldTree: {'acc': 0.9047619047619048, 'f1_macro': 0.9048601269315972}
45
- INFO: 2024-10-26 10:00:35,795: llmtf.base.evaluator: Ended eval
46
- INFO: 2024-10-26 10:00:35,799: llmtf.base.evaluator:
47
- mean darumeru/PARus darumeru/RCB darumeru/ruWorldTree
48
- 0.753 0.800 0.553 0.905
49
- INFO: 2024-10-26 10:00:36,096: llmtf.base.evaluator: Starting eval on ['nlpcoreteam/rummlu']
50
- INFO: 2024-10-26 10:00:36,096: llmtf.base.hfmodel: Updated generation_config.eos_token_id: [147077]
51
- INFO: 2024-10-26 10:00:36,096: llmtf.base.hfmodel: Updated generation_config.stop_strings: ['<|im_end|>']
52
- INFO: 2024-10-26 10:00:39,654: llmtf.base.darumeru/RWSD: Processing Dataset: 5.64s
53
- INFO: 2024-10-26 10:00:39,655: llmtf.base.darumeru/RWSD: Results for darumeru/RWSD:
54
- INFO: 2024-10-26 10:00:39,660: llmtf.base.darumeru/RWSD: {'acc': 0.5343137254901961}
55
- INFO: 2024-10-26 10:00:39,660: llmtf.base.evaluator: Ended eval
56
- INFO: 2024-10-26 10:00:39,664: llmtf.base.evaluator:
57
- mean darumeru/PARus darumeru/RCB darumeru/RWSD darumeru/ruWorldTree
58
- 0.698 0.800 0.553 0.534 0.905
59
- INFO: 2024-10-26 10:00:40,963: llmtf.base.evaluator: Starting eval on ['daru/treewayabstractive']
60
- INFO: 2024-10-26 10:00:40,963: llmtf.base.hfmodel: Updated generation_config.eos_token_id: [147077]
61
- INFO: 2024-10-26 10:00:40,963: llmtf.base.hfmodel: Updated generation_config.stop_strings: ['<|im_end|>']
62
- INFO: 2024-10-26 10:00:43,550: llmtf.base.evaluator: Starting eval on ['darumeru/cp_para_ru']
63
- INFO: 2024-10-26 10:00:43,550: llmtf.base.hfmodel: Updated generation_config.eos_token_id: [147077]
64
- INFO: 2024-10-26 10:00:43,550: llmtf.base.hfmodel: Updated generation_config.stop_strings: ['<|im_end|>']
65
- INFO: 2024-10-26 10:00:44,771: llmtf.base.daru/treewayabstractive: Loading Dataset: 3.81s
66
- INFO: 2024-10-26 10:00:46,698: llmtf.base.darumeru/cp_para_ru: Loading Dataset: 3.15s
67
- INFO: 2024-10-26 10:00:46,725: llmtf.base.daru/treewayextractive: Loading Dataset: 13.23s
68
- INFO: 2024-10-26 10:01:01,719: llmtf.base.darumeru/ruOpenBookQA: Processing Dataset: 30.84s
69
- INFO: 2024-10-26 10:01:01,720: llmtf.base.darumeru/ruOpenBookQA: Results for darumeru/ruOpenBookQA:
70
- INFO: 2024-10-26 10:01:01,734: llmtf.base.darumeru/ruOpenBookQA: {'acc': 0.8191580756013745, 'f1_macro': 0.8196610608491144}
71
- INFO: 2024-10-26 10:01:01,743: llmtf.base.evaluator: Ended eval
72
- INFO: 2024-10-26 10:01:01,747: llmtf.base.evaluator:
73
- mean darumeru/PARus darumeru/RCB darumeru/RWSD darumeru/ruOpenBookQA darumeru/ruWorldTree
74
- 0.722 0.800 0.553 0.534 0.819 0.905
75
- INFO: 2024-10-26 10:02:41,817: llmtf.base.darumeru/cp_para_ru: Processing Dataset: 115.10s
76
- INFO: 2024-10-26 10:02:41,820: llmtf.base.darumeru/cp_para_ru: Results for darumeru/cp_para_ru:
77
- INFO: 2024-10-26 10:02:41,823: llmtf.base.darumeru/cp_para_ru: {'symbol_per_token': 3.9920472926206347, 'len': 0.9992233172309354, 'lcs': 1.0}
78
- INFO: 2024-10-26 10:02:41,824: llmtf.base.evaluator: Ended eval
79
- INFO: 2024-10-26 10:02:41,830: llmtf.base.nlpcoreteam/ruMMLU: Loading Dataset: 125.73s
80
- INFO: 2024-10-26 10:02:41,835: llmtf.base.evaluator:
81
- mean darumeru/PARus darumeru/RCB darumeru/RWSD darumeru/cp_para_ru darumeru/ruOpenBookQA darumeru/ruWorldTree
82
- 0.769 0.800 0.553 0.534 1.000 0.819 0.905
83
- INFO: 2024-10-26 10:03:13,156: llmtf.base.daru/treewayabstractive: Processing Dataset: 148.37s
84
- INFO: 2024-10-26 10:03:13,158: llmtf.base.daru/treewayabstractive: Results for daru/treewayabstractive:
85
- INFO: 2024-10-26 10:03:13,162: llmtf.base.daru/treewayabstractive: {'rouge1': 0.3486928379990829, 'rouge2': 0.12579847916639003}
86
- INFO: 2024-10-26 10:03:13,164: llmtf.base.evaluator: Ended eval
87
- INFO: 2024-10-26 10:03:13,169: llmtf.base.evaluator:
88
- mean daru/treewayabstractive darumeru/PARus darumeru/RCB darumeru/RWSD darumeru/cp_para_ru darumeru/ruOpenBookQA darumeru/ruWorldTree
89
- 0.693 0.237 0.800 0.553 0.534 1.000 0.819 0.905
90
- INFO: 2024-10-26 10:04:19,979: llmtf.base.darumeru/MultiQ: Processing Dataset: 234.15s
91
- INFO: 2024-10-26 10:04:19,982: llmtf.base.darumeru/MultiQ: Results for darumeru/MultiQ:
92
- INFO: 2024-10-26 10:04:19,986: llmtf.base.darumeru/MultiQ: {'f1': 0.28476692977698215, 'em': 0.17304015296367112}
93
- INFO: 2024-10-26 10:04:19,991: llmtf.base.evaluator: Ended eval
94
- INFO: 2024-10-26 10:04:19,997: llmtf.base.evaluator:
95
- mean daru/treewayabstractive darumeru/MultiQ darumeru/PARus darumeru/RCB darumeru/RWSD darumeru/cp_para_ru darumeru/ruOpenBookQA darumeru/ruWorldTree
96
- 0.635 0.237 0.229 0.800 0.553 0.534 1.000 0.819 0.905
97
- INFO: 2024-10-26 10:04:32,092: llmtf.base.evaluator: Starting eval on ['nlpcoreteam/enmmlu']
98
- INFO: 2024-10-26 10:04:32,092: llmtf.base.hfmodel: Updated generation_config.eos_token_id: [147077]
99
- INFO: 2024-10-26 10:04:32,092: llmtf.base.hfmodel: Updated generation_config.stop_strings: ['<|im_end|>']
100
- INFO: 2024-10-26 10:05:58,778: llmtf.base.daru/treewayextractive: Processing Dataset: 312.04s
101
- INFO: 2024-10-26 10:05:58,782: llmtf.base.daru/treewayextractive: Results for daru/treewayextractive:
102
- INFO: 2024-10-26 10:05:59,016: llmtf.base.daru/treewayextractive: {'r-prec': 0.3931765512265512}
103
- INFO: 2024-10-26 10:05:59,058: llmtf.base.evaluator: Ended eval
104
- INFO: 2024-10-26 10:05:59,066: llmtf.base.evaluator:
105
- mean daru/treewayabstractive daru/treewayextractive darumeru/MultiQ darumeru/PARus darumeru/RCB darumeru/RWSD darumeru/cp_para_ru darumeru/ruOpenBookQA darumeru/ruWorldTree
106
- 0.608 0.237 0.393 0.229 0.800 0.553 0.534 1.000 0.819 0.905
107
- INFO: 2024-10-26 10:06:34,248: llmtf.base.nlpcoreteam/enMMLU: Loading Dataset: 122.16s
108
- INFO: 2024-10-26 10:07:49,582: llmtf.base.nlpcoreteam/ruMMLU: Processing Dataset: 307.75s
109
- INFO: 2024-10-26 10:07:49,584: llmtf.base.nlpcoreteam/ruMMLU: Results for nlpcoreteam/ruMMLU:
110
- INFO: 2024-10-26 10:07:49,630: llmtf.base.nlpcoreteam/ruMMLU: metric
111
  subject
112
- abstract_algebra 0.430000
113
- anatomy 0.577778
114
- astronomy 0.743421
115
- business_ethics 0.670000
116
- clinical_knowledge 0.701887
117
- college_biology 0.687500
118
  college_chemistry 0.470000
119
- college_computer_science 0.640000
120
- college_mathematics 0.470000
121
  college_medicine 0.589595
122
- college_physics 0.490196
123
- computer_security 0.710000
124
- conceptual_physics 0.668085
125
- econometrics 0.464912
126
- electrical_engineering 0.579310
127
- elementary_mathematics 0.624339
128
- formal_logic 0.420635
129
- global_facts 0.400000
130
- high_school_biology 0.806452
131
- high_school_chemistry 0.536946
132
- high_school_computer_science 0.790000
133
- high_school_european_history 0.763636
134
- high_school_geography 0.777778
135
- high_school_government_and_politics 0.715026
136
- high_school_macroeconomics 0.653846
137
- high_school_mathematics 0.462963
138
- high_school_microeconomics 0.714286
139
- high_school_physics 0.490066
140
  high_school_psychology 0.796330
141
- high_school_statistics 0.625000
142
- high_school_us_history 0.754902
143
- high_school_world_history 0.776371
144
- human_aging 0.618834
145
  human_sexuality 0.717557
146
- international_law 0.702479
147
- jurisprudence 0.685185
148
- logical_fallacies 0.613497
149
- machine_learning 0.446429
150
- management 0.737864
151
- marketing 0.799145
152
  medical_genetics 0.650000
153
- miscellaneous 0.717752
154
- moral_disputes 0.604046
155
- moral_scenarios 0.242458
156
- nutrition 0.705882
157
- philosophy 0.639871
158
- prehistory 0.626543
159
- professional_accounting 0.446809
160
- professional_law 0.399609
161
- professional_medicine 0.595588
162
- professional_psychology 0.601307
163
- public_relations 0.600000
164
- security_studies 0.673469
165
- sociology 0.711443
166
  us_foreign_policy 0.800000
167
  virology 0.500000
168
- world_religions 0.730994
169
- INFO: 2024-10-26 10:07:49,638: llmtf.base.nlpcoreteam/ruMMLU: metric
170
  subject
171
- STEM 0.592817
172
- humanities 0.612325
173
- other (business, health, misc.) 0.622224
174
- social sciences 0.685496
175
- INFO: 2024-10-26 10:07:49,666: llmtf.base.nlpcoreteam/ruMMLU: {'acc': 0.6282155966274303}
176
- INFO: 2024-10-26 10:07:49,702: llmtf.base.evaluator: Ended eval
177
- INFO: 2024-10-26 10:07:49,714: llmtf.base.evaluator:
178
- mean daru/treewayabstractive daru/treewayextractive darumeru/MultiQ darumeru/PARus darumeru/RCB darumeru/RWSD darumeru/cp_para_ru darumeru/ruOpenBookQA darumeru/ruWorldTree nlpcoreteam/ruMMLU
179
- 0.610 0.237 0.393 0.229 0.800 0.553 0.534 1.000 0.819 0.905 0.628
180
- INFO: 2024-10-26 10:11:09,714: llmtf.base.nlpcoreteam/enMMLU: Processing Dataset: 275.46s
181
- INFO: 2024-10-26 10:11:09,718: llmtf.base.nlpcoreteam/enMMLU: Results for nlpcoreteam/enMMLU:
182
- INFO: 2024-10-26 10:11:09,763: llmtf.base.nlpcoreteam/enMMLU: metric
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
183
  subject
184
- abstract_algebra 0.510000
185
- anatomy 0.703704
186
- astronomy 0.848684
187
- business_ethics 0.770000
188
- clinical_knowledge 0.777358
189
- college_biology 0.847222
190
- college_chemistry 0.550000
191
- college_computer_science 0.710000
192
  college_mathematics 0.470000
193
- college_medicine 0.693642
194
- college_physics 0.519608
195
- computer_security 0.780000
196
  conceptual_physics 0.706383
197
- econometrics 0.596491
198
- electrical_engineering 0.668966
199
  elementary_mathematics 0.666667
200
- formal_logic 0.484127
201
- global_facts 0.450000
202
- high_school_biology 0.867742
203
- high_school_chemistry 0.630542
204
- high_school_computer_science 0.860000
205
- high_school_european_history 0.800000
206
- high_school_geography 0.878788
207
- high_school_government_and_politics 0.943005
208
  high_school_macroeconomics 0.761538
209
- high_school_mathematics 0.551852
210
- high_school_microeconomics 0.865546
211
  high_school_physics 0.582781
212
- high_school_psychology 0.882569
213
- high_school_statistics 0.717593
214
- high_school_us_history 0.848039
215
- high_school_world_history 0.848101
216
- human_aging 0.784753
217
- human_sexuality 0.748092
218
- international_law 0.785124
219
- jurisprudence 0.787037
220
- logical_fallacies 0.834356
221
- machine_learning 0.535714
222
- management 0.864078
223
- marketing 0.901709
224
- medical_genetics 0.790000
225
- miscellaneous 0.846743
226
- moral_disputes 0.731214
227
- moral_scenarios 0.401117
228
- nutrition 0.790850
229
- philosophy 0.729904
230
- prehistory 0.793210
231
- professional_accounting 0.570922
232
- professional_law 0.507171
233
- professional_medicine 0.764706
234
- professional_psychology 0.745098
235
- public_relations 0.700000
236
  security_studies 0.759184
237
  sociology 0.845771
238
- us_foreign_policy 0.880000
239
- virology 0.518072
240
- world_religions 0.847953
241
- INFO: 2024-10-26 10:11:09,771: llmtf.base.nlpcoreteam/enMMLU: metric
242
  subject
243
- STEM 0.667986
244
- humanities 0.722873
245
- other (business, health, misc.) 0.730467
246
- social sciences 0.800507
247
- INFO: 2024-10-26 10:11:09,779: llmtf.base.nlpcoreteam/enMMLU: {'acc': 0.7304583527816666}
248
- INFO: 2024-10-26 10:11:09,811: llmtf.base.evaluator: Ended eval
249
- INFO: 2024-10-26 10:11:09,819: llmtf.base.evaluator:
 
 
 
 
 
 
 
 
 
 
 
250
  mean daru/treewayabstractive daru/treewayextractive darumeru/MultiQ darumeru/PARus darumeru/RCB darumeru/RWSD darumeru/cp_para_ru darumeru/ruOpenBookQA darumeru/ruWorldTree nlpcoreteam/enMMLU nlpcoreteam/ruMMLU
251
- 0.621 0.237 0.393 0.229 0.800 0.553 0.534 1.000 0.819 0.905 0.730 0.628
 
1
+ INFO: 2024-10-28 13:15:15,094: llmtf.base.evaluator: Starting eval on ['darumeru/multiq']
2
+ INFO: 2024-10-28 13:15:15,094: llmtf.base.hfmodel: Updated generation_config.eos_token_id: [147077]
3
+ INFO: 2024-10-28 13:15:15,094: llmtf.base.hfmodel: Updated generation_config.stop_strings: ['<|im_end|>']
4
+ INFO: 2024-10-28 13:15:16,695: llmtf.base.evaluator: Starting eval on ['darumeru/parus']
5
+ INFO: 2024-10-28 13:15:16,695: llmtf.base.hfmodel: Updated generation_config.eos_token_id: [147077]
6
+ INFO: 2024-10-28 13:15:16,695: llmtf.base.hfmodel: Updated generation_config.stop_strings: ['<|im_end|>']
7
+ INFO: 2024-10-28 13:15:18,943: llmtf.base.darumeru/PARus: Loading Dataset: 2.25s
8
+ INFO: 2024-10-28 13:15:19,297: llmtf.base.darumeru/MultiQ: Loading Dataset: 4.20s
9
+ INFO: 2024-10-28 13:15:22,318: llmtf.base.darumeru/PARus: Processing Dataset: 3.37s
10
+ INFO: 2024-10-28 13:15:22,318: llmtf.base.darumeru/PARus: Results for darumeru/PARus:
11
+ INFO: 2024-10-28 13:15:22,329: llmtf.base.darumeru/PARus: {'acc': 0.78}
12
+ INFO: 2024-10-28 13:15:22,330: llmtf.base.evaluator: Ended eval
13
+ INFO: 2024-10-28 13:15:22,330: llmtf.base.evaluator:
 
 
 
 
 
 
 
14
  mean darumeru/PARus
15
+ 0.780 0.780
16
+ INFO: 2024-10-28 13:15:30,304: llmtf.base.evaluator: Starting eval on ['darumeru/ruopenbookqa']
17
+ INFO: 2024-10-28 13:15:30,304: llmtf.base.hfmodel: Updated generation_config.eos_token_id: [147077]
18
+ INFO: 2024-10-28 13:15:30,304: llmtf.base.hfmodel: Updated generation_config.stop_strings: ['<|im_end|>']
19
+ INFO: 2024-10-28 13:15:33,637: llmtf.base.darumeru/ruOpenBookQA: Loading Dataset: 3.33s
20
+ INFO: 2024-10-28 13:16:05,173: llmtf.base.darumeru/ruOpenBookQA: Processing Dataset: 31.54s
21
+ INFO: 2024-10-28 13:16:05,173: llmtf.base.darumeru/ruOpenBookQA: Results for darumeru/ruOpenBookQA:
22
+ INFO: 2024-10-28 13:16:05,184: llmtf.base.darumeru/ruOpenBookQA: {'acc': 0.8256013745704467, 'f1_macro': 0.8262484506706507}
23
+ INFO: 2024-10-28 13:16:05,191: llmtf.base.evaluator: Ended eval
24
+ INFO: 2024-10-28 13:16:05,192: llmtf.base.evaluator:
25
+ mean darumeru/PARus darumeru/ruOpenBookQA
26
+ 0.803 0.780 0.826
27
+ INFO: 2024-10-28 13:16:13,923: llmtf.base.evaluator: Starting eval on ['darumeru/rwsd']
28
+ INFO: 2024-10-28 13:16:13,923: llmtf.base.hfmodel: Updated generation_config.eos_token_id: [147077]
29
+ INFO: 2024-10-28 13:16:13,923: llmtf.base.hfmodel: Updated generation_config.stop_strings: ['<|im_end|>']
30
+ INFO: 2024-10-28 13:16:16,429: llmtf.base.darumeru/RWSD: Loading Dataset: 2.51s
31
+ INFO: 2024-10-28 13:16:22,246: llmtf.base.darumeru/RWSD: Processing Dataset: 5.82s
32
+ INFO: 2024-10-28 13:16:22,246: llmtf.base.darumeru/RWSD: Results for darumeru/RWSD:
33
+ INFO: 2024-10-28 13:16:22,247: llmtf.base.darumeru/RWSD: {'acc': 0.5441176470588235}
34
+ INFO: 2024-10-28 13:16:22,248: llmtf.base.evaluator: Ended eval
35
+ INFO: 2024-10-28 13:16:22,249: llmtf.base.evaluator:
36
+ mean darumeru/PARus darumeru/RWSD darumeru/ruOpenBookQA
37
+ 0.717 0.780 0.544 0.826
38
+ INFO: 2024-10-28 13:16:31,348: llmtf.base.evaluator: Starting eval on ['nlpcoreteam/rummlu']
39
+ INFO: 2024-10-28 13:16:31,348: llmtf.base.hfmodel: Updated generation_config.eos_token_id: [147077]
40
+ INFO: 2024-10-28 13:16:31,348: llmtf.base.hfmodel: Updated generation_config.stop_strings: ['<|im_end|>']
41
+ INFO: 2024-10-28 13:18:38,554: llmtf.base.nlpcoreteam/ruMMLU: Loading Dataset: 127.21s
42
+ INFO: 2024-10-28 13:20:06,478: llmtf.base.darumeru/MultiQ: Processing Dataset: 287.18s
43
+ INFO: 2024-10-28 13:20:06,479: llmtf.base.darumeru/MultiQ: Results for darumeru/MultiQ:
44
+ INFO: 2024-10-28 13:20:06,480: llmtf.base.darumeru/MultiQ: {'f1': 0.2503859074384594, 'em': 0.14531548757170173}
45
+ INFO: 2024-10-28 13:20:06,488: llmtf.base.evaluator: Ended eval
46
+ INFO: 2024-10-28 13:20:06,489: llmtf.base.evaluator:
47
+ mean darumeru/MultiQ darumeru/PARus darumeru/RWSD darumeru/ruOpenBookQA
48
+ 0.587 0.198 0.780 0.544 0.826
49
+ INFO: 2024-10-28 13:20:15,334: llmtf.base.evaluator: Starting eval on ['darumeru/rcb']
50
+ INFO: 2024-10-28 13:20:15,335: llmtf.base.hfmodel: Updated generation_config.eos_token_id: [147077]
51
+ INFO: 2024-10-28 13:20:15,335: llmtf.base.hfmodel: Updated generation_config.stop_strings: ['<|im_end|>']
52
+ INFO: 2024-10-28 13:20:18,179: llmtf.base.darumeru/RCB: Loading Dataset: 2.84s
53
+ INFO: 2024-10-28 13:20:23,505: llmtf.base.darumeru/RCB: Processing Dataset: 5.33s
54
+ INFO: 2024-10-28 13:20:23,506: llmtf.base.darumeru/RCB: Results for darumeru/RCB:
55
+ INFO: 2024-10-28 13:20:23,510: llmtf.base.darumeru/RCB: {'acc': 0.5863636363636363, 'f1_macro': 0.5032640286161413}
56
+ INFO: 2024-10-28 13:20:23,511: llmtf.base.evaluator: Ended eval
57
+ INFO: 2024-10-28 13:20:23,512: llmtf.base.evaluator:
58
+ mean darumeru/MultiQ darumeru/PARus darumeru/RCB darumeru/RWSD darumeru/ruOpenBookQA
59
+ 0.579 0.198 0.780 0.545 0.544 0.826
60
+ INFO: 2024-10-28 13:20:32,046: llmtf.base.evaluator: Starting eval on ['darumeru/ruworldtree']
61
+ INFO: 2024-10-28 13:20:32,046: llmtf.base.hfmodel: Updated generation_config.eos_token_id: [147077]
62
+ INFO: 2024-10-28 13:20:32,046: llmtf.base.hfmodel: Updated generation_config.stop_strings: ['<|im_end|>']
63
+ INFO: 2024-10-28 13:20:34,403: llmtf.base.darumeru/ruWorldTree: Loading Dataset: 2.36s
64
+ INFO: 2024-10-28 13:20:36,969: llmtf.base.darumeru/ruWorldTree: Processing Dataset: 2.57s
65
+ INFO: 2024-10-28 13:20:36,969: llmtf.base.darumeru/ruWorldTree: Results for darumeru/ruWorldTree:
66
+ INFO: 2024-10-28 13:20:36,972: llmtf.base.darumeru/ruWorldTree: {'acc': 0.9047619047619048, 'f1_macro': 0.9038817229146561}
67
+ INFO: 2024-10-28 13:20:36,972: llmtf.base.evaluator: Ended eval
68
+ INFO: 2024-10-28 13:20:36,972: llmtf.base.evaluator:
69
+ mean darumeru/MultiQ darumeru/PARus darumeru/RCB darumeru/RWSD darumeru/ruOpenBookQA darumeru/ruWorldTree
70
+ 0.633 0.198 0.780 0.545 0.544 0.826 0.904
71
+ INFO: 2024-10-28 13:20:45,488: llmtf.base.evaluator: Starting eval on ['daru/treewayextractive']
72
+ INFO: 2024-10-28 13:20:45,488: llmtf.base.hfmodel: Updated generation_config.eos_token_id: [147077]
73
+ INFO: 2024-10-28 13:20:45,488: llmtf.base.hfmodel: Updated generation_config.stop_strings: ['<|im_end|>']
74
+ INFO: 2024-10-28 13:20:59,443: llmtf.base.daru/treewayextractive: Loading Dataset: 13.95s
75
+ INFO: 2024-10-28 13:23:49,533: llmtf.base.nlpcoreteam/ruMMLU: Processing Dataset: 310.98s
76
+ INFO: 2024-10-28 13:23:49,533: llmtf.base.nlpcoreteam/ruMMLU: Results for nlpcoreteam/ruMMLU:
77
+ INFO: 2024-10-28 13:23:49,597: llmtf.base.nlpcoreteam/ruMMLU: metric
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
78
  subject
79
+ abstract_algebra 0.480000
80
+ anatomy 0.562963
81
+ astronomy 0.769737
82
+ business_ethics 0.640000
83
+ clinical_knowledge 0.671698
84
+ college_biology 0.673611
85
  college_chemistry 0.470000
86
+ college_computer_science 0.670000
87
+ college_mathematics 0.440000
88
  college_medicine 0.589595
89
+ college_physics 0.480392
90
+ computer_security 0.720000
91
+ conceptual_physics 0.655319
92
+ econometrics 0.482456
93
+ electrical_engineering 0.606897
94
+ elementary_mathematics 0.616402
95
+ formal_logic 0.428571
96
+ global_facts 0.370000
97
+ high_school_biology 0.809677
98
+ high_school_chemistry 0.571429
99
+ high_school_computer_science 0.770000
100
+ high_school_european_history 0.751515
101
+ high_school_geography 0.782828
102
+ high_school_government_and_politics 0.725389
103
+ high_school_macroeconomics 0.658974
104
+ high_school_mathematics 0.525926
105
+ high_school_microeconomics 0.705882
106
+ high_school_physics 0.463576
107
  high_school_psychology 0.796330
108
+ high_school_statistics 0.606481
109
+ high_school_us_history 0.779412
110
+ high_school_world_history 0.801688
111
+ human_aging 0.632287
112
  human_sexuality 0.717557
113
+ international_law 0.743802
114
+ jurisprudence 0.675926
115
+ logical_fallacies 0.662577
116
+ machine_learning 0.482143
117
+ management 0.747573
118
+ marketing 0.816239
119
  medical_genetics 0.650000
120
+ miscellaneous 0.711367
121
+ moral_disputes 0.627168
122
+ moral_scenarios 0.244693
123
+ nutrition 0.689542
124
+ philosophy 0.646302
125
+ prehistory 0.660494
126
+ professional_accounting 0.439716
127
+ professional_law 0.411343
128
+ professional_medicine 0.613971
129
+ professional_psychology 0.591503
130
+ public_relations 0.545455
131
+ security_studies 0.665306
132
+ sociology 0.736318
133
  us_foreign_policy 0.800000
134
  virology 0.500000
135
+ world_religions 0.760234
136
+ INFO: 2024-10-28 13:23:49,606: llmtf.base.nlpcoreteam/ruMMLU: metric
137
  subject
138
+ STEM 0.600644
139
+ humanities 0.630286
140
+ other (business, health, misc.) 0.616782
141
+ social sciences 0.684000
142
+ INFO: 2024-10-28 13:23:49,611: llmtf.base.nlpcoreteam/ruMMLU: {'acc': 0.6329281396317665}
143
+ INFO: 2024-10-28 13:23:49,646: llmtf.base.evaluator: Ended eval
144
+ INFO: 2024-10-28 13:23:49,648: llmtf.base.evaluator:
145
+ mean darumeru/MultiQ darumeru/PARus darumeru/RCB darumeru/RWSD darumeru/ruOpenBookQA darumeru/ruWorldTree nlpcoreteam/ruMMLU
146
+ 0.633 0.198 0.780 0.545 0.544 0.826 0.904 0.633
147
+ INFO: 2024-10-28 13:23:57,887: llmtf.base.evaluator: Starting eval on ['daru/treewayabstractive']
148
+ INFO: 2024-10-28 13:23:57,887: llmtf.base.hfmodel: Updated generation_config.eos_token_id: [147077]
149
+ INFO: 2024-10-28 13:23:57,887: llmtf.base.hfmodel: Updated generation_config.stop_strings: ['<|im_end|>']
150
+ INFO: 2024-10-28 13:24:02,221: llmtf.base.daru/treewayabstractive: Loading Dataset: 4.33s
151
+ INFO: 2024-10-28 13:26:15,188: llmtf.base.daru/treewayextractive: Processing Dataset: 315.74s
152
+ INFO: 2024-10-28 13:26:15,188: llmtf.base.daru/treewayextractive: Results for daru/treewayextractive:
153
+ INFO: 2024-10-28 13:26:15,447: llmtf.base.daru/treewayextractive: {'r-prec': 0.40380281385281386}
154
+ INFO: 2024-10-28 13:26:15,501: llmtf.base.evaluator: Ended eval
155
+ INFO: 2024-10-28 13:26:15,503: llmtf.base.evaluator:
156
+ mean daru/treewayextractive darumeru/MultiQ darumeru/PARus darumeru/RCB darumeru/RWSD darumeru/ruOpenBookQA darumeru/ruWorldTree nlpcoreteam/ruMMLU
157
+ 0.604 0.404 0.198 0.780 0.545 0.544 0.826 0.904 0.633
158
+ INFO: 2024-10-28 13:26:24,206: llmtf.base.evaluator: Starting eval on ['nlpcoreteam/enmmlu']
159
+ INFO: 2024-10-28 13:26:24,207: llmtf.base.hfmodel: Updated generation_config.eos_token_id: [147077]
160
+ INFO: 2024-10-28 13:26:24,207: llmtf.base.hfmodel: Updated generation_config.stop_strings: ['<|im_end|>']
161
+ INFO: 2024-10-28 13:26:48,154: llmtf.base.daru/treewayabstractive: Processing Dataset: 165.93s
162
+ INFO: 2024-10-28 13:26:48,154: llmtf.base.daru/treewayabstractive: Results for daru/treewayabstractive:
163
+ INFO: 2024-10-28 13:26:48,155: llmtf.base.daru/treewayabstractive: {'rouge1': 0.3489002151166006, 'rouge2': 0.12404569962254197}
164
+ INFO: 2024-10-28 13:26:48,156: llmtf.base.evaluator: Ended eval
165
+ INFO: 2024-10-28 13:26:48,157: llmtf.base.evaluator:
166
+ mean daru/treewayabstractive daru/treewayextractive darumeru/MultiQ darumeru/PARus darumeru/RCB darumeru/RWSD darumeru/ruOpenBookQA darumeru/ruWorldTree nlpcoreteam/ruMMLU
167
+ 0.563 0.236 0.404 0.198 0.780 0.545 0.544 0.826 0.904 0.633
168
+ INFO: 2024-10-28 13:28:23,832: llmtf.base.nlpcoreteam/enMMLU: Loading Dataset: 119.62s
169
+ INFO: 2024-10-28 13:33:05,781: llmtf.base.nlpcoreteam/enMMLU: Processing Dataset: 281.95s
170
+ INFO: 2024-10-28 13:33:05,781: llmtf.base.nlpcoreteam/enMMLU: Results for nlpcoreteam/enMMLU:
171
+ INFO: 2024-10-28 13:33:05,844: llmtf.base.nlpcoreteam/enMMLU: metric
172
  subject
173
+ abstract_algebra 0.450000
174
+ anatomy 0.725926
175
+ astronomy 0.861842
176
+ business_ethics 0.750000
177
+ clinical_knowledge 0.762264
178
+ college_biology 0.854167
179
+ college_chemistry 0.510000
180
+ college_computer_science 0.720000
181
  college_mathematics 0.470000
182
+ college_medicine 0.699422
183
+ college_physics 0.509804
184
+ computer_security 0.770000
185
  conceptual_physics 0.706383
186
+ econometrics 0.605263
187
+ electrical_engineering 0.696552
188
  elementary_mathematics 0.666667
189
+ formal_logic 0.492063
190
+ global_facts 0.420000
191
+ high_school_biology 0.861290
192
+ high_school_chemistry 0.620690
193
+ high_school_computer_science 0.840000
194
+ high_school_european_history 0.824242
195
+ high_school_geography 0.873737
196
+ high_school_government_and_politics 0.927461
197
  high_school_macroeconomics 0.761538
198
+ high_school_mathematics 0.566667
199
+ high_school_microeconomics 0.873950
200
  high_school_physics 0.582781
201
+ high_school_psychology 0.888073
202
+ high_school_statistics 0.708333
203
+ high_school_us_history 0.838235
204
+ high_school_world_history 0.860759
205
+ human_aging 0.762332
206
+ human_sexuality 0.786260
207
+ international_law 0.809917
208
+ jurisprudence 0.796296
209
+ logical_fallacies 0.828221
210
+ machine_learning 0.526786
211
+ management 0.854369
212
+ marketing 0.914530
213
+ medical_genetics 0.810000
214
+ miscellaneous 0.848020
215
+ moral_disputes 0.736994
216
+ moral_scenarios 0.459218
217
+ nutrition 0.797386
218
+ philosophy 0.723473
219
+ prehistory 0.805556
220
+ professional_accounting 0.556738
221
+ professional_law 0.507823
222
+ professional_medicine 0.742647
223
+ professional_psychology 0.750000
224
+ public_relations 0.636364
225
  security_studies 0.759184
226
  sociology 0.845771
227
+ us_foreign_policy 0.850000
228
+ virology 0.506024
229
+ world_religions 0.853801
230
+ INFO: 2024-10-28 13:33:05,852: llmtf.base.nlpcoreteam/enMMLU: metric
231
  subject
232
+ STEM 0.662331
233
+ humanities 0.733585
234
+ other (business, health, misc.) 0.724976
235
+ social sciences 0.796467
236
+ INFO: 2024-10-28 13:33:05,857: llmtf.base.nlpcoreteam/enMMLU: {'acc': 0.7293395108036221}
237
+ INFO: 2024-10-28 13:33:05,908: llmtf.base.evaluator: Ended eval
238
+ INFO: 2024-10-28 13:33:05,910: llmtf.base.evaluator:
239
+ mean daru/treewayabstractive daru/treewayextractive darumeru/MultiQ darumeru/PARus darumeru/RCB darumeru/RWSD darumeru/ruOpenBookQA darumeru/ruWorldTree nlpcoreteam/enMMLU nlpcoreteam/ruMMLU
240
+ 0.580 0.236 0.404 0.198 0.780 0.545 0.544 0.826 0.904 0.729 0.633
241
+ INFO: 2024-10-28 13:33:14,562: llmtf.base.evaluator: Starting eval on ['darumeru/cp_para_ru']
242
+ INFO: 2024-10-28 13:33:14,562: llmtf.base.hfmodel: Updated generation_config.eos_token_id: [147077]
243
+ INFO: 2024-10-28 13:33:14,562: llmtf.base.hfmodel: Updated generation_config.stop_strings: ['<|im_end|>']
244
+ INFO: 2024-10-28 13:33:17,057: llmtf.base.darumeru/cp_para_ru: Loading Dataset: 2.49s
245
+ INFO: 2024-10-28 13:35:21,669: llmtf.base.darumeru/cp_para_ru: Processing Dataset: 124.61s
246
+ INFO: 2024-10-28 13:35:21,670: llmtf.base.darumeru/cp_para_ru: Results for darumeru/cp_para_ru:
247
+ INFO: 2024-10-28 13:35:21,670: llmtf.base.darumeru/cp_para_ru: {'symbol_per_token': 3.9953318595732386, 'len': 0.9990656928305265, 'lcs': 1.0}
248
+ INFO: 2024-10-28 13:35:21,671: llmtf.base.evaluator: Ended eval
249
+ INFO: 2024-10-28 13:35:21,672: llmtf.base.evaluator:
250
  mean daru/treewayabstractive daru/treewayextractive darumeru/MultiQ darumeru/PARus darumeru/RCB darumeru/RWSD darumeru/cp_para_ru darumeru/ruOpenBookQA darumeru/ruWorldTree nlpcoreteam/enMMLU nlpcoreteam/ruMMLU
251
+ 0.618 0.236 0.404 0.198 0.780 0.545 0.544 1.000 0.826 0.904 0.729 0.633
llmtf_eval/evaluation_results.txt CHANGED
@@ -1,2 +1,2 @@
1
  mean daru/treewayabstractive daru/treewayextractive darumeru/MultiQ darumeru/PARus darumeru/RCB darumeru/RWSD darumeru/cp_para_ru darumeru/ruOpenBookQA darumeru/ruWorldTree nlpcoreteam/enMMLU nlpcoreteam/ruMMLU
2
- 0.621 0.237 0.393 0.229 0.800 0.553 0.534 1.000 0.819 0.905 0.730 0.628
 
1
  mean daru/treewayabstractive daru/treewayextractive darumeru/MultiQ darumeru/PARus darumeru/RCB darumeru/RWSD darumeru/cp_para_ru darumeru/ruOpenBookQA darumeru/ruWorldTree nlpcoreteam/enMMLU nlpcoreteam/ruMMLU
2
+ 0.618 0.236 0.404 0.198 0.780 0.545 0.544 1.000 0.826 0.904 0.729 0.633
llmtf_eval/nlpcoreteam_enMMLU.jsonl CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:f679f84c651ffdd921961a9544f1e3c1eb75e2ea8c3e89924a5bbd41658c50e4
3
- size 37139349
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:fc07f15afc2e7d294c21eaa53bf13ecc02de10a3e0ad24fb4069782ffd2b824d
3
+ size 37151487
llmtf_eval/nlpcoreteam_enMMLU_params.jsonl CHANGED
@@ -1,7 +1,7 @@
1
  {
2
  "custom_generation_config": null,
3
  "model_params": {
4
- "model_name_or_path": "/scratch/tikhomirov/workdir/data/models/ruadapt_qwen2.5_7B_ext_u48_full_two_stage_lr5e4_peft_mlp_32_32_lm_head_lora_bs256_as1.5_pv14/simpo2",
5
  "generation_config": {
6
  "bos_token_id": 147075,
7
  "do_sample": true,
 
1
  {
2
  "custom_generation_config": null,
3
  "model_params": {
4
+ "model_name_or_path": "/workdir/data/models/qwen/ruadapt_qwen2.5_7B_ext_u48_part1-2_lr5e4_peft_mlp_32_32_bs128_as1.5_pv8_ft0_as1.35_kto1_as0.75_simpo2_as1.0",
5
  "generation_config": {
6
  "bos_token_id": 147075,
7
  "do_sample": true,
llmtf_eval/nlpcoreteam_enMMLU_total.jsonl CHANGED
@@ -1,7 +1,7 @@
1
  {
2
  "task_name": "nlpcoreteam/enMMLU",
3
  "results": {
4
- "acc": 0.7304583527816666
5
  },
6
- "leaderboard_result": 0.7304583527816666
7
  }
 
1
  {
2
  "task_name": "nlpcoreteam/enMMLU",
3
  "results": {
4
+ "acc": 0.7293395108036221
5
  },
6
+ "leaderboard_result": 0.7293395108036221
7
  }
llmtf_eval/nlpcoreteam_ruMMLU.jsonl CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:e9ed19a34b0064491314326cf6d4c8d1b9abd67664c9ae754aea132d31f6a0f3
3
- size 43073105
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:4cc91b97136bf186fa58110749f74acabe67622fc15f701b0d80e99f6c7c8b98
3
+ size 43079975
llmtf_eval/nlpcoreteam_ruMMLU_params.jsonl CHANGED
@@ -1,7 +1,7 @@
1
  {
2
  "custom_generation_config": null,
3
  "model_params": {
4
- "model_name_or_path": "/scratch/tikhomirov/workdir/data/models/ruadapt_qwen2.5_7B_ext_u48_full_two_stage_lr5e4_peft_mlp_32_32_lm_head_lora_bs256_as1.5_pv14/simpo2",
5
  "generation_config": {
6
  "bos_token_id": 147075,
7
  "do_sample": true,
 
1
  {
2
  "custom_generation_config": null,
3
  "model_params": {
4
+ "model_name_or_path": "/workdir/data/models/qwen/ruadapt_qwen2.5_7B_ext_u48_part1-2_lr5e4_peft_mlp_32_32_bs128_as1.5_pv8_ft0_as1.35_kto1_as0.75_simpo2_as1.0",
5
  "generation_config": {
6
  "bos_token_id": 147075,
7
  "do_sample": true,
llmtf_eval/nlpcoreteam_ruMMLU_total.jsonl CHANGED
@@ -1,7 +1,7 @@
1
  {
2
  "task_name": "nlpcoreteam/ruMMLU",
3
  "results": {
4
- "acc": 0.6282155966274303
5
  },
6
- "leaderboard_result": 0.6282155966274303
7
  }
 
1
  {
2
  "task_name": "nlpcoreteam/ruMMLU",
3
  "results": {
4
+ "acc": 0.6329281396317665
5
  },
6
+ "leaderboard_result": 0.6329281396317665
7
  }
model-00001-of-00004.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:64b23699748148a2e0b6f34a30cc42544a8d3a13645eae60e3a8bb1708f2058f
3
  size 4977848024
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:ced0d7e87bf96698ea4ce51f917c7af5abe45d8296e2c4a1438757891b0b712c
3
  size 4977848024
model-00002-of-00004.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:f2b6196874fa79e9ceac10bb527f5482c9cf7c6c940e13668ad6ab2c5b47476c
3
  size 4991495856
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:82a3a4f6c2794d64ad174cf490cd66af92bc84da72a34f8d2eab554313f432db
3
  size 4991495856
model-00003-of-00004.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:6bfe35a5c03981c86d876f992ca768f583b83997c2eb1dc1ed10c12fa059aad0
3
  size 4136329648
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:42794acbdd8181eb05a5b8414d13416971897ed26d93b5b7ee34006dd4902582
3
  size 4136329648
model-00004-of-00004.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:78d4361516b998390c98d9e8160d6a7950700fc492d9d5cefea8762f9de6947f
3
  size 1054391424
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:534e5a443cdf880d415077cb75ba0cf6caa6c35fb3a6fc3bbc06b410912c5fc3
3
  size 1054391424