Benchmark - a yicui Collection

yicui 's Collections

Coding

ICL

RL

TDD

Theory

Benchmark

updated 16 days ago

Law of the Weakest Link: Cross Capabilities of Large Language Models

Paper • 2409.19951 • Published Sep 30 • 53
Multi-lingual Evaluation of Code Generation Models

Paper • 2210.14868 • Published Oct 26, 2022
ScienceAgentBench: Toward Rigorous Assessment of Language Agents for Data-Driven Scientific Discovery

Paper • 2410.05080 • Published about 1 month ago • 19
LongGenBench: Long-context Generation Benchmark

Paper • 2410.04199 • Published Oct 5 • 17
Omni-MATH: A Universal Olympiad Level Mathematic Benchmark For Large Language Models

Paper • 2410.07985 • Published 27 days ago • 26
UCFE: A User-Centric Financial Expertise Benchmark for Large Language Models

Paper • 2410.14059 • Published 20 days ago • 52