View Single Post
Old 21-07-2025, 11:39   #8
pachainti
Senior Member
 
Iscritto dal: May 2020
Messaggi: 840
LiveCodeBench Pro: How Do Olympiad Medalists Judge LLMs in Competitive Programming?
We introduce LiveCodeBench Pro, a benchmark composed of problems from Codeforces, ICPC, and IOI that are continuously updated to reduce the likelihood of data contamination. A team of Olympiad medalists annotates every problem for algorithmic categories and conducts a line-by-line analysis of failed model-generated submissions. Using this new data and benchmark, we find that frontier models still have significant limitations: without external tools, the best model achieves only 53% pass@1 on medium-difficulty problems and 0% on hard problems, domains where expert humans still excel. We also find that LLMs succeed at implementation-heavy problems but struggle with nuanced algorithmic reasoning and complex case analysis, often generating confidently incorrect justifications. High performance appears largely driven by implementation precision and tool augmentation, not superior reasoning.

Senza poter copiare da terze parti, le prestazioni sono a dir poco scadenti.
__________________
Nel tempo dell'inganno universale, dire la verità è un atto rivoluzionario. George Orwell

Il vero valore di una persona non si misura dai valori in cui sostiene di credere, ma da che cosa è disposto a fare per proteggerli. Se non pratichi i valori in cui credi, probabilmente non ci credi fino in fondo. Edward Snowden

Coloro che rinuncerebbero alla libertà essenziale, per acquistare un po' di sicurezza temporanea, non meritano né libertà né sicurezza. Benjamin Franklin
pachainti è offline   Rispondi citando il messaggio o parte di esso
 
1