AI e il Sunday Puzzle

Il Sunday Puzzle di NPR è utilizzato per testare le capacità di ragionamento dell'IA, rivelando che alcuni modelli si arrendono e forniscono risposte errate. I ricercatori intendono migliorare questi modelli attraverso un benchmark accessibile.

AI e il Sunday Puzzle

Ogni domenica, Will Shortz, esperto di cruciverba del New York Times, conduce una sezione chiamata Sunday Puzzle su NPR. Questo segmento coinvolge migliaia di ascoltatori con enigmi scritti per essere risolvibili senza conoscenze specifiche, anche se sono spesso impegnativi. Un gruppo di ricercatori ha utilizzato questi enigmi per testare le capacità di risoluzione dei problemi dell'IA, scoprendo che i modelli di ragionamento come o1 a volte 'si arrendono' e forniscono risposte errate. Arjun Guha, uno degli autori dello studio, ha spiegato che l'obiettivo era sviluppare un benchmark con problemi comprensibili con solo conoscenze generali. L'industria dell'IA si trova in una situazione difficile riguardo ai test, poiché molti di quelli comunemente usati non sono rilevanti per l'utente medio. La Sunday Puzzle ha il vantaggio di non richiedere conoscenze esoteriche e i problemi sono formulati in modo da non permettere l'uso della 'memoria meccanica'. Guha ha sottolineato che i problemi diventano difficili perché è difficile fare progressi significativi fino a quando non si risolve il problema. Questo richiede una combinazione di intuizione e un processo di eliminazione. Anche se i benchmark non sono perfetti, il Sunday Puzzle offre domande nuove ogni settimana per mantenere il test aggiornato. I modelli di ragionamento come o1 e R1 di DeepSeek superano gli altri, in quanto controllano minuziosamente le loro risposte. Tuttavia, R1 ha dato risposte errate per alcuni enigmi e ha mostrato comportamenti curiosi, come ritirare risposte sbagliate. Guha ha trovato divertente vedere un modello esprimere frustrazione come un umano. Il modello migliore attualmente è o1 con un punteggio del 59%, seguito da o3-mini al 47%. I ricercatori intendono ampliare i test ad altri modelli di ragionamento per identificare come possono essere migliorati. Guha ha concluso affermando che non è necessario avere un dottorato per essere bravi a ragionare e che benchmark di ragionamento accessibili possono portare a migliori risultati in futuro.