AI e Ragionamento: I Veri Limiti Sono Nei Test, Non nei Modelli

L’Illusione dell’Illusione del Pensiero: Un Commento Critico sulla Valutazione delle AI

  • Autori: C. Opus, A. Lawsen
  • Titolo Originale: The Illusion of the Illusion of Thinking: A Comment on Shojaee et al. (2025)

Nel dinamico campo dell’intelligenza artificiale, la valutazione delle capacità di ragionamento dei modelli su larga scala è un’impresa cruciale ma complessa. Recentemente, uno studio di Shojaee et al. (2025) ha sollevato preoccupazioni significative, riportando che i Large Reasoning Models (LRM) mostrerebbero un “collasso di accuratezza” (accuracy collapse) su puzzle di pianificazione, come la Torre di Hanoi o problemi di attraversamento di fiumi, una volta superate determinate soglie di complessità. Questo suggerirebbe limiti fondamentali nelle loro abilità di ragionamento.

Tuttavia, un nuovo commento di C. Opus e A. Lawsen offre una prospettiva nettamente diversa e critica. Gli autori argomentano che l’apparente fallimento dei modelli non deriva da una carenza intrinseca di ragionamento, ma piuttosto da limitazioni significative nel design sperimentale e nei metodi di valutazione utilizzati nello studio originale. In altre parole, non è che i modelli smettano di pensare, è che il modo in cui li testiamo ci impedisce di vedere il loro pensiero.

1. Quando le Limiti del Test Confondono il Risultato

La critica di Opus e Lawsen si concentra su tre aree principali che, a loro avviso, distorcono i risultati dello studio originale:

  1. Limiti di Output Ignorati: Negli esperimenti sulla Torre di Hanoi, i problemi “falliscono” spesso proprio nel momento in cui la soluzione richiederebbe un numero di “token” (le unità di testo che i modelli generano) superiore al limite imposto al modello. Cosa ancora più importante, i modelli stessi mostrano di essere consapevoli di questo limite. Come evidenziato da una replica indipendente, i modelli arrivano a scrivere esplicitamente frasi come “Il pattern continua, ma per evitare di rendere questo troppo lungo, mi fermo qui”, indicando che capiscono l’algoritmo, ma troncando l’output per vincoli pratici.
  2. Valutazione Automatica Rigida: Il sistema di valutazione automatizzato usato da Shojaee et al. non è in grado di distinguere un vero fallimento nel ragionamento da una semplice interruzione dovuta a vincoli pratici (come il limite di token). Se un modello non produce la sequenza completa di mosse a causa del limite di output, il sistema lo classifica erroneamente come un fallimento di ragionamento. È come penalizzare un matematico perché non ha scritto tutti i trilioni di cifre decimali del Pi greco!
  3. Problemi Irrisolvibili Inclusi: Ancora più problematico è l’uso, negli esperimenti di attraversamento di fiumi (simili al classico puzzle Missionari e Cannibali), di istanze matematicamente impossibili da risolvere per un certo numero di agenti e capacità della barca. Nonostante sia un risultato noto nella letteratura [4], questi problemi irrisolvibili sono stati inclusi e i modelli sono stati penalizzati per non averli “risolti”. Questo è come bocciare un risolutore automatico di problemi matematici (un SAT solver) perché non trova una soluzione per un’equazione senza soluzioni.

Questi punti suggeriscono che ciò che viene interpretato come un “collasso del ragionamento” è in realtà un artefatto dell’esperimento: i modelli falliscono perché non possono produrre l’output richiesto o perché il problema non ammette soluzione, non perché abbiano perso la capacità di ragionare.

2. I Limiti Fisici Spiegano il Collasso Apparente

Opus e Lawsen quantificano questo problema, specialmente per la Torre di Hanoi. La soluzione di un problema con N dischi richiede 2N – 1 mosse. Se il sistema di valutazione richiede l’output dell’intera sequenza di mosse, e ogni mossa richiede un certo numero di token, la lunghezza dell’output cresce esponenzialmente con N.

Dati i limiti di token tipici dei modelli attuali (es. 64.000 o 100.000), i problemi di Torre di Hanoi diventano “irrisolvibili” in termini di output richiesto superata una certa dimensione (es. N=7 o N=8 per alcuni modelli specifici). Il “collasso” osservato da Shojaee et al. avviene proprio in corrispondenza di queste dimensioni, confermando l’ipotesi che sia il limite di output, non il limite di ragionamento, a causare il fallimento apparente.

3. Valutare l’Algoritmo, non Solo l’Esecuzione

Per dimostrare ulteriormente che i modelli possiedono l’algoritmo sottostante, Opus e Lawsen hanno condotto test preliminari chiedendo ai modelli di produrre non l’intera sequenza di mosse per la Torre di Hanoi, ma una funzione che generi la soluzione una volta chiamata.

In questa diversa modalità di valutazione, i modelli hanno mostrato un’altissima accuratezza anche per problemi di dimensioni maggiori (N=15 dischi), generando correttamente il codice (es. in Lua) per l’algoritmo ricorsivo. Questo dimostra che la capacità di comprendere e rappresentare l’algoritmo è presente, anche quando la semplice enumerazione esaustiva della soluzione è impraticabile per i limiti di output.

4. Ridefinire la Complessità: Non Solo Lunghezza, ma Ricerca

Un altro punto cruciale sollevato nel commento riguarda la metrica di complessità usata nello studio originale: la “profondità compositiva” o il numero minimo di mosse richieste. Opus e Lawsen argomentano che questa metrica confonde la lunghezza della soluzione con la difficoltà computazionale del problema.

La Torre di Hanoi ha una soluzione lunga (esponenziale), ma il processo decisionale a ogni passo è banale (O(1)), con un fattore di branching basso. Al contrario, problemi come l’attraversamento di fiumi hanno soluzioni molto più corte, ma richiedono una ricerca complessa nello spazio degli stati, spesso essendo problemi NP-hard o PSPACE-completi. È per questo che un modello può “risolvere” Torre di Hanoi con centinaia di mosse (finché non supera i limiti di output) ma fallire su problemi di attraversamento di fiumi con solo 5 mosse. La difficoltà non è nella lunghezza, ma nella necessità di esplorare e soddisfare vincoli complessi.

Conclusione: Il Limite è nella Valutazione?

Il commento di Opus e Lawsen non nega che ci siano sfide nella valutazione dei modelli AI su compiti di ragionamento. Al contrario, mette in luce che gli esperimenti di Shojaee et al., pur fornendo intuizioni ingegneristiche sui limiti di contesto e la rigidità della valutazione programmatica, non supportano l’affermazione che i modelli abbiano limiti fondamentali nel ragionamento stesso.

La domanda che si pone non è “gli LRM sanno ragionare?”, ma piuttosto “i nostri metodi di valutazione sono in grado di distinguere il ragionamento dalla semplice capacità di digitare l’output richiesto?”.

Per il futuro, gli autori suggeriscono di migliorare le metodologie di valutazione:

  • Progettare test che separino chiaramente la capacità di ragionamento dai vincoli di output.
  • Verificare sempre la solvibilità dei problemi proposti.
  • Utilizzare metriche di complessità che riflettano l’effettiva difficoltà computazionale e non solo la lunghezza della soluzione.
  • Considerare diverse rappresentazioni delle soluzioni per valutare la comprensione algoritmica separatamente dall’esecuzione.

In sintesi, l’apparente “illusione del pensiero” osservata nello studio originale sembra essere, a sua volta, un’illusione causata da un design sperimentale che non teneva conto dei vincoli pratici e della vera natura dei problemi di ragionamento. La strada per valutare accuratamente le capacità delle AI è ancora lunga e richiede metodologie più sofisticate e attente.

Ti potrebbe anche interessare

Data Science: Infrastrutture Scalabili con Docker e Jupyter

Docker per la Data Science: Creazione di Infrastrutture Scalabili con...

IA Generativa Responsabile: Guida per Leader e Product Manager

Uso Responsabile dell'IA Generativa: Guida per Product Manager e Leader...

IA per PMI: Guida Efficace all’Implementazione

INTELLIGENZA ARTIFICIALE E DIGITALIZZAZIONE NELLE PMI: UN QUADRO PER L'IMPLEMENTAZIONE...