Chain-of-Thought: Non Sempre la Formula Magica per i Modelli AI

Autori: Lennart Meincke, Ethan Mollick, Lilach Mollick, Dan Shapiro
Titolo Originale: Prompting Science Report 2: The Decreasing Value of Chain of Thought in Prompting

L’intelligenza artificiale è diventata uno strumento potentissimo, e il modo in cui interagiamo con essa – attraverso i prompt – è fondamentale per sbloccare il suo pieno potenziale. Una delle tecniche più popolari e apparentemente efficaci è il Chain-of-Thought (CoT), che incoraggia i modelli linguistici di grandi dimensioni (LLM) a “pensare passo-passo” prima di fornire una risposta. L’idea intuitiva è che, proprio come noi risolviamo problemi complessi scomponendoli in passaggi più semplici, anche l’AI possa migliorare la sua capacità di ragionamento seguendo un processo logico esplicitato.

Tuttavia, una nuova ricerca getta una luce più sfumata sull’efficacia universale del CoT. Il secondo rapporto della serie Prompting Science Report analizza a fondo questa tecnica, dimostrando che il suo valore non è costante e dipende in larga misura dal tipo di modello AI utilizzato e dal compito specifico. In breve: il CoT non è sempre la strategia ottimale, e talvolta può persino avere svantaggi.

Che Cos’è il Chain-of-Thought (CoT)?

Immaginate di chiedere a qualcuno di risolvere un complesso problema matematico. Potreste semplicemente aspettare la risposta finale, oppure chiedergli di mostrarvi tutti i passaggi intermedi. Il Chain-of-Thought nel prompting fa esattamente questo: chiede al modello AI di esplicitare il suo “ragionamento” o i passaggi che lo portano alla soluzione finale. Tecnicamente, si tratta di aggiungere istruzioni al prompt (ad esempio, “Ragiona passo-passo”, “Pensa con attenzione prima di rispondere”) per indurre il modello a generare una sequenza di pensieri intermedi prima di fornire la risposta conclusiva. Questa tecnica è stata acclamata per la sua capacità di migliorare le prestazioni dei modelli in compiti che richiedono ragionamento.

Come è Stata Condotta la Ricerca

Per valutare l’impatto del CoT, i ricercatori hanno utilizzato un benchmark particolarmente impegnativo: il GPQA Diamond. Si tratta di un set di 198 domande a risposta multipla di livello dottorato in biologia, fisica e chimica, progettate per essere “Google-proof”, ovvero difficili da risolvere semplicemente cercando informazioni online. Per dare un’idea della difficoltà, anche esperti con dottorato nei rispettivi campi raggiungono solo il 65-74% di precisione, mentre validatori esperti ma non specialisti si fermano al 34% anche con accesso illimitato al web.

Lo studio ha testato diversi modelli AI, dividendoli in due categorie:

Modelli “Non-Ragionamento”: Modelli generalisti (come Sonnet 3.5, Gemini 2.0 Flash, GPT-4o-mini, GPT-4o, Gemini Pro 1.5) che non sono stati esplicitamente progettati con capacità di ragionamento passo-passo avanzate.
Modelli “Ragionamento”: Modelli più recenti (come o3-mini, o4-mini, Flash 2.5) che integrano processi di ragionamento sin dalla loro architettura interna.

Ogni domanda è stata sottoposta a ciascun modello per 25 volte in diverse condizioni di prompting:

“Direct”: Chiedendo al modello di rispondere direttamente, senza alcuna spiegazione o “pensiero”.
“Step by step” (CoT): Chiedendo al modello di “pensare passo-passo” prima di rispondere.
“Default”: Senza istruzioni specifiche sul formato, lasciando il modello libero di rispondere come ritiene opportuno (spesso includendo un breve pensiero prima della risposta).

Sono state misurate diverse metriche di accuratezza (percentuali di risposte corrette su 25 tentativi per domanda: 100%, 90%, 51%) e la “Media Generale” di accuratezza su tutti i tentativi. Sono stati analizzati anche i tempi di risposta e il numero di “token” (unità di testo processate, correlate a costo e tempo) utilizzati.

I Risultati Chiave: Un Quadro Variabile

I risultati dello studio dipingono un quadro variegato e non lineare dell’efficacia del CoT.

Modelli “Non-Ragionamento”: Un Aiuto, ma con Riserve

Per i modelli che non sono intrinsecamente ottimizzati per il ragionamento, un semplice prompt CoT può effettivamente migliorare la media generale delle prestazioni. Questo è stato particolarmente evidente per modelli come Sonnet 3.5 e Gemini Flash 2.0. È un po’ come dare una mappa dettagliata a un escursionista inesperto: lo aiuta a raggiungere la destinazione in media più spesso.

Tuttavia, il quadro cambia quando si guarda alla precisione perfetta (risposta corretta in tutti i 25 tentativi). In tre dei cinque modelli non-ragionamento testati, il CoT ha introdotto una maggiore variabilità, portando a una diminuzione delle prestazioni sulla metrica “100% Correct”. In pratica, sebbene aiutasse il modello a rispondere correttamente a domande che prima sbagliava (migliorando la media), poteva anche indurlo a sbagliare domande che altrimenti avrebbe risolto perfettamente. Pensatela come la mappa che, pur guidando l’escursionista su sentieri più difficili, a volte lo fa inciampare su quelli che conosceva bene.

Inoltre, il default behavior della maggior parte dei modelli recenti (anche quelli etichettati come “non-ragionamento” in questo studio) include già una forma implicita di “pensiero” passo-passo prima di rispondere, anche senza un prompt CoT esplicito. Questo significa che l’aggiunta del prompt “step by step” spesso portava solo a miglioramenti modesti rispetto alla risposta di default, perché il modello stava già, in un certo senso, “pensando”.

Infine, e non è un dettaglio trascurabile: usare il CoT richiede sempre molti più token e molto più tempo (dal 35% al 600% in più per i modelli non-ragionamento rispetto alle risposte dirette).

Modelli “Ragionamento”: Benefici Margine a Caro Prezzo

La situazione è ancora meno favorevole per i modelli progettati con esplicite capacità di ragionamento (o3-mini, o4-mini, Flash 2.5). Per questi modelli, il prompting CoT esplicito ha portato a miglioramenti marginali, se non nulli, nell’accuratezza, sia in termini di media generale che nelle metriche di alta precisione (100%, 90%). Alcuni modelli hanno addirittura mostrato piccole diminuzioni di performance in alcune metriche.

È come dare la stessa mappa dettagliata a un escursionista esperto e ben equipaggiato: non lo aiuta significativamente ad arrivare a destinazione, perché possiede già gli strumenti e la conoscenza per farlo.

Il rovescio della medaglia, anche in questo caso, è stato il costo: l’uso del CoT ha aumentato significativamente il tempo e i token richiesti per la risposta (dal 20% all’80% in più).

Un Dettaglio Importante: I Prompt “Diretti” Possono Nuocere

Un risultato controintuitivo emerso dallo studio è che chiedere al modello di rispondere direttamente senza alcuna spiegazione (“Answer directly without any explanation or thinking. Just provide the answer.”) tende a danneggiare le prestazioni rispetto al lasciarlo rispondere in modo “default” (che spesso include un breve pensiero). Questo suggerisce che impedire al modello di eseguire il suo “pensiero” interno, anche se breve, può essere detrimental.

Conclusioni: Il CoT non è una Panacea

I risultati di questa ricerca sono chiari: il Chain-of-Thought prompting non è una soluzione universale.

Può essere utile per dare una spinta alla performance media dei modelli più vecchi o più piccoli, specialmente quelli che non sono progettati per “pensare passo-passo” autonomamente.
Tuttavia, anche per questi modelli, può introdurre maggiore variabilità e ridurre la probabilità di ottenere una risposta perfetta (sempre corretta).
Per i modelli più recenti e quelli ottimizzati per il ragionamento, i benefici del CoT esplicito sono trascurabili rispetto all’aumento significativo dei tempi di risposta e dei costi (dovuti all’aumento dei token). Questi modelli sembrano già incorporare processi simili al CoT per impostazione predefinita.
Chiedere una risposta senza alcun processo di “pensiero” interno può peggiorare le prestazioni.

In definitiva, la decisione di utilizzare il CoT dovrebbe essere ponderata. Non si tratta di applicare ciecamente una tecnica popolare, ma di valutare attentamente le caratteristiche specifiche del modello AI, le esigenze del compito (è cruciale la precisione perfetta o basta una buona media?), la tolleranza per la variabilità delle risposte e, naturalmente, i vincoli di tempo e costi. Come molti strumenti avanzati, il valore del CoT sta nell’usarlo nel contesto giusto, non nell’applicarlo ovunque.

Chain-of-Thought Prompting: Controproducente per Nuovi Modelli AI

Chain-of-Thought: Non Sempre la Formula Magica per i Modelli AI

Che Cos’è il Chain-of-Thought (CoT)?

Come è Stata Condotta la Ricerca

I Risultati Chiave: Un Quadro Variabile

Modelli “Non-Ragionamento”: Un Aiuto, ma con Riserve

Modelli “Ragionamento”: Benefici Margine a Caro Prezzo

Un Dettaglio Importante: I Prompt “Diretti” Possono Nuocere

Conclusioni: Il CoT non è una Panacea

Ti potrebbe anche interessare

Data Science: Infrastrutture Scalabili con Docker e Jupyter

IA Generativa Responsabile: Guida per Leader e Product Manager

IA per PMI: Guida Efficace all’Implementazione

Chain-of-Thought: Non Sempre la Formula Magica per i Modelli AI

Che Cos’è il Chain-of-Thought (CoT)?

Come è Stata Condotta la Ricerca

I Risultati Chiave: Un Quadro Variabile

Modelli “Non-Ragionamento”: Un Aiuto, ma con Riserve

Modelli “Ragionamento”: Benefici Margine a Caro Prezzo

Un Dettaglio Importante: I Prompt “Diretti” Possono Nuocere

Conclusioni: Il CoT non è una Panacea

Ti potrebbe anche interessare

Data Science: Infrastrutture Scalabili con Docker e Jupyter

IA Generativa Responsabile: Guida per Leader e Product Manager

IA per PMI: Guida Efficace all’Implementazione

Articoli correlati

Codex OpenAI: Copilota che accelera lo sviluppo software

ChatGPT: Come l’AI Sta Ridefinendo Uso e Valore Globale

Modelli di Linguaggio: Trascendere i Dati di Addestramento

Di tendenza