Problemi di Fine-tuning con Qwen3: L’Errore del Token EOS Spiegato

RIASSUNTO NEWSLETTER TECNOLOGICHE


AI E MACHINE LEARNING

Fine-Tuning Qwen3 Base e Problemi con i Token EOS

  • Un progetto recente ha tentato di fine-tuning del modello Qwen3 Base utilizzando una ricetta aperta TULU 3, con l'obiettivo di verificare se un metodo efficace su Llama 3.1 funzionasse anche per Qwen3.
  • I primi checkpoint hanno mostrato miglioramenti promettenti con un punteggio IFEval in aumento da 52.68 a 67.84.
  • Tuttavia, improvvisamente i risultati sono peggiorati drasticamente, con punteggi scesi a 41.96, nonostante la curva di apprendimento non mostrasse anomalie.
  • Dopo approfondite verifiche, si è scoperto che un aggiornamento del tokenizer Qwen3 Base aveva modificato il token EOS originale da <|im_end|> a <|endoftext|>, mentre il template di chat usato continuava a utilizzare il vecchio token.
  • Questo mismatch ha causato problemi durante il fine-tuning e la valutazione, impedendo al sistema di identificare correttamente la fine della sequenza e provocando risposte scorrette e punteggi bassi nei benchmark.
  • Un altro problema serio è che l'EOS token e il PAD token sono diventati identici dopo l'aggiornamento, il che può creare difficoltà durante l'addestramento se il token di padding viene "mascherato" e quindi ignorato.
  • La soluzione immediata consiste nell'aggiornare gli esempi di training per includere manualmente il nuovo token EOS <|endoftext|> e assicurarsi che PAD e EOS siano distinti.
  • È stato inoltre sottolineato l'importanza di utilizzare sempre il tokenizer corrispondente esattamente al checkpoint del modello fine-tuned, per evitare errori dovuti ad aggiornamenti inaspettati del tokenizer base.
  • Dopo aver corretto questi problemi, il processo di fine-tuning è tornato a mostrare miglioramenti nella performance con IFEval.
  • Approfondimenti e risultati finali saranno pubblicati a completamento del lavoro.

Fonti:
https://kaitchup.substack.com/p/qwen3-when-im_end-suddenly-becomes
https://substack.com/redirect/5c404577-5b19-4472-99cc-0936912babc5?j=eyJ1IjoiNTJyZXpoIn0.NmKOythuvZxcJwvRIKbRe3-INoPsUkrLYhPZH4HVw9U
https://substack.com/redirect/4b7c9215-17d7-4ac5-ab2e-cd09fec54a88?j=eyJ1IjoiNTJyZXpoIn0.NmKOythuvZxcJwvRIKbRe3-INoPsUkrLYhPZH4HVw9U


TENDENZE DELLA SETTIMANA

  • Nei modelli di intelligenza artificiale, modifiche anche minime ai tokenizer o ai template di chat possono avere impatti rilevanti sulla qualità dei risultati e la comparabilità delle valutazioni nel tempo.
  • L’uso di tool di valutazione rapidi e affidabili come IFEval è fondamentale per monitorare lo stato del modello durante il fine-tuning e individuare regressioni.
  • La coerenza tra modello, tokenizer e dataset di training è essenziale per evitare errori difficili da diagnosticare che possono far perdere molte ore di lavoro.
  • L’attenzione ai dettagli tecnici, come la distinzione tra token EOS e PAD, è cruciale per mantenere stabilità e performance in fase di addestramento.

Ti potrebbe anche interessare

Riassunto Newsletter Tech: AI, Sistemi Distribuiti, Sviluppo & Tendenze

RIASSUNTO NEWSLETTER TECNOLOGICHE DISTRIBUTED SYSTEMS Lati Oscuri dei Sistemi Distribuiti:...

Newsletter Tech: AI, GPT-4.5, Strategie Business, LinkedIn e Tendenze Digitali

RIASSUNTO NEWSLETTER TECNOLOGICHE AI e Machine Learning TransMLA: miglioramento di...

AI, Sviluppo Software e Trend Tech: Riassunto Newsletter con Llama 4, ChatGPT e Molto Altro

RIASSUNTO NEWSLETTER TECNOLOGICHE AI e Machine Learning DeepSeek-GRM: miglioramento dei...