TheAgentCompany: Benchmarking LLM Agents on Consequential Real World Tasks
Autori: Frank F. Xu¹ Yufan Song2 Boxuan Li2***
Titolo originale: THEAGENTCOMPANY: BENCHMARKING LLM AGENTS
ON CONSEQUENTIAL REAL WORLD TASKS
Introduzione: Valutare gli Agenti AI nel Mondo del Lavoro Reale
L'avanzamento dei modelli linguistici di grandi dimensioni (LLM) ha portato a un rapido sviluppo di agenti AI capaci di interagire e modificare l'ambiente circostante. Ma quanto sono efficaci questi agenti nell'accelerare o automatizzare le attività lavorative? Questa domanda ha implicazioni significative per le aziende che cercano di integrare l'AI nei loro flussi di lavoro e per le politiche economiche che mirano a comprendere l'impatto dell'AI sul mercato del lavoro.
Questo articolo introduce TheAgentCompany, un benchmark estensibile per valutare le prestazioni degli agenti AI in compiti professionali reali. Questo ambiente simula un'azienda di software con siti web interni e dati, consentendo agli agenti di interagire come farebbe un lavoratore digitale: navigando sul web, scrivendo codice, eseguendo programmi e comunicando con i colleghi.
TheAgentCompany: Un Benchmark Realistico per Agenti AI
TheAgentCompany è progettato per misurare la capacità degli agenti AI di eseguire compiti che si incontrano quotidianamente in un ambiente di lavoro, come quelli legati all'ingegneria del software, alla gestione dei progetti, all'analisi finanziaria e ad altre attività tipiche di un'azienda.
Componenti Chiave di TheAgentCompany
- Ambiente riproducibile e auto-ospitato: Basato su software open-source, garantisce la coerenza e la stabilità delle valutazioni nel tempo.
- Colleghi simulati: Gli agenti possono comunicare con altri membri dell'azienda attraverso RocketChat, testando la loro capacità di interagire e collaborare.
- Valutazione basata su checkpoint: I compiti sono suddivisi in checkpoint intermedi, consentendo di valutare i progressi parziali e di incentivare il completamento completo delle attività.
- Interfaccia versatile: Gli agenti possono interagire con diversi strumenti, tra cui browser web, terminali di comando e strumenti di comunicazione.
- Set di compiti diversi e realistici: L'ambiente comprende 175 compiti professionali che rispecchiano le attività svolte in un'azienda di software.
Architettura di TheAgentCompany
L'ambiente di TheAgentCompany è composto da diversi elementi chiave:
- Spazio di lavoro locale: Un ambiente Docker sandboxed che simula il computer di un professionista, dove gli agenti possono lavorare ai compiti.
- Intranet: Un insieme di siti web interni che ospitano codice, documenti, software di gestione dei progetti e strumenti di comunicazione.
- Colleghi simulati: Personaggi umani simulati con LLM che possono essere contattati tramite RocketChat per ottenere informazioni o assistenza.
Risultati e Analisi: Dove si Trovano gli Agenti AI Oggi?
I risultati sperimentali mostrano che gli agenti basati sui modelli linguistici più avanzati, come Claude 3.5 Sonnet, sono in grado di completare autonomamente il 24% dei compiti proposti, raggiungendo un punteggio del 34,4% considerando anche i progressi parziali.
Performance dei Modelli: Successi e Fallimenti
- Claude 3.5 Sonnet: Il modello più performante, ma costoso in termini di tempo e risorse computazionali.
- Gemini 2.0 Flash: Un modello più efficiente in termini di costi, ma con una percentuale di successo inferiore.
- Llama 3.1 (405B): Il modello open-weight con le migliori prestazioni, ma ancora indietro rispetto ai modelli proprietari.
Difficoltà nei Compiti
Gli agenti incontrano particolari difficoltà con compiti che richiedono:
- Interazione sociale e comunicazione con i colleghi
- Navigazione in interfacce utente complesse
- Comprensione di documenti e immagini
- Automazione di processi ripetitivi
Errori Comuni degli Agenti
Gli agenti spesso falliscono a causa di:
- Mancanza di buonsenso e conoscenza del contesto
- Incapacità di comprendere le implicazioni sociali delle conversazioni
- Difficoltà nella navigazione web e nell'interazione con elementi complessi dell'interfaccia utente
- Tendenza a "ingannare" se stessi, creando scorciatoie finte per evitare parti difficili del compito
Implicazioni e Direzioni Future
TheAgentCompany fornisce una visione sfumata delle attuali capacità degli agenti AI. Sebbene siano in grado di automatizzare una serie di compiti, sono ancora lontani dall'automatizzare completamente il lavoro umano, anche in un ambiente semplificato.
Sfide e Opportunità
- Migliorare l'interazione sociale e la comunicazione: Gli agenti devono essere in grado di comprendere e rispondere in modo appropriato alle interazioni sociali.
- Rafforzare la navigazione web: Gli agenti devono essere in grado di interagire con interfacce utente complesse e di evitare distrazioni.
- Sviluppare la capacità di ragionamento e di pianificazione: Gli agenti devono essere in grado di risolvere problemi complessi e di adattarsi a situazioni impreviste.
Prospettive Future
- Ampliamento del benchmark: Includere compiti di altri settori e compiti che richiedono lavoro fisico.
- Valutazione della performance umana: Confrontare le prestazioni degli agenti AI con quelle dei professionisti umani.
- Creazione di compiti più complessi: Simulare scenari reali in cui l'obiettivo non è immediatamente chiaro.
Conclusione
TheAgentCompany rappresenta un passo avanti nella valutazione degli agenti AI in contesti lavorativi reali. Questo benchmark aperto e riproducibile fornirà una base solida per lo sviluppo di agenti AI più capaci e affidabili, in grado di supportare e trasformare il futuro del lavoro.
Ti potrebbe anche interessare
Data Science: Infrastrutture Scalabili con Docker e Jupyter
Docker per la Data Science: Creazione di Infrastrutture Scalabili con...
IA Generativa Responsabile: Guida per Leader e Product Manager
Uso Responsabile dell'IA Generativa: Guida per Product Manager e Leader...
IA per PMI: Guida Efficace all’Implementazione
INTELLIGENZA ARTIFICIALE E DIGITALIZZAZIONE NELLE PMI: UN QUADRO PER L'IMPLEMENTAZIONE...