IA crea compilatore C: Anthropic sfida i limiti dell'intelli

L'azienda Anthropic ha compiuto un passo significativo nel campo dell'intelligenza artificiale, realizzando un esperimento in cui un gruppo di agenti IA ha collaborato per scrivere da zero un compilatore per il linguaggio C. Sebbene il programma non sia perfetto e presenti delle limitazioni rispetto alle soluzioni esistenti, dimostra le notevoli capacità dei moderni sistemi di IA.

Nicholas Carlini, ricercatore di Anthropic, ha presentato un rapporto dettagliato sull'iniziativa. L'esperimento ha visto l'utilizzo di 16 istanze del modello più recente, Claude Opus 4.6, in un ambiente cloud. Questi agenti sono stati connessi a una base di codice condivisa, con un controllo minimo da parte degli umani, e sono stati incaricati di sviluppare un compilatore C completo. Il progetto ha richiesto due settimane di lavoro, quasi 2000 sessioni di Claude Code e un costo di circa $20.000 per l'accesso all'IA tramite API. Il risultato finale è un compilatore scritto in linguaggio Rust, composto da 100.000 righe di codice, capace di compilare autonomamente un kernel Linux 6.19 su macchine con architetture x86, Arm e RISC-V.

L'esperimento ha sfruttato una nuova funzionalità di Claude Opus 4.6 chiamata "team di agenti". Ogni istanza di Claude operava all'interno del proprio container Docker, clonando un repository Git condiviso, ricevendo compiti tramite file di lock e inviando il codice completato al repository. Non era presente un agente centrale a coordinare il lavoro; ogni istanza determinava autonomamente il compito più rilevante da svolgere e lo eseguiva. In caso di conflitti di merge, gli agenti IA li risolvevano autonomamente.

Il compilatore risultante è stato pubblicato da Anthropic su GitHub. È in grado di compilare progetti open source come PostgreSQL, SQLite, Redis, FFmpeg e QEMU, e supera il 99% dei test GCC. Tuttavia, presenta delle limitazioni significative: non compila codice macchina a 16 bit per l'esecuzione di Linux, richiedendo l'intervento di GCC in questa fase; l'assembler e il linker funzionano in modo discontinuo; e, anche con tutte le ottimizzazioni attive, produce codice meno efficiente rispetto a GCC. Inoltre, il codice sorgente del compilatore in Rust, sebbene funzionale, non raggiunge la qualità che un programmatore esperto potrebbe produrre.

L'autore del progetto ha tentato di superare alcune di queste limitazioni, ma senza successo. Ogni tentativo di aggiungere nuove funzionalità o correggere errori spesso causava il malfunzionamento di funzioni esistenti. Si è verificato un fenomeno in cui la base di codice è cresciuta al punto che nessun partecipante al progetto poteva comprenderla appieno. Il limite sembra essere stato raggiunto a circa 100.000 righe di codice, suggerendo un massimo di capacità per gli agenti IA autonomi.

Il compilatore è descritto come una "realizzazione in camera bianca", poiché gli agenti IA non avevano accesso a Internet durante lo sviluppo. Inoltre, il costo di $20.000 rappresenta solo il costo dei token per l'accesso all'IA tramite API. Non include i costi di addestramento del modello di IA, il lavoro del ricercatore che ha organizzato il progetto, né quello dei programmatori che hanno creato i set di test e le implementazioni di riferimento. La preparazione si è rivelata complessa: la progettazione dell'ambiente per gli agenti IA ha richiesto più sforzo rispetto alla scrittura del codice del compilatore stesso.

È stato scoperto che le richieste di test prolisse ingombravano la finestra di contesto del modello, facendogli perdere di vista l'obiettivo. Per risolvere questo problema, il ricercatore ha sviluppato strumenti per eseguire i test, generando solo poche righe di riepilogo e salvando i risultati in file separati. Inoltre, Claude non ha una percezione del tempo e può eseguire test per ore senza fare progressi. Pertanto, è stata creata una modalità rapida che elabora dall'1% al 10% dei casi di test. Quando tutti i 16 agenti IA si sono bloccati nel tentativo di risolvere un errore del kernel Linux, è stato utilizzato GCC come riferimento, compilando la maggior parte del codice autonomamente, mentre agli agenti IA sono stati assegnati frammenti casuali. Quando si verificavano errori in questi frammenti, gli agenti IA li correggevano.

Nonostante queste imperfezioni, il risultato principale è notevole: fino a un anno fa, nessun modello linguistico di grandi dimensioni sarebbe stato in grado di eseguire un lavoro simile, nemmeno con un controllo adeguato e un budget illimitato. Il meccanismo di esecuzione parallela di più agenti con coordinamento tramite Git è una soluzione innovativa, e le tecniche ingegneristiche sviluppate dall'autore dello studio per migliorare le prestazioni degli agenti IA potrebbero influenzare lo sviluppo futuro della programmazione basata sull'IA. Questo esperimento segna un punto di svolta, aprendo nuove prospettive sulla capacità dell'intelligenza artificiale di collaborare e creare soluzioni complesse.