Anthropic ha recentemente lanciato Sonnet 4.6, un aggiornamento significativo del suo modello linguistico di fascia media. Questo annuncio evidenzia notevoli miglioramenti nella generazione di codice, nel ragionamento contestuale, nell'esecuzione di istruzioni complesse e nell'interazione con sistemi informatici. Sonnet 4.6 è ora il modello standard per il chatbot Claude, disponibile sia per gli utenti gratuiti sia per gli abbonati Pro.
Una delle caratteristiche più impressionanti di Sonnet 4.6 è la sua finestra di contesto, che raggiunge 1 milione di token, raddoppiando la capacità della versione precedente. Anthropic descrive questa espansione come sufficiente per gestire intere basi di codice, contratti estesi o decine di articoli di ricerca in un singolo prompt. La capacità di elaborare e ragionare su vasti volumi di informazioni rende Sonnet 4.6 particolarmente efficace in scenari complessi.
I primi test condotti dagli sviluppatori mostrano una chiara preferenza per Sonnet 4.6 rispetto alla versione 4.5 nel 70% dei casi. Gli utenti hanno notato una maggiore accuratezza nella gestione del contesto del codice, una riduzione della duplicazione della logica e un'esecuzione più coerente delle istruzioni. Inoltre, si è riscontrata una diminuzione delle cosiddette "allucinazioni", ovvero affermazioni false o errate sull'esecuzione di un compito.
Un aspetto particolarmente interessante è la capacità di Sonnet 4.6 di interagire con i computer senza l'ausilio di API specializzate. Il modello può interagire con i programmi attraverso simulazioni di clic del mouse e input da tastiera, emulando l'interazione umana. In un benchmark specifico, OSWorld, che simula attività in Chrome, LibreOffice e VS Code, Sonnet 4.6 ha dimostrato un progresso notevole rispetto alle versioni precedenti, avvicinandosi alle prestazioni umane in compiti complessi come la gestione di tabelle intricate o la compilazione di moduli web a più passaggi. Tuttavia, Anthropic riconosce che l'IA rimane inferiore agli utenti esperti e che le interazioni reali con il software sono più complesse dei test di laboratorio.
Sonnet 4.6 offre competenze di programmazione significativamente migliorate rispetto al suo predecessore. Nei benchmark di settore, ha superato Gemini 3 Pro e si è quasi allineato con Opus 4.5. I beta tester hanno evidenziato miglioramenti specifici nello sviluppo frontend e nell'analisi finanziaria. In alcuni casi, Sonnet 4.6 ha raggiunto livelli di performance che prima richiedevano l'uso di modelli di classe Opus, anche in contesti lavorativi reali.
Anthropic ha anche condiviso i risultati di Sonnet 4.6 nel test ARC-AGI-2, uno dei benchmark più difficili per valutare la capacità di ragionamento astratto e generalizzazione dei modelli, abilità cruciali per l'intelligenza artificiale generale. Sonnet 4.6 ha raggiunto un punteggio del 60,4% con un alto livello di "sforzo di pensiero", superando la maggior parte dei modelli comparabili, sebbene sia ancora inferiore a soluzioni come Opus 4.6, Gemini 3 Deep Think e una versione avanzata di GPT 5.2.
Questo rilascio di Sonnet 4.6 avviene solo due settimane dopo il lancio di Opus 4.6, suggerendo che un aggiornamento per il modello Haiku è imminente. Sonnet 4.6 è già disponibile tramite il chatbot Claude, l'applicazione dedicata e le API per servizi di terze parti, con un costo invariato rispetto a Sonnet 4.5: $3 per milione di token in ingresso e $15 per milione di token in uscita. Questo posiziona Sonnet 4.6 come una soluzione competitiva e accessibile per una vasta gamma di applicazioni di intelligenza artificiale.

