In un panorama tecnologico che vede l’intelligenza artificiale integrata in quasi ogni processo aziendale, il team di Cisco Talos Incident Response ha sollevato un velo di criticità sull'affidabilità dei modelli linguistici di grandi dimensioni, noti come LLM, nella gestione della documentazione tecnica. Attraverso uno studio rigoroso condotto nel corso degli ultimi mesi, gli esperti hanno testato la capacità delle intelligenze artificiali più avanzate di redigere report tecnici accurati partendo da dati grezzi raccolti durante incidenti di sicurezza informatica. I risultati, presentati da Nate Pors, Senior Incident Response Management Leader presso Cisco Talos, delineano un quadro preoccupante: nonostante i documenti prodotti appaiano visivamente impeccabili e professionali, un’analisi approfondita ha rivelato la presenza sistematica di errori fattuali, conclusioni contraddittorie e gravi discrepanze logiche.
La ricerca ha messo alla prova i modelli più diffusi sul mercato, tra cui ChatGPT di OpenAI, Claude di Anthropic e Gemini di Google. A ciascuna di queste piattaforme sono stati forniti appunti grezzi relativi a violazioni di rete e intrusioni informatiche con la richiesta di sintetizzarli in un formato standardizzato e tecnico. Sebbene la forma dei documenti generati fosse corretta, la sostanza ha mostrato i limiti intrinseci della natura probabilistica dell’intelligenza artificiale. Secondo Cisco, queste discrepanze derivano dal fatto che i modelli non comprendono realmente il significato del testo, ma operano prevedendo la parola successiva basandosi su pesi statistici, un processo che nel contesto della cybersecurity può portare a esiti disastrosi.
Nate Pors ha evidenziato quattro aree critiche in cui gli LLM tendono a distorcere la realtà operativa. Il primo problema riguarda la mancanza di riproducibilità. Ad ogni nuova interrogazione, il modello può concentrarsi su frammenti di dati diversi, rendendo impossibile ottenere risultati standardizzati e affidabili. In un ambiente professionale, la coerenza è fondamentale per tracciare l'evoluzione di una minaccia, e l'incapacità dell'IA di replicare lo stesso ragionamento rappresenta un ostacolo insormontabile. Il secondo punto critico risiede nella variabilità delle raccomandazioni: fornendo gli stessi input, l'IA può suggerire in un caso un cambio globale di password per l'intera organizzazione e in un altro caso interventi mirati, spesso fossilizzandosi sulla prima raccomandazione generata senza valutarne la pertinenza strategica.
Il terzo fattore di rischio riguarda l'incoerenza strutturale. Poiché i token vengono generati in sequenza, ogni richiesta può produrre documenti con formattazioni e strutture radicalmente differenti. Questo è particolarmente problematico per le aziende che richiedono template rigidi per il controllo qualità e la conformità normativa. Infine, il limite della finestra di contesto rappresenta una sfida tecnica significativa: quando il volume dei dati grezzi è elevato, l'intelligenza artificiale tende a scartare le informazioni caricate all'inizio della sessione per far spazio alle nuove, perdendo dettagli cruciali che potrebbero essere la chiave per identificare l'origine di un attacco. Questo fenomeno, noto come saturazione del contesto, porta a risultati imprevedibili o a una miscellanea di dati che confonde gli analisti umani.
Nonostante la data odierna del 2026 veda un'adozione massiccia dell'automazione, Cisco Talos avverte che il risparmio di tempo promesso dall'intelligenza artificiale viene annullato dalla necessità di revisioni umane minuziose. Nel settore della sicurezza informatica, dove il costo di un errore può tradursi in perdite milionarie o nella compromissione di dati sensibili di milioni di utenti, l'uso non supervisionato di questi strumenti è considerato irresponsabile. Cisco sottolinea che chi redige i report deve assumersi la piena responsabilità di ogni singola parola, poiché le raccomandazioni fornite da ChatGPT, Claude o Gemini si sono spesso rivelate ripetitive, irrilevanti o addirittura inapplicabili nella pratica. In conclusione, sebbene l'IA possa assistere nella bozza iniziale, il giudizio critico dell'esperto umano rimane l'unico baluardo contro la disinformazione tecnica generata dalle macchine.

