Un team di neuroscienziati ha individuato una seconda complessa sistemadi apprendimento nel cervello, capace di spiegare la tenacità di alcune abitudini, anche le più indesiderate. Tradizionalmente, si è pensato che il cervello basasse i suoi processi decisionali sulla previsione dei premi, ovvero un sistema di previsione e ricompensa. Tuttavia, questo recente studio suggerisce l'esistenza di un meccanismo alternativo che sembra enfatizzare la frequenza delle azioni, contribuendo così al consolidamento delle abitudini.
Il processo umano e animale di prendere decisioni si articola attraverso tentativi ed errori, con due dinamiche sovrapposte: il desiderio di ricompense e la tendenza a ripetere azioni passate. La prima, orientata ai valori, coinvolge i neuroni dopaminergici che elaborano quello che viene definito “errore di previsione della ricompensa”(Reward Prediction Error, RPE), utile a segnalare il vantaggio di un'azione. Parallelamente, esiste una dinamica più legata al movimento, che facilita la ripetizione dei comportamenti appresi.
La scoperta si appoggia anche sull'osservazione di pazienti con morbo di Parkinson, i quali spesso faticano con azioni automatiche come il camminare, ma talvolta riescono in attività complesse come il pattinaggio artistico, mostrando così un apparente paradosso.
Il Sainsbury Wellcome Centre, affiliato alla University College London, propone che un secondo percorso dopaminergico possa chiarire tale fenomeno. Questo meccanismo è stato individuato come “errore di previsione delle azioni” (Action Prediction Error, APE), ed è un sistema di apprendimento parallelo all'RPE, che guida le scelte basandosi sulla frequenza piuttosto che sul valore.
Pensiamo al caso esemplare di scegliere un piatto al ristorante: basta gradirlo una volta per decidere di ordinarlo di nuovo, trasformandolo lentamente in un comportamento predefinito. È proprio questo tipo di comportamenti ripetitivi che il segnale APE mira a consolidare.
«Riteniamo di aver scoperto un meccanismo fondamentale per la formazione delle abitudini», ha dichiarato Marcus Stephenson-Jones, capo del team al SWC e principale autore della ricerca. «Una volta che un'azione diventa preferita, il cervello può passare dalla valutazione basata sul valore a una ripetizione automatica delle passate azioni.»
Da sottolineare è il fatto che non tutte le abitudini sono benefiche. Alcuni comportamenti compulsivi o dipendenze possono risultare particolarmente dannosi. Secondo gli autori, questa scoperta della doppia modalità di apprendimento potrebbe aprire nuove strade terapeutiche per disordini comportamentali e malattie neurodegenerative come il morbo di Parkinson.
Precedenti studi hanno evidenziato tre aree cerebrali mediali dove i neuroni dopaminergici svolgono un ruolo cruciale: l'area tegmentale ventrale, la parte compatta della substantia nigra, e la parte laterale della substantia nigra. La funzionalità e l'interazione di queste aree non era chiara fino ad ora.
Le recenti scoperte mostrano che i neuroni RPE trasmettono segnali attraverso lo striato, eccetto la sua parte posteriore o “coda”. Nello stesso tempo, i neuroni che facilitano i segnali motori abbracciano tutto lo striato, tranne il nucleo accumbens, noto per il suo ruolo ricompensativo. Questo distributivo anatomico conferma una specializzazione funzionale: il nucleo accumbens processa solo il valore della ricompensa, mentre la coda dello striato è coinvolta nel ripetitivo comportamento motorio.
Per testare tale ipotesi, i ricercatori hanno condotto esperimenti su topi. Alcuni avevano lo striato danneggiato, mentre altri no. I topi sono stati quindi addestrati in compiti di discriminazione uditiva. Utilizzando un sensore geneticamente codificato per il dopamina, gli scienziati hanno osservato la dinamica del rilascio di dopamina. I risultati hanno rivelato segnali dopaminergici tipici nella coda dello striato, correlati non alla ricompensa ma all'azione ripetuta.
Nelle fasi iniziali, tutti i topi hanno appreso alla stessa velocità, ma dopo aver raggiunto un successo del 60-70%, un livello al quale si iniziava a formare una preferenza strategica, il gruppo di controllo ha progredito più rapidamente, raggiungendo livelli di “competenza esperta”. I topi con striato danneggiato hanno continuato a imparare, ma senza l'accelerazione e la formazione delle preferenze registrate nel gruppo di controllo.
«I topi danneggiati fanno affidamento solo sul segnale RPE (errore di previsione della ricompensa). Gli altri utilizzano entrambi i segnali — RPE e APE (errore di previsione delle azioni), il che consente loro di radicare più saldamente le loro scelte», riassume Stephenson-Jones.
Per confermare questa ipotesi, i ricercatori hanno disabilitato la coda dello striato in topi con livelli già elevati di prestazione nel compito. L'efficacia del loro apprendimento è diminuita drasticamente. Questo suggerisce che la parte posteriore dello striato, grazie al segnale APE, sia cruciale nel mantenere associazioni fissate attraverso la ripetizione.
Questa doppia sistema di apprendimento potrebbe spiegare perché è così difficile abbandonare certe abitudini, specialmente se sono state ripetute nel corso degli anni. Secondo i ricercatori, la chiave potrebbe essere sostituire progressivamente una azione con un'altra, anch'essa ripetitiva. Ad esempio, sostituire sistematicamente la sigaretta con un chewing gum alla nicotina attiva il sistema APE per formare una nuova abitudine che soppianti quella vecchia.
«Ora che siamo consapevoli dell'esistenza di questo secondo sistema, disponiamo di una base scientifica per sviluppare nuovi approcci terapeutici mirati alle abitudini nocive», sottolinea Stephenson-Jones. «Finora, la maggior parte delle ricerche su dipendenze e compulsioni si è concentrata sul nucleo accumbens. Il nostro lavoro sposta l'attenzione su altre regioni del cervello, come la coda dello striato, che potrebbero rivelarsi cruciali», conclude.
Uno dei principali vantaggi di questo nuovo sistema è la conservazione più economica delle informazioni. Evitando confronti costanti tra diverse opzioni, il cervello può dedicare risorse cognitive a decisioni più complesse. «Questo sistema predefinito permette di liberare la “larghezza di banda” cognitiva, utile per altri processi decisionali basati sulla valutazione del valore», spiega Stephenson-Jones. Un esempio concreto: una persona che ha imparato a guidare può concentrarsi su una conversazione senza pensare ai dettagli tecnici del guidare.
Il team ha in programma di esaminare attentamente come i sistemi APE e RPE interagiscano e come ciascuno contribuisca ai vari tipi di apprendimento.