Ollama IA: accelerazione per Apple M5

L'applicazione Ollama, progettata per eseguire localmente modelli di intelligenza artificiale su computer con sistemi operativi Windows, macOS e Linux, ha ottenuto il supporto per l'accelerazione hardware sui sistemi con processori della famiglia Apple M5. Questa svolta rappresenta un passo significativo verso un'elaborazione dell'IA più efficiente e accessibile direttamente sui dispositivi degli utenti.

A differenza delle applicazioni basate su cloud, come ChatGPT, i cui modelli non possono essere eseguiti localmente e richiedono una connessione internet costante, Ollama consente di scaricare ed eseguire modelli di intelligenza artificiale direttamente sui computer domestici. I modelli open source vengono pubblicati su piattaforme comunitarie o caricati direttamente dagli sviluppatori e sono liberamente scaricabili, promuovendo un ecosistema aperto e collaborativo.

Tuttavia, l'esecuzione locale di questi modelli può rappresentare una sfida, poiché i modelli di intelligenza artificiale tendono a consumare grandi quantità di RAM di sistema e memoria video. Per superare questo ostacolo, gli sviluppatori dell'applicazione hanno aggiunto il supporto per il framework di apprendimento automatico MLX creato da Apple e per l'architettura di memoria unificata in Ollama 0.19. Questa integrazione ha notevolmente aumentato la velocità di funzionamento dell'applicazione sui sistemi con chip Apple, sfruttando al massimo le capacità hardware dei dispositivi.

Al momento, questa ottimizzazione riguarda solo i più recenti chip Apple M5, M5 Pro e M5 Max. L'applicazione Ollama 0.19 accede agli acceleratori neurali sulla piattaforma, riducendo il tempo necessario per generare il primo token e garantendo una maggiore velocità di generazione dei token in generale. Di conseguenza, sia gli agenti di IA personali come OpenClaw, sia quelli specializzati, tra cui OpenCode, Anthropic Claude Code e OpenAI Codex, funzionano più velocemente. Un'altra limitazione è che il computer deve disporre di almeno 32 GB di memoria unificata per sfruttare appieno i vantaggi dell'accelerazione hardware.

L'integrazione del framework MLX e l'ottimizzazione per l'architettura di memoria unificata dei chip Apple rappresentano un passo avanti significativo per Ollama e per l'elaborazione dell'IA locale in generale. Questa evoluzione apre nuove possibilità per sviluppatori, ricercatori e utenti finali, consentendo loro di sfruttare la potenza dell'intelligenza artificiale direttamente sui propri dispositivi, senza la necessità di una connessione internet costante o di costosi servizi cloud. L'accelerazione hardware sui chip Apple M5 promette di rendere l'elaborazione dell'IA locale più veloce, efficiente e accessibile a un pubblico più ampio.