26 febbraio 2026

Il futuro dell'AI oltre gli LLM. Dai World Models ai sistemi capaci di ragionare

Verso macchine che non si limitano a parlare, ma imparano a pianificare e comprendere la realtà fisica

Siamo giunti a un bivio evolutivo. Se il triennio 2023-2025 è stato l'era dello stupore per la capacità generativa degli LLM, il 2026 segna l'inizio di una fase più pragmatica, la ricerca del "senso".

I modelli attuali, pur simulando abilmente il linguaggio umano, operano principalmente su base statistica più che su una reale comprensione semantica. Sono eccellenti predittori statistici, ma mancano di un modello coerente della realtà. Per questo, nei laboratori di Londra e Menlo Park, il focus si è spostato. Non si cerca più il chatbot più loquace, ma si lavora per ingegnerizzare sistemi capaci di pianificare (planning), ragionare (reasoning) e comprendere la fisica (grounding).

I protagonisti di questa svolta architetturale sono Demis Hassabis (Google DeepMind) e Yann LeCun (Meta). Le loro visioni, tecnicamente divergenti, stanno tracciando la rotta verso i World Models, la prossima generazione di AI che trasformerà radicalmente l'automazione aziendale.

L'illusione della competenza e l’AI del futuro. Il "soffitto di vetro" dei Transformer

Per comprendere la posta in gioco nello scontro tra Hassabis e LeCun, dobbiamo prima analizzare lucidamente i limiti dell'attuale paradigma dominante, l'architettura Transformer.

Le famiglie di modelli LLM che utilizziamo abitualmente sono, nella loro essenza, predittori statistici autoregressivi. Il loro funzionamento si basa su un principio matematico preciso. Dato un contesto di token precedenti, il modello calcola la distribuzione di probabilità del token successivo. Non stanno "pensando" nel senso umano del termine; stanno navigando una mappa multidimensionale di correlazioni linguistiche per inferire la sequenza di caratteri più plausibile.

Il risultato è un'emulazione funzionale del ragionamento, spesso indistinguibile da quello reale, ma che soffre di tre deficit strutturali che nessun aumento di parametri potrà risolvere del tutto.

1. Mancanza di grounding (Ancoraggio alla realtà)

L'LLM manipola simboli, non concetti. Sa come la parola "mela" si relaziona vettorialmente a "frutto" o "rosso" all'interno del dataset di training, ma non ha alcuna esperienza sensoriale, fisica o spaziale dell'oggetto. Vive in un mondo di puro testo.

2. Assenza di logica causale

Se chiedete a un LLM cosa accade lasciando cadere un bicchiere, risponderà che "si rompe". Non lo dice perché ha simulato la fisica dell'impatto o la fragilità del vetro, ma perché nei suoi dati la frase "il bicchiere è caduto" è statisticamente correlata a "e si è rotto". L'AI confonde la correlazione linguistica con la causalità fisica.

3. Allucinazioni intrinseche

Non avendo un database di "verità fattuali" (look-up), ma solo un modello di probabilità, l'errore non è un bug, ma una feature del sistema. Un modello senza il giusto controllo può inventare fatti inesistenti con la stessa sicurezza (o confidence score) con cui enuncia verità storiche, semplicemente perché la frase generata suona sintatticamente plausibile.

La via del pragmatismo. Yann LeCun e i World Models

Se la maggior parte dell'industria sta cercando di rendere i modelli di linguaggio sempre più grandi (le cosiddette Scaling Laws), Yann LeCun, Chief AI Scientist di Meta e vincitore del premio Turing, sta guardando in una direzione completamente diversa. La sua tesi è provocatoria, ma biologicamente fondata. Il linguaggio non è la base dell'intelligenza, ma ne è solo la superficie.

L'errore dell'AGI e l'obiettivo AMI

LeCun contesta frontalmente l'idea di AGI (Artificial General Intelligence) intesa come una sorta di onnipotenza cognitiva divina. "L'intelligenza non è mai generale. È sempre specializzata", sostiene. L'essere umano, ad esempio, è una macchina biologica ottimizzata per sopravvivere in un ambiente tridimensionale, manipolare oggetti e socializzare. La nostra capacità di giocare a scacchi o scrivere codice è un "sottoprodotto" evolutivo, non la funzione primaria del nostro cervello.

Per questo motivo, Meta non insegue il mito dell'AGI, ma punta alla AMI (Advanced Machine Intelligence). L'obiettivo è una macchina dotata di "Common Sense" (Buon Senso).

L'esempio preferito di LeCun è illuminante - un gatto domestico possiede più buon senso fisico di qualsiasi LLM esistente. Un gatto sa che se salta su una superficie instabile, cadrà. Non ha bisogno di leggere un trattato di fisica; possiede un modello interno del mondo che gli permette di simulare le conseguenze delle sue azioni prima di compierle. Gli LLM attuali, al contrario, conoscono la descrizione della caduta, ma non ne comprendono la dinamica.

La soluzione tecnica. JEPA e la fine della generazione pixel-perfect

Per colmare questo divario, LeCun propone di abbandonare l'apprendimento puramente generativo, che cerca di prevedere la prossima parola o il prossimo pixel, a favore di una nuova architettura, JEPA (Joint Embedding Predictive Architecture).

Questa è la vera scommessa ingegneristica di Meta. Mentre l'AI generativa tradizionale cerca di ricostruire ogni dettaglio della realtà, l'architettura JEPA lavora nello spazio delle rappresentazioni astratte.

  • Non predice i dettagli inutili. Non serve prevedere l'esatto movimento di ogni singola foglia in un albero mosso dal vento (dettaglio irrilevante).
  • Predice gli stati essenziali. Il modello si concentra sul prevedere che "l'albero si sta piegando" o che "il ramo potrebbe spezzarsi".

L'AI del futuro, secondo LeCun, quindi, non sarà un oracolo statistico, ma un Agente guidato da un World Model, un sistema che capisce la permanenza degli oggetti, la gravità e la relazione causa-effetto. Questo non solo renderà l'AI più "intelligente" nel mondo reale, ma drasticamente più efficiente. Smettendo di allucinare dettagli inutili, l'AI richiederà meno potenza di calcolo e offrirà risposte ancorate alla realtà fisica, non solo a quella linguistica.

La scommessa della generalità nel futuro dell’Intelligenza Artificiale. Demis Hassabis e la scienza autonoma

Mentre LeCun guarda alla biologia per i suoi limiti, Demis Hassabis guarda al cervello umano per le sue infinite potenzialità. Fondatore di DeepMind (ora Google DeepMind), Hassabis ha un background che unisce neuroscienze e progettazione di videogiochi, e la sua visione è decisamente più "top-down".

Il cervello come prova di esistenza

Per Hassabis, il cervello umano è la dimostrazione empirica che l'Intelligenza Generale è possibile. Il suo argomento centrale smonta l'idea della specializzazione forzata.

"Un cervello evoluto per la sopravvivenza nella savana africana è stato in grado, millenni dopo, di inventare la meccanica quantistica, comporre sinfonie e giocare a Go."

Se l'intelligenza fosse rigidamente specializzata (come suggerisce l'approccio di LeCun), non avremmo mai potuto trasferire le competenze dalla caccia alla fisica teorica. Questa capacità di Transfer Learning radicale, astrarre concetti appresi in un dominio per applicarli in un contesto completamente inedito, è il cuore della sua visione di AGI.

Generale vs universale

Il dibattito tra i due scienziati tocca il suo apice su una distinzione matematica spesso ignorata, ma che definisce l'intera strategia di DeepMind. Hassabis contesta a LeCun di confondere l'intelligenza generale con quella universale.

  • Intelligenza universale. La capacità teorica di eccellere in ogni possibile universo matematico. Questo è impossibile per definizione, a causa del teorema del No Free Lunch, che stabilisce che nessun algoritmo di ottimizzazione è superiore a tutti gli altri su tutti i problemi possibili.
  • Intelligenza generale (AGI). Un'architettura capace di apprendere qualsiasi funzione rilevante per la nostra realtà fisica, data sufficiente esperienza.

Per DeepMind, l'AGI non deve essere un sistema onnisciente a priori (universale), ma una "tabula rasa" capace di generalizzazione (generale). Non serve che l'AI sappia giocare a scacchi appena accesa; serve che abbia l'architettura cognitiva per imparare a farlo e poi usare quella logica strategica per risolvere problemi di processo aziendali.

AlphaFold e la "Search"

La visione di Hassabis non si ferma alla teoria. Si concretizza in sistemi come AlphaFold, un sistema che ha risolto un "Grand Challenge" della biologia aperto da cinquant'anni, la previsione della struttura 3D delle proteine.

Qui risiede la differenza fondamentale nell'approccio ingegneristico. Mentre gli LLM "improvvisano" una risposta parola per parola, i modelli di DeepMind utilizzano tecniche di Search (ricerca e pianificazione) derivate da AlphaGo. Prima di fornire un output, il sistema simula internamente migliaia di possibili scenari futuri, valuta le probabilità di successo e sceglie il percorso ottimale.

L'obiettivo finale è costruire scienziati digitali, sistemi autonomi capaci di formulare ipotesi, testarle in simulazione e accelerare la scoperta scientifica e industriale.

Il nodo teorico per il futuro dell’AI. Il teorema "No Free Lunch"

Al centro di questa disputa non c'è solo filosofia, ma un vincolo matematico rigoroso, il teorema del No Free Lunch (NFL). In sintesi, il teorema afferma che non esiste un algoritmo "magico" superiore a tutti gli altri in ogni contesto possibile. Se un sistema eccelle in una classe di problemi, deve necessariamente performare peggio della media in altre.

Qui le strade si dividono definitivamente.

  • L'interpretazione di LeCun (modulare). Usa l'NFL per giustificare la specializzazione. La sua soluzione è costruire moduli verticali specializzati (visione, linguaggio, movimento) e orchestrarli insieme.
  • L'interpretazione di Hassabis (generale). Riconosce il teorema, ma con una nota a margine cruciale. L'insieme dei problemi che interessano l'umanità (scienza, arte, logica) è un sottoinsieme infinitesimale di tutti i problemi matematici possibili. Pertanto, è possibile costruire un'AGI che sia "generale" per tutto ciò che conta per noi, senza violare il teorema su scala universale.

È una scommessa ingegneristica. LeCun vuole assemblare l'intelligenza pezzo per pezzo; Hassabis cerca l'"algoritmo maestro" capace di derivare ogni competenza dai dati.

Intelligenza Artificiale e futuro: cosa cambia per le aziende?

Perché un manager dovrebbe interessarsi a questo scontro tra titani? Perché queste due filosofie definiranno le caratteristiche del software enterprise dei prossimi anni. La dicotomia Hassabis-LeCun si traduce in una scelta operativa, Affidabilità vs Adattabilità.

L'eredità di LeCun. Robustezza e grounding

Le aziende non possono permettersi la creatività indesiderata. Se un assistente bancario inventa un tasso d'interesse, il danno è critico.

  • La soluzione. I sistemi derivati dalla visione di LeCun (World Models) offriranno un "ancoraggio" alla realtà. L'AI non risponderà perché una frase suona bene, ma perché il suo modello logico interno ha verificato che l'azione è possibile.
  • L'impatto. Meno allucinazioni, più sicurezza nei processi regolamentati.

L'eredità di Hassabis. Strategia e problem solving

D'altra parte, il business è gestione dell'imprevisto. Le procedure standard falliscono di fronte a crisi inedite.

  • La soluzione. I sistemi "Hassabis-style" (basati su search e planning) eccellono dove non esistono procedure pregresse.
  • L'impatto. Agenti AI capaci di analizzare dati eterogenei, pianificare scenari complessi e trovare soluzioni strategiche in autonomia.

Molto probabilmente, il mercato non decreterà un unico vincitore, ma una sintesi architetturale. Il 2026 ci sta portando verso sistemi ibridi che replicano la struttura cognitiva umana teorizzata da Daniel Kahneman.

  • Un "Sistema 1" (LeCun). Veloce, percettivo ed efficiente, per gestire le interazioni quotidiane e "capire" il contesto fisico senza errori banali.
  • Un "Sistema 2" (Hassabis). Lento, riflessivo e logico, che si attiva solo quando il problema richiede ragionamento profondo, pianificazione e creatività strategica.

Siamo partiti dai chatbot che sanno parlare. Stiamo arrivando alle macchine che sanno pensare. E per chi fa business, questa è l'unica differenza che conta davvero.

FAQ

Qual è la differenza sostanziale tra un LLM e i nuovi "World Models"?

Mentre un LLM è addestrato per prevedere la parola successiva basandosi sulla statistica linguistica, un World Model è progettato per prevedere la conseguenza di un'azione basandosi su una comprensione logica della realtà. In breve, l'LLM simula il linguaggio, il World Model simula il funzionamento del mondo, riducendo drasticamente gli errori di logica.

Perché l'approccio di Yann LeCun è considerato più "pragmatico" per le aziende?

Perché LeCun punta a risolvere il problema delle allucinazioni alla radice. Attraverso l'architettura JEPA, l'AI non cerca di generare ogni dettaglio (come fanno i modelli generativi), ma impara concetti astratti e regole fisiche. Questo crea sistemi meno creativi ma molto più affidabili, ideali per settori critici come il finance o l'insurance, dove l'accuratezza è più importante della fluidità conversazionale.

In che modo la visione di Demis Hassabis (DeepMind) cambierà il modo di lavorare?

Hassabis sta introducendo la capacità di "pianificazione" (Search) nell'AI. Se oggi usiamo l'AI per eseguire un compito singolo (es. scrivere una mail), i modelli futuri sapranno risolvere problemi complessi. Agiranno come Agenti autonomi capaci di simulare diversi scenari futuri, valutare le alternative e scegliere la strategia migliore prima di agire, proprio come farebbe un manager esperto.

Non crederci sulla parola
This is some text inside of a div block. This is some text inside of a div block. This is some text inside of a div block. This is some text inside of a div block.

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Suspendisse varius enim in eros elementum tristique. Duis cursus, mi quis viverra ornare, eros dolor interdum nulla, ut commodo diam libero vitae erat. Aenean faucibus nibh et justo cursus id rutrum lorem imperdiet. Nunc ut sem vitae risus tristique posuere.