GPT-4: cos'è, caratteristiche e come funziona

GPT-4: Generative Pre-trained Transformer 4

Webinar
No items found.

I “Generative Pre-trained Transformer”, conosciuti come GPT sono una serie di modelli di elaborazione del linguaggio realizzati dal laboratorio di Artificial Intelligence americano OpenAI.

I modelli GPT crescono e imparano grazie all’intelligenza artificiale, la quale si alimenta con diversi dati, testi e numeri, attingendo ad un ampio database di informazioni.

GPT-4 è il successore di GPT-3.5, il modello di elaborazione alla base del popolare strumento ChatGPT, con cui condivide  caratteristiche molto simili, ma con alcune grosse novità. La principale è il notevole miglioramento delle capacità di GPT-4 di comprensione del linguaggio naturale e generazione di risposte. Questo è dovuto principalmente alla maggiore dimensione del modello GPT-4 e all'ampio set di dati di addestramento utilizzato. 

GPT-4 è quindi in grado di fornire risposte più accurate e pertinenti del suo fratello minore, ed è anche più versatile nel gestire una vasta gamma di domini. Presenta anche miglioramenti nella comprensione del contesto - visto che accetta testi molto più lunghi rispetto a ChatGPT (passando da una “memoria” di 6 pagine a 52) - arrivando così ad una capacità di generare contenuti più articolati e complessi e scovare informazioni in documenti molto grandi.

L’ultima novità è la funzionalità multimodale, il che significa che è in grado di comprendere informazioni provenienti da diverse modalità, come le immagini. 

Questa capacità di elaborare informazioni da diverse fonti permette a GPT-4 di interagire in modo più efficace e naturale con gli utenti e aprendo la strada a molte nuove applicazioni. OpenAI dichiara che “GPT-4 può risolvere problemi difficili con maggiore precisione, grazie alla sua più ampia conoscenza generale e capacità di problem solving.”

Funzionalità

L’architettura di GPT-4 è simile a quella dei suoi predecessori: è un transformer, probabilmente solo decoder e fa next-token-prediction. 

Se uno dei limiti di ChatGPT era la lunghezza dell’input (4.000 tokens), GPT-4 ha una context length di 8.192 tokens (vi è anche una versione con accesso limitato di 32.768 tokens).

GPT-4 e multimodalità

Uno use case interessante sul tema della multimodalità è la ricerca in documenti in cui ci sono immagini. Immaginiamo un bot interno ad una documentazione tecnica che comprende delle istruzioni in formato immagini di procedure o interfacce. Con un approccio multimodale le immagini possono essere gestite insieme al testo, rendendo possibile rispondere in modo contestuale su entrambe le modalità.

Come accedere a GPT-4

L'API di GPT-4 è ora accessibile a tutti i clienti paganti che utilizzano l'API e promette capacità senza precedenti per quanto riguarda i modelli linguistici, offrendo un'opportunità unica agli sviluppatori.

Di seguito i principali aggiornamenti comunicati da OpenAI:

  • Disponibilità generale dell'API di GPT-4.
    La straordinaria potenza del modello GPT-4 ha stimolato l'innovazione nella creazione di prodotti innovativi in diversi settori. L'accesso all'API è ora aperto a tutti gli sviluppatori che utilizzano già l'API e che sono in regola con i pagamenti. Entro la fine del mese, l'API sarà resa disponibile anche per i nuovi sviluppatori. Successivamente, i limiti di velocità saranno incrementati gradualmente in base alla capacità di calcolo disponibile.
  • Espansione delle API di GPT-3.5 Turbo, DALL-E e Whisper.
    Basandosi sulla stabilità e sulla disponibilità di questi modelli per l'utilizzo su scala di produzione, OpenAI sta rendendo generalmente disponibili le API GPT-3.5 Turbo, DALL-E e Whisper. Inoltre, l'azienda sta lavorando per abilitare in modo sicuro la funzione di fine-tuning per GPT-4 e GPT-3.5 Turbo e prevede che tale funzionalità sarà disponibile nel corso dell'anno.
  • Ritiro dei vecchi modelli nell'API di completamento.
    Al fine di ottimizzare le capacità di calcolo, i modelli più vecchi nell'API di completamento saranno gradualmente eliminati entro l'inizio del 2024. Questi saranno sostituiti da nuove versioni, come ad esempio ada-002, babbage-002, curie-002, davinci-002.
  • Focus sull’API di chat.
    Si è passati dalle API di completamento e API di chat. Attualmente, l'API per il completamento delle chat rappresenta il 97% dell'utilizzo delle API di GPT. Questo cambio di approccio offre risultati migliori, maggiore flessibilità e specificità nelle attività e nelle interazioni. Inoltre, contribuisce a ridurre il rischio di attacchi come il processo di prompt injection, in quanto il contenuto fornito dall'utente può essere strutturalmente separato dalle istruzioni.
  • Code Interpreter disponibile per tutti.
    Questa è la versione "coding ready" di GPT-4, dotata di tre nuove funzionalità. L'AI può leggere i file caricati dall'utente direttamente nel browser, con una dimensione massima di 100 MB. Inoltre, può consentire il download di file e offre la possibilità di eseguire il proprio codice Python, creando modelli di AI "a runtime" per dataset di piccole dimensioni. Questo sistema funziona in modo eccellente anche per coloro che non hanno familiarità o competenze tecniche specifiche.

Casi d'uso popolari

Duolingo

Duolingo permette ai costumers premium di avere conversazioni in lingua con GPT-4. Il progetto si chiama Role Play and Explain my Answer. Il corso GPT-4 di Duolingo è stato progettato per insegnare agli studenti come avere conversazioni naturali su un'ampia gamma di argomenti specialistici. Duolingo ha introdotto queste nuove funzioni in spagnolo e francese, con l'intenzione di estenderle ad altre lingue e di aggiungere altre funzioni in futuro.

Government of Iceland

Anche il governo islandese usa GPT-4. Il governo islandese sta lavorando insieme a imprese tech e a GPT-4 di OpenAI per far mantenere ed utilizzare la lingua madre del Paese. Ora, 40 volontari supervisionati da Vilhjálmur Þorsteinsson (amministratore delegato della società di tecnologia linguistica Miðeind ehf) stanno addestrando il GPT-4 con l'apprendimento rinforzato dal feedback umano (RLHF).

GPT-4 impara dalle correzioni e di conseguenza migliora le sue risposte future. I tentativi di perfezionare un modello GPT-3 con 300.000 domande in lingua islandese erano falliti prima dell'RLHF, a causa del processo che richiede molto tempo e molti dati.

Morgan Stanley

Morgan Stanley, una società di servizi finanziari, impiega un chatbot interno abilitato al GPT-4 che può setacciare l'enorme formato PDF di Morgan Stanley per trovare soluzioni ai problemi dei consulenti. Con le funzioni GPT-3 e ora GPT-4, l'azienda ha iniziato a studiare il modo migliore per utilizzare il proprio capitale intellettuale. Morgan Stanley dispone di una libreria interna di contenuti unici, chiamata capitale intellettuale, che è stata utilizzata per addestrare il chatbot utilizzando il GPT-4. Circa 200 dipendenti utilizzano regolarmente il sistema e i loro suggerimenti contribuiscono a migliorarlo ulteriormente. L'azienda sta valutando un'ulteriore tecnologia OpenAI che ha il potenziale per migliorare gli approfondimenti delle note dei consulenti e facilitare le conversazioni successive con i clienti.

Be My Eyes

L'azienda danese Be My Eyes utilizza un "volontario virtuale" GPT-4 all'interno del proprio software per aiutare gli ipovedenti e i non vedenti nelle loro attività quotidiane.

Stripe

Come il resto del settore finanziario, il team di assistenza di Stripe ha utilizzato il GPT-3 per migliorare la qualità del servizio clienti. Ora utilizza le funzioni GPT-4 per analizzare i siti web e capire come le aziende utilizzano la piattaforma, in modo da poter adattare l'assistenza alle loro esigenze. Può operare come assistente virtuale degli sviluppatori, comprendendo le loro richieste, analizzando il materiale tecnico, riassumendo le soluzioni e fornendo sintesi dei siti web. Utilizzando GPT-4, Stripe può monitorare i forum della comunità come Discord alla ricerca di segni di attività criminale e rimuoverli il più rapidamente possibile.

Khan Academy

Khan Academy, un'azienda che fornisce risorse educative online, ha iniziato a utilizzare le funzionalità GPT-4 per alimentare un assistente artificialmente intelligente chiamato Khanmigo. Nel 2022 hanno iniziato a testare le funzionalità del GPT-4; nel 2023, il programma pilota di Khanmigo sarà disponibile per pochi eletti. Chi è interessato a partecipare al programma può mettersi in lista d'attesa.

Le valutazioni iniziali suggeriscono che GPT-4 potrebbe aiutare gli studenti ad apprendere argomenti specifici di programmazione informatica, acquisendo al contempo un più ampio apprezzamento per la rilevanza del loro studio. Inoltre, Khan Academy sta sperimentando diversi modi in cui gli insegnanti potrebbero utilizzare le nuove funzionalità di GPT-4 nel processo di sviluppo del curriculum.

Indigo.ai e GPT-4

indigo.ai ha una piattaforma modulabile e già predisposta per modelli generativi come GPT-4. Sono già partiti i test del modello e i primi risultati dimostrano in modo chiaro come i chatbot sviluppati con l'aiuto di questa nuova tecnologia possono offrire una comunicazione più naturale, precisa e contestualizzata tra le aziende e le persone.

I vantaggi possono essere riassunti in:

  1. Miglioramento della comprensione del linguaggio naturale, riducendo il rischio di incomprensioni e migliorando l'esperienza dell'utente. indigo.ai ha sempre puntato molto sulla qualità nel capire le richieste e minimizzare la frustrazione degli utenti.
  2. Risposte più accurate e pertinenti: grazie alla maggiore coerenza e contestualizzazione offerta da GPT-4, i chatbot di indigo.ai possono fornire risposte più precise e utili agli utenti. La piattaforma di indigo.ai è progettata per “controllare” questi modelli generativi e più sono potenti più c’è necessità di incanalarli in modo sicuro.
  3. Documenti e non solo risposte: grazie alla maggiore “memoria”, si può lasciare libero il modello di andare a scovare la risposta migliore all’interno di documenti di testo libero, come word o pdf. Questo permette di regolare tramite la piattaforma il livello controllo che si vuole avere sulle risposte date, variando da testi scritti a mano ed approvati fino alla pura generazione libera e creativa.
  4. Interazioni multimodali: con l'abilità di elaborare e ricercare informazioni provenienti da diverse modalità, come quelle visuali, i chatbot di indigo.ai potranno offrire interazioni più coinvolgenti e complete.
No items found.