di Andrea Bergonzi, Data Scientist di Dataskills
Di recente abbiamo dedicato un articolo a Chat GPT, il modello di linguaggio generativo considerato la vera e propria avanguardia nell’ambito dell’intelligenza artificiale conversazionale. In tale contesto, abbiamo spiegato come al cuore del chatbot vi sia oggi GTP3.5, una versione implementata dell’originale GPT-3 e che presto sarà a sua volta sostituita da una nuova release: GPT-4.
Tenere traccia delle possibili evoluzioni legate all’introduzione di questa nuova tecnologia non è facile, poiché viviamo in una fase storica in cui l’innovazione è talmente repentina e detonante da rendere quasi imprevedibili i suoi reali effetti.
Ciò che sappiamo è che il lancio di GPT-4 da parte di OpenAI (l’organizzazione formalmente non-profit che ha creato Chat GPT e che si specializza in AI amichevoli) avverrà molto probabilmente nei prossimi mesi, sulla scia delle rivoluzionarie release precedenti: da DALL-E 2, l’Intelligenza Artificiale da-testo-a-immagine resa disponibile nel luglio 2022, a Whisper, il modello di riconoscimento vocale automatico (ASR) rilasciato in tempi ancora più recenti. Entrambi questi prodotti hanno stupito per la loro robustezza, precisione e innovazione.
Anche se non esistono certezze assolute sulle nuove feature di GPT-4, è facile immaginare che il rilascio risponderà alle esigenze di un mercato che ora più che mai richiede modelli linguistici estremamente precisi e versatili, ma anche caratterizzati da una migliore ottimizzazione di calcolo e da una maggiore sicurezza.
Molto interessanti risultano in tal senso le considerazioni fatte da Sam Altman, CEO di OpenAI, in merito a cosa aspettarsi da GPT-4. In un’intervista rilasciata alcune settimane fa a StrictlyVC e successivamente rilanciata dalla webzine The Verge, Altman spiega innanzitutto che la nuova release avverrà “quando saremo fiduciosi di poterla lanciare in modo sicuro e responsabile”. Nessuna data sicura, quindi, neppure in merito al trimestre dell’anno in cui GPT-4 potrebbe comparire sul mercato.
Altman aggiunge poi che il rumor mill diventato virale su Twitter, e che confronta il numero di parametri di GPT-3 (pari a 175 miliardi) con quelli di GPT-4 (100 trilioni) è “del tutto ridicolo. Non so neppure da dove provenga. Le persone chiedono di essere deluse e lo saranno.”
L’eccessivo hype sarebbe quindi ben distante dalla realtà, sebbene paia confermata l’intenzione di OpenAI di realizzare in futuro un modello di intelligenza artificiale in grado di generare video, sulla base degli studi già effettuati in questo senso da colossi come Meta e Google. Anche in questo caso, tuttavia, le tempistiche sono del tutto ignote.
Per quanto riguarda le considerazioni su AI e “pregiudizi” (una delle attuali criticità di Chat GPT consiste proprio nella perpetuazione involontaria di informazioni fuorvianti e, appunto, pregiudizievoli dal punto di vista sociale, come razzismo e sessismo, che vengono interiorizzare sulla base dei loro dati di training), il CEO di OpenAI commenta che, all’interno di un mondo-sistema con regole assolute molto ampie, le persone dovrebbero avere l’opportunità di interagire con un’Intelligenza Artificiale capace di interpretare il loro punto di vista e i loro valori.
“Se desideri il modello mai offensivo e super-sicuro per il lavoro, dovresti poterlo ottenere. Allo stesso modo, se ne vuoi uno più audace, creativo ed esplorativo, e quindi anche in grado di dire cose che potrebbero metterti a disagio, dovresti poterlo ottenere. La mia opinione è che esiteranno molti sistemi con setting differenti relativamente ai valori che vogliono promuovere. Sul lungo periodo, ciò che un utente dovrebbe poter fare è scrivere quello che desidera, quali sono i suoi valori e come vuole che l’AI si comporti in merito a essi, ottenendo risultati coerenti con le sue richieste, in modo che il sistema sia effettivamente la sua intelligenza artificiale.”
Tale affermazione è pienamente in linea con il core business di OpenAI e aziende similari: mitigare i pregiudizi impedendo ai sistemi di Artificial Intelligence di riprenderli e reiterarli, in modo da realizzare tecnologie realmente positive e costruttive per la società tutta.
E cos’ha da dire Altman sulla teoria secondo cui Chat GPT finirà con lo scalzare Google dal podio?
“Penso che ogni volta che qualcuno parli di una tecnologia come la fine di un’altra, commetta un errore. Ritengo anche che sia in atto un cambiamento in termini di ricerca che a un certo punto tale cambiamento diventerà dominante, ma non in modo così drammatico come le persone credono, e non sul breve termine.”
In sintesi, c’è poco o nulla che Altman rivela in merito a GPT-4, quantomeno in questa fase di pre-release. E, proprio per questa ragione, le speculazioni continuano.
Riassumiamo quindi a seguire cosa sappiamo finora – e cosa possiamo invece soltanto supporre.
GPT-4: COSA SAPPIAMO E QUALI SONO LE SPECULAZIONI DA TENERE D’OCCHIO
Sembra innanzitutto che GPT-4 non sarà molto più grande di GPT-3, sempre secondo il CEO di OpenAI. Si suppone quindi che i suoi parametri oscilleranno dai 175B ai 280B, ossia che saranno del tutto simili a quelli del modello di linguaggio di Deepmind, Gopher.
Tale speculazione è legata al fatto che Altman ha affermato che il focus del team di sviluppo di OpenAI è il miglioramento delle prestazioni di modelli di linguaggio più ridotti, poiché quelli di grandi dimensioni richiedono un set di dati molto esteso, oltre che implementazioni estremamente complesse ed enormi risorse di calcolo. Se si considera che implementare modelli di grandi dimensioni sarebbe incredibilmente oneroso – nonché inefficace – anche per le aziende, è facile comprendere perché OpenAI abbia scelto di muoversi nella direzione opposta.
Anche per quanto riguarda l’aspetto della parametrizzazione, sappiamo che i modelli di linguaggio di grandi dimensioni sono ancora per lo più poco ottimizzati e molto costosi da addestrare, e che richiederebbero quindi un notevole compromesso tra costo e accuratezza. Un esempio pratico è proprio quello di GPT-3, che è stato addestrato soltanto una volta nonostante gli errori: l’ottimizzazione degli iper-parametri non è stata mai eseguita proprio a causa degli oneri insostenibili che tale processo avrebbe comportato.
L’ipotesi più accreditata in merito al modello ottimale di calcolo è invece la seguente: per il suo GPT-4, OpenAI potrebbe aumentare i token di addestramento di ben cinque trilioni, e ci vorranno quindi 10-20X FLOP in più rispetto a quelli previsti per addestrare GPT-3 per ottenere una perdita minima.
GPT-4 sarà multimodale? Qui, la risposta sembra già essere definitiva: no. Altman ha infatti spiegato che il modello sarà di solo testo, e la ragione è legata al fatto che un multimodale di buona qualità prevedrebbe una combinazione molto impegnativa di informazioni testuali e visive per poter garantire performance superiori rispetto a quelle di GPT-3 e DALL-E 2.
Conviene dunque non aspettarsi particolari innovazioni neppure da questo punto di vista. Maggiore attenzione sarà invece dedicata alla sicurezza e all’aspetto valoriale del sistema, così da risolvere le già evidenziate problematiche legate all’aggiramento dei parametri di safety, alla disinformazione e al pregiudizio, che oggi sembrano essere (comprensibilmente) centrali per OpenAI.
In sintesi, non possiamo fare altro che attendere – per un tempo non ancora determinato – un modello di cui, all’atto pratico, non sappiamo nulla in termini di architettura (per quanto si mormori che resterà identica alla precedente), dimensioni e set di dati.
GPT-4: TANTI APPLICAZIONI POSSIBILI, MA NON ASPETTIAMOCI COMPLETA AFFIDABILITÀ
GPT-4 verrà utilizzato, come il suo predecessore, per le consuete applicazioni linguistiche quali la generazione di codice, il riassunto di testi, la tabellazione, le traduzioni, le classificazioni, le chatbot e la correzione grammaticale, con performance meno distorte, più allineate ai valori umani, più accurate e più robuste.
Tale prospettiva potrà suonare in itinere e forse risultare un po’ deludente, ma di fatto rispecchia la realtà in cui ci troviamo oggi, in cui i modelli di linguaggio non sono ancora completamente affidabili, non sono in grado di comprendere il mondo fisico in tutte le sue sfumature – per non parlare di quello astratto, che rimane per essi del tutto ignoto – e certamente non hanno la capacità di capire o interpretare gli aspetti psicologici legati all’umano.
Come ben espresso dallo scienziato e imprenditore Gary Marcus in un articolo pubblicato all’inizio di gennaio su Communications of the ACM, dovremmo figurarci GPT-4 come se fosse un elefante in un negozio di porcellane: goffo, spericolato, difficile da controllare, quasi impossibile da prevedere del tutto. Un sistema che, sebbene in grado di livellare diverse lacune emerse in GPT-3 in termini di ragionamento razionale, medico e scientifico, continuerà a mostrare importanti gap quando si parla di psicologia umana, matematica e, in parte, anche scienza.
In pratica, non è ancora il momento di un completo allineamento tra ciò che gli esseri umani si aspettano dalle macchine e ciò che le macchine sono effettivamente in grado di fare.
Largo quindi a moderati entusiasmi, senza però dimenticare che GPT-4 non potrà sostituire l’uomo in retorica, diplomazia e capacità di ragionamento e non potrà certamente essere incaricato di prendere arbitrariamente decisioni.
Prima che esista un’Intelligenza Artificiale di cui l’uomo possa davvero fidarsi, dovranno nascere architetture realmente innovative capaci di incorporare, al loro interno, sia la conoscenza esplicita sia gli innumerevoli modelli di mondo in cui viviamo.
LEGGI ANCHE – Dati non-strutturati, cosa sono e perché sono importanti?