Nelle ultime settimane sono in molti a lamentare un calo delle prestazioni di ChatGPT nelle versioni 3.5 e 4. I forum dedicati pullulano di post con cui gli utenti si interrogano se il "quoziente intellettivo" del modello linguistico di OpenAI abbia vissuto un downgrade, una piccola recessione d'intelletto. Stando alla community, il software elaborerebbe risposte meno mirate e più vaghe, faticherebbe a comprendere appieno i prompt, insomma, sarebbe meno performante dei tempi (non lontani) del suo debutto. Ma è davvero così?
Gli studi e le prime risposte
Un gruppo di ricercatori della Stanford University e della UC Berkeley ha analizzato le performance modello linguistico, confrontando le risposte ai medesimi quesiti registrate a marzo e a giugno 2023, con un focus sulla risoluzione dei problemi matematici.
A mettere in ginocchio ChatGPT nel secondo round di giugno sarebbe stata proprio la matematica: da una precisione iniziale del 97,6% riscontrata a marzo, il modello linguistico sarebbe regredito a ad appena il 2,4%.
Tra le teorie in risposta al graduale "calo di intelligenza" dell'AI alla base di ChatGPT, soprattutto nell'ultima versione (la 4), spunta la necessità di risparmiare energie computazionali per accelerare la risposta del software, ma anche una strategia dell'azienda per monetizzare, rendendo a pagamento le capacità più avanzate.
Il vice presidente di OpenAI, Peter Welinder, ha di recente twittato: "No, non abbiamo reso GPT-4 più stupido. Al contrario: rendiamo ogni nuova versione più intelligente della precedente". Per poi concludere: "Ipotesi attuale: quando lo usi più intensamente, inizi a notare problemi che prima non vedevi".
L'ipotesi più realistica: Chat-GPT è (solo) cambiato
Un report di SemiAnalysis, la newsletter di Dylan Patel, come riportato da Repubblica, avrebbe intercettato un leak di documenti riservati interni dell'azienda piuttosto rivelatori: a cambiare sembrerebbe essere stata l'architettura di ChatGPT, ovvero la modalità con cui vengono analizzate e generate le informazioni. Secondo l'ipotesi, non confermata da OpenAI, il modello linguistico sarebbe alimentato da un gruppo di 16 intelligenze artificiali "minori" che elaborerebbero le risposte a seconda degli input e delle esigenze.
Un meccanismo, si legge su Repubblica in riferimento a un'intervista rilasciata dal CEO di Lamini a Business Insider, basato su un approccio chiamato "Mixture of Experts" (MoE). Quest'ultimo contempla la divisione di un modello linguistico in mini "modelli esperti", addestrati su attività e tematiche specifiche.
"In altre parole - si legge sul quotidiano - ci sarebbero 16 mini GPT-4, ciascuno specializzato in un ambito preciso del materiale di addestramento. Quanto un utente fa una domanda, il sistema riesce a individuare quali sono i due o più modelli da interpellare e, infine, combinare i risultati".
L'obiettivo di questo approccio sarebbe quello di massimizzare l'accuratezza delle risposte rendendole più efficienti, ma soprattutto meno dispendiose: i costi dell'intera "macchina" che sorregge ChatGPT sarebbero infatti particolarmente ingenti (si navigherebbe sui 700.000 dollari al giorno).
La sensazione generale, si legge ancora su Repubblica, è dunque quella che ChatGPT stia scendendo a compromessi sul fronte della qualità per mitigare i costi di gestione.