Cosa sono i foundation models e come cambieranno gli sviluppi dell’Ai

Il futuro dell'AI generativa passa dalla capacità di offrire strumenti sempre più accessibili e già orientati all’uso. Da qui la decisione di Amazon di lanciare una nuova generazione di modelli di fondazione capaci di elaborare testo, immagini e video

di Roberto Catania - 18/12/2024 18:09

Parlando di intelligenza artificiale, non si può prescindere da quelli che in gergo vengono definiti foundation models (FM), un termine coniato nel 2021 da un gruppo di studiosi dell’Università di Stanford per definire i modelli fondanti che stanno alla base dell’Ai.

Rispetto ai modelli generici, allenati per svolgere compiti ben definiti su set di dati di dimensioni variabili, i foundation models hanno due caratteristiche distintive. La prima è che si basano su enormi quantità di dati. La seconda è che sono progettati per essere il punto di partenza di altri modelli di machine learning che alimentano e in un certo senso facilitano nuove applicazioni.

Facendo un parallelismo (un po’ forzato) con il mondo gastronomico, i foundation models potrebbero essere visti come quelle preparazioni fondamentali ricche di ingredienti che risultano indispensabili per la creazione di altre ricette.

Allenati con sempre più dati

Per capire quanto articolati siano questi modelli, basti pensare che BERT, uno dei primi modelli di fondazione bidirezionali creati da Google, contava - al momento della sua pubblicazione (nel 2018) - 340 milioni di parametri e un set di dati di training da 16 GB.

Secondo OpenAI, la potenza di calcolo richiesta per la creazione di queste “fondamenta” è raddoppiata ogni 3,4 mesi dal 2012: se GPT-3, rilasciato nel 2020, è stato addestrato da OpenAi con 175 miliardi di parametri, per GPT-4, uscito solo tre anni dopo, sono serviti 170 trilioni di parametri e un set di dati di training da 45 GB.

Insomma, un universo di dati necessari per soddisfare i molteplici usi richiesti dal mercato. I FM odierni, come i modelli di linguaggio di grandi dimensioni (LLM) Claude 2 e Llama 2 e il modello da testo a immagine Stable Diffusion di Stability AI, possono infatti eseguire una straordinaria gamma di attività, come scrivere post di blog, generare immagini, risolvere problemi di matematica, partecipare a dialoghi e rispondere a domande basate su un documento.

Il difficile equilibrio fra efficienza e costi 

È in questo contesto che va a inserirsi Nova, una nuova generazione di modelli “fondanti” creati da Amazon per rendere l’intelligenza artificiale generativa (Gen AI) sempre più efficiente e in un certo senso anche economica.

L’idea, ha spiegato il colosso americano in occasione di AWS re:Invent 2024, è promuovere un'evoluzione significativa nelle capacità di elaborazione di testo, immagini e video, offrendo soluzioni fino al 75% più economiche rispetto ad altri modelli di pari livello e già orientate per molte categorie applicative.

Nello specifico, Amazon Nova è stato declinato in diversi modelli specializzati: da quelli testuali, per garantire risposte rapide e precise (Amazon Nova Micro) a quelli multimodali, per gestire input misti di testo, immagini e video (nova Lite), da compiti complessi (Nova Pro) e task di “ragionamento” (Nova Premier), fino a modelli specifici per la generazione di immagini e video, creativi (Amazon Nova Canvas e Nova Reel).

Per avere un saggio degli impatti reali di questi modelli, chiarisce Amazon, è sufficiente chiedere a Nova Pro di descrivere un video di una partita senza audio come quello sottostante.

Il risultato, per quanto un po’ algido, è piuttosto sorprendente:

Il video mostra una partita di calcio in corso su un campo verde. I giocatori di due squadre, una in uniforme gialla e l'altra bianca, sono impegnati in un'azione di gioco. Il quarterback della squadra gialla lancia un passaggio a un ricevitore, che prende la palla e inizia a correre lungo il campo. I difensori della squadra bianca lo inseguono, cercando di placcarlo. L'azione culmina con un placcaggio che fa cadere il ricevitore sul campo.

Nel futuro modelli sempre più specifici

Questi modelli - che saranno accessibili tramite Amazon Bedrock, il servizio completamente gestito che offre un carnet di modelli di fondazione (FM) provenienti delle principali aziende di IA e un’integrazione API per semplificare l'integrazione con i sistemi aziendali - non saranno scolpiti nella pietra ma potranno essere personalizzati. Ad esempio aggiungendo dati proprietari o ottimizzando le performance per ragioni di accuratezza.

Nel futuro, inoltre, arriveranno nuovi modelli più specifici per le conversioni da parlato a parlato, con tanto di traduzioni o modifiche vocali (speech-to-speech), per la trasformazione e l’integrazione di input multimodali (multimodal-to-multimodal) o ancora per la trasformazione “any-to-any” tra differenti tipologie di input e output (testo, immagine, audio).