Google ha svelato il suo nuovo modello IA Gemini, che batte il GPT-4 di OpenAI e gli esseri umani su quasi tutti i test. Capisce immagini, video, audio, testo e codice, e imparerà altri sensi.
Con un punteggio del 90,0% sul test MMLU (massive multitask language understanding), è il primo modello a superare gli esseri umani (89,8%), così come ChatGPT-4 (86,4%) in una serie di compiti di 57 materie tra cui matematica, fisica, storia, diritto, medicina ed etica. Gemini è nato multimodale: sa usare altri media oltre al testo. Così, coglie il tono e la sfumatura di video, audio e immagini.
Gemini Ultra, Pro e Nano
Gemini Ultra è previsto per il lancio pubblico l’anno prossimo, una volta che sia stato più accuratamente verificato per questioni di sicurezza e allineamento. È allora che inizieremo ad avere un senso adeguato di dove supera il GPT e dove non è all’altezza. Gemini Nano, invece, è già disponibile sullo smartphone Pixel 8 Pro, e inizierà a essere distribuito su altri.
Gemini Pro, però, è disponibile proprio ora, gratuitamente, a chiunque abbia un account Google tramite il servizio Google Bard. È una versione ridotta, purtroppo, con solo la possibilità di caricare immagini anziché documenti, audio o video, ma Google dice che acquisirà nuove capacità presto. Ha già accesso, con il tuo permesso, a operare sul tuo Gmail, Google Drive e Google Docs, così come prenotazioni di voli e hotel, Google Maps e YouTube, dove ti permette di interagire e fare domande sui video.
E sì, Google sta lavorando per integrare Gemini con il suo assistente vocale, così come con il suo motore di ricerca, per creare un’esperienza utente più fluida e intelligente.
Gemini aiuterà con i compiti quotidiani sui dispositivi Google, a partire dagli smartphone Pixel. E presto avrà anche il senso del "tatto", per capire il mondo attraverso la robotica.