È l’intelligenza artificiale la protagonista unica e assoluta del Google I/O 2024. Sul palco, il Ceo Sundar Pichai, ha ricordato come, un anno fa, l’azienda avesse raccontato al pubblico i progetto Gemini, una famiglia di modelli di intelligenza artificiale nativamente multimodali in grado di ragionare su testo, immagini, video, codice e altro ancora. Oggi, Gemini è una realtà. Google è entrata nell’era Gemini che si pone come obiettivo finale quello di rendere l’IA utile per tutti.
Tutti i prodotti Google con oltre due miliardi di utenti oggi sono integrati con Gemini.
L’IA generativa nella Ricerca
Il nuovo modello Gemini personalizzato – in grado di ragionare in più fasi, di pianificare e di utilizzare la multimodalità – combinato con il motore di ricerca best in class, sarà presto in grado di porre domande complesse e in più fasi, di personalizzare i risultati della ricerca e persino di porre domande attraverso video.
Gli utenti potranno chiedere qualsiasi cosa e Google si occuperà di fare ricerche, pianificare e raccogliere idee per loro. E quando serve trovare una risposta in fretta, ma non si ha il tempo di esaminare tutte le informazioni a disposizione, la Ricerca può farlo con i riepiloghi dell’AI.
Chiedi a Foto
Ogni giorno vengono caricate oltre sei miliardi di foto su Google Foto. Grazie alle funzionalità multimodali di Gemini, Big G sta ridefinendo il modo in cui è possibile cercare le foto e i video. Chi vuole trovare un ricordo specifico o informazioni nascoste nella galleria non dovrà che interrogare Chiedi a Foto. Chiedendo: “Mostrami la foto migliore tra quelle dei parchi nazionali che ho visitato”, Google Foto vi mostrerà quello che state cercando, senza bisogno di scrollare.
Spesso scattiamo delle foto per ricordare momenti felici o dettagli importanti, che potrebbero però essere dimenticati. Chiedi a Foto può recuperare queste informazioni quando chiedete informazioni legate alla vostra vita, come ad esempio dove siete andati in campeggio l’anno scorso o quando scadono i vostri voucher.
Gemini per Google Workspace
Le funzionalità di Gemini 1.5 saranno disponibili per un maggior numero di utenti e si integreranno nel pannello laterale di Gmail, Documenti, Drive, Presentazioni e Fogli. Le funzionalità di Gemini saranno aggiunte anche all’app mobile di Gmail.
Google lancerà presto nuove funzionalità nell’app mobile di Gmail per poter accedere facilmente a Gemini e rimanere produttivi anche in movimento. In tal modo, sarà possibile ricevere riassunti delle conversazioni mail (così da superare l’ostacolo di gestire la posta sugli schermi più piccoli degli smartphone), ottenere suggerimenti di risposta più dettagliati e personalizzati in base al contesto della propria conversazione email e funzioni del tipo “riassumi questa email”, “elenca i prossimi passi” oppure “suggerisci una risposta”.
In arrivo anche nuovi supporti linguistici per le funzionalità di Gemini per Workspace. Nelle prossime settimane, Aiutami a scrivere in Gmail e Documenti supporterà lo spagnolo e il portoghese su desktop. Altre lingue si aggiungeranno in futuro.
Gemini per Android
Google sta integrando l’intelligenza artificiale nel sistema operativo Android. Gli studenti ora possono avere un supporto nel fare i compiti cerchiando i problemi con Cerchia e Cerca. Inoltre, l’overlay di Gemini fornirà suggerimenti creativi relativi a ciò che appare sullo schermo (riassunto di un PDF o “chiedi questo video”), mentre TalkBack con Gemini sarà in grado di fornire descrizioni di immagini ancora più dettagliate.
Gemini 1.5 Pro
Google introdurrà Gemini 1.5 Pro per gli abbonati di Gemini Advanced in più di 35 lingue, insieme a una finestra contestuale da 1 milione di token – la più lunga di qualsiasi chatbot consumer disponibile al mondo. Ciò significa che il modello è in grado di comprendere più informazioni, come ad esempio un PDF di 1500 pagine e, presto, 30.000 righe di codice e un video di un’ora.
È inoltre possibile ricevere risposte e informazioni in merito a documenti di grandi dimensioni, ad esempio comprendere i dettagli del regolamento sugli animali domestici all’interno del contratto di affitto oppure confrontare gli argomenti principali di vari lunghi articoli di ricerca. Inoltre, presto Gemini Advanced potrà essere utilizzato per l’analisi dei dati, individuando insight e creando visualizzazioni grafiche a partire da file di dati caricati, come fogli di lavoro.
Gli abbonati a Gemini Advanced avranno presto accesso anche a Live, una nuova esperienza di conversazione mobile. Con Live è possibile parlare con Gemini scegliendo tra diverse voci dall’audio naturale. È possibile parlare al proprio ritmo e persino interrompere facendo domande, rendendo le conversazioni più intuitive.
Gemini parla italiano
Infine, una buona notizia: a partire da oggi Gemini Advanced è disponibile in lingua italiana.
I modelli del futuro
Si lavora anche ai modelli del futuro: presentati maggiori dettagli su Gemini 1.5 Flash, un modello pensato per essere veloce e efficiente sulla base del feedback degli utenti, con latenze più basse; e Project Astra, la nostra visione per la prossima generazione di assistenti AI, un agente reattivo in grado di comprendere e reagire al contesto delle conversazioni.
Veo e Imagen 3
Google ha presentato Veo, il modello pensato per generare video ad alta definizione, e Imagen 3, il nostro modello text-to-image di altissima qualità. Veo genera video di alta qualità con una risoluzione di 1080p che possono superare il minuto, con molti stili visivi e cinematografici diversi.
Imagen 3 è un modello text-to-image di alta qualità. Genera un elevato livello di dettaglio, creando immagini realistiche e naturali, in cui artefatti visivi sono molto meno numerosi rispetto ai nostri modelli precedenti.