In occasione dell’evento Search On di Google in cui sono state presentate le ultime novità in arrivo e come Google sta reimmaginando i suoi prodotti informativi principali per aiutare le persone a dare un senso al mondo in modo più naturale e intuitivo. L'obiettivo è fornire agli utenti tutte le informazioni possibili per trovare esattamente ciò che stanno cercando combinando immagini, suoni, testo e voce, proprio come fanno le persone nella vita di tutti i giorni.
"Per oltre vent'anni, ci siamo dedicati alla nostra mission di organizzare le informazioni del mondo e renderle universalmente accessibili e utili", ha scritto l'azienda sul suo blog ufficiale a tema Search On. "Abbiamo iniziato con la ricerca testuale, ma nel corso del tempo abbiamo continuato a creare modalità di ricerca più naturali e intuitive: ora è possibile cercare direttamente con la nostra fotocamera o fare una domanda ad alta voce".
Ricerca visiva più naturale e traduzione anche da immagini
Per Google siamo arrivati all'era della ricerca visiva. Infatti, le persone usano Lens per rispondere a 8 miliardi di domande ogni mese. Quindi Big G mira a rendere la ricerca visiva ancora più naturale con la ricerca multipla, un modo completamente nuovo di effettuare ricerche utilizzando contemporaneamente immagini e testo, in modo simile a come accadrebbe a indicare qualcosa e chiederne a un amico. La ricerca multipla è stata introdotta all'inizio di quest'anno come beta negli Stati Uniti e presto verrà estese a più di 70 lingue nei prossimi mesi.
Uno degli aspetti più potenti della comprensione visiva è la sua capacità di abbattere le barriere linguistiche. Grazie ai progressi dell'intelligenza artificiale, oltre alla traduzione del testo l'obiettivo è tradurre le immagini. Le persone utilizzano già Google per tradurre il testo delle immagini oltre 1 miliardo di volte al mese, in più di 100 lingue, in modo da poter leggere istantaneamente vetrine, menu, insegne e altro ancora.
Ma spesso è la combinazione di parole e contesto, come le immagini di sfondo, a dare un significato. Ora l'azienda è in grado di fondere il testo tradotto con l'immagine di sfondo grazie a una tecnologia di apprendimento automatico chiamata Generative Adversarial Networks (GAN). Se si punta la fotocamera su una rivista in un'altra lingua, ad esempio, il testo tradotto si sovrappone in modo realistico alle immagini sottostanti.
Google Maps con la visualizzazione immersiva
Dulcis in fundo, grazie ai progressi della computer vision e dei modelli predittivi, il colosso di Mountain View sta reimmaginando completamente la definizione di “mappa”. Ciò significa che la sua mappa 2D si evolverà in una visione multidimensionale del mondo reale, che vi permetterà di vivere un luogo come se foste lì. Proprio come il traffico in tempo reale nella navigazione ha reso Google Maps molto più utile, ci sarà un altro cambiamento significativo nella mappatura, dando vita a informazioni utili, come il meteo e l'affollamento di un luogo, con la visualizzazione immersiva in Google Maps. Con la visualizzazione immersiva, l'utente viene aiutato a farsi un'idea di un luogo prima ancora di andarci.
Supponiamo che siate interessati a incontrare un amico in un ristorante. È possibile ingrandire il quartiere e il ristorante per farsi un'idea di come potrebbe essere alla data e all'ora in cui si intende incontrarsi, visualizzando elementi come il tempo e la presenza di persone. Fondendo le immagini avanzate del mondo con i modelli predittivi, Google può darvi un'idea di come sarà un posto domani, la prossima settimana o addirittura il mese prossimo. Questi sono stati i principali annunci al Search On, anche se Big G li ha definiti solo l'inizio di una serie di operazione mirate a trasformare i suoi prodotti per andare oltre la tradizionale casella di ricerca.