Google I/O 2024 přinesla řadu vzrušujících oznámení o nových produktech a vylepšeních v oblasti umělé inteligence. CEO Google a Alphabet Sundar Pichai prezentoval Gemini éru, která přináší multimodální a dlouhokontextové modely, AI agenty a mnoho dalšího. V tomto článku shrnujeme klíčové novinky a benefity, které každá z nich přináší, spolu s informacemi o jejich dostupnosti.
Gemini 1.5 Pro a Gemini 1.5 Flash
Google představil aktualizace modelů Gemini 1.5 Pro a Gemini 1.5 Flash. Gemini 1.5 Pro nyní disponuje 2 miliony tokenů v kontextovém okně, což umožňuje zpracovávat obrovské množství dat. To zahrnuje schopnost analyzovat dlouhé dokumenty, videoobsah či rozsáhlé kódy. Tento model je dostupný pro vývojáře v privátní verzi od dnešního dne a bude obecně dostupný v červnu.
Nový model Gemini 1.5 Flash je optimalizovaný pro rychlé a frekventované úkoly, kde je důležitá rychlost a efektivita. Jeho kontextové okno také podporuje až 1 milion tokenů a je navržený pro úkoly jako je sumarizace, chat aplikace, generování titulků k videím a extrakce dat z dlouhých dokumentů a tabulek. Gemini 1.5 Flash je dostupný od dnešního dne ve více než 200 zemích a teritoriích.
Generativní AI ve vyhledávání
Vyhledávání od Google se stává ještě inteligentnějším díky generativní AI. Nová funkce AI Overviews poskytuje rychlé a přesné odpovědi na složité otázky, čímž usnadňuje plánování a výzkum. Tato funkce bude postupně zaváděna v USA tento týden a do konce roku by měla být dostupná pro více než miliardu lidí.
AI-organizované výsledky hledání nabízejí širokou škálu perspektiv a obsahových typů, což umožňuje snadnější hledání inspirace. Tato novinka bude brzy dostupná pro anglické vyhledávání v USA.
Ask Photos
Google Photos obdrželo významné vylepšení s funkcí Ask Photos, která využívá model Gemini. Tato funkce umožňuje intuitivní vyhledávání fotografií a vzpomínek pomocí přirozeného jazyka. Uživatelé mohou například požádat o zobrazení nejlepších fotografií z národních parků, které navštívili, nebo vyhledat specifické události, jako jsou narozeninové oslavy. Ask Photos bude experimentálně zaváděna v průběhu léta.
VideoFX a ImageFX
Generativní média se stávají dostupnějšími s nástroji VideoFX, ImageFX a MusicFX. VideoFX umožňuje vytvářet videoklipy na základě textových promptů. Tato funkce je podporována modelem Veo, nejpokročilejším generativním video modelem od Google DeepMind, který umožňuje vytvářet obsah s emocionálními nuancemi a výraznými filmovými efekty. VideoFX je k dispozici v soukromé předpremiéře v USA, kde se mohou zájemci zapsat na čekací listinu.
ImageFX poskytuje nové možnosti úpravy obrázků a generování fotografií s vysokou kvalitou. Nově jsou k dispozici editační nástroje, které umožňují přidávat, odstraňovat nebo měnit specifické prvky v obrázcích pouhým přejetím štětcem. Tato funkce je dostupná již dnes.
MusicFX přináší DJ Mode, který umožňuje mixovat hudbu a vytvářet nové hudební skladby. Tato funkce byla poprvé představena na launch party pro album Djesse Vol. 4 od Jacoba Colliera a je nyní k dispozici pro vyzkoušení.
LearnLM pro Vzdělávání
LearnLM je nová rodina modelů zaměřená na vzdělávání, která byla vytvořena na základě výzkumu vzdělávacích metod. Tyto modely jsou integrovány do produktů jako Google Search a YouTube, kde pomáhají uživatelům hlouběji porozumět složitým tématům a usnadňují učení. Na Androidu Circle to Search pomáhá řešit matematické a fyzikální úlohy, a v Gemini bude brzy dostupný Learning coach, který poskytuje vedení krok za krokem a praxe ve formě kvízů a her.
AI agenti a Project Astra
Google pracuje na vývoji AI agentů, kteří dokáží plánovat a vykonávat úkoly za uživatele. Projekt Astra představuje vizi budoucích AI asistentů, kteří budou schopni porozumět a reagovat na komplexní a dynamické prostředí, a zároveň se budou učit a přizpůsobovat potřebám uživatelů. Některé z těchto schopností budou později letos dostupné v aplikaci Gemini a ve webové verzi.
Nové modely pro generativní média
Google představil dva nové modely pro generativní média: Veo a Imagen 3. Veo je nejpokročilejší model pro generování videí ve vysokém rozlišení, zatímco Imagen 3 je nejkvalitnější model pro text-to-image generování. Oba modely nabízejí nevídanou úroveň detailů a kreativní kontroly. Veo bude dostupný v soukromé předpremiéře ve VideoFX a Imagen 3 bude brzy dostupný ve Vertex AI.






Experience Google AI na Androidu
S integrací Google AI přímo do operačního systému Android, miliardy uživatelů mohou nyní komunikovat se svými zařízeními zcela novými způsoby.
Circle to Search nyní pomáhá studentům s domácími úkoly. Tato funkce umožňuje studentům získat podrobné instrukce krok za krokem pro řešení matematických a fyzikálních úloh přímo z jejich telefonů a tabletů. Circle to Search je již dnes dostupná na více než 100 milionech zařízení a do konce roku by měla být dostupná na dvojnásobném počtu.
Gemini na Androidu, nový typ asistenta, používá generativní AI k tomu, aby pomohl uživatelům být kreativnější a produktivnější. Brzy bude možné zobrazit Gemini přímo nad aplikacemi, což umožní snadnější používání funkcí, jako je přetahování generovaných obrázků do Gmailu nebo Google Messages a vyhledávání informací ve videích na YouTube. Tato aktualizace bude postupně zaváděna na stovky milionů zařízení v příštích měsících.
Multimodální schopnosti Gemini Nano budou dostupné na zařízeních Pixel ještě letos. To umožní telefonu zpracovávat nejen textové vstupy, ale také chápat informace v kontextu jako jsou obrázky, zvuky a mluvený jazyk.
TalkBack, funkce pro nevidomé a slabozraké uživatele, bude aktualizována o multimodální schopnosti Gemini Nano, což umožní poskytovat bohatší a jasnější popisy obrázků. Tato aktualizace bude dostupná ještě letos a bude fungovat i bez připojení k internetu.
Google také testuje novou funkci, která využívá Gemini Nano k poskytování upozornění na podezřelé podvody během telefonních hovorů. Tato funkce bude poskytovat upozornění v reálném čase, pokud detekuje vzory konverzací běžně spojené s podvody. Tato ochrana se odehrává přímo na zařízení, takže vaše konverzace zůstávají soukromé. Více informací o této funkci bude sdíleno později tento rok.
Závěr
Google I/O 2024 představila řadu inovací, které posouvají hranice toho, co umělá inteligence může nabídnout. S novými modely Gemini, pokročilými funkcemi ve vyhledávání, vylepšeními v Google Photos a nástroji pro generativní média se Google snaží učinit AI užitečnou a přístupnou pro všechny. Tyto technologie mají potenciál zásadně změnit způsob, jakým pracujeme, učíme se a tvoříme. Bude zajímavé, jak se technologie budou vyvíjet nadále. Je zřejmé, že jsme na samém počátku, kde už tak dosahujeme dříve zcela nemyslitelných výsledků. O tom, jaké to bude za 10 let si můžeme nechat zdát.
Zdroje:
- Reid, L. (2024, May 14). Generative AI in search: Let google do the searching for you. Google. https://blog.google/products/search/generative-ai-google-search-may-2024/?ref=futuretools.io
- Selier, J. (2024, May 14). Ask photos: A new way to search your photos with Gemini. Google. https://blog.google/products/photos/ask-photos-google-io-2024/?ref=futuretools.io
- Hassabis, D. (2024, May 14). Gemini breaks new ground with a faster model, longer context, AI agents and more. Google. https://blog.google/technology/ai/google-gemini-update-flash-ai-assistant-io-2024/#gemini-model-updates?ref=futuretools.io
- Gomes, B. (2024, May 14). How generative AI expands curiosity and understanding with learnlm. Google. https://blog.google/outreach-initiatives/education/google-learnlm-gemini-generative-ai/?ref=futuretools.io
- Iljic, T. (2024, May 14). Introducing videofx, plus new features for imagefx and musicfx. Google. https://blog.google/technology/ai/google-labs-video-fx-generative-ai/?ref=futuretools.io
- Iljic, T. (2024a, May 14). Introducing videofx, plus new features for imagefx and musicfx. Google. https://blog.google/technology/ai/google-labs-video-fx-generative-ai/
- Collins, E. (2024, May 14). New generative media models and tools, built with and for creators. Google. https://blog.google/technology/ai/google-generative-ai-veo-imagen-3/#Imagen-3?ref=futuretools.io
- Collins, E. (2024a, May 14). New generative media models and tools, built with and for creators. Google. https://blog.google/technology/ai/google-generative-ai-veo-imagen-3/
- Hsiao, S. (2024, May 14). Get more done with gemini: Try 1.5 pro and more intelligent features. Google. https://blog.google/products/gemini/google-gemini-update-may-2024/?ref=futuretools.io#context-window
- Samat, S. (2024, May 14). Experience google AI in even more ways on Android. Google. https://blog.google/products/android/google-ai-android-update-io-2024/#gemini-on-android
- Pichai, S. (2024, May 14). Google I/O 2024: An I/O for a new generation. Google. https://blog.google/inside-google/message-ceo/google-io-2024-keynote-sundar-pichai/#search?ref=futuretools.io







