Google uvádí Gemini 2.5: AI ovládá počítač sama

Nový specializovaný model od Googlu dokáže autonomně pracovat s webovými stránkami a aplikacemi bez asistence člověka.

Společnost Google DeepMind oficiálně představila nový specializovaný model umělé inteligence s názvem Gemini 2.5 Computer Use. Tento nástroj je postavený na vizuálních a logických schopnostech modelu Gemini 2.5 Pro a jeho hlavním cílem je umožnit AI agentům přímo interagovat s grafickým uživatelským rozhraním (GUI).

Our new Gemini 2.5 Computer Use model is now available in the Gemini API, setting a new standard on multiple benchmarks with lower latency. These are early days, but the model’s ability to interact with the web – like scrolling, filling forms + navigating dropdowns – is an… pic.twitter.com/4PJoat9bwI
— Sundar Pichai (@sundarpichai) October 7, 2025

Namísto spoléhání se na strukturované API dokáže nový model vykonávat úkoly stejně jako člověk – klikáním, psaním, vyplňováním formulářů nebo posouváním obsahu na obrazovce.

Model funguje v cyklickém procesu. Na základě požadavku uživatele, snímku obrazovky a historie akcí vygeneruje příkaz, například „klikni na tlačítko“ nebo „zadej text“.
Tento příkaz následně provede klientský software, vytvoří se nová snímka obrazovky a celý cyklus se opakuje, dokud není úkol dokončen.

Primárně je optimalizovaný pro webové prohlížeče, ale ukazuje silný potenciál i při ovládání mobilních aplikací. Jeho schopnosti už byly nasazeny v projektech jako Project Mariner nebo Firebase Testing Agent, uvádí Google na svém blogu.

Introducing Gemini 2.5 Computer Use 🖥️🤖

– Control UIs based with vision understanding and reasoning
– Use for web and Android control
– Try it now with Browserbase or locally

I'm super excited about high-impact use cases this model unlocks. Share what you build with us! pic.twitter.com/Wv31GQ8ASR
— Omar Sanseviero (@osanseviero) October 7, 2025

Výkon, bezpečnost a první ohlasy

Podle zveřejněných benchmarků Gemini 2.5 Computer Use překonává konkurenční řešení, a to při nižší latenci.

Google si je vědom i bezpečnostních rizik, která s sebou přinášejí AI agenti s přístupem k ovládání počítače. Proto do modelu implementoval několik ochranných mechanismů. Patří mezi ně služba, která posuzuje každou navrženou akci před jejím vykonáním, nebo možnost vyžadovat potvrzení od uživatele při rizikových operacích – například finančních transakcích či přihlašování.

Model již testují první partneři, kteří hlásí výrazná zlepšení ve svých pracovních postupech. Společnost Poke.com, která vyvíjí AI asistenta pro komunikaci, uvedla:

„Gemini 2.5 Computer Use je daleko před konkurencí, často je o 50 % rychlejší a přesnější než ostatní řešení, která jsme testovali.“

Podobně se vyjádřila i firma Autotab, podle níž model překonal ostatní ve spolehlivém zpracování kontextu i ve složitých případech a zvýšil výkon až o 18 %.

Vývojáři v USA i po celém světě mají k modelu přístup v testovací verzi prostřednictvím Gemini API v platformách Google AI Studio a Vertex AI.