Nový specializovaný model od Googlu dokáže autonomně pracovat s webovými stránkami a aplikacemi bez asistence člověka.
Společnost Google DeepMind oficiálně představila nový specializovaný model umělé inteligence s názvem Gemini 2.5 Computer Use. Tento nástroj je postavený na vizuálních a logických schopnostech modelu Gemini 2.5 Pro a jeho hlavním cílem je umožnit AI agentům přímo interagovat s grafickým uživatelským rozhraním (GUI).
Namísto spoléhání se na strukturované API dokáže nový model vykonávat úkoly stejně jako člověk – klikáním, psaním, vyplňováním formulářů nebo posouváním obsahu na obrazovce.
Model funguje v cyklickém procesu. Na základě požadavku uživatele, snímku obrazovky a historie akcí vygeneruje příkaz, například „klikni na tlačítko“ nebo „zadej text“.
Tento příkaz následně provede klientský software, vytvoří se nová snímka obrazovky a celý cyklus se opakuje, dokud není úkol dokončen.
Primárně je optimalizovaný pro webové prohlížeče, ale ukazuje silný potenciál i při ovládání mobilních aplikací. Jeho schopnosti už byly nasazeny v projektech jako Project Mariner nebo Firebase Testing Agent, uvádí Google na svém blogu.
Výkon, bezpečnost a první ohlasy
Podle zveřejněných benchmarků Gemini 2.5 Computer Use překonává konkurenční řešení, a to při nižší latenci.
Google si je vědom i bezpečnostních rizik, která s sebou přinášejí AI agenti s přístupem k ovládání počítače. Proto do modelu implementoval několik ochranných mechanismů. Patří mezi ně služba, která posuzuje každou navrženou akci před jejím vykonáním, nebo možnost vyžadovat potvrzení od uživatele při rizikových operacích – například finančních transakcích či přihlašování.
Model již testují první partneři, kteří hlásí výrazná zlepšení ve svých pracovních postupech. Společnost Poke.com, která vyvíjí AI asistenta pro komunikaci, uvedla:
„Gemini 2.5 Computer Use je daleko před konkurencí, často je o 50 % rychlejší a přesnější než ostatní řešení, která jsme testovali.“
Podobně se vyjádřila i firma Autotab, podle níž model překonal ostatní ve spolehlivém zpracování kontextu i ve složitých případech a zvýšil výkon až o 18 %.
Vývojáři v USA i po celém světě mají k modelu přístup v testovací verzi prostřednictvím Gemini API v platformách Google AI Studio a Vertex AI.






