Nový model O1 přináší průlomovou multimodální architekturu a eliminuje potřebu přepínání nástrojů při tvorbě videa.
Společnosti ComfyAI oficiálně zpřístupnily veřejnosti svůj nejnovější velký video model O1 postavený na Kling (stejnojmenném nástroji pro tvorbu AI videí), který představuje zásadní posun v oblasti generativní umělé inteligence.
Model, který oficiální zdroje označují jako „první sjednocený multimodální video model na světě“, je postaven na architektuře MVL (Multimodal Vision Language). Tato technologie umožňuje zpracovat text, obraz a video v jediném vstupním poli, čím odstraňuje bariéry mezi různými formáty zadání.
Klíčovou inovací modelu Kling O1 je integrace procesu Chain-of-Thought (myšlenkový řetězec) do tvorby videa, což je technika dosud známá především z pokročilých jazykových modelů.
Produktový ředitel ComfyAI vysvětlil, že tato technologie využívá konstrukci subjektu z více úhlů pohledu, čímž řeší jeden z největších problémů současných AI videí – tzv. feature drift (posun rysů).
„Model dokáže uzamknout charakteristiky lidí a objektů, čímž zajišťuje kontinuitu i při složitých kamerových přechodech ve scénách s více subjekty,“ uvádí se ve vyjádření společnosti.
Na rozdíl od běžného krokového procesu v odvětví zvládá O1 úlohy jako text-to-video, image-to-video či lokální úpravy v jednom kroku, bez nutnosti přepínat rozhraní.
Dostupnost a dopad na kreativní průmysl
Model O1 je momentálně dostupný k vyzkoušení prostřednictvím platformy ComfyApp nebo přes služby jako Higgsfield, Fal či ElevenLabs.
Společnost cílí především na tvůrce krátkých videí, reklamní týmy a individuální uživatele, přičemž v blízké budoucnosti plánuje zpřístupnit API i pro platformy třetích stran.
Analytici předpokládají, že příchod O1 může výrazně snížit vstupní bariéru pro profesionální video produkci. Otázkou však zůstává, zda se modelu podaří najít rovnováhu mezi vysokou kvalitou generování a nákladovou efektivitou — což ukáže až reálný trh.







