Technologická divize Alibaba uvádí Qwen3-Omni, přelomový model spojující text, obraz i zvuk.
Přelomová omnimodální technologie
Čínský technologický gigant Alibaba prostřednictvím své divize umělé inteligence Qwen představil nový model Qwen3-Omni. Společnost ho označuje za první nativně end-to-end omnimodální model umělé inteligence, což znamená, že dokáže zpracovávat text, obrázky, zvuk i video v rámci jediné architektury.
Tento přístup má podle tvůrců eliminovat kompromisy ve výkonu, které jsou běžné při spojování více specializovaných modelů.
Představení tohoto nástroje staví společnost Alibaba a Čínu do ještě silnější pozice v globálním souboji o dominanci v oblasti umělé inteligence, kde hlavní roli dosud hrály firmy z USA.
Špičkový výkon a otevřený kód pro vývojáře
Model Qwen3-Omni se může pochlubit špičkovým výkonem, když dosáhl nejlepších výsledků ve 22 z 36 hodnoticích testů zaměřených na zpracování zvuku a audiovizuálního obsahu.
Mezi jeho klíčové vlastnosti patří nízká odezva jen 211 milisekund a schopnost analyzovat a porozumět až 30minutovému zvukovému záznamu.
Alibaba se navíc rozhodla zpřístupnit část technologie jako open-source. Vývojářům po celém světě jsou k dispozici modely Qwen3-Omni-30B-A3B-Instruct, Qwen3-Omni-30B-A3B-Thinking a Qwen3-Omni-30B-A3B-Captioner. Poslední jmenovaný je specializovaný na tvorbu popisů s nízkou mírou nepřesností, takzvaných halucinací.
Model můžete vyzkoušet na stránkách chat.qwen.ai.






