Alibaba uvádí AI model Qwen3-Omni

Technologická divize Alibaba uvádí Qwen3-Omni, přelomový model spojující text, obraz i zvuk.

Přelomová omnimodální technologie

Čínský technologický gigant Alibaba prostřednictvím své divize umělé inteligence Qwen představil nový model Qwen3-Omni. Společnost ho označuje za první nativně end-to-end omnimodální model umělé inteligence, což znamená, že dokáže zpracovávat text, obrázky, zvuk i video v rámci jediné architektury.

🚀 Introducing Qwen3-Omni — the first natively end-to-end omni-modal AI unifying text, image, audio & video in one model — no modality trade-offs!

🏆 SOTA on 22/36 audio & AV benchmarks
🌍 119L text / 19L speech in / 10L speech out
⚡ 211ms latency | 🎧 30-min audio… pic.twitter.com/qGn34N7Xvd
— Qwen (@Alibaba_Qwen) September 22, 2025

Tento přístup má podle tvůrců eliminovat kompromisy ve výkonu, které jsou běžné při spojování více specializovaných modelů.
Představení tohoto nástroje staví společnost Alibaba a Čínu do ještě silnější pozice v globálním souboji o dominanci v oblasti umělé inteligence, kde hlavní roli dosud hrály firmy z USA.

Špičkový výkon a otevřený kód pro vývojáře

Model Qwen3-Omni se může pochlubit špičkovým výkonem, když dosáhl nejlepších výsledků ve 22 z 36 hodnoticích testů zaměřených na zpracování zvuku a audiovizuálního obsahu.

Mezi jeho klíčové vlastnosti patří nízká odezva jen 211 milisekund a schopnost analyzovat a porozumět až 30minutovému zvukovému záznamu.

Alibaba se navíc rozhodla zpřístupnit část technologie jako open-source. Vývojářům po celém světě jsou k dispozici modely Qwen3-Omni-30B-A3B-Instruct, Qwen3-Omni-30B-A3B-Thinking a Qwen3-Omni-30B-A3B-Captioner. Poslední jmenovaný je specializovaný na tvorbu popisů s nízkou mírou nepřesností, takzvaných halucinací.

Model můžete vyzkoušet na stránkách chat.qwen.ai.