ElevenLabs spouští multimodální Image & Video beta

Nový nástroj ElevenLabs Image & Video (Beta) spojuje generování obrazu, videa a zvuku do jediné kreativní platformy.

Jeden ekosystém pro obraz, video a zvuk

Společnost ElevenLabs, dosud orientovaná hlavně na generování hlasů, zvuků a hudby pomocí AI, uvedla na začátku nového týdne novou platformu pro Image & Video (zatím v beta verzi), čímž se ElevenLabs stává platformou „pro všechno“.

Nový produkt je součástí ElevenLabs Creative Platform a má ambici pokrýt celý řetězec tvorby od prvního nápadu až po export finálního videa připraveného k publikování.

Introducing ElevenLabs Image & Video – the best audio, image and video models now in one platform.

Generate with leading models like Veo, Sora, Kling, Wan and Seedance, then enhance with the highest quality voices, music, and sound effects. pic.twitter.com/bdj0zhHq8h
— ElevenLabs (@elevenlabsio) November 17, 2025

V prostředí ElevenLabs mohou uživatelé nejdříve vytvořit vizuály, následně je ozvučit hlasy, hudbou a zvukovými efekty a nakonec vše propojit v nástroji Studio do uceleného příběhu.

Podle oficiální prezentace jde o krok směrem ke „skutečné multimodální tvorbě, kde se obraz, video a zvuk dají generovat a jemně doladit v jednom prostředí“.

Od storyboardu po produkční video

ElevenLabs staví Image & Video na integraci několika špičkových vizuálních modelů, které jsou běžně dostupné spíše jako samostatné služby. Pro statické obrázky platforma podporuje modely jako Nanobanana, Flux Kontext, GPT Image či Seedream, které lze využít na storyboardy, náhledové obrázky nebo jako podklad pro následné videoprojekty.

U videa se ElevenLabs opírá o špičkové generátory Veo, Sora, Kling, Wan a Seedance, které jsou známé schopností vytvářet detailní a dynamické klipy z textových promptů. Tyto výstupy lze v rámci platformy kombinovat do více záběrů, měnit jejich pořadí, vizuální styl, délku či kompozici a také využívat nástroje na upscaling pro vyšší rozlišení.

Klíčovou přidanou hodnotou oproti samostatným video modelům je hluboká integrace se silnou audio vrstvou ElevenLabs, která zahrnuje realistický text to speech, klonování hlasů a generování hudby.

V praxi to znamená, že tvůrce může přímo v jednom prostředí vygenerovat video, automaticky na něj nasadit lipsync s hlasy ElevenLabs a přidat individuálně navrženou hudební stopu či zvukové efekty.

Elevenlabs AI image and video has arrived.

Combined with Elevenlabs Studio, you can generate images, SFX and music all on a single timeline to enhance your creations.

In addition, they have added Lip Sync models as well!

Here's a quick video for how to get started. pic.twitter.com/ivvsjBcHKr
— Jerrod Lew (@jerrod_lew) November 17, 2025

Studio jako finální produkt

Po vygenerování obrázků a videí se projekt přesouvá do nástroje Studio, který slouží jako centrální střihová a zvuková pracovna. Uživatelé mohou v jedné časové ose přidávat namluvené voiceovery z knihovny hlasů nebo z vlastních hlasových klonů, komponovat background music a vrstvit zvukové efekty podle potřeb konkrétní kampaně či videa.

Studio tak umožňuje precizně doladit časování jednotlivých klipů, přestřihů a narace, což je klíčové u produktových videí, reklamních spotů i vzdělávacích formátů.

Výsledkem je export produkčně připraveného videa, které už nevyžaduje další úpravy v externích editačních softwarech a je vhodné pro okamžité použití na sociálních sítích, v kampaních nebo interních prezentačních materiálech.

Strategický posun k plné multimodalitě

Uvedení Image & Video posouvá ElevenLabs z pozice „pouze“ lídra v AI hlasech k širšímu ekosystému multimodální kreativity, kde audio tvoří jednu vrstvu nad obrazem a videem.

Firma tak vstupuje do prostoru, ve kterém už působí hráči jako Adobe či OpenAI s nástroji typu Firefly a Sora, ale odlišuje se důrazem na propojení špičkového zvuku s vizí „all in one“ kreativní infrastruktury.