Na generaci obrázků na základě textových příkazů jsme si již docela zvykli. Koneckonců modely jako Midjourney, Stable Diffusion či LeonardoAI tu už s námi jsou nějakou tu dobu. Na co ale nejspíš většina z nás nebyla připravena je nový model od společnosti OpenAI pod názvem „Sora“, který z pouhého textového příkazu dokáže vytvořit plynulé video dlouhé až 60 sekund ve full HD rozlišení s neuvěřitelnou dávkou detailu.
Upřímně jsem předpokládal již dříve, že postupně se video průmysl bude pomalu transformovat pomocí AI do zcela jiné podoby. Že to ale bude až takhle rychle, to mě opravdu zaskočilo.
Introducing Sora, our text-to-video model.
— OpenAI (@OpenAI) February 15, 2024
Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. https://t.co/7j2JN27M3W
Prompt: “Beautiful, snowy… pic.twitter.com/ruTEWn87vf
Jak jsem již řekl, včera v době večerní OpenAI na svém X profilu uveřejnila představení jejich nového modelu Sora. Jedná se tak o jejich doposud nejnovější průlom v oblasti umělé inteligence, který má potenciál radikálně změnit způsob, jakým vnímáme a tvoříme video obsah.
60sekundová videa ve full HD
Tak zaprvé, Sora je difúzní transformativní model, který funguje jako text-to-video model. Sora umožňuje generování videí s rozlišením od 1920×1080 (widescreen) až po 1080×1920 (portrét) a vše mezi tím. Videa se navíc mohou dostat na délku až 60 sekund, přičemž je zde zachována kvalita obrazu, detailnost a plynulost obrazu.
Simulace reálného světa
Díky schopnosti modelu simulovat reálny svět, včetně jeho fyzikálních vlastností, dokáže velmi precizně vygenerovat realistickou scénu. Samozřejmě model není bez chyb, a proto se zde pořád dají najít chyby v podobě špatné simulace fyziky objektů (například roztříštění skla) či zachování stavu objektů, i když vyjdou z obrazu – například, když nakousnutý burger vyjde z obrazu, tak poté, co se na scéně opět objeví, by měl být pořád nakousnutý stejným způsobem.
Možnost generování obrázku v rozlišení 2048×2048 pixelů a jeho animace
Sora však není jen o generování videa. Model totiž dokáže generovat i statické obrázky v rozlišení až 2048×2048 pixelů. Tímto ale nekončí, obrázky poté můžete nechat zanimovat, tj. vytvořit z nich video podobně, jako to dělá platforma Runway. Pochopitelně můžete nechat animovat i svůj obrázek. Vygenerovali jste si nějaký velmi pěkný obrázek z Midjourney a chtěli byste z něj udělat krátké video? Není problém.




Rozšíření existujících videí
Stejně jako do modelu můžete nahrát obrázek, není problém zde nahrát i video. Model totiž nabízí možnost rozšířit video jak do minulosti, tak do budoucnosti. Co to znamená? Jednoduše pakliže budete mít problém s přílišnou krátkostí videa, budete ho moci rozšířit jak do budoucnosti, tj. vygenerovat rozšíření pro konec videa, tak do minulosti, tj. vygenerovat scénu, která předchází začátku videa.
Inovativní využití patchů a titulkování
Jak jsem již zmínil Sora představuje difúzní model, který má za úkol generovat video z počátečního stavu, jež připomíná statický šum, a postupně ho transformuje odstraněním šumu v mnoha krocích. Tento proces umožňuje modelu generovat celá videa najednou nebo prodloužit již vygenerovaná videa, čímž efektivně řeší problém s udržením konzistence objektu, i když je dočasně mimo záběr.
Jak z chaotického šumu vzniká realistický obrázek?
Koncept šumu ve vztahu k difúzním modelům, jako je Sora, je klíčový pro pochopení, jak tyto modely generují obsah z textových pokynů. V kontextu Sory, difúzní model začíná proces generování videa z počátečního obrazu, který je esenciálně plný šumu – vizuálně se může jevit jako statický šum nebo náhodná kolekce pixelů bez smysluplného vzoru nebo struktury.

Obrázek 1 – Jak ze šumu vzniká obrázek
Difúzní proces, který Sora využívá, lze přirovnat k postupnému čištění nebo odstraňování tohoto šumu přes mnoho kroků. Každý krok procesu jemně upravuje obraz, snižuje šum a postupně zavádí strukturu a detaily, dokud se nevytvoří konečné video, které odpovídá zadanému textovému popisu. Tento postupný přechod od náhodného šumu k vysoko kvalitnímu obrazu je základem schopnosti modelu generovat složité a detailní vizuální scény.
Šum v tomto kontextu není vnímán negativně; naopak, je zásadním prvkem, který umožňuje modelu „naučit se“ generovat obsah. Začínání s náhodně rozmístěným šumem dává modelu možnost postupně zlepšovat a upřesňovat generovaný obsah, dokud neodpovídá požadované představě. Tento proces je analogický k umělecké technice, kde umělec začíná s neuspořádaným plátnem a postupně přidává vrstvy barvy, dokud nevznikne kompletní dílo.
Prompt: “A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. she wears a black leather jacket, a long red dress, and black boots, and carries a black purse. she wears sunglasses and red lipstick. she walks confidently and casually.… pic.twitter.com/cjIdgYFaWq
— OpenAI (@OpenAI) February 15, 2024
Patche jako základ úspěchu
Podobně jako modely GPT, Sora využívá architekturu transformátoru, což jí umožňuje dosáhnout výjimečné škálovatelnosti. Video a obrazový obsah reprezentuje jako kolekce menších datových jednotek nazývaných patche, které jsou analogické tokenům v GPT. Díky sjednocení způsobu reprezentace dat může model efektivně zpracovávat širší spektrum vizuálních dat než kdy předtím, což zahrnuje různé délky, rozlišení a poměry stran.
Jak vůbec patche fungují, a co to přesně je?
Asi si možná kladete otázku, co to ty „patche“ vůbec jsou. Tak tedy patche jsou malé datové dávky, které reprezentují části obrazu nebo videa.
Patche slouží jako vizuální stavební bloky, z nichž každý nese určitou vizuální informaci – od textur a barev až po konkrétní obrysy objektů. Tyto elementy umožňují Sora modelu sestavit složité vizuální scény s vysokou mírou detailu a koherence. Při procesu trénování se model učí rozpoznávat a interpretovat vztahy mezi jednotlivými patchi, což mu umožňuje inteligentně rekonfigurovat a kombinovat je podle specifických požadavků uživatele.
Při generování obsahu model dynamicky manipuluje s těmito patchi, aby vyhověl uživatelovo pokynům. Tato manipulace zahrnuje jak úpravu stávajících patchů, tak vytváření nových kombinací pro vytvoření požadované vizuální kompozice. Díky tomuto přístupu je Sora schopna vytvářet scény s přesnými detaily a věrohodnou dynamikou, od zobrazení vázy na stole po složité interakce mezi postavami a jejich prostředím. Je to jako kdybyste měli různé druhy cihel (dávek dat), z nichž byste poté stavěli různé budovy podle uživatelovo přání.
Využití GPT a DALL·E
Sora dále navazuje na předchozí výzkum modelů DALL·E a GPT. Využívá techniku přeoznačování z DALL·E 3, která spočívá ve vytváření vysoce popisných titulků pro vizuální tréninková data. To modelu umožňuje věrněji následovat textové pokyny uživatele ve vygenerovaném videu.
Sora tedy představuje základ pro modely schopné porozumět a simulovat reálný svět, což považuje společnost OpenAI za důležitý milník na cestě k dosažení umělé generální inteligence (AGI).
Prompt: “Several giant wooly mammoths approach treading through a snowy meadow, their long wooly fur lightly blows in the wind as they walk, snow covered trees and dramatic snow capped mountains in the distance, mid afternoon light with wispy clouds and a sun high in the distance… pic.twitter.com/Um5CWI18nS
— OpenAI (@OpenAI) February 15, 2024
Trénink na videích v nativním rozlišení
Pro dosažení co nejvyšší kvality a realismu byla Sora trénována na videích v jejich původním rozlišení bez komprese nebo ořezu. To umožňuje modelu lépe pochopit a reprodukovat různorodost reálného světa.
Pro představu předchozí modely fungovalo na té bázi, že byly trénovány na vysoce komprimovaných oříznutých obrázcích se sníženým rozlišením. To poté vedlo k tomu, že generovaná videa neměla takovou kvalitu a úroveň detailu.
Prompt: “Animated scene features a close-up of a short fluffy monster kneeling beside a melting red candle. the art style is 3d and realistic, with a focus on lighting and texture. the mood of the painting is one of wonder and curiosity, as the monster gazes at the flame with… pic.twitter.com/aLMgJPI0y6
— OpenAI (@OpenAI) February 15, 2024
Bezpečnostní opatření: Priorita číslo jedna
OpenAI klade velký důraz na etické aspekty a bezpečnost, zejména vzhledem k potenciálním rizikům spojeným s generováním videí. Implementace rozsáhlých testů a vývoj nástrojů na detekci zavádějícího obsahu jsou klíčové pro zajištění, že Sora bude používána zodpovědně a v souladu s etickými standardy. Prozatím je Sora dostupná jen tzv. „červenému týmu“, který je zodpovědný za testování a odhalování chyb.
Závěr
Sora není jen dalším krokem ve vývoji AI; je to milník na cestě k pochopení a simulaci reálného světa. Možnosti využití jsou rozmanité – od revoluce ve filmovém průmyslu, přes digitální umění, až po vzdělávací aplikace. Zatímco Sora již naznačuje svůj obrovský potenciál. Samozřejmě má i své nedostatky, které se s postupem času budou vylaďovat. Už ale v této počáteční fázi dosahuje model fantastických výsledků. Takových, které bych si ještě včera nedokázal představit.
Shrnutí
- OpenAI představilo model Sora, revoluční text-to-video AI schopný vytvářet plynulá videa až 60 sekund ve full HD.
- Sora vyniká schopností simulovat reálný svět s vysokou mírou detailu a realismu, včetně fyzikálních vlastností. Také umožňuje generování statických obrázků s vysokým rozlišením a jejich následnou animaci.
- Model rozšiřuje možnosti tvorby videí tím, že umožňuje rozšíření existujících videí do minulosti nebo budoucnosti a využívá inovativní přístup s využitím patchů pro zachování konzistence a detailů ve videích.
- Sora klade důraz na bezpečnost a etiku při generování videí, s implementací testů a nástrojů na detekci zavádějícího obsahu, přičemž je momentálně dostupná jen pro testovací „červený tým“ OpenAI.
- Sora naznačuje obrovský potenciál a otevírá dveře k novým aplikacím ve filmovém průmyslu, digitálním umění a vzdělávání.
Zdroj:
- Creating video from text. Sora. (n.d.). https://openai.com/sora
- Video generation models as world simulators. (n.d.). https://openai.com/research/video-generation-models-as-world-simulators







