DALL-E nově v ChatGPT: Lepší než Midjourney?

V nedávném článku jsem informoval o nadcházející velkou aktualizaci pro ChatGPT. Hlavním předmětem aktualizace měla být pokročilá verze AI generátoru obrázku DALL-E 3. A to se dnes stává realitou. Předplatitelé ChatGPT+ si tak nyní mohou vyzkoušet DALL-E 3 přímo v konverzačním okně ChatGPT. Použití je velmi jednoduché a pro mnohé nejspíše i přijatelnější, než u jiných AI generátoru obrázku, jako je Midjourney, Stable Diffusion nebo Leonardo. Důvodem je jednoduchost a minimalismus, se kterými společnost OpenAI vstupuje do hry. Při vytváření promptů pro obrázek nemusíte tolik zabíhat do detailu, můžete se více rozepsat a dovolit si více popsat požadovaný obrázek.

Důvodem je integrace DALL-E modelu s GPT modelem. To v praxi znamená, že vámi vložený příkaz je zpracován nejprve modelem GPT, který na základě vašeho popisu zkonstruuje příkaz. Tento příkaz je poté vložen do DALL-E 3 modelu. Díky tomu je tak obsluha celkového systému velmi jednoduchá a přístupná pro většinu uživatelů. Další výhody pak zahrnují možnost psaní ve vašem preferovaném jazyce (ChatGPT automaticky Váš text přeloží do angličtiny) nebo ucelené uživatelské rozhraní – vygenerované obrázky se zobrazí přímo v konverzačním okně, odkud si je můžete prohlídnout, podívat se na příkaz, který by k jejich tvorbě použit, nebo si je rovnou stáhnout.

Obrázek 1 – DALL-E 3: Samuraj na bitevním poli

Ačkoli se DALL-E 3 od své minulé verze DALL-E 2 výrazně zlepšilo, pořád je zde na čem pracovat. To dokládá mnoho nesrovnalostí, jako jsou problematické generování obrázků s vícero osobami nebo horší zvládání komplexnějších příkazů. I tak se ale za mě jedná o velmi působivou změnu k lepšímu. DALL-E 3 tak oproti jiným modelům dokáže zvládat i text – pravda je, že to není úplně perfektní, ale pořád je to mnohem lepší než v Midjourney.

Pakliže máte předplacenou ChatGPT+, přístup k DALL-E je velmi jednoduchý. Stačí myší najet na GPT-4 modul a vybrat z nabídky DALL-E 3:

Nyní stačí jen zahájit konverzaci a požádat o obrázek! Pro demonstraci zde uvedu možný rozhovor a příkladné obrázky:

Prompt: Výborně! Tak tady ti napíši popis: Představuji si záběr z nízkého úhlu na válečného samuraje, který jde po bitevním poli, za pasem má své dvě katany, zatímco jeho brnění sestává z typické japonské samurajské zbroje, jeho temné vlasy vlají ve větru zatímco na tváři samuraje se zračí pevný přísný pohled zračící újmu, kterou v bitvě utrpěl. celý obraz je malován ve stylu sumi-e ink panting

Následující příkaz:

Prompt: Nyní si představuji jak tento samuraj medituje na vrcholku hory v japonské svatyni s cílem zotavit se z předchozí bitvy, záběr je spíše z dálky, takže je vidět jak je částečně vidět i krajina dole utápějící se v mlze a okolní pohoří.

Následující příkaz:

Prompt: mohla bys prosím použít sumi-e ink painting styl?

Následující příkaz:

Prompt: Nyní ten stejný samuraj prochází japonským tržištěm, zrovna je tradiční podzimní sezóna, okolo stojí stánky s typickými výrobky a produkty pro tehdejší středověkou japonskou dobu. kolem pobíhají různá zvířátka a v povlávajícím větru poletují zbarvené listy do podzimních barev.

Následující příkaz:

Prompt: pěkné, nyní ale chci, aby zde nebyl přítomen sumi-e ink painting style, ale aby obrázek bylo digitální dílo s nádechem fantasie japonské mytologie. záběr by měl být z dolního side úhlu na samuraje z dvěma katanami u boku, samurajským šatem a dlouhými tmavými vlasy povlávajícími ve větru. použij tak podzimní mdlé barvy kombinující se s odstíny šedi, bíle a černé. filmová stylizace

Následující příkaz:

Prompt: Nyní vytvoř obrázek prastaré dřevěné cedule, která má na sobě známky času v podobě škrábanců, úlomků apod. na ní je napsáno: Do or Die

Jak jste si asi mohli všimnout, všechny výše vygenerované obrázky jsou v základním poměru 1:1. Jinak ale máte na výběr mezi poměrem stran 16:9 (krajina) a 9:16 (portrét). Pakliže tedy budete chtít použít jiný poměr než 1:1, budete to muset ve svém příkazu specifikovat. V tomto případě jsem se místo samurajů a dávného Japonska rozhodl vygenerovat strašidelnou scénu vesnice uprostřed hallowenské sezóny:

Prompt: Skvělé, mohla by jsi mi prosím vygenerovat obrázek zobrazující strašidelnou vesnici v noci, v halloweenském tématu? Představuji si, že prostředí působí záhadně, opuštěně a strašidelně. Jsou zde vyřezané dýně, svíčky, zpustošené ploty, staré chatrče, apod. do vesnice vede kamenitá cesta, která už je z části prorostlá plevelem, můžeme zde také vidět dřevěnou ceduli, která je nakloněná na křivo, a na níž je vyrytým písmem napsáno „Hollow town“. Použij poměr 16:9

Následující příkaz:

Prompt: Nevadí, jen tě poprosím, aby jsi použila filmovou stylizaci a co největší realističnost, měli by zde také být více prohloubené stíny a méně světla, dodej tam mlhu. Můžeš se inspirovat hrou Blood Born

Následující příkaz:

Prompt: Co takhle ve stylu hry Outlast? Daná mlha by navíc mohla být lehce zelená, aby to vzbuzovalo nadpřirozený dojem.

Jak si obrázek stáhnout?

V neposlední řadě by se nejspíše i hodilo říct, jak si obrázek stáhnout. Jednoduše obrázek stačí rozkliknout a kliknout na malou ikonku vpravo nahoře:

Obsah obrázku text, snímek obrazovky, PC hra, Digitální kompozice

Popis byl vytvořen automaticky

Případně se můžete i podívat na příkaz, který ChatGPT pro tvorbu obrázku použilo, napravo.

Závěr: Pro a proti

Jak jste mohli na ukázkách vidět, nový model rozhodně disponuje kvalitativnějšími schopnostmi:

Dokáže generovat text (občas teda kulhá).
Zvládá integraci různých stylů do obrázků (např. Outlast nebo Bloodborne).
Umožňuje generování ve 3 různých poměrech stran (1:1; 16:9; 9:16).
Generování obrázků netrvá moc dlouhou dobu.
Velmi jednoduše se s ním interaguje.
Možnost psát ve svém nativním jazyku (ChatGPT přeloží)

Na druhou stranu jsou zde však pořád přítomné nedostatky v podobě:

Občas problematické uchopení delších příkazů
Méně nastavení a uzpůsobení.

Obsah obrázku mlha, PC hra, Strategická videohra, noc

Popis byl vytvořen automaticky

Obrázek 2 – DALL-E 3: Halloween vesnice ve stylu hry Outlast 2

Závěrem tak lze říct, že hlavní výhodu, kterou DALL-E 3 oproti ostatním modelům přináší je jeho integrace přímo do konverzačního rozhraní ChatGPT. Díky tomu se s modelem velmi jednoduše komunikuje – model odpovídá vcelku rychle, obrázky jsou pěkné a dokáže lépe pracovat i s méně kvalitními příkazy (které mu ChatGPT předem schroustá). Kvůli těmto důvodům si myslím, že je model ideální pro rychlé použití, inspiraci na grafiku, vygenerování dětem obrázky před spaním apod. Na druhou stranu pro profesionální a specializovanější použití bych pořád setrvával u modelů jako je Midjourney, Stable Diffusion nebo Leonardo, které mají v záloze mnohem více funkcí a možností pro uzpůsobení.

Tagy: chatGPT