V nedávném článku jsem informoval o nadcházející velkou aktualizaci pro ChatGPT. Hlavním předmětem aktualizace měla být pokročilá verze AI generátoru obrázku DALL-E 3. A to se dnes stává realitou. Předplatitelé ChatGPT+ si tak nyní mohou vyzkoušet DALL-E 3 přímo v konverzačním okně ChatGPT. Použití je velmi jednoduché a pro mnohé nejspíše i přijatelnější, než u jiných AI generátoru obrázku, jako je Midjourney, Stable Diffusion nebo Leonardo. Důvodem je jednoduchost a minimalismus, se kterými společnost OpenAI vstupuje do hry. Při vytváření promptů pro obrázek nemusíte tolik zabíhat do detailu, můžete se více rozepsat a dovolit si více popsat požadovaný obrázek.
Důvodem je integrace DALL-E modelu s GPT modelem. To v praxi znamená, že vámi vložený příkaz je zpracován nejprve modelem GPT, který na základě vašeho popisu zkonstruuje příkaz. Tento příkaz je poté vložen do DALL-E 3 modelu. Díky tomu je tak obsluha celkového systému velmi jednoduchá a přístupná pro většinu uživatelů. Další výhody pak zahrnují možnost psaní ve vašem preferovaném jazyce (ChatGPT automaticky Váš text přeloží do angličtiny) nebo ucelené uživatelské rozhraní – vygenerované obrázky se zobrazí přímo v konverzačním okně, odkud si je můžete prohlídnout, podívat se na příkaz, který by k jejich tvorbě použit, nebo si je rovnou stáhnout.
Obrázek 1 – DALL-E 3: Samuraj na bitevním poli
Ačkoli se DALL-E 3 od své minulé verze DALL-E 2 výrazně zlepšilo, pořád je zde na čem pracovat. To dokládá mnoho nesrovnalostí, jako jsou problematické generování obrázků s vícero osobami nebo horší zvládání komplexnějších příkazů. I tak se ale za mě jedná o velmi působivou změnu k lepšímu. DALL-E 3 tak oproti jiným modelům dokáže zvládat i text – pravda je, že to není úplně perfektní, ale pořád je to mnohem lepší než v Midjourney.
Pakliže máte předplacenou ChatGPT+, přístup k DALL-E je velmi jednoduchý. Stačí myší najet na GPT-4 modul a vybrat z nabídky DALL-E 3:
Nyní stačí jen zahájit konverzaci a požádat o obrázek! Pro demonstraci zde uvedu možný rozhovor a příkladné obrázky:
Následující příkaz:
Následující příkaz:
Následující příkaz:
Následující příkaz:
Následující příkaz:
Jak jste si asi mohli všimnout, všechny výše vygenerované obrázky jsou v základním poměru 1:1. Jinak ale máte na výběr mezi poměrem stran 16:9 (krajina) a 9:16 (portrét). Pakliže tedy budete chtít použít jiný poměr než 1:1, budete to muset ve svém příkazu specifikovat. V tomto případě jsem se místo samurajů a dávného Japonska rozhodl vygenerovat strašidelnou scénu vesnice uprostřed hallowenské sezóny:
Následující příkaz:
Následující příkaz:
Jak si obrázek stáhnout?
V neposlední řadě by se nejspíše i hodilo říct, jak si obrázek stáhnout. Jednoduše obrázek stačí rozkliknout a kliknout na malou ikonku vpravo nahoře:
Případně se můžete i podívat na příkaz, který ChatGPT pro tvorbu obrázku použilo, napravo.
Závěr: Pro a proti
Jak jste mohli na ukázkách vidět, nový model rozhodně disponuje kvalitativnějšími schopnostmi:
- Dokáže generovat text (občas teda kulhá).
- Zvládá integraci různých stylů do obrázků (např. Outlast nebo Bloodborne).
- Umožňuje generování ve 3 různých poměrech stran (1:1; 16:9; 9:16).
- Generování obrázků netrvá moc dlouhou dobu.
- Velmi jednoduše se s ním interaguje.
- Možnost psát ve svém nativním jazyku (ChatGPT přeloží)
Na druhou stranu jsou zde však pořád přítomné nedostatky v podobě:
- Občas problematické uchopení delších příkazů
- Méně nastavení a uzpůsobení.
Obrázek 2 – DALL-E 3: Halloween vesnice ve stylu hry Outlast 2
Závěrem tak lze říct, že hlavní výhodu, kterou DALL-E 3 oproti ostatním modelům přináší je jeho integrace přímo do konverzačního rozhraní ChatGPT. Díky tomu se s modelem velmi jednoduše komunikuje – model odpovídá vcelku rychle, obrázky jsou pěkné a dokáže lépe pracovat i s méně kvalitními příkazy (které mu ChatGPT předem schroustá). Kvůli těmto důvodům si myslím, že je model ideální pro rychlé použití, inspiraci na grafiku, vygenerování dětem obrázky před spaním apod. Na druhou stranu pro profesionální a specializovanější použití bych pořád setrvával u modelů jako je Midjourney, Stable Diffusion nebo Leonardo, které mají v záloze mnohem více funkcí a možností pro uzpůsobení.