Modely jako Midjourney nebo StabilityAI tu jsou s námi už nějakou tu chvíli, nyní však do hry vstupuje i společnost dominující na poli grafických karet a společnost, jejíž působnost v oblasti AI je již delší dobu známa. Nvidiu Vám zde popisovat nejspíš nemusím, co ale za zmínku rozhodně stojí je její nový AI model Perfusion. Představte si nástroj, který může vytvářet umělecké obrázky pomocí AI (Nic nového, že?), ale místo toho, aby vyžadovala obrovské množství dat a času k výcviku, potřebuje pouhé 4 minuty a má velikost pouhých 100KB. Pozoruhodné nemyslíte? Tak jen pro představu Midjourney 5.0 potřebovala na natrénování 5 měsíců!
Obrázek 1 – Midjourney: Kočka s brýlemi
AI model Perfusion
V době, kdy mnoho AI modelů v oblasti umění vyžaduje značné zdroje, se Perfusion odlišuje svou efektivitou a kompaktností. Možná by Vás ale mohlo napadnout, že vzhledem k velikosti modelu, nebude dosahovat tak dobrých výsledků. Nenechte se ale zmást, malá velikost modelu ještě nemusí kauzálně určovat jeho schopnost.
AI model od Nvidie nabízí významnou kreativní flexibilitu při zobrazování personalizovaných konceptů, aniž by ztratil svou identitu. Jinými slovy, zatímco Midjourney, co se týče personalizace, na tom není úplně nejlépe, Perfusion by Vám měl umožnit vybrat z Vašeho obrázku hlavní objekt, a ten poté použít pro další obrázek.
Například si vyfotíte kočku ležící na gauči a požádáte Perfusion, aby gauč nahradila letícím obláčkem, kočce nasadila stylové tmavé brýle a pozadí změnila na nebeské výšiny.
Obrázek 2 – Midjourney: kočka na obláčku
Funkce „Key-Locking“
Perfusion se v oblasti generování obrázků pomocí AI výrazně odlišuje díky své inovativní funkci „Key-Locking“. Tato funkce umožňuje modelu kombinovat nové koncepty s obecnějšími kategoriemi, což vede k vytváření nových a originálních verzí konceptu, aniž by byla ztracena jeho základní podstata.
Problém přeučení, známý jako overfitting, je jedním z hlavních výzev v oblasti strojového učení. Přeučení nastává, když se model příliš soustředí na specifické detaily tréninkových dat, což mu může bránit v kreativním generování nových variant konceptu. Například, pokud byste trénovali model na sadě fotografií černých koček, přeučený model by mohl být příliš fixován na určité detaily těchto fotografií, což by mu mohlo ztěžovat rozpoznání jiných černých koček.
Toto může být zvláště problematické v aplikacích, jako je Midjourney, kde uživatelé očekávají, že model vygeneruje obrázky podle konkrétního zadání. Pokud model není schopen generalizovat mimo svá tréninková data, může to vést k neúspěšným nebo neuspokojivým výsledkům, zejména pokud se snažíte vygenerovat něco unikátního.
Rozpoznávání koček
Když se řekne „spojení konkrétního konceptu, například kočky, s obecnějším pojmem, jako je kočkovitý“, myslí se tím, že model AI je naprogramován tak, aby nerozpoznával jen jednu specifickou kočku, ale kočky obecně. To znamená, že místo toho, aby byl model zaměřen jen na jednu konkrétní kočku, je schopen rozpoznávat a generovat různé typy koček.
Díky tomu může model vytvářet různé obrázky koček v různých pozicích a prostředích, ale stále bude respektovat základní charakteristiku kočky. Jinými slovy, i když model vytvoří obrázek kočky v neobvyklém prostředí nebo pozici, kočka na obrázku bude stále vypadat jako kočka a nebude se podobat jinému zvířeti.
Například, pokud byste modelu AI řekli, aby vygeneroval obrázek kočky v džungli, model by vytvořil obrázek kočky v džungli, ale kočka by stále vypadala jako kočka, a ne jako lev nebo tygr.
Obrázek 3 – Midjourney: Kočka v džungli
Závěrem, funkce Key-Locking v Perfusion nabízí flexibilní řešení tohoto problému. Umožňuje modelu AI zobrazovat personalizované koncepty se zachováním jejich základní identity.
Jak Perfusion model funguje?
Možná si ale nyní kladete otázku, jak tento model vůbec funguje, a jak vlastně dokáže přenést prvky z jednoho obrázku do jiného obrázku. Na tuto otázku se nyní pokusíme najít odpověď.
Velký a malý model
Základní princip modelu Perfusion spočívá v kombinaci předtrénovaného „velkého“ modelu s „malým“ modelem, který je doladěn na konkrétních obrázcích poskytnutých uživatelem. Zatímco velký model má základní pochopení široké škály vizuálních konceptů díky tréninku na obrovském datasetu obrázků, malý model je schopen přidávat specifické prvky z obrázků poskytnutých uživatelem.
V jádru technologie Perfusion stojí dva modely: jeden „velký“ a jeden „malý“. Velký model je schopen generovat širokou škálu vizuálních konceptů, od městských krajin po vesmírné scenérie. Na druhou stranu máte k dispozici malý model, který je navržen tak, aby se rychle a efektivně učil z obrázků, které mu předložíte.
Představte si to takto: Pokud malému modelu ukážete obrázky vaší kočky relaxující na pohovce, rychle se naučí, jak vaše kočka vypadá. Když poté požádáte velký model, aby vytvořil obrázek pouštní krajiny s vaší kočkou, oba modely spolupracují. Velký model kreslí poušť, zatímco malý model přidává vaši kočku do scény. Výsledkem je obrázek vaší kočky uprostřed pouště.
Obrázek 4 – Midjourney: Kočka v poušti
Jednoduchost a efektivnost
No jo, jenže představte si, že by malý model měl například 100 GB, v takovém případě by jeho každé natrénování trvalo obrovské množství času a také peněz, které byste utratili na elektřině. V tom tkví hlavní výhoda malého modelu, který má pouhých 100 KB. To Vám ve své podstatě umožňuje více experimentovat a model přetrénovávat na různých datech.
Možnost přizpůsobení kreativity modelů
Jednou z klíčových vlastností modelu Perfusion je schopnost upravovat rovnováhu mezi kreativitou a přesností. Uživatelé mohou modelu dovolit více experimentovat a tvořit kreativnější výstupy, což je podobné použití parametru –stylize v Midjourney. Na druhou stranu mohou preferovat výsledky, které přesněji odpovídají jejich zadání.
Výhoda Perfusion oproti jiným modelům
Mnoho AI generátorů obrázků umožňuje detailní úpravy výsledných obrázků, ale často jsou těžkopádné, a ne tak efektivní. Na druhou stranu, Perfusion přináší vyšší vizuální kvalitu a lepší shodu s uživatelskými pokyny než většina jeho konkurentů. Toto zdůrazňuje rostoucí orientaci společnosti NVIDIA na oblast AI, což představuje trend s potenciálně velkým dopadem na celý průmysl v blízké budoucnosti.
Na závěr je třeba poznamenat, že NVIDIA zatím představila pouze výzkumný článek o Perfusion, ale slíbila, že brzy zveřejní i kód. Jedná se tak o snahu společnosti dostat se do popředí umělé inteligence nejen hardwarově skrze její grafické karty a specializované AI tensorové čipy, ale i skrze software.
V roce 2023 zaznamenaly akcie společnosti impozantní nárůst o více než 230 %, jelikož její grafické procesory (GPU) stále vedou v oblasti trénování AI modelů. V době, kdy giganti jako Anthropic, Google, Microsoft a Baidu investují miliardy do generativní AI, může inovativní model Perfusion rozšířit svou dominanci v oblasti generování personalizovaných obrázků.
Zde Vám poskytnu ukázku, kde můžete vidět, jak Perfusion dominuje oproti jiným modelům:
Obrázek 5 – Odkaz: https://research.nvidia.com/labs/par/Perfusion/static/images_perfusion/baseline_comparison_single_concept.png
Obrázek 6 – Odkaz: https://research.nvidia.com/labs/par/Perfusion/static/images_perfusion/compositions.png
U obou obrázků můžete nalevo vidět data, která byla předložena malému modelu, to co je v červených rámečcích pak poukazuje na výsledky, které Perfusion model byl schopný vyprodukovat.
Obrázek 7 – Odkaz: https://research.nvidia.com/labs/par/Perfusion/static/images_perfusion/key_locking.png
Jak lze vidět, můžete si Vašeho domácího mazlíčka interpretovat do různých podob!
Obrázek 8 – Odkaz: https://research.nvidia.com/labs/par/Perfusion/static/images_perfusion/Teaser.png
Na tomto obrázku můžete vidět, jak model dokáže kombinovat vizuální prvky, které mu Vámi byly předloženy do Vámi popsané podoby. Nalevo můžete vidět trénovací data, zatímco na pravé straně lze pozorovat jednotlivá zadání a z nich vzniklé obrázky.
Závěrečné shrnutí benefitů modelu Perfusion
- Personalizace: Uživatelé mohou „doladit“ model na konkrétních obrázcích, což umožňuje modelu vytvářet obrázky, které zahrnují prvky z těchto obrázků.
- Flexibilita: Díky kombinaci s velkým předtrénovaným modelem může Perfusion generovat širokou škálu obrázků, od džungle po městské scény, a zahrnout do nich prvky z uživatelských obrázků.
- Efektivita: Malá velikost modelu znamená rychlejší generování, menší spotřebu energie a snadné přetrénování na nových datech.