GPT-4 Vision: Revoluce v oblasti vizuálního zpracování a analýzy

V dnešní digitální éře, kdy vizuální obsah dominuje našemu každodennímu životu, přichází OpenAI s novou funkcí pro GPT-4, která může zcela změnit způsob, jakým vnímáme a zpracováváme obrázky a videa. Ačkoli má GPT model stále své nedostatky s příchodem GPT-4 Vision své funkce znatelně rozšiřuje. Osobně se mi tak tento update jeví jako jeden z největších za celou existenci GPT-4. Představte si technologii, která dokáže nejen rozpoznat obsah obrázku, ale také analyzovat jeho hlubší význam, kontext, a dokonce i emoce, které vyvolává.

GPT-4 Vision, nejnovější inovace od OpenAI, je modelem založeným na technologii GPT-4, který byl speciálně vyvinut pro vizuální zpracování. Tento model nám umožňuje nejen rozpoznávat a interpretovat vizuální obsah, ale také generovat nové obrázky, analyzovat složité vizuální struktury, a dokonce komunikovat s uživateli prostřednictvím obrázků. Jeho schopnosti sebereflexe a sebekorekce z něj dělají jednoho z nejvíce pokročilých nástrojů v oblasti umělé inteligence.

Potenciální využití

Nové nástroje a možnosti jsou vždycky přívětivé. Klíčem ale je, abychom je dokázali využít. Nabízí se proto otázka: V čem nám GPT-4 Vision může pomoci? Můžete dělat rychlé designy webových stránek jen pomocí náčrtů na papír. ChatGPT vám může pomoci porozumět komplexním diagramům, identifikovat nedostatky v architektonickém návrhu a další. V případě zakoupení nového spotřebiče, u nějž obvykle bývá více tlačítek, než je zdrávo můžete jednoduše spotřebič vyfotit, vyznačit části, kterým nerozumíte a ChatGPT vám poskytne jednoduchý popis jednotlivých funkcí. Další potenciál by mohl být ve vytváření receptů na základě fotky vašich potravin, které máte k dispozici. Nebo v případě, že si budete chtít zdigitalizovat poznámky z papíru, jednoduše požádáte ChatGPT pro jejich přepsání v úhledné a dobře strukturované formě. Jak můžete vidět možností je téměř nekonečné množství a otevírají nové horizonty v mnoha odvětvích, od lékařství přes vzdělávání až po umění a design.

Nový konverzační model

Nový update ale nezahrnuje jenom funkci importu obrázků a jejich následnou analýzu skrze ChatGPT. Další funkcí, která je dostupná pouze v mobilní aplikaci, je schopnost konvertovat text od ChatGPT do mluvené podoby. S vydáním mobilní aplikace se zde již speech-to-text model objevil, avšak byl určen převážně pro uživatele než pro chatbota. To v praxi znamenalo, že ačkoli vy jste ChatGPT namluvenou zprávu poslat mohli, ChatGPT již nazpátek odpovědět nedokázalo. To se ale nyní mění s tím, že máte možnosti zvolit si typ hlasu, který následně bude použit pro převedení textu od ChatGPT od plynulé řeči. To se obzvláště hodí v případech, kdy nemáte volné ruce – například řídíte autem.

Jak nové funkce povolit v mobilní aplikace?

Abyste mohli nové funkce využít v mobilní aplikace, budete je muset povolit v experimentálním nastavení.

Otevřete aplikaci ChatGPT a jděte do nastavení.

Obsah obrázku text, snímek obrazovky, multimédia, software

Popis byl vytvořen automaticky

Klikněte na „Settings“ a poté klikněte na „Beta Features“.

Obsah obrázku text, snímek obrazovky, Písmo, design

Popis byl vytvořen automaticky

Povolte možnost „Voice Conversations“.

Obsah obrázku text, snímek obrazovky, design

Popis byl vytvořen automaticky

Počítačová verze

V případě počítačové verze budete mít v liště pro psaní nalevo ikonku obrázku, na kterou jen stačí kliknout a nahrát obrázek z počítače:

Praktické využití

Nyní se podíváme na různé možnosti uplatnění GPT-4 Vision a prozkoumáme, jak může tento revoluční model změnit způsob, jakým pracujeme s vizuálním obsahem.

1. Rozpoznávání složitých obrázků

GPT-4 Vision by mělo být schopno rozpoznat a analyzovat složité obrázky, jako je potravní řetězec, a identifikovat klíčové prvky, např. producenty v potravním řetězci.

Využití: Učitelé a vzdělávací instituce mohou využít GPT-4 Vision k analýze složitých diagramů a obrázků, což by mohlo pomoci studentům lépe rozumět složitým konceptům. Případně sami studenti mohou funkci využít pro lepší orientaci v komplexních obrazcích

Praktický příklad: Při výuce biologie může model rozpoznat a vysvětlit složité potravní řetězce, identifikovat klíčové organismy a jejich role v ekosystému.

Obsah obrázku umění, kreslené

Popis byl vytvořen automaticky

Obrázek 1 – DALL-E 3: přírodní ekosystém

2. Interpretace a překlad

GPT-4 Vision může interpretovat a překládat texty z obrázků v různých jazycích, což je užitečné pro cestovatele.

Využití: Cestovatelé mohou využít GPT-4 Vision k rychlému překladu cedulí, menu v restauracích nebo informačních tabulí v zahraničí.

Praktický příklad: Turista v Japonsku může naskenovat menu v restauraci a model mu poskytne překlad jednotlivých položek do jeho rodného jazyka.

Obsah obrázku text, umění, plakát, menu

Popis byl vytvořen automaticky

Obrázek 2 – DALL-E 3: asijské menu

3. Kultura a cestování

Jelikož má model základní povědomí o celosvětových památkách, může dobře identifikovat jednotlivé památky a poskytnout k nim doplňující informace.

Využití: Uživatelé mohou využít model k analýze fotografií z různých destinací, díky čemuž mohou získat zajímavé informace o daném objektu (kostel, chrám, ostrov apod.) a lokální kultuře.

Praktický příklad: Na vaší dovolené můžete vyfotit majestátný chrám a ihned se dozvědět, co to je za chrám, kdy byl postaven, jakou kulturou, za jakým účelem apod.

Obsah obrázku obraz, plakát, umění, obloha

Popis byl vytvořen automaticky

Obrázek 3 – DALL-E 3: kulturní památka

3. Analýza vizuálních důkazů a návrh místností

Model může zkoumat obrázky a vyvozovat závěry na základě vizuálních důkazů, např. určení věku osoby na základě vizuálních prvků v místnosti.

Využití: Jelikož nejspíš všichni z vás viděli nějakou detektivku nebo jste alespoň hráli zaklínače: divoký hon, víte, že každý správný detektivní příběh začíná prozkoumání místa činu. Klíčem je nalézt jakékoli potenciální stopy, myslet v kontextech a pracovat s dostupnými informacemi. ChatGPT by tak mohlo být schopné rozeznat a extrapolovat informace na základě dostupných informací z obrázku. Vím, že vám to může znít trochu abstraktně, přece detektivní záležitosti jsou předmětem Sherlocka Holmese nebo snad ne? I tak vám ale možnost analýzy vašeho pokoje, kuchyně nebo obýváku může být užitečná. Můžete tak dostat doporučení na přemístění nábytku, zakoupení estetických prvků, které by s vaší místností nejvíce rezonovali.

Praktický příklad: Na základě fotografií místnosti můžete pozměnit umístění nábytku nebo dostat doporučení na estetické prvky (obrázek, kaktus nebo chytré osvětlení).

Obsah obrázku pohovka, nábytek, Gauč, interiérový design

Popis byl vytvořen automaticky

Obrázek 4 – DALL-E 3: Návrh místnosti

4. Analýza a reformatování tabulek nebo fyzických poznámek

Model může převzít obrázek tabulky a přeformátovat je do nového formátu podle požadavků uživatele.

Využití: Analytici a vědci mohou využít model k rychlému přeformátování dat z tabulek do požadovaného formátu pro další analýzu. Nemusí to ale být jen o převodu tabulek do digitální podoby, ale i celých poznámek. Možná se také jako já nacházíte v situaci, kdy máte spoustu zajímavých informací a osobních postřehů ve starých sešitech. Jelikož ale pro vás asi také není žádoucí při každém pohybu sebou táhnout kufr plný osobních sešitů, rádi byste si poznámky převedly do digitální podoby. V takovém případě byste k nim mohli mít přístup kdekoli a kdykoli. Právě pro tento účel můžete GPT-4 Vision využít, stačí poznámky vyfotit, zadat příkaz a nechat si vygenerovat přehledné, ucelené a dobře formátované poznámky, které jen přesunete tam, kam budete potřebovat.

Praktický příklad: Ekonom může naskenovat tabulku s ekonomickými daty z tištěného zpravodaje a model mu ji převede do elektronického formátu pro další analýzu. Případně student může své fyzické poznámky jednoduše převést do podoby digitální.

Obsah obrázku kancelářské potřeby, text, interiér, klávesnice

Popis byl vytvořen automaticky

Obrázek 5 – DALL-E 3: přechod z fyzických poznámek do digitálních poznámek

5. Navigace v grafickém rozhraní

GPT-4 Vision může analyzovat a navigovat v grafických rozhraních, např. mobilních aplikacích, a poskytovat uživatelům informace o funkcích různých ikon.

Využití: Vývojáři softwaru mohou využít GPT-4 Vision k testování uživatelských rozhraní a získání zpětné vazby na jejich intuitivnost a použitelnost.

Praktický příklad: Pro vytvoření nové mobilní aplikace může vývojář nahrát snímky různých obrazovek a model mu poskytne zpětnou vazbu na jejich design a funkčnost.

6. Pomocník na internetu

GPT-4 Vision může fungovat jako widget, který pomáhá uživatelům při jejich online dobrodružstvích, např. při učení se novému softwaru.

Využití: Uživatelé mohou využít model jako osobního asistenta při online nákupech, vyhledávání informací nebo učení se novým dovednostem. To se obzvláště může hodit v případech, kdy se učíte s novým programem, jako je například Adobe Photoshop, Premiere, Blender apod. Obvykle jste totiž posazení do prostředí, kde máte miliardu různých funkcí, tlačítek, možností apod. Co s tím ale vším dělat? Teoreticky můžete vytvořit screenshot obrazovky, poslat to ChatGPT a požádat ho o vytvoření stručného přehledného návodu s využitím pouze základních funkcí.

Praktický příklad: Jednoduše vytvořte snímek obrazovky, kde něčemu nerozumíte a pošlete to chatbotovi, ať vám to vysvětlí.

Obsah obrázku snímek obrazovky, kreslené, design

Popis byl vytvořen automaticky

Obrázek 6 – DALL-E 3: screenshot mobilního rozhraní z vysvětlivkami

7. Analýza emocí

Model je schopen rozpoznat emoce zobrazené na obrázcích, dokonce i z obrázků nízkého rozlišení.

Využití: Psychologové a terapeuti mohou využít model k analýze emocí pacientů z jejich fotografii a získat tak hlubší pochopení jejich emocionálního stavu. Pochopitelně v současné chvíli nebude model tak schopný v rozpoznávání drobných mikrovýrazů v obličeji. Přesto si ale myslím, že po nějaké době by model mohl být schopen zvládnout i takové úkoly, na něž jsou jinak potřební skuteční znalci lidských obličejových expresí. Zejména pak studenti psychologie by mohli funkci využít pro učení se významům lidských obličejových výrazů.

Praktický příklad: Student by mohl model použít pro učení se rozeznávání drobných nuancí v obličejovém výrazu. Díky tomu by si mohl kultivovat všímavost vůči těmto drobnostem a zdokonalovat se v procesu, kde by jinak potřeboval experta.

Obsah obrázku Lidská tvář, skica, čelist, ilustrace

Popis byl vytvořen automaticky

Obrázek 7 – DALL-E 3: Lidské emoce a výrazy ve tváři

8. Pojištění a hodnocení škod

GPT-4 Vision může identifikovat poškození a nepravidelnosti na obrázcích, což by mohlo mít uplatnění v oblasti pojištění.

Využití: Pojišťovny mohou využít model k rychlému hodnocení škod z fotografií a určení výše pojistného plnění.

Praktický příklad: Klient pojišťovny může nahrát fotografie poškozeného vozidla po nehodě a model rychle vyhodnotí rozsah škod a odhadne náklady na opravu. Navíc vám také řekne, jestli to drobné škrábnutí na vašem autě za tu námahu skutečně stojí.

Obsah obrázku text, vozidlo, Pozemní vozidlo, kolo

Popis byl vytvořen automaticky

Obrázek 8 – DALL-E 3: Vyhodnocení vzniklých škod na dopravním automobilu

9. Nákupy a analýza produktů

Model by vám mohl pomoci v jídelní nejistotě – stačilo by vyfotit vámi konzumované potraviny a jednoduše si nechat říct, jestli to za to stojí nebo byste si měli hledat zdravější alternativu.

Využití: Předpokládám, že vám všem na svém zdraví záleží, nebo snad ne? Jistě asi také tušíte, že náš jídelníček zde bude hrát klíčovou roli. Z toho důvodu se pak rozhodnete tématiku vyváženého pestrého pro zdraví prospěšného jídelníčku nastudovat. Jenže co se nestane, setkáte se s obrovským množstvím literatury, samozvaných expertů, jídelních etiket, studií, kde každá tvrdí něco jiného apod. Když se pak v obchodu máte rozhodovat co koupit, a co spíš ne, po zkoumání všech těch složení, nutričních hodnot atd. se na to po chvíli z důvodu přílišné složitosti vykašlete. A právě zde přichází GPT-4 Vision, které by vám mohlo sloužit jako jídelní poradce. Jednoduše byste tak mohli potravinu vyfotit a nechat si od chytrého asistenta poradit, jestli se to do vašeho jídelníčku hodí nebo spíš ne.

Praktický příklad: Kupující by mohl naskenovat např. složení a nutriční hodnoty svých oblíbených sušenek a zeptat se nakolik jsou tak zdravé, jak se o nich tvrdí.

Obsah obrázku text, Mobilní telefon, přístroj, Přenosné komunikační zařízení

Popis byl vytvořen automaticky

Obrázek 9 – DALL-E 3: Vyhodnocení nutričních hodnot potraviny

10. Lékařství a diagnostika

GPT-4 Vision může analyzovat lékařské snímky, např. rentgenové snímky, a identifikovat potenciální problémy nebo diagnózy.

Využití: Lékaři a zdravotníci mohou využít model k analýze lékařských snímků a rychlé diagnostice různých onemocnění. Případně sami běžní lidé si mohou vyfotit část těla, která se jim zdá v jiné než normální formě a zeptat se, jak potenciálně vážný problém to může být.

Praktický příklad: Radiolog může nahrát rentgenový snímek pacienta a model mu poskytne analýzu a možné diagnózy na základě viditelných abnormalit. Člověk si tak může vyfotit nateklý prostředníček na ruce a zeptat se na kolik vážné to je, a jestli by neměl navštívit profesionálnější personál

Obsah obrázku text, lékařský, Lékařské vybavení, snímek obrazovky

Popis byl vytvořen automaticky

Obrázek 10 – DALL-E 3: Vyšetření rentgenového snímku

11. Umění a design

Model může hodnotit a generovat umělecká díla, což by mohlo mít uplatnění v oblasti designu a výtvarného umění.

Využití: Umělci a designéři mohou využít model k hodnocení a generování uměleckých děl, což může pomoci při vytváření nových designů a konceptů.

Praktický příklad: Grafický designér může nahrát návrh loga a model mu poskytne zpětnou vazbu na jeho design a možné zlepšení.

Obsah obrázku text, počítač, osoba, elektronika

Popis byl vytvořen automaticky

Obrázek 11 – DALL-E 3: analýza grafikovo práce

12. Navigace a plánování

GPT-4 Vision může analyzovat obrázky prostředí a plánovat akce, např. navigaci robotů nebo trajektorii mašinky v dětském pokoji

Využití: Inženýři a vývojáři robotů mohou využít model k plánování trasy a navigaci robotů v různých prostředích. Rodič by tak mohl vyfotit pokoj svého dítěte a nechat si poradit, kudy by se dala udělat nejlepší dráha na autíčka nebo mašinku.

Praktický příklad: Vývojář robotů může nahrát snímky prostředí a model mu poskytne optimální trasu pro roboty k dosažení cílového místa.

Obsah obrázku snímek obrazovky, umění, kreslené, světlo

Popis byl vytvořen automaticky

Obrázek 12 – DALL-E 3: Dráha pro mašinku v dětském pokoji

13. Internetové vyhledávání

Model může kombinovat své vizuální schopnosti s internetovým vyhledáváním, což umožňuje hlubší a přesnější vyhledávání na webu.

Využití: Uživatelé mohou kombinovat vizuální schopnosti modelu s internetovým vyhledáváním, což umožňuje hlubší a přesnější vyhledávání informací na webu.

Praktický příklad: Student může nahrát obrázek historické postavy (nebo i jiné slavné současné osobnosti) a model mu poskytne podrobné informace o této postavě a její historii.

Obsah obrázku oblečení, Lidská tvář, muž, skica

Popis byl vytvořen automaticky

Obrázek 13 – DALL-E 3: student prezentující svůj projekt o slavné osobnosti

Extra obsah navíc

Pakližese chcete dozvědět více, jak lze model uplatnit, doporučuji se podívat na následující video od Igora Poganyho z kanálu „The AI Advantage“, kde velmi pěkně a přehledně shrnuje možnosti využití GPT-4 Vision. Z jeho videa jsem ostatně také čerpal inspiraci:

V závěru lze říct, že možnosti využití GPT-4 Vision jsou téměř nekonečné. V zásadě vám ale tato funkce propůjčuje jedinečný nástroj, pomocí něhož může chatbot interagovat s vaším prostředím. Ať už se jedná o postup při opravě skříně, návrhu na design pokoje, přepsání poznámek do digitální podoby nebo identifikování historické památky na vašem výletě. Některé použití, které jsem výše zmiňoval mohou být spíše pro lidi na profesionální úrovni, kteří, jak si myslím, si v průběhu času vyvinou své vlastní přímo specializované chytré asistenty pro jejich obor – medicína, psychologie, geologie, astronomie apod. I tak je zde ale míra upotřebení GPT-4 Vision uživatelem velmi vysoká – klíčové je proto se ptát, jak model můžete využít konkrétně pro vaše specifické účely a následně to vyzkoušet. Je pochopitelné, že zejména při identifikaci potravin nebo emocí, model nebude vykazovat zas až takové známky dovednosti (nemůžeme chtít všechno na první dobrou, že?). Věřím však, že v průběhu nadcházejících měsíců se tyto dovednosti budou jen a jen zlepšovat, při čemž se model stane mnohem schopnějším a univerzálnějším.

Tagy: chatGPT