Ainovinky.cz
Váš přístup k informacím o umělé inteligenci...
  • Hlavní stránka
  • Novinky
  • Chatboti
  • AI obrázky
  • AI video
  • Ostatní
Výsledek nenalezen
Zobrazit všechny výsledky
AI Nástroje
Ainovinky.cz
  • Hlavní stránka
  • Novinky
  • Chatboti
  • AI obrázky
  • AI video
  • Ostatní
Výsledek nenalezen
Zobrazit všechny výsledky
Ainovinky.cz
Výsledek nenalezen
Zobrazit všechny výsledky

Nový konkurent GPT-4: LLaVA přináší revoluci v oblasti vizuálního a jazykového porozumění

Od David Kovář
10 října, 2023
Kategorie: Novinky

Předpokládám, že jste se již doslechli o velkém nadcházejícím rozšíření do ChatGPT v podobě ChatGPT Vision. Pakliže ne, doporučuji si přečíst článek, v němž jsem téma ChatGPT s třetím okem rozebíral: ChatGPT ožívá: Nové hlasové a vizuální schopnosti od OpenAI – Ainovinky.cz

Pro rychlé shrnutí, ChatGPT Vision by mělo umožnit uživatelům nahrávat obrázky přímo do konverzace, kde by chatbot byl schopen s nimi interagovat. Například byste mohli požádat o návod, jak zprovoznit nový topinkovač a k čemu všechny ty tlačítka slouží, anebo byste při svých cestách mohli nechat chatbota poznávat různorodé památky a nechat ho, aby vám k nim poskytoval zajímavé informace. A to jen pomocí vloženého obrázku a jednoduché příkazu.

Ačkoli by se nová funkce měla distribuovat již v následujících týdnech, někteří mohou již být netrpělivý. A přesně pro ty je zde nový model LLaVA od týmu vědců zUniversity of Wisconsin-Madison, Microsoft Research a Columbia University.

LLaVA: Lepší než ChatGPT Vision?

LLaVA (Large Language and Vision Assistant) je inovativní end-to-end multimodální model, který integruje vizuální kodér s komponentou Vicuna za účelem hlubšího vizuálního a jazykového porozumění. Ve světě technologií se jedná o průkopnický krok, který usiluje o napodobení výkonnosti multimodálního GPT-4. Pro ty, kteří nejsou obeznámeni s terminologií: „multimodální“ znamená kombinaci více druhů dat nebo modelů – v tomto případě vizuálního a jazykového.

Model nejenže nastavuje novou laťku v oblasti přesnosti, zejména co se týče Science QA, ale také představuje směr, kterým se bude ubírat budoucí vývoj v oboru umělé inteligence.

Science QA je nástroj pro hodnocení kvality odpovědí na vědecké dotazy. Modely, které v tomto segmentu dosahují vysoké přesnosti, nabízejí obrovský potenciál pro výzkumné a akademické účely.

Obsah obrázku osvětlení, světlo, noc

Popis byl vytvořen automaticky

Obrázek 1 – DALL-E 3: Lampiony uprostřed noční krajiny

Instruktážní ladění pomocí GPT-4

V oblasti jazykových modelů se stále více rozvíjí přístup instruktážního ladění velkých jazykových modelů (LLMs) s využitím dat generovaných stroji. Zatímco tento přístup se osvědčil v jazykovém kontextu, jeho aplikace v multimodálním prostředí je stále v plenkách.

Jako první v oboru výzkumníci využili kapacitu jazykového modelu GPT-4 k tvorbě instruktážních dat, která kombinují text a obraz.

Vycházejíce z datasetu COCO, výzkumný tým prováděl interakci s jazykovým modelem GPT-4, čímž vytvořil bohatý soubor 158 tisíc unikátních jazykových a obrazových instruktážních vzorků. Výsledkem je široké spektrum dat včetně 58 tisíc konverzací, 23 tisíc podrobných popisů a 77 tisíc vzorků zobrazujících komplexní uvažování.

Výsledky a ukázky

Čtenáře by bezpochyby zajímalo, jak si model v porovnání s GPT-4 Vision vede. Podle provedeného měření se ukazuje, že LLaVA vytváří revoluční možnosti v multimodálním chatu, s relativním skóre 85,1 % v porovnání s GPT-4 na základě syntetického multimodálního instruktážního datasetu. Po dalším ladění na Science QA dosáhl duet LLaVA a GPT-4 průlomové přesnosti 92,53 %.

Díky transparentnosti vývojářů, máme navíc zpřístupněný zdrojový kód na platformě GitHub, včetně generovaných instruktážních dat od GPT-4. Model je tak open-source, a dokonce si ho můžeme i vyzkoušet!

Jak si model vyzkoušet na vlastní pěst?

Demo model LLaVA je přístupný na webové stránce: LLaVA (hliu.cc)

Na webové stránce se nachází políčko, kam můžete importovat obrázek, a klasická konverzační lišta, kam napíšete svůj příkaz. Bohužel během dne nejspíše narazíte na dlouhé čekací lhůty způsobené vytížením serverů horlivými uživateli, jako jste vy. Model vám bude fungovat i v češtině, ale z mé upřímné zkušenosti chatbot gramatiky moc nepobral…

Ukázky

Zde jsem Chatbota požádal o popsání grafických prvků vloženého obrázku. Ačkoli s popisem se relativně trefil, čeština opravdu není chatbotovo silnou stránkou. 

Obsah obrázku text, snímek obrazovky, Multimediální software, software

Popis byl vytvořen automaticky

Dobrou zprávou je, že ale s chatbotem můžete vést konverzaci na daný obrázek a případně se ho doptat. Zde jsem tak požádal o vypsání malířů, který by takové grafické prvky mohli použít.

Obsah obrázku text, snímek obrazovky, software, Písmo

Popis byl vytvořen automaticky

Rozhodl jsem se ještě vložit obrázek s chrámem svaté Barbory v Kutné Hoře (doporučuji navštívit), a ačkoli Chatbot dokázal udělat docela logickou dedukci, o jaký typ chrámu se bude zřejmě jednat, už nedokázal být konkrétnější. Což je z mého pohledu trochu škoda – právě pro takový cestovatelský účel bych si dovedl představit, že chatbota využiji. Doporučuji však udělat více zkoušek před tím, než bude vznesen finální verdikt.

Obsah obrázku text, snímek obrazovky, Multimediální software, software

Popis byl vytvořen automaticky

Na závěr jsem se rozhodl otestovat model na tom, jestli je schopen rozeznat dopravní značku. To může být pochopitelně velmi užitečné pro začínající autoškoláky. Bohužel však model očividně nejevil přílišné známky pochopení jedné z hlavních (doslova) dopravních značek.

Obsah obrázku text, snímek obrazovky, software, Multimediální software

Popis byl vytvořen automaticky

Závěr

Závěrem lze říct, že ačkoli model má vcelku dobré porozumění obrázkovým elementům, v případě větší specifičnosti již zaostává. Přestože tato skutečnost na model nevrhá chvályhodné světlo, je nutné podotknout, že image-to-text modely jsou zatím v počátečních verzích. Kromě toho jsou dat poskytovaná veřejnosti, kód a modely zveřejňovány s určitými licenčními omezeními. To v praxi znamená, že model, který si v demu můžete vyzkoušet, není ještě zcela ve své plné funkční verzi.

Tagy: AI
SdíletTweetOdeslat

Mohlo by Vás zajímat

ChatGPT testuje další novinku: Skupinové chaty!
Novinky

ChatGPT testuje další novinku: Skupinové chaty!

OpenAI spustila v některých regionech pilotní program skupinových chatů v ChatGPT, který umožňuje až dvaceti uživatelům spolupracovat v jedné konverzaci...

Od ainovinky
14 listopadu, 2025
Elon Musk Grokipedia
chatboti

Elon Musk rozjíždí konkurenci pro Wikipedii – Je tu Grokipedie 0.1!

Spuštění úvodní verze AI encyklopedie Grokipedia od Elona Muska rozvířilo debatu o hranicích umělé inteligence a budoucnosti znalostních platforem. Nový...

Od ainovinky
28 října, 2025
ChatGPT osobní problémy
chatboti

OpenAI: Lidé se s ChatGPT velmi často baví i o sebevraždě

Otevřená data o duševním zdraví uživatelů ChatGPT ukazují, že umělá inteligence denně řeší ty nejcitlivější lidské otázky.Společnost OpenAI zveřejnila průlomové...

Od ainovinky
28 října, 2025
Chatgpt Konektory
chatboti

ChatGPT posiluje týmovou práci: Představuje sdílené projekty a inteligentní konektory

OpenAI představuje nové nástroje pro ChatGPT, které usnadňují týmovou spolupráci a zvyšují firemní bezpečnost. Spolupráce na projektech v reálném čase...

Od ainovinky
29 září, 2025
Gemini zrychluje
chatboti

Google zrychluje a zefektivňuje AI modely Gemini!

Společnost Google představila vylepšené verze svých modelů umělé inteligence Gemini 2.5 Flash a Flash-Lite. Výrazně úspornější a inteligentnější modely Technologický...

Od ainovinky
29 září, 2025
Meta ukázala AI brýle Ray-Ban s displejem
Novinky

Meta představila inteligentní AI brýle s displejem za 799 dolarů

Společnost Meta odhalila nové brýle Ray-Ban s displejem, které se ovládají futuristickým náramkem. Revoluce na zápěstí i před očima Generální...

Od ainovinky
18 září, 2025
  • Ovládejte Claude Cowork z telefonu pomocí funkce Dispatch

    Ovládejte Claude Cowork z telefonu pomocí funkce Dispatch

    33 sdílení
    Sdílet 13 Tweet 8
  • Claude kreslí grafy a diagramy přímo v chatu. A zdarma!

    18 sdílení
    Sdílet 7 Tweet 5
  • Perplexity chce nahradit váš počítač umělou inteligencí

    17 sdílení
    Sdílet 7 Tweet 4
  • Muž vytvořil vakcínu proti rakovině pro svého psa – pomohl mu ChatGPT

    13 sdílení
    Sdílet 5 Tweet 3
  • AI agent Perplexity Computer je nově dostupný i pro předplatitele Pro

    21 sdílení
    Sdílet 8 Tweet 5

Oblíbené kategorie

  • Novinky
  • Chatboti
  • AI obrázky
  • AI video
  • Ostatní
  • Novinky
  • Chatboti
  • AI obrázky
  • AI video
  • Ostatní
  • Novinky
  • Chatboti
  • AI obrázky
  • AI video
  • Ostatní
  • Novinky
  • Chatboti
  • AI obrázky
  • AI video
  • Ostatní

O nás

  • Kontakt
AI nástroje
Umělá inteligence (AI) pro mnohé představuje budoucnost informatiky, byznysu i každodenního života.Pojďme se společně podívat, jaké jsou současné trendy ve využívání umělé inteligence a co nám může nabídnout do budoucna.
Copyright © 2026 Ainovinky.cz. Všechna práva vyhrazena.
Pod správou Tobynet.cz
  • Hlavní stránka
  • Novinky
  • Chatboti
  • AI obrázky
  • AI video
  • Ostatní
AI Nástroje

Copyright © 2024 Ainovinky.cz. Všechna práva vyhrazena.
Pod správou Tobynet.cz