Gorilla AI: Neviditelný komunikační prostředník překonává modely GPT-4 a Claude

V posledních letech se umělá inteligence stala nedílnou součástí našeho každodenního života. S rychlým vývojem v této oblasti mnozí odborníci předpovídají, že brzy budeme moci dosáhnout první skutečné AGI (Umělá obecná inteligence). A právě v tomto kontextu přichází na scénu Gorilla AI, která byla vyvinuta na University of California-Berkeley jako společný projekt se společností Microsoft. Gorilla AI má nicméně velký potenciál pro změnu způsobu, jakým vnímáme a využíváme umělou inteligenci.

Obsah obrázku zbraň, Akční adventura, Akční film, PC hra

Popis byl vytvořen automaticky

Obrázek 1 – Midjourney: Obrněná gorila se střelnou zbraní

Gorilla AI: Volání API a efektivní komunikace

Asi by Vás napadlo, že Gorilla ve své podstatě bude jen další pokus o vytvoření AI generativního modelu podobnému ChatGPT nebo Claudu 2. Ostatně o to usiluje v dnešní době pomalu každá společnost, ne? V tomto případě to je ale něco jiného.

Gorilla AI není jen další jazykový model. Jedná se o sofistikovaný nástroj navržený k poskytování vhodných „API volání“ pro téměř jakýkoliv úkol nebo otázku. API, což je zkratka pro aplikační programové rozhraní, je způsob, jakým mohou různé softwarové aplikace komunikovat mezi sebou. API si můžete představit jako zařízení, se kterými se domluvíte s kýmkoli a kdekoli bez ohledu na řeč, národnost nebo odlišnou kulturu.

Umění modelů využívat API je jedna z klíčových vlastností, která jim umožňuje komunikovat s ostatními programy, aplikacemi a jinými softwarovými nástroji. Na této bázi stojí například pluginy v ChatGPT – funguje to následovně: Vy zadáte ChatGPT příkaz, ChatGPT příkaz předá pluginu ve formě, kterou plugin rozumí. Posléze plugin vrátí výsledek, který ChatGPT opět formuluje do zformátovaného srozumitelného textu, který je Vám předložen.

Je proto zřejmé, že když nebude model schopen pořádně API rozhraní používat, bude to jako kdybyste na Japonce zkoušeli mluvit italsky a divili byste se, že Vám nerozumí. API je proto brána do informativního světa, jakási letenka, s níž se můžete vypravit kamkoli a komunikovat s kýmkoli. Není-li model schopen API využívat, nebude moci ani k ostatnímu digitálnímu světu přistupovat, což ho znatelně omezí.

Gorilla AI však jde ještě dále, je totiž schopná pracovat s nespočtem API z různých domén, od strojového učení až po cloudové služby, a může se učit novým nástrojům a přizpůsobovat se změnám v reálném čase.

Obsah obrázku mapa, umění

Popis byl vytvořen automaticky

Obrázek 2 – Midjourney: Mapa světa

Jak Gorilla AI funguje?

Základem Gorilla AI je LLaMA-7B, model, který byl jemně naladěn na datasetu APIBench. Jak si možná vzpomínáte LLaMA model je vyvíjen společností Meta a dosahuje překvapivě dobrých výsledků. Meta přímo uvedla, že jejich AI model má být plně otevřený vývojářům, kteří na modelu mohou stavět své aplikace. Dává proto vcelku smysl, že ho můžeme vidět i v našem „gorilím API modelu“. Zajímala by Vás tématika více, můžete si přečíst mnou nedávno vytvořený článek, kde se tématem LLaMA zabývám podrobněji: Meta prohlubuje partnerství s Microsoftem.

Dataset APIBench shromažďuje tisíce API volání z různých centrálních repozitářů modelů, mezi něž patří TorchHub, TensorHub a HuggingFace. Během procesu jemného ladění byl model vyškolen tak, aby komunikoval v chatovém stylu. To prakticky znamená, že každé API volání bylo zpracováno tak, jak by to vypadalo v přirozeném rozhovoru mezi uživatelem a chatbotem.

Jestli se ptáte, co to vlastně repozitáře modelů vůbec jsou, poskytnu Vám zde jednoduchou odpověď: Repozitáře modelů, jako jsou TorchHub, TensorHub a HuggingFace, jsou v podstatě online knihovny nebo úložiště, kde vývojáři a vědci mohou sdílet, stahovat a spolupracovat na předtrénovaných modelech umělé inteligence a strojového učení. Tyto repozitáře usnadňují přístup ke špičkovým modelům a technologiím, aniž by jednotlivci nebo týmy musely trávit čas a zdroje na vytváření modelů od základů. V kontextu Gorilla AI, dataset APIBench využívá těchto repozitářů k shromažďování API volání, což umožňuje modelu komunikovat efektivněji a v chatovém stylu.

Jinými slovy, napíšete příkaz, například najdi mi předtrénovaný model, který mi umožní převést mluvenou řeč na text. Gorilla podle toho prohledá repozitáře a poskytne Vám odkaz na model, který tuto funkci umožňuje. Na rozdíl od ostatních modelů, jako je GPT-4 nebo Claude, Gorilla netrpí halucinacemi (neposkytuje odkazy na neexistující modely) a dokáže vyhledat přesně ten nástroj, který potřebujete. Viz ukázka níže:

Obsah obrázku text, snímek obrazovky, Písmo, software

Popis byl vytvořen automaticky

Obrázek 3 – Odkaz: https://eu-images.contentstack.com/v3/assets/blt6b0f74e5591baa03/bltc4b3515c0eb161b3/647e2cb82e30262facfc51c8/httpsgorilla.cs.berkeley.edu.jpg?width=700&auto=webp&quality=80&disable=upscale

Pro koho je Gorilla AI určena?

Ačkoli hlavní zaměření Gorilla AI je na technické aspekty a je ideální pro vývojáře a programátory, má také praktické využití pro širokou veřejnost. Může například pomoci uživatelům rezervovat lety, objednat jídlo nebo najít produkty na platformách jako Amazon. Toto rozšířené využití činí Gorilla AI užitečnou nejen pro technické odborníky, ale i pro běžné uživatele.

Nepředstavujte si Gorilla AI model jako ChatGPT

Gorilla AI je primárně navržen jako rozsáhlý jazykový model schopný poskytovat vhodné API volání pro různé úkoly. Zatímco je to v jádru technický nástroj, jeho interakce a výstupy mohou být prezentovány uživatelům prostřednictvím přívětivějších uživatelských rozhraní, jako je ChatGPT nebo Google Bard. Můžete si to představit tak, že zatímco Gorilla AI je „mozek“ provádějící složité úkoly a API volání, ChatGPT a podobné modely mohou sloužit jako „tvář“ nebo „hlas“, který tuto technologii představuje běžným uživatelům v přístupnější a srozumitelnější formě.

Jedná se tak spíše o takovou neviditelnou část v pozadí v celém procesu, který ačkoli není vidět, hraje velmi významnou roli. Stejně jako motor v autě, se kterým komunikujete skrze pedály a spojku. Když šlápnete na plyn, dáte signál motoru, aby vykonal nějakou mechanickou práci, a tedy zajistil pohyb Vašeho auta. Zpětnou vazbou je pak pro Vás nejenom pohyb auta, ale i indikátory rychlosti nebo otáček na displeji. Motor ale běžně nevidíte, poněvadž trůní pod kapotou, jeho důležitost je ale naprosto esenciální – když si poté motor necháte nahradit za lepší, dostane se Vám i více výkonu. Jedná se o zjednodušený příklad toho, jak gorilí model může fungovat.

Obsah obrázku primát, savec, opice, Hominidé

Popis byl vytvořen automaticky

Obrázek 4 – Midjourney: Gorilí mechanický technik

Pozitiva a negativa Gorilla AI

Pojďme se v závěru podívat, co nám teda gorilí model přináší, jaké má výhody, a v čem může zaostávat:

Výhody

Přesnost: Je mnohem přesnější a spolehlivější v generování API volání.
Flexibilita: Je schopen zvládat změny v dokumentaci, aktualizacích a verzích API.
Výkon: Dokáže provádět složité úkoly, které vyžadují více API volání nebo hlubší úvahy.

Potenciální nevýhody

Složitost: Vzhledem k jeho rozsáhlým schopnostem může být Gorilla AI složitější na implementaci a integraci do stávajících systémů.
Bezpečnostní obavy: Větší a složitější modely mohou být náchylnější k potenciálním bezpečnostním hrozbám nebo zneužitím.
Potenciální zkreslení: Jako všechny AI modely může i Gorilla AI trpět zkreslením v datech, na kterých byl vyškolen, což může vést k nepřesným nebo zkresleným výstupům.
Interakce s uživateli: I když je model technicky pokročilý, může být pro běžné uživatele složitý na použití bez vhodného uživatelského rozhraní.

Obrázek 5 – Midjourney: Svalnatá rozzuřená gorila

Gorilla AI představuje revoluční krok v oblasti umělé inteligence, který svůj potenciál skrývá v akurátní komunikaci mezi různými softwarovými programy skrze API. Právě díky tomu se z ní může stát jeden z předních modelů sloužící právě pro tento účel, který bude implementován do celé řady programů a aplikací jako neviditelný prostředník.

Je zcela pochopitelné, že s velkou silou a působností, přichází i velká zodpovědnost. Bude proto klíčové, aby byl model vyvíjen zodpovědně a transparentně s bezpečnostními protokoly, které zabrání jeho zneužití. Například by někdo do modelu mohl integrovat funkci, která by využívala jeho pluginy, které by uživatelovi do odpovědi poslali vir. Poté, co by uživatel klinul na vygenerovaný odkaz, kromě zobrazení počasí (o které zprvu žádal) by se mu do počítače nainstalovat i škodlivý program. Tomu je nutné bezpochyby předejít.

Je také důležité si uvědomit, že ačkoli Gorilla AI může být technologicky pokročilá, což nebude vhodné pro běžné uživatele, její úspěch a přijetí proto závisí na tom, jak bude prezentována, a jak bude přístupná běžným uživatelům.

Tagy: GPT-4