GPT-5 je na obzoru: OpenAI nasazuje do internetového oběhu „sběrače dat“.

I přestože jsou technologie ve velkém měříku rozšířené, mnohdy můžeme vidět, že i přes jejich popularitu je využívá jen zlomek lidí. V případě GPT-5 by se ale tento trend mohl změnit. V posledních letech nás umělá inteligence pravidelně zásobovala novinkami, které nám občas doslova vyrazily dech. Avšak spekulace kolem předpokládaného modelu GPT-5 od OpenAI hrají v těchto hovorech zcela vlastní ligu.

Význam tohoto modelu se může zdát pro mnohé abstraktním, avšak dopady, které by GPT-5 model mohl mít na naše každodenní životy, technologické inovace a digitální krajinu, jsou nepřehlédnutelné. Vzhledem k velmi vydání modelu GPT-4, který následoval po zhruba 6 měsících vydání modelu GPT-3, ihned vznikly spekulace o vydání GPT-5, které by zcela mohlo převrátit způsob, jakým komunikujeme s výpočetními technikami. Toto tvrzení bylo však vzápětí na kongresu spojených států, kterých se účastnil Sam Altman (CEO OpenAI), popřeno.

Slyšení u kongresu jsme popisovali již v našem dřívějším článku: Sam Altman z OpenAI vyzval při slyšení u Senátu USA k regulaci.

Začíná to ale vypadat, že spolu se vzrůstající konkurencí si OpenAI se Samem Altmanem v čele začíná uvědomovat, že jestli rychle něco nepodniknou, bude je to nejspíše stát jejich dominantní pozici v oblasti generativní AI. A co jiného by mohlo tak nakopnou popularitu a zájem o společnost než dlouze předvídaný „všehoschopný“ GPT-5 model?

Obsah obrázku snímek obrazovky, obvod

Popis byl vytvořen automaticky

Obrázek 1 – Midjourney: Matrix data

GPTBot: „Datový pavouk“

OpenAI představila nástroj pro sběr dat z internetu pojmenovaný „GPTBot“, jehož cílem je posílit schopnosti budoucích modelů GPT.

Společnost uvedla, že data shromážděná pomocí GPTBotu mohou potenciálně zlepšit přesnost modelu a rozšířit jeho schopnosti. Toto označuje významný krok v evoluci jazykových modelů poháněných umělou inteligencí. Jinými slovy společnost vytvořila tzv. „webcrawlera“, jehož cílem je „těžit“ data z internetu v masivním množství. Tyto data lze poté využít k trénování velkých generativních AI modelů nebo pro statistické účely. V tomto případě je ale zcela zřejmé předpokládat, že o statistiku zde společnosti nejde. Jak ale weboví sběrači fungují? Na to se teď podíváme.

Webcrawlers

V digitální krajině internetu se weboví sběrači, často označovaní jako „datoví pavouci“, stávají tichými hrdiny indexace online obsahu. Tyto sofistikované algoritmy zkoumají vše od článků, přes komplexní webové portály, až po vizuální a vědecké materiály. Když zadáte dotaz do vyhledávacího pole Googlu či Bingu, právě tito pavouci Vám přinášejí ty nejrelevantnější výsledky z obrovského množství dat na webu. Tvůrci webových stránek to samozřejmě vědí, a proto se snaží, aby jejich obsah byl co nejviditelnější. Této optimalizaci vyhledávání internetového obsahu se nazývá SEO a tvoří jeden z nejdůležitějších prvků při tvorbě webových stránek. Můžete pak tvořit obsah sebekvalitnější, ale když se na něj stejně nikdo nepodívá, poněvadž Vás vyhledávač zařadí na 20 příčku stránek, které se při vyhledávání daného tématu zobrazí, tak to poté postrádá smysl.

Nicméně ne všichni sběrači jsou stejní. Například, GPTBot od technologického giganta OpenAI má jasně stanovenou misi. Jeho hlavním úkolem je sběr veřejně dostupných informací, přičemž se důsledně vyhýbá webům s placeným obsahem, shromažďováním osobních údajů či jakýmkoli obsahem, který by narušil integritu a směrnice OpenAI. V době rostoucího zájmu o ochranu osobních údajů a etiku v technologickém sektoru, je postoj OpenAI důležitým krokem směrem k transparentnosti a důvěře.

Obrázek 2 – Midjourney: Pavouk

Jak chránit svůj obsah před GPTBotem?

Ohledně webových sběračů ale kolují mnohé kontroverze, zejména co se autorských práv týče. Mnozí lidé tak mají problém s tím, když se jejich materiály, které veřejně na internetu sdílí, ke trénování takových AI modelů používají. Zajímavé nicméně je, že weboví pavouci už tu jsou s námi nějakou tu dobu, při čemž jsou hojně používaný i pro získávání statistických údajů. Pozoruhodné na tom je fakt, že do té doby to nikomu moc nevadilo, jakmile ale došlo k vývoji AI modelů, vznikli na toto téma hromady diskusí.

Majitelé webů mají možnost zabránit GPTBotu ve sběru dat z jejich stránek jednoduše implementací příkazu „disallow“ v běžném serverovém souboru. Tím jim umožňuje kontrolovat, které části jejich obsahu jsou pro sběrač dostupné.

GPT-5 je už na dohled?

Oznámení OpenAI následuje krátce po podání žádosti o registraci ochranné známky „GPT-5“, který má nahradit současný model GPT-4.

Podání, které bylo provedeno u Úřadu pro patenty a ochranné známky Spojených států dne 18. července, zahrnuje využití „GPT-5“ v oblastech AI, lidské řeči a textu, konverze audio do textu, rozpoznávání hlasu a syntézu řeči. Vskutku impozantní, nemyslíte?

Avšak i přes vzrůstající nadšení pro GPT-5, CEO OpenAI Sam Altman varoval před předčasnými očekáváními. Altman uvedl, že společnost je stále daleko od zahájení tréninku GPT-5, jelikož je třeba provést rozsáhlé bezpečnostní audity před zahájením procesu. Podle odhadů trénink GPT-4 zabral kolem 90 až 100 dní, dalších 6 měsíců se poté strávilo na ujišťování se o bezpečnosti modelu a jeho dolaďování. Jelikož jsme ale do toho nezapočítali samotný sběr dat, je možné, že GPT-5 budeme moci očekávat zhruba v druhém kvartálu roku 2024. Jedná se však pouze o můj amatérský hrubý odhad.

Obsah obrázku noc, budova, město, světlo

Popis byl vytvořen automaticky

Obrázek 3 – Midjourney: Barevná data

Kontroverzní krok OpenAI: Otázky soukromí a autorských práv

V poslední době se okolo technologického giganta OpenAI rozpoutala bouře kontroverzí. Upřené oči veřejnosti, právníků i regulátorů sledují praxi společnosti v oblasti sběru dat, kdy hlavní otázkou je zacházení s autorskými právy a souhlasem subjektů dat.

V červnu se do hledáčku dostal japonský regulátor ochrany soukromí, který adresoval OpenAI ostré varování v souvislosti s neoprávněným získáváním informací. Itálie šla ještě dále a na přelomu let dočasně suspendovala službu ChatGPT kvůli obavám z porušování legislativy EU týkající se ochrany osobních údajů.

Avšak to není vše. Ve společném procesu stojí OpenAI a Microsoft proti 16 žalobcům. Ti podali kolektivní žalobu s tvrzením, že konverzace uživatelů s ChatGPT byly zpřístupněny třetím stranám bez náležitého svolení. Pokud by se tato obvinění ukázala být oprávněná, mohly by obě technologické firmy narazit na zákon o počítačovém podvodu a zneužití, což by mělo vážné důsledky.

Jako lídr v oblasti umělé inteligence musí OpenAI najít cestu, jak čelit těmto výzvám a zároveň zajistit, že jejich inovace v oboru AI budou odpovědné a etické.

OpenAI stojí v čele technologické revoluce v oblasti umělé inteligence, ale jak ukazuje nedávná kontroverze, průkopníci v jakémkoliv oboru často čelí nejen technologickým, ale také etickým a právním výzvám. Odpovědnost za vytváření transparentních a etických technologických řešení je nyní více než kdy jindy klíčová. Tato situace připomíná důležitost hledání rovnováhy mezi inovacemi a respektem k právům a soukromí jednotlivců. Jedině tak mohou technologičtí giganti, jako je OpenAI, zajistit, že jejich významné pokroky budou sloužit ve prospěch všech a budou budovat důvěru ve veřejném prostoru.