V dnešním dynamickém světě technologií je umělá inteligence neoddiskutovatelným tahounem pokroku. Nicméně, jedním z největších problémů, kterému čelí, je přenos a upevňování sociálních předsudků, které mohou negativně ovlivnit spravedlnost a rovnost ve společnosti.
Jak ale k těmto sociální předsudkům vůbec dochází? Princip je jednoduchý. Proces totiž začíná u samotných tréninkových dat. AI modely se učí z velkého množství dat, která jsou často shromažďována z různých internetových zdrojů. Tyto datasety však často odrážejí předsudky a nerovnosti existující ve společnosti. Pokud je například ve společnosti zastoupen větší počet mužů na vedoucích pozicích, je pravděpodobné, že AI bude ve svých odpovědích automaticky předpokládat, že ženy přirozeně spadají do nižších pracovních rolí. No a sociální předsudek je na světě.
Výzkumníci z Oregon State University ve spolupráci s odborníky z Adobe se rozhodli tento problém vyřešit, a tak přicházejí s revoluční tréninkovou technikou nazvanou FairDeDup. Tento inovativní přístup nejenže snižuje náklady na trénování AI systémů, ale zároveň minimalizuje předsudky, které se často objevují v datech získaných z internetu. FairDeDup představuje naději pro spravedlivější a přesnější umělou inteligenci.
Obrázek 1 – DALL-E 3: Žena v tetrisovém kyberprostoru
Nerovnovážně datasety a diskriminační předsudky
Když tyto nerovnovážné datasety použijeme k trénování AI modelů, modely tyto předsudky absorbují a mohou je dále šířit. AI systém, který byl vyškolen na takovém datasetu, může například při vyhledávání obrázku „doktor“ preferenčně zobrazovat fotografie bílých mužů, čímž posiluje stereotypy a nerovnosti. To je problém, poněvadž lidé s tmavou barvou pleti mohou být poté AI vyhodnoceni jako méně vhodní pro roli doktora ve společnosti.
Doktorand z Oregon State University a výzkumníci z Adobe vytvořili novou, nákladově efektivní tréninkovou techniku pro systémy umělé inteligence, která má za cíl snížit sociální předsudky. Eric Slyman z OSU College of Engineering a výzkumníci z Adobe nazývají tuto novou metodu FairDeDup, což je zkratka pro spravedlivou deduplikaci.
Problematika mazání různorodých tréninkových dat
Deduplikace, proces odstranění redundantních dat, je klíčová operace pro snížení nákladů na trénink AI modelů. V praxi je to stejné, jako když na výletě vyfotíte více fotek stejného objektu a poté fotky vymažete a necháte si jen jednu. Zní to skvěle, že? Problém ale nastává, když deduplikace vymaže různorodá data a AI se pak učí jen z omezeného pohledu, což může vést k sociálním předsudkům. V našem případě by AI mohla vymazat fotografie doktorů s tmavou barvou pleti a byl by problém na světě.
FairDeDup přináší svěží vítr do tohoto procesu. Tento nový systém chytře zahrnuje lidsky definované dimenze rozmanitosti, aby zajistil, že tréninková data zůstanou reprezentativní pro celou populaci. Výsledkem je spravedlivější a přesnější AI, která nepodporuje zastaralé stereotypy.
Porozuměním, jak deduplikace ovlivňuje prevalenci předsudků, je možné zmírnit negativní efekty – například situaci, kdy systém AI automaticky zobrazí pouze fotografie bílých mužů, pokud je požádán o zobrazení obrázku ředitele, doktora atd., a to když je cílem zobrazit různorodé reprezentace lidí.
„FairDeDup jsme pojmenovali jako slovní hříčku na starší, nákladově efektivní metodu SemDeDup, kterou jsme vylepšili tím, že jsme do ní zahrnuli aspekty spravedlnosti,“ uvedl Slyman. „Zatímco předchozí studie ukázaly, že odstranění redundantních dat může umožnit přesnější trénink AI s menšími náklady, zjistili jsme, že tento proces může také zhoršit škodlivé sociální předsudky, které se AI často učí.“
Slyman představil algoritmus FairDeDup minulý týden v Seattlu na konferenci IEEE/CVF o počítačovém vidění a rozpoznávání vzorů. FairDeDup pracuje na zředění datasetů popisů obrázků získaných z webu pomocí procesu známého jako prořezávání.
Obrázek 2 – DALL-E 3: Žena v retro kreslené stylizaci s VR brýlemi
Výběr reprezentativního vzorku dat bez zkreslení
Prořezávání znamená výběr podmnožiny dat, která reprezentuje celý dataset. Stejný princip, jako když se volí reprezentanti do europarlamentu za danou zemi. Pokud je tento proces prováděn s uvědoměním si obsahu, tj. uvědoměním si, která data vybrat, lze vytvářet informativní rozhodnutí o tom, které části dat zůstanou a které budou odstraněny.
„FairDeDup odstraňuje redundantní data a zároveň zahrnuje kontrolovatelné, lidsky definované dimenze rozmanitosti, aby zmírnil předsudky,“ uvedl Slyman. „Náš přístup umožňuje trénování AI, které je nejen nákladově efektivní a přesné, ale také spravedlivější.“
Kromě povolání, rasy a pohlaví mohou být během tréninku eliminovány i další předsudky, včetně těch souvisejících s věkem, geografií a kulturou. „Tím, že se zabýváme předsudky během prořezávání datasetů, můžeme vytvořit AI systémy, které jsou společensky spravedlivější,“ dodal Slyman.
„Naším cílem není přinutit AI, aby následovala náš vlastní koncept spravedlnosti. Místo toho vytváříme podmínky, aby AI mohla jednat spravedlivě v konkrétním prostředí a vůči určité uživatelské bázi, ve které je použita. Umožňujeme lidem definovat, co považují za spravedlivé ve svém kontextu, místo toho, aby rozhodnutí o spravedlnosti byla ponechána na internetu nebo jiných rozsáhlých datasetech.“
Shrnutí
- Výzkumníci z Oregon State University a Adobe vytvořili techniku FairDeDup pro snížení sociálních předsudků v AI.
- FairDeDup odstraňuje redundantní data a zahrnuje lidsky definované dimenze rozmanitosti.
- Tato metoda je nákladově efektivní, přesná a spravedlivější než předchozí metody.
- Cílem je umožnit, aby lidé definovali spravedlnost v jejich prostředí, nikoli internet nebo rozsáhlé datasety.
Zdroj:
- ScienceDaily. (2024b, June 25). Researchers develop new training technique that aims to make AI systems less socially biased. ScienceDaily. https://www.sciencedaily.com/releases/2024/06/240625210027.htm







