Zpravodajské portály obviňují Perplexity AI z plagiátorství a neetického webového scrappingu

V době generativní AI, kdy chatboti mohou získávat a syntetizovat informace z internetu a poskytovat podrobné odpovědi, je rozdíl mezi fair use a plagiátorstvím, a mezi běžným webovým scrappingem a neetickým shrnutím, mimořádně tenký. Koneckonců vždyť sám šéf AI v Microsoftu vyjádřil názor, že veškerý obsah na internetu je prakticky „freeware“. S tím ale mnozí, včetně magazínu Forbes a Wired, očividně nesouhlasí.

Perplexity AI, startup, který kombinuje vyhledávač s velkým jazykovým modelem k vytváření podrobných odpovědí, se ocitl v centru této kontroverze. Na rozdíl od modelů jako je OpenAI’s ChatGPT a Anthropic’s Claude, Perplexity netrénuje své vlastní základní modely. Místo toho využívá otevřené nebo komerčně dostupné modely ke zpracování informací získaných z internetu. A co si budeme, umí to opravdu dobře.

Vzestup Perplexity

To dokazuje i působivý finanční růst a rostoucí popularita. V dubnu 2023 společnost získala 28,8 milionu dolarů v rámci financování Série A, což jí poskytlo pevný základ pro další rozvoj. Tento vzestup pokračoval úspěšným kolem Série B v lednu 2024, kdy Perplexity AI získala 73,6 milionu dolarů od významných investorů jako IVP, NEA, Nvidia a Jeff Bezos, čímž se její hodnota zvýšila na 520 milionů dolarů. Do poloviny roku 2024 dosáhla Perplexity AI statusu „jednorožce“, když získala dalších 63 milionů dolarů v novém kole financování, což zvýšilo její ocenění na více než 1 miliardu dolarů.

Tenká hranice mezi inovací a plagiátorstvím

V červnu si ale na Perplexity posvítili magazíny Forbes a Wired a obvinily Perplexity z neetického chování. Forbes tvrdí, že Perplexity zkopírovala jeden z jeho článků ve funkci beta „Perplexity Pages“, zatímco Wired obviňuje startup z nelegálního webového scrappingu dat na jeho webu. Tato obvinění přicházejí v době, kdy Perplexity údajně usiluje o získání 250 milionů dolarů při ocenění téměř 3 miliard dolarů.

Perplexity, podporovaná významnými subjekty jako Nvidia a Jeff Bezos, trvá na svém dodržování etických postupů. Společnost tvrdí, že respektuje požadavky vydavatelů na nesbírání jejich obsahu a že jedná v mezích fair use autorských zákonů.

Obsah obrázku budova, Neonové nápisy, město

Popis byl vytvořen automaticky

Obrázek 1 – DALL-E 3: Cyberpunk město

Jakou roli v tom hraje protokol Robots Exclusion?

Centrálním bodem této problematiky jsou protokol Robots Exclusion (REP) a fair use v autorském právu. REP je standard, který webové stránky používají k označení svých preferencí ohledně webových crawlerů (tj. programů, které prochází data na webových stránkách). Fair use na druhé straně poskytuje právní rámec pro používání chráněného materiálu bez povolení za určitých okolností.

Vyšetřování Wired naznačilo, že Perplexity ignorovala REP ke sbírání dat z chráněných oblastí webových stránek. Toto tvrzení bylo podpořeno vývojářem Robbem Knightem, který pozoroval podobné aktivity ze síťového provozu Perplexity.

Dmitry Shevelenko, vedoucí obchodu v Perplexity, popřel tato obvinění a vysvětlil, že shrnutí URL se liší od crawlingu (prohledávání a sbírání dat z webů). Podle Shevelenka navštěvuje Perplexity URL pouze tehdy, když je uživatel zadá přímo, což se nepovažuje za tradiční crawling.

Tenký led mezi plagiátorstvím a fair use

Plagiátorství, i když je odsuzováno, není nutně nelegální. Americký úřad pro autorská práva umožňuje omezené používání chráněného materiálu pro komentáře, kritiku, zpravodajství a akademické účely v rámci fair use. Avšak rozsah toho, co se považuje za fair use oproti plagiátorství, je nejasný.

Forbes a Wired obvinily Perplexity z vytváření shrnutí příliš blízkých originálním článkům, někdy dokonce replikujících věty doslovně. Podle pokynů Poynter Institute by použití sedmi po sobě jdoucích slov ze zdroje mohlo být považováno za plagiátorství.

Etické a právní důsledky

Přístup Perplexity vyvolal etické a právní otázky ohledně budoucnosti AI a žurnalistiky. Zatímco společnost slibuje zlepšení praxe citování, základní otázka zůstává: může AI, která generuje shrnutí webových stránek, poškodit vydavatele tím, že sníží návštěvnost původního obsahu? V praxi, že místo toho, abyste si článek přečetli, tak si necháte na jedno kliknutí vytvořit shrnutí díky nástrojům, jako je Perplexity.

Obsah obrázku snímek obrazovky, umění, Digitální kompozice

Popis byl vytvořen automaticky

Obrázek 2 – DALL-E 3: Kyberprostor v dark souls stylizaci

Budoucí cesta Perplexity

AI společnosti jako OpenAI uzavřely mediální dohody, aby legálně získaly obsah pro trénink svých algoritmů. Na oplátku se tak zavázali k propagaci původních článků. Perplexity zatím podobné dohody neoznámila, ale plánuje zavést sdílení příjmů z reklamy s vydavateli.

Tato strategie však vyvolává obavy o udržitelnost těchto modelů. Pokud budou AI crawleři nadále přetvářet práci vydavatelů bez řádné kompenzace, mohlo by to vést k poklesu tvorby původního obsahu. To by následně mohlo způsobit, že se AI systémy budou spoléhat na syntetická data, což by mohlo vytvořit zpětnou vazbu zaujatého a nepřesného obsahu.

Shrnutí

Perplexity AI čelí obviněním z plagiátorství a neetického webového scrappingu od významných zpravodajských portálů, což komplikuje její postavení v AI průmyslu.
Protokol Robots Exclusion a zákony o fair use jsou klíčové pro tento spor, přičemž nuance činí jasné závěry obtížnými.
Obvinění zahrnují ignorování REP a těsné kopírování obsahu, což vyvolává etické a právní otázky.
Budoucnost AI a žurnalistiky závisí na etických praktikách a spravedlivé kompenzaci, přičemž hrozí riziko poklesu kvality a originality obsahu.

Zdroj:

Bellan, R. (2024, July 2). News outlets are accusing perplexity of plagiarism and unethical web scraping. TechCrunch. https://techcrunch.com/2024/07/02/news-outlets-are-accusing-perplexity-of-plagiarism-and-unethical-web-scraping/?ref=futuretools.io&guccounter=1&guce_referrer=aHR0cHM6Ly93d3cuZnV0dXJldG9vbHMuaW8v&guce_referrer_sig=AQAAAGYdL2JmHvmUbKIrWYoiRTsdV9S7D7X4-IHSjbkI8Eb3GC7nlOhg13CizOGaoK6mgyraDHvxAOwqZm6AI0JKCMCcn82f4NhhYIeCSzxAIkCEbgFIRrWwLiQFGGa9DmSrxQ-Vn0kLag7mhCgjCOkns8t6nWjMr6quvMAkzojyAuwd

Tagy: AI