V dnešní digitální éře je schopnost rychle a přesně získávat text z různých vizuálních médií nebo fyzických dokumentů nezbytná. Takové získávání informací se nazývá OCR (optical character recognition), tato technika využívá speciální algoritmy pro rozeznávání textu z obrázků, PDF souborů nebo klasických fyzických dokumentů. Jedná se tak o velmi efektivní způsob, jak digitalizovat například knihy nebo poznámky z Vašich sešitů.
Sám si pamatuji, jak jsem kdysi tuto technologii využil pro extrahování textu ze dvou papírů, včetně jeho formátování. Text jsem následně i s formátováním přeposlal do Wordu, udělal drobné úpravy a voilà, měl jsem hotovo!
V tomto tutoriálu vám ukáži ChatGPT plugin s názvem ChatOCR, který ačkoli není zcela bezchybný, dokáže být velmi užitečným pomocníkem.
Co to je za plugin
ChatOCR je plugin pro optické rozpoznávání znaků (OCR), který byl navržen s ohledem na potřeby současných uživatelů. Ať už se jedná o PDF, obrázky nebo jiné formáty, tento nástroj by měl být schopen rychle a přesně extrahovat text z různých zdrojů.
K čemu plugin slouží
Hlavním účelem ChatOCR je poskytnout uživatelům spolehlivý nástroj pro extrakci textu z vizuálních médií. Ať už jste student, výzkumník nebo profesionál v oboru, ChatOCR vám může usnadnit práci s textovými informacemi obsaženými v obrázcích a dokumentech.
Jak plugin používat
Nejdříve si plugin budete muset stáhnout a aktivovat:
Jakmile budete mít plugin stáhnutý a aktivovaný, máte 2 možnosti, jak pluginu vložit svůj obsah.
- URL odkaz: Pakliže se obsah (PDF, obrázek, graf) nachází na webu, jednoduše zkopírujte jeho odkaz a vložte ho do konverzace s ChatGPT, kde rovněž uvedete, co s tím chcete dělat.
- Nahrání obsahu do „ChatOCR uploaderu“: Potřebujete-li se dostat na stránku pluginu, kde můžete svůj obsah nahrát z počítače, jednoduše požádejte ChatGPT o odkaz, anebo klikněte na tento odkaz. Pro tento účel je nutné být přihlášený (můžete se přihlásit přes Google účet).
Příklady toho, jak lze plugin využít
- Konverze skenovaných dokumentů: Převod starých skenovaných dokumentů na textový formát pro snadnější archivaci a vyhledávání.
- Získání textu z obrázků: Rychlá extrakce textu z obrázků, například citátů nebo informací z grafů.
- Digitální archivace: Možnost převést papírové dokumenty na digitální formát s funkcí vyhledávání textu.
- Analýza vizuálních dat: Efektivní získání informací z grafů, tabulek a diagramů pro výzkumné účely.
Ukázka – Extrahování textu z PDF
Jelikož používám free verzi, musel jsem si ze svého PDF odebrat stránky. Pro tento účel doporočuji následující zdarma webovou stránku: Delete Some Pages from PDF – Best PDF Pages Remover (11zon.com)
Poté jsem zadal příkaz:
A dostalo se mi tohoto výsledku:
Samozřejmě jsem přepis zkontroloval a přepis se ukázal jako správný.
Ukázka – Komunikace s PDF dokumentem
Přepisovat PDF ale dnes umí kde kdo. Rozhodl jsem se proto požádá o jeho shrnutí s následujícím příkazem:
A dostalo se mi tohoto výsledku, který se ukázal jako velmi uspokojivý:
Ukázka – Extrahování textu z obrázku
Extrahování obrázku už ale bylo problematičtější, převážně jsem nacházel obtíže v extrahování textu z obrázků, které jsem nahrál skrze ChatOCR uploader. Moc dobře jsem také nepochodil při zkopírování odkazu obrázku z platformy Pinterest. Rozhodl jsem se proto pro vybrání obrázku ze sekce „obrázky“ v prohlížeči. Zde jsem byl úspěšnější:
Výsledek:
Ukázka – analýza grafu
Zajímavou funkcí je i analýza grafů, našel jsem si proto graf týkající se množství srážek a výšek teplot v Okinawě a poprosil jsem o jeho analýzu. Bohužel jsem opět narazil na problém příliš dlouhého zpracování:
Nehodlal jsem se nicméně vzdát, a tak jsem požádal chatbota o pokračování. Zvolil jsem proto následující příkaz:
A dočkal jsem se úspěchu:
Omezení pluginu
Jak jste mohli vidět, nic není bezchybné, a tak i tento plugin má svá omezení, které je dobré brát v potaz. Plugin disponuje několika verzemi měsíčního předplatného, z nichž nejlevnější se pohybuje na cenovce 5 dolarů. Nejdražší stojí 20 dolarů. Naštěstí je zde ale i zdarma verze (tu jsem ostatně používal), která vám umožňuje nahrát maximálně 5 dokumentů za měsíc. Soubory navíc musí být do 10 MB a 10 stránek. Kdyby Vás to zajímalo více, přikládám odkaz.
Další obtíží, na kterou jsem narazil, je pomalé zpracovávání. Plugin jsem testoval tak, že jsem si stáhnul obrázek, na němž byl napsán citát. Obrázek jsem poté nahrál do ChatOCR uploaderu a získané ID jsem zkopíroval do ChatGPT. Mým cílem bylo extrahovat text z obrázku a vypsat ho do konverzace ChatGPT. Z nějakého důvodu se mi ale od ChatGPT po chvilkovém čekání neustále dostávalo této odpovědi:
A i když jsem asi 3krát zadal, že chci pokračovat, nedočkal jsem se úspěchu.
Ačkoli plugin disponuje několika negativy, pořád se jedná o užitečný nástroj, který má velký potenciál. Věřím, že nedostatky, na něž jsem v průběhu testování narazil, budou v budoucnu odstraněny. ChatOCR vám ale do té doby může sloužit dobře i tak – možnost extrahování informací z obrázků, grafů, analytik nebo PDF dokumentů dělá z pluginu užitečný nástroj, který se v kombinaci s ChatGPT dobře používá, a mohu ho proto doporučit.