Vstupte do světa Gladie, francouzského startupu v oblasti umělé inteligence, jehož hlavní vizí je kompletně změnit způsob, jakým společnosti nahlíží na práci s audio daty! Platforma Gladie vyvíjí API pro přepis audia, které je možné integrovat do jiných produktů, aplikací či chatbotů. Přepis audia do textu již můžeme pozorovat nějakou dobu, nicméně se v tomto sektoru objevovala mnohá úskalí v podobě latence, nepřesnosti či náročnosti na HW. Gladia se rozhodla zaměřit na tuto konkrétní oblast s cílem přinést inovace a vyřešit problémy, které dosud brzdily pokrok v tomto odvětví. Její úsilí se ukázalo být úspěšné, a tak nyní Gladia představuje revoluční technologii přepisu audia, která dosahuje lepších výsledků než její předchozí protějšky. Tato nová technologie tak představuje nové možnosti, které můžeme integrovat do našich stávajících systémů.
Současná situace: Problémy a omezení
Pokud jste se již setkali s API pro přepis audia, víte, že velcí cloudoví poskytovatelé používají již své vlastní. Jako příklad zde můžeme uvést Google speech-to-text API, Amazon Transcribe, Microsoft Speech to Text atd. Ačkoli tyto nástroje sice fungují dobře, mnohdy bývají značně nákladné, pomalé a vzhledem i k malému množství funkcí se to zkrátka pro mnohé nevyplatí.
Podle Jean-Louise Quéguinera, spoluzakladatele a CEO Gladie, který dříve vedl oddělení AI pro OVHcloud a společnost založil společně s Jonathanem Soto, současné API disponují značnými omezeními, kterým vévodí tři hlavní problémy, od nichž se pak odvíjí i kvalita produktů.
Cena, spolehlivost a rychlost
Za prvé, pokud jde o ceny, přepis jedné hodiny audia obecně stojí kolem $1.50 až $2 za hodinu.
Za druhé, výstup nemusí být vždy spolehlivý, zatímco některé jazyky fungují dobře, jiné jsou podporovány jen minimálně. Pokud lidé mluví více jazyky, je velká šance, že API jednoduše nerozpozná změnu jazyka a nepřepíše audio ve více než jednom jazyce.
Za třetí, API pro přepis bývají pomalé. Může trvat více než 15 minut k přepsání jedné hodiny audia. V případě že nepotřebujete přepisy okamžitě, časová náročnost není takovým problém. Bohužel to ale znamená, že tyto API nebudete moci používat v některých odvětvích, kde je zapotřebí vysoká flexibilita a rychlost.
Whisper jako základ: Gladia staví na otevřeném modelu
Gladia je postavena na Whisper, otevřeném modelu pro přepis audia to textu od společnosti OpenAI. „Začali jsme s Whisperem, poněvadž nám připadal jako nejlepší výchozí bod pro začátek našeho budování. Nevytvářeli jsme celou technologii od základu, ale snažili jsme se naslouchat našim zákazníkům, od nichž jsme se dozvěděli, že hlavním předmětem jejich zájmu je technologie, která funguje na podobné bázi jako Whisper, ale eliminuje jeho nedostatky, ba je dokonce i vylepšuje, řekl Jean-Louis Quéguiner.
Gladia proto věnovala nemalé množství času přeměně Whisperu na rychlý a reaktivní model pro přepis.
Gladia: Rychlá, přesná a cenově dostupná technologie pro přepis
Gladia slibuje, že dokáže přepsat hodinu audia za $0.61, s čímž že proces přepisu by měl být hotový do přibližně 60 sekund. Její API dokáže detekovat hovory ve více jazycích, přidává časové značky, detekuje jazyky a pokud je to potřeba, přepíná se z jednoho jazyka na druhý. Gladia také do svých přepisů automaticky přidává interpunkci a velká písmena.
Výsledek je prezentován ve formátu JSON, Gladia kromě toho ale také podporuje soubory typu SRT a VTT, jež se hodí zejména firmám pro generování titulků.
Gladia v praxi
Podle jednoho u uživatelů, který si Gladie vyzkoušel jsou výsledky více než obstojné. Zde přikládám jeho zkušenost: “Trvalo to trochu déle, než jsem očekával, ale bylo to rozhodně mnohem rychlejší než Google nebo Azure speech-to-text API.
Výsledek nebyl bezchybný, ale na rozdíl od výsledků předešlých výsledků, značně vynikal – Gladie dokonce pochopila akronymy a jiné technické termíny. Otevřel jsem stejný audio soubor v Aiko, Mac aplikaci vyvinutou Sindre Sorhusem, která Vám umožňuje přepisovat audio soubory lokálně pomocí Whisperu. Jak se dalo očekávat, výstup byl blízký výstupu Gladie – Gladia však byla mnohem rychlejší než Aiko, která byla poháněna mým MacBookemPro.
Celkově vzato byla Gladia nejlepší API pro přepis, které jsem kdy použil.
Budoucnost Gladie: Audio inteligence
Společnost aktuálně spolupracuje s call centry, virtuálními službami pro schůzky a vydavateli videí, včetně Claap, Livestorm a Selectra.
Gladia získala v rámci seedového (počátečního) kola, vedenou společností New Wave, financování v hodnotě 4 milionů dolarů. Mezi další investory patří Sequoia, Cocoa a business angels.
Mít solidní API pro přepis je pro Gladia pouze prvním krokem. Společnost doufá, že na tomto silném technickém základě bude moci postavit další funkce.
Překlad a další funkce
Například po přepsání audio souboru může Gladia text přeložit do jiného jazyka. Ve spojení s časovými značkami na úrovni slov to znamená, že společnost může nahrát audio soubor a získat titulky v desítkách jazyků během několika minut.
V budoucnu společnost doufá, že bude moci shrnout obsah audio souboru, kategorizovat obsah do více tematických kategorií, automaticky vytvářet kapitoly, provádět analýzu sentimentu a další.
„Naším dlouhodobým cílem je převést data z dvourozměrného do trojrozměrného formátu. Audio v současné podobě je relativně jednoduché a naše ambice je obohatit ho o hloubku pomocí umělé inteligence,“ sdělil Quéguiner. „Věříme, že v budoucnosti se přepis audia stane běžnou službou. To, kdo na tomto poli uspěje, bude záviset na schopnosti inovovat a rozšiřovat své možnosti, což je přesně to, na co se chceme soustředit.“
Poznámka: Když se hovoří o přidání „třetího rozměru“ k audio datům, může to znamenat přidání další vrstvy informací, která poskytuje hlubší pochopení zvukové nahrávky. V kontextu technologie přepisu může tato „třetí dimenze“ zahrnovat informace jako identifikaci mluvčího, detekci emocí, rozpoznání jazyka, a další kontextové informace, které mohou pomoci poskytnout bohatší a detailnější představu o obsahu audionahrávky.
Gladia by se mohla podívat i do herního průmyslu
V jednom z našich nedávných článků jsme se podrobněji zabývali novinkou od společnosti Nvidia, technologií nazvanou ACE (Avatar Cloud Engine). Tato technologie je navržena pro realistické konverzace a animaci obličejových výrazů, především v kontextu videoher. S touto technologií by mohla platforma Gladia rozšířit svůj dosah i do oblasti herního průmyslu.
Představte si, jak by spolupráce s Nvidiou mohla posunout videohry na zcela novou úroveň. Velké RPG hry, jako je Zaklínač: Divoký hon, Cyberpunk 2077 nebo Red Dead Redemption 2, se snaží nabídnout co nejrealističtější zážitek. Jakákoli latence v odpovědích nebo jiné nepřesnosti mohou narušit celkový dojem ze hry.
Tento článek přináší pohled na inovativní technologii, která má potenciál zásadně změnit způsob, jakým společnosti a jednotliví uživatele pracují s audiodaty. Gladia je příkladem toho, jak může být AI využita k vytvoření efektivních a cenově dostupných řešení, která mohou přinést významné výhody do široké škály odvětví jako jsou média, konzultace, poradenství, kinematografie nebo zdravotnictví.