• Nabídka spolupráce
  • Kontakt
Neděle, 10 prosince, 2023
Ainovinky.cz
  • Hlavní stránka
  • Novinky
  • ChatGPT a texty
  • Midjourney
  • Ostatní AI nástroje
  • Jak začít
  • Vzdělání
Výsledek nenalezen
Zobrazit všechny výsledky
  • Hlavní stránka
  • Novinky
  • ChatGPT a texty
  • Midjourney
  • Ostatní AI nástroje
  • Jak začít
  • Vzdělání
Výsledek nenalezen
Zobrazit všechny výsledky
Ainovinky.cz

Gladia: Revoluční AI, která mění zvuk na text téměř v reálném čase

Redakce Od Redakce
22 června, 2023
Kategorie: Ostatní AI nástroje
Zdroj: prompt [A young pretty woman walking in the middle of the city in the daytime with headphones on. The woman is moving to the beat, wearing a short t-shirt with denim shorts that are above her knees. The woman has a thick mane of brown hair that sways with the rhythm of her movement. The city around on her sides has a modern futuristic feel to it, a back camera angle, medium full shot, eye level, energetic, 8k, octane render, bokeh, hyperrealistic --style raw --c 20]

Zdroj: prompt [A young pretty woman walking in the middle of the city in the daytime with headphones on. The woman is moving to the beat, wearing a short t-shirt with denim shorts that are above her knees. The woman has a thick mane of brown hair that sways with the rhythm of her movement. The city around on her sides has a modern futuristic feel to it, a back camera angle, medium full shot, eye level, energetic, 8k, octane render, bokeh, hyperrealistic --style raw --c 20]

Sdílet na FacebookuSdílet na Twitteru

Vstupte do světa Gladie, francouzského startupu v oblasti umělé inteligence, jehož hlavní vizí je kompletně změnit způsob, jakým společnosti nahlíží na práci s audio daty! Platforma Gladie vyvíjí API pro přepis audia, které je možné integrovat do jiných produktů, aplikací či chatbotů. Přepis audia do textu již můžeme pozorovat nějakou dobu, nicméně se v tomto sektoru objevovala mnohá úskalí v podobě latence, nepřesnosti či náročnosti na HW. Gladia se rozhodla zaměřit na tuto konkrétní oblast s cílem přinést inovace a vyřešit problémy, které dosud brzdily pokrok v tomto odvětví. Její úsilí se ukázalo být úspěšné, a tak nyní Gladia představuje revoluční technologii přepisu audia, která dosahuje lepších výsledků než její předchozí protějšky. Tato nová technologie tak představuje nové možnosti, které můžeme integrovat do našich stávajících systémů.

Současná situace: Problémy a omezení

Pokud jste se již setkali s API pro přepis audia, víte, že velcí cloudoví poskytovatelé používají již své vlastní. Jako příklad zde můžeme uvést Google speech-to-text API, Amazon Transcribe, Microsoft Speech to Text atd. Ačkoli tyto nástroje sice fungují dobře, mnohdy bývají značně nákladné, pomalé a vzhledem i k malému množství funkcí se to zkrátka pro mnohé nevyplatí.

Podle Jean-Louise Quéguinera, spoluzakladatele a CEO Gladie, který dříve vedl oddělení AI pro OVHcloud a společnost založil společně s Jonathanem Soto, současné API disponují značnými omezeními, kterým vévodí tři hlavní problémy, od nichž se pak odvíjí i kvalita produktů.

Cena, spolehlivost a rychlost

Za prvé, pokud jde o ceny, přepis jedné hodiny audia obecně stojí kolem $1.50 až $2 za hodinu. 

Za druhé, výstup nemusí být vždy spolehlivý, zatímco některé jazyky fungují dobře, jiné jsou podporovány jen minimálně. Pokud lidé mluví více jazyky, je velká šance, že API jednoduše nerozpozná změnu jazyka a nepřepíše audio ve více než jednom jazyce.

Za třetí, API pro přepis bývají pomalé. Může trvat více než 15 minut k přepsání jedné hodiny audia. V případě že nepotřebujete přepisy okamžitě, časová náročnost není takovým problém. Bohužel to ale znamená, že tyto API nebudete moci používat v některých odvětvích, kde je zapotřebí vysoká flexibilita a rychlost.

Whisper jako základ: Gladia staví na otevřeném modelu

Gladia je postavena na Whisper, otevřeném modelu pro přepis audia to textu od společnosti OpenAI. „Začali jsme s Whisperem, poněvadž nám připadal jako nejlepší výchozí bod pro začátek našeho budování. Nevytvářeli jsme celou technologii od základu, ale snažili jsme se naslouchat našim zákazníkům, od nichž jsme se dozvěděli, že hlavním předmětem jejich zájmu je technologie, která funguje na podobné bázi jako Whisper, ale eliminuje jeho nedostatky, ba je dokonce i vylepšuje, řekl Jean-Louis Quéguiner.

Gladia proto věnovala nemalé množství času přeměně Whisperu na rychlý a reaktivní model pro přepis.

Gladia: Rychlá, přesná a cenově dostupná technologie pro přepis

Gladia slibuje, že dokáže přepsat hodinu audia za $0.61, s čímž že proces přepisu by měl být hotový do přibližně 60 sekund. Její API dokáže detekovat hovory ve více jazycích, přidává časové značky, detekuje jazyky a pokud je to potřeba, přepíná se z jednoho jazyka na druhý. Gladia také do svých přepisů automaticky přidává interpunkci a velká písmena.

Výsledek je prezentován ve formátu JSON, Gladia kromě toho ale také podporuje soubory typu SRT a VTT, jež se hodí zejména firmám pro generování titulků.

Gladia v praxi

Podle jednoho u uživatelů, který si Gladie vyzkoušel jsou výsledky více než obstojné. Zde přikládám jeho zkušenost: “Trvalo to trochu déle, než jsem očekával, ale bylo to rozhodně mnohem rychlejší než Google nebo Azure speech-to-text API.

Výsledek nebyl bezchybný, ale na rozdíl od výsledků předešlých výsledků, značně vynikal – Gladie dokonce pochopila akronymy a jiné technické termíny. Otevřel jsem stejný audio soubor v Aiko, Mac aplikaci vyvinutou Sindre Sorhusem, která Vám umožňuje přepisovat audio soubory lokálně pomocí Whisperu. Jak se dalo očekávat, výstup byl blízký výstupu Gladie – Gladia však byla mnohem rychlejší než Aiko, která byla poháněna mým MacBookemPro.

Celkově vzato byla Gladia nejlepší API pro přepis, které jsem kdy použil.

Budoucnost Gladie: Audio inteligence

Společnost aktuálně spolupracuje s call centry, virtuálními službami pro schůzky a vydavateli videí, včetně Claap, Livestorm a Selectra.

Gladia získala v rámci seedového (počátečního) kola, vedenou společností New Wave, financování v hodnotě 4 milionů dolarů. Mezi další investory patří Sequoia, Cocoa a business angels. 

Mít solidní API pro přepis je pro Gladia pouze prvním krokem. Společnost doufá, že na tomto silném technickém základě bude moci postavit další funkce.

Překlad a další funkce

Například po přepsání audio souboru může Gladia text přeložit do jiného jazyka. Ve spojení s časovými značkami na úrovni slov to znamená, že společnost může nahrát audio soubor a získat titulky v desítkách jazyků během několika minut.

V budoucnu společnost doufá, že bude moci shrnout obsah audio souboru, kategorizovat obsah do více tematických kategorií, automaticky vytvářet kapitoly, provádět analýzu sentimentu a další.

„Naším dlouhodobým cílem je převést data z dvourozměrného do trojrozměrného formátu. Audio v současné podobě je relativně jednoduché a naše ambice je obohatit ho o hloubku pomocí umělé inteligence,“ sdělil Quéguiner. „Věříme, že v budoucnosti se přepis audia stane běžnou službou. To, kdo na tomto poli uspěje, bude záviset na schopnosti inovovat a rozšiřovat své možnosti, což je přesně to, na co se chceme soustředit.“

Poznámka: Když se hovoří o přidání „třetího rozměru“ k audio datům, může to znamenat přidání další vrstvy informací, která poskytuje hlubší pochopení zvukové nahrávky. V kontextu technologie přepisu může tato „třetí dimenze“ zahrnovat informace jako identifikaci mluvčího, detekci emocí, rozpoznání jazyka, a další kontextové informace, které mohou pomoci poskytnout bohatší a detailnější představu o obsahu audionahrávky.

Gladia by se mohla podívat i do herního průmyslu

V jednom z našich nedávných článků jsme se podrobněji zabývali novinkou od společnosti Nvidia, technologií nazvanou ACE (Avatar Cloud Engine). Tato technologie je navržena pro realistické konverzace a animaci obličejových výrazů, především v kontextu videoher. S touto technologií by mohla platforma Gladia rozšířit svůj dosah i do oblasti herního průmyslu.

Představte si, jak by spolupráce s Nvidiou mohla posunout videohry na zcela novou úroveň. Velké RPG hry, jako je Zaklínač: Divoký hon, Cyberpunk 2077 nebo Red Dead Redemption 2, se snaží nabídnout co nejrealističtější zážitek. Jakákoli latence v odpovědích nebo jiné nepřesnosti mohou narušit celkový dojem ze hry.

Tento článek přináší pohled na inovativní technologii, která má potenciál zásadně změnit způsob, jakým společnosti a jednotliví uživatele pracují s audiodaty. Gladia je příkladem toho, jak může být AI využita k vytvoření efektivních a cenově dostupných řešení, která mohou přinést významné výhody do široké škály odvětví jako jsou média, konzultace, poradenství, kinematografie nebo zdravotnictví.

Tagy: audioGladiatext

Podobné články

Inflection AI vydává svůj nový model přesahující téměř všechny své konkurenty

Inflection AI vydává svůj nový model přesahující téměř všechny své konkurenty

Od David Kovář
26 listopadu, 2023
0

Vydání Inflection-2: Nová Hrozba pro technologické AI giganty Na obzoru AI generativních modelů se objevuje další gigant. Jedná se o...

Adobe s novým modelem vektorové generativní AI: Firefly Vector Model

Adobe s novým modelem vektorové generativní AI: Firefly Vector Model

Od David Kovář
15 října, 2023
0

Illustrator, nástroj společnosti Adobe pro vektorovou grafiku určený grafickým umělcům, se chystá vstoupit do éry generativního AI s uvedením modelu...

Jak pomocí ChatGPT obejít přístup k placeným článkům?

DALL-E nově v ChatGPT: Lepší než Midjourney?

Od David Kovář
6 října, 2023
0

V nedávném článku jsem informoval o nadcházející velkou aktualizaci pro ChatGPT. Hlavním předmětem aktualizace měla být pokročilá verze AI generátoru...

Jak pomocí ChatGPT obejít přístup k placeným článkům?

Bing Image Creator nyní oficiálně podporuje DALL-E 3 

Od David Kovář
4 října, 2023
0

V době, kdy se svět technologií neustále mění a inovuje, přichází Microsoft s dalšími novinkami týkajícími se jeho vyhledávacího nástroje...

Nejčtenější za 30 dní

  • Naděje, strach a AI: Pohled na budoucnost umělé inteligence

    Dev Home a Copilot: Nový integrovaný AI asistent od Microsoftu pro Windows 11

    64 sdílení
    Sdílet 26 Tweet 16
  • Vítěz světové fotografické soutěže odmítl cenu – a přiznal pomoc AI

    52 sdílení
    Sdílet 21 Tweet 13
  • GPT-4 Vision: Revoluce v oblasti vizuálního zpracování a analýzy

    8 sdílení
    Sdílet 3 Tweet 2

Ainovinky.cz

Přinášíme vám aktuální novinky ze světa umělé inteligence. S námi se v AI světě neztratíte.

© 2023 AInovinky.cz - Všechna práva vyhrazena
Webové stránky a IT na míru - Tobynet.cz

  • Hlavní stránka
  • Novinky
  • ChatGPT a texty
  • Midjourney
  • Ostatní AI nástroje
  • Jak začít
  • Vzdělání
Výsledek nenalezen
Zobrazit všechny výsledky

© 2023 AInovinky.cz - Všechna práva vyhrazena