Deepgram si vybudoval pověst jako jedna z vedoucích startupových společností v oblasti rozpoznávání hlasu. Nyní, tato dobře financovaná firma oznámila spuštění Aury, své nové textově-hlasové API v reálném čase. Aura kombinuje vysoce realistické hlasové modely s API s nízkou latencí, čímž umožňuje vývojářům vytvářet AI agenty schopné konverzace v reálném čase. Tito agenti, podporovaní velkými jazykovými modely (LLM), mohou pak zastupovat zákaznické servisní pracovníky v call centrech a dalších situacích s přímým kontaktem se zákazníky.
Scott Stephenson, spoluzakladatel a generální ředitel společnosti Deepgram, zdůrazňuje, že přístup k vynikajícím hlasovým modelům byl vždy možný, avšak tyto byly drahé a vyžadovaly dlouhou dobu výpočtu. Naopak modely s nízkou latencí často zněly roboticky. Aura od Deepgramu nabízí lidským hlasem podobné modely, které jsou schopné generovat hlas velmi rychle (obvykle za méně než půl sekundy) a, jak Stephenson opakovaně zdůrazňuje, za nízkou cenu.
„V současnosti každý říká: ‚potřebujeme AI roboty s hlasovým ovládáním v reálném čase, kteří dokážou vnímat, co se říká, rozumět tomu a generovat odpovědi – a poté odpovídat zpět,'“ řekl Stephenson. Podle jeho názoru je pro vytvoření produktu, který bude pro podniky opravdu přínosný, nutná kombinace přesnosti (kterou popsal jako základní požadavek pro službu tohoto typu), nízké latence a přijatelných nákladů, zvláště když se to spojí s relativně vysokými náklady na přístup k velkým jazykovým modelům (LLM).
Nízká latence s vysokou přesností za nízkou cenu
Stephenson věří, že pro úspěch produktu jako je Aura je klíčová kombinace přesnosti, nízké latence a přijatelných nákladů, zejména v kontextu poměrně vysokých nákladů na přístup k LLM. Cena Aury od Deepgramu překonává téměř všechny konkurenty s cenou 0,015 dolaru za 1 000 znaků, což je o něco méně než cena za hlasové modely Google WaveNet a Amazon Polly Neural, které stojí 0,016 dolaru za 1 000 znaků.
Aura nabízí zhruba dvanáct hlasových modelů, všechny vycvičené na datasetu, který Deepgram vytvořil ve spolupráci s hlasovými herci. Tyto modely, stejně jako všechny ostatní modely společnosti, byly vyvinuty interně. Zkuste si demo Aury zde. Po krátkém testování je zřejmé, že rychlost generování odpovědí společně s existujícím vysoce kvalitním modelem přepisu řeči na text od Deepgramu opravdu vyniká, i když se občas objeví nějaká ta zvláštní výslovnost.

Obrázek 1 – Porovnání latence mezi Aura a Elevenlabs
Možnost vyzkoušení AI asistenta
Pakliže si asistenta chcete vyzkoušet, navštivte webové stránky Deepgram Aura, kde máte možnost vyzkoušet si demo konverzaci. Na výběr máte z pestré palety hlasů, které na můj vkus fungují velmi dobře. Upřímně konverzace, kterou jsem vedl působila nejvíce realisticky, co se přesnosti a latence týče, oproti ostatním modelům.
Shrnutí:
- Deepgram oznámil spuštění Aury, nového textově-hlasového API, které umožňuje realistické hlasové modely s nízkou latencí pro vývoj AI agentů.
- Aura nabízí rychlé generování hlasu za konkurenceschopnou cenu, což otevírá možnosti pro rozvoj konverzačních AI služeb.
- Společnost se zaměřuje na přesnost, rychlost a nízké náklady, aby jejich produkt byl atraktivní pro podniky.
- S Aura je možné vytvářet realistické hlasové interakce pro zákaznické služby, přičemž cena služby překonává většinu konkurentů.
- Deepgram spolupracoval s hlasovými herci na vytvoření unikátního datasetu pro trénink svých hlasových modelů, které jsou klíčové pro přirozenou komunikaci AI.
Zdroj:
- Lardinois, F. (2024, March 12). Deepgram’s aura gives ai agents a Voice. TechCrunch. https://techcrunch.com/2024/03/12/deepgrams-aura-gives-ai-agents-a-voice/?ref=futuretools.io







