Jak dobře dokáže ai napodobit hlas moderátora vašeho oblíbeného podcastu? Anebo přímo vás?

Máte rádi podcasty? My ano – a moc. Ale přemýšleli jste nad tímhle? Už velmi brzy si možná pustíte novou epizodu oblíbeného podcastu a uvědomíte si, že něco není v pořádku. Moderátor, jehož hlas je vám povědomý, bude znít jinak. Jeho věty možná budou trochu kostrbaté, nebo některá slova budou mít zvláštní tón. A tak se zeptáte sami sebe: Mluví na mě skutečně moderátor tohoto podcastu, nebo snad jeho hlasový klon, který má na svědomí umělá inteligence?

Stejně jako už umělá inteligence prokázala, že umí vytvářet realistické obrázky, efektivní videa a přesvědčivé texty, mohou totiž další podobné technologie přesvědčivě napodobovat hlasy moderátorů podcastů, tvůrců obsahu a dalších mediálních profesionálů. Očekává se, že právě tento sektor nyní bude v centru dění vývojářů, stejně jako i samotných mediálních tvůrců.

Naše uši už znají řeč generovanou počítačem. Světoznámý DJ David Guetta například použil při svém setu hlas neméně slavného rappera Eminema. Ten ale měla na svědomí AI. Boti také stále častěji vyřizují telefonní hovory. Technologové naklonovali hlasy živých i mrtvých celebrit a rekonstruovali hlasy těch, kteří ztratili schopnost mluvit kvůli nemoci. Seznam potenciálních možností se zdá být nekonečný.

AI jako pomocník při tvorbě podcastů

Pokud jde ale konkrétně o tvorbu podcastů, ukázalo se, že chytré nástroje jsou schopny přiložit ruku k dílu i ve střižně. Editační služby, jako je Descript, nabízejí funkce strojového učení, které vyčistí zvukový záznam lidské řeči tím, že odstraní nepříjemné pauzy a výplňová slova.

V poslední době jde vývoj ještě dále. Už zmíněná aplikace Descript například nabízí funkci Overdub, která vytváří virtuální hlas, který lze použít při produkčních úpravách. Pokud moderátor špatně vysloví něčí jméno nebo se splete v datu, může producent pověřit robota, aby tuto pasáž předaboval správně, a pak vložit opravu.

A ani u toho nekončíme. V lednu startup Podcastle, který nabízí sadu softwaru pro podcasting, představil nástroj pro klonování hlasu s umělou inteligencí nazvaný Revoice, který dokáže vytvořit digitální klon hlasu lidského moderátora. Společnost prezentuje svou platformu jako způsob, jakým mohou producenti vytvořit jakýkoli aspekt zvukové produkce – od čtení reklam přes voiceovery až po celé audioknihy – pouhým zadáním slov, která chtějí, aby virtuální verze vypravěče říkala.

Jak digitální napodobování hlasu funguje v praxi?

Vytvoření digitální kopie vašeho hlasu nicméně vyžaduje trochu práce. Zatímco některé služby s umělou inteligencí dokážou napodobit hlasy studiem zvukových klipů mluvící osoby, Podcastle vyžaduje, aby uživatelé přečetli scénář asi 70 frází vybraných tak, aby zachytily různé pohyby úst a hlásky. Tento proces trvá 30 až 45 minut, podle toho, jak moc si dáváte záležet na správné intonaci.

„Od samotného začátku nám šlo o to, aby výsledek byl co možná nejpodobnější vašemu původnímu hlasu. Nejde o přikrášlování ani o to, aby byl váš hlas lepší, než ve skutečnosti je, ale aby náš výsledek byl co nejpřesnější v tom, jak vyslovujete slova.“
Artavazd Yeritsyan, generální ředitel společnosti Podcastle)

Výsledky v této oblasti mají před sebou nepochybně ještě dlouhou cestu k dokonalosti – pokrok je ale obrovský. Pro ukázku se podívejte třeba na toto video. Jeho tvůrce tady používá nástroj Descript, který jsme zmínili výše v tomto článku.