Nová AI sluchátka dokáží zaměřit hlas v davu pomocí třísekundového pohledu a eliminovat veškerý ruch v pozadí

Sluchátka s funkcí potlačení šumu jsou dnes velmi účinná při vytváření zvukově čistého prostředí. Technologie potlačení šumu (noise-canceling) je v současné době již zavedená inovace mnoha sluchátek. Noise-canceling totiž uživatelům umožňuje eliminovat zvuky v okolích a vytvořit tak čisté zvukové prostředí pro posluchače. Společnosti jako Apple, Bose, Samsung nebo Sony jsou hlavními výrobci sluchátek s touto technologií. Pro ty, kteří se s termínem noise-canceling setkávají poprvé si dovolím udělat krátké vysvětlení. Noise-canceling neboli potlačení šumu funguje tak, že sluchátka pomocí vestavěných mikrofonů snímají okolní zvuky a generují opačné zvukové vlny, které tyto zvuky neutralizují. Tento proces umožňuje uživatelům vychutnat si hudbu nebo hovory bez rušivého hluku z okolí. Osobně tento režim často používám pro čtení nebo když se potřebuji soustředit v hlučných prostorách – a nemohu si ho vynachválit.

Problém ale této technologie je, že ruší kompletně všechny zvuky. To znamená, že když s někým máte rozhovor, musíte si buď sluchátka přepnout do tzv. „ambient mode“ nebo sluchátka zcela sundat. Ambient mode umožňuje uživatelům slyšet okolní zvuky ve stejné hlasitosti, jako kdyby sluchátka neměli. To by se ale mohlo v budoucnu změnit. Nejnovější verze Apple AirPods Pro například automaticky upravuje úroveň zvuku podle situace – například když nositel začne mluvit — avšak uživatel má jen malou kontrolu nad tím, koho a kdy poslouchat.

Obsah obrázku Sluchátka, Zvukové zařízení, sluchátka s mikrofonem, interiér

Popis byl vytvořen automaticky

Obrázek 1 – DALL-E 3: AI digitální sluchátka

Nový příslib AI sluchátek od University of Washington

Tým z University of Washington vyvinul systém umělé inteligence, který umožňuje uživateli nosícímu sluchátka sledovat mluvící osobu po dobu tří až pěti sekund, aby ji „zaregistroval“. Tento systém, nazývaný „Target Speech Hearing“ (TSH), poté zruší všechny ostatní zvuky z okolí a přehraje pouze hlas zaregistrovaného mluvčího v reálném čase, a to i když se posluchač pohybuje v hlučných místech a již není tváří k mluvčímu.

Tým prezentoval své výsledky 14. května v Honolulu na konferenci ACM CHI o faktorech lidského působení v počítačových systémech. Kód pro tento důkazový koncept je dostupný pro další vývojáře. Systém je ale pořád ve fázi vývoje a dolaďování, tj. zatím není komerčně dostupný.

„AI máme tendenci vnímat jako webové chatboty, které zodpovídají naše dotazy,“ řekl hlavní autor Shyam Gollakota, profesor na Paul G. Allen School of Computer Science & Engineering na UW. „Ale v tomto projektu jsme vyvinuli AI, která modifikuje sluchové vnímání každého, kdo nosí sluchátka, podle jejich preferencí. S našimi zařízeními nyní můžete slyšet jednoho mluvčího jasně, i když jste v hlučném prostředí plném dalších lidí.“

Nerušená konverzace i v rušném městě

Aby bylo možné systém použít, osoba nosící běžná sluchátka s mikrofony klepne na tlačítko, zatímco zaměří hlavu na mluvící osobu. Zvukové vlny od daného mluvčího by se pak měly dostat k mikrofonům na obou stranách náhlavní soupravy současně, a to s 16stupňovou tolerancí. Sluchátka odesílají tento signál do vestavěného počítače, kde týmový software pro strojové učení identifikuje vokální vzory požadovaného mluvčího. Systém se zaměří na hlas tohoto mluvčího a pokračuje v jeho přehrávání posluchači, i když se oba pohybují – například procházejí kolem šumivé fontány. Schopnost systému zaměřit se na zaregistrovaný hlas se zlepšuje, jak mluvčí pokračuje v hovoru, čímž poskytuje systému více tréninkových dat.

Tým testoval svůj systém na 21 subjektech, kteří hodnotili srozumitelnost zaregistrovaného hlasu téměř jako dvakrát vyšší než u nefiltrovaného zvuku.

Tato práce navazuje na předchozí výzkum týmu zaměřený na „sémantické slyšení“, který umožňoval uživatelům vybrat si specifické třídy zvuků — například zvuky ptáků nebo hlasy — které chtěli slyšet, a zrušit ostatní zvuky z okolí.

Aktuálně může systém TSH zaregistrovat pouze jednoho mluvčího najednou a je schopen zaregistrovat mluvčího jen tehdy, když z daného směru nepřichází jiný hlasitý hlas. Pokud není uživatel spokojený s kvalitou zvuku, může provést nové zaregistrování mluvčího pro zlepšení srozumitelnosti. Tým má v plánu do budoucna rozšířit systém i do špuntových sluchátek a naslouchadel.

Praktické využití na sebe nenechají dlouho čekat

Na závěr si dovolím poznamenat, že technologie AI sluchátek s funkcí zaměření na jeden hlas v davu nabízí široké spektrum praktických využití. Mohla by být neocenitelná pro účastníky konferencí a seminářů, kteří potřebují slyšet konkrétního mluvčího mezi mnoha lidmi. Studenti by mohli tuto technologii využít při přednáškách, aby se lépe soustředili na výklad učitele. Navíc by mohla být velmi užitečná pro osoby se sluchovými problémy, kteří by díky této technologii mohli lépe rozumět rozhovorům v hlučných prostředích, jako jsou restaurace nebo veřejné dopravní prostředky. Myslím si tak, že tato inovace bude mít do budoucna velkou úspěšnost. Možná ani nebude trvat dlouho, než se jí dočkáme v nejnovějších produktech od světových výrobců sluchátek, jako je Sony, Samsung nebo Apple.

Shrnutí

Výzkumníci z University of Washington vyvinuli AI systém Target Speech Hearing (TSH) pro sluchátka s potlačením šumu.
TSH umožňuje uživateli zaměřit se na konkrétního mluvčího v hlučném prostředí sledováním jeho hlasu.
Systém zruší okolní zvuky a přehraje pouze hlas zaregistrovaného mluvčího, i když se pohybují.
TSH byl testován na 21 subjektech, zlepšuje srozumitelnost řeči a plánuje se jeho rozšíření na špunty a naslouchadla. Zatím ale není komerčně dostupný.

Zdroj:

Ai headphones let wearer listen to a single person in a crowd, by looking at them just once. UW News. (n.d.). https://www.washington.edu/news/2024/05/23/ai-headphones-noise-cancelling-target-speech-hearing/?ref=futuretools.io

Tagy: AI