SeamlessM4T: Univerzální překladač z dílny Meta Platforms

V éře globalizace a digitální komunikace je schopnost komunikovat v různých jazycích důležitější než kdy dříve. Překládání mluveného a psaného slova se stává nezbytným nástrojem pro globální komunikaci. A právě úkolu vytvoření takového modelu, který bude schopen překládat ať už mluvený nebo psaný text, se zhostila společnost Meta. Již v dřívějších zmínkách jsme se mohli dovědět o vizi společnosti vyvinout modely, které by měly být schopné identifikovat až 4 000 mluvených jazyků, tedy zhruba 40krát více jazyků, než zvládají dnešní modely. V tomto článku si představíme konkrétní model, který je možné si i vyzkoušet.

Kdybyste se o vizi společnosti a jejím poslání zachránit cizí jazyky před zánikem, chtěli dozvědět více, doporučuji vám se podívat na náš dřívější článek: Facebook vyvinul nový multimediální model pro rozpoznávání až 4 000 jazyků (ainovinky.cz)

SeamlessM4T

SeamlessM4T je podle Mety první univerzální multimodální a vícejazyčný model AI pro překlad, který umožňuje lidem komunikovat bez námahy mluveným i psaným slovem v různých jazycích.

SeamlessM4T tak nabízí:

Rozpoznávání řeči pro téměř 100 jazyků
Překlad mluveného slova na text pro téměř 100 vstupních a výstupních jazyků
Překlad mluveného slova na mluvené slovo pro téměř 100 vstupních jazyků a 36 výstupních jazyků (včetně angličtiny)
Překlad textu na text pro téměř 100 jazyků
Překlad textu na mluvené slovo pro téměř 100 vstupních jazyků a 35 výstupních jazyků (včetně angličtiny)

Open-source model

Společnost Meta, vzhledem ke svému závazku podporovat výzkum a inovace, nedávno prezentovala SeamlessM4T pod výzkumnou licencí. Tento krok byl učiněn s vizí, aby výzkumníci a vývojáři měli možnost projekt dále rozvíjet, a tím přispívat k celosvětové prosperitě. Kromě toho Meta představila i SeamlessAlign – aktuálně nejrozsáhlejší otevřený dataset pro multimodální překlad. Tento dataset obsahuje impozantních 270 000 hodin mluveného slova s transkripcí.

Vize univerzálního světového překladače

SeamlessM4T je postaven na základech, které společnost a další subjekty položily během minulých let ve snaze vytvořit univerzální překladač. V minulém roce společnost uvedla na trh „No Language Left Behind“ (NLLB), což je model pro překlad textu na text podporující až 200 jazyků. Od té doby byl tento model začleněn do Wikipedie jako jeden z nejvíce relevantních překladačů.

Kromě toho společnost prezentovala demo svého univerzálního překladatele řeči, což byl první systém svého druhu, který umožňoval překlad mluveného slova na mluvené slovo v jazyce hokkien, jenž nemá široce rozšířený písemný systém. Na začátku tohoto roku byl pak představen projekt „Massively Multilingual Speech“, nabízející rozpoznávání řeči, identifikaci jazyka a technologie syntézy řeči v až 1 100 jazycích.

SeamlessM4T mimo jiné čerpá z hlubokých poznatků získaných z těchto projektů a nabízí vícejazyčné a multimodální překladové možnosti. Tento unikátní model je založen na bohatém spektru mluvených dat a dosahuje výsledků srovnatelných se současnými nejmodernějšími technologiemi. SeamlessM4T model v měřeních uvedených na blogu společnosti Meta překonává i zatím jedny z nejlepších modelů, jako je Whisper od společnosti OpenAI nebo AudioPaLM-2 od společnosti Google. Podle slov Mety SeamlessM4T vede lépe proti šumům na pozadí a odchylkám hlasu (jinak bude mluvit dítě a jinak bude mluvit starý člověk).

Obsah obrázku text, snímek obrazovky, diagram, Písmo

Popis byl vytvořen automaticky

Obrázek 1 – Zdroj: Meta blog

SeamlessM4T si v současnosti můžete vyzkoušet skrze jeho demo webovou verzi, kde podporuje 36 běžných, ale i méně rozšířených mluvených jazyků jako je katalánština, japonština, zjednodušená čínština, finština nebo ukrajinština. Demo verze funguje na principu speech-to-speech a speech-to-text. K jejímu vyzkoušení tak budete potřebovat mikrofon nebo jiné zařízení pro nahrávání zvuku.

Jak si model vyzkoušet

Jděte na stránku: Seamless Communication Translation Demo (metademolab.com)
Klikněte na tlačítko „START DEMO“:

Obsah obrázku text, snímek obrazovky, Písmo, design

Popis byl vytvořen automaticky

Klikněte na tlačítko „START RECORDING“ a začněte nahrávat svou zvukovou stopu:

Obsah obrázku text, snímek obrazovky, Písmo, grafický design

Popis byl vytvořen automaticky

Zvukovou stopu nyní budete moci přeložit do maximálně 3 zvolených jazyků. Jakmile tak učiníte, kliknete na tlačítko „TRANSLATE“:

Obsah obrázku text, snímek obrazovky, software, design

Popis byl vytvořen automaticky

Nyní by se Vám měla vygenerovat namluvená nahrávka ve 3 zvolených jazycích:

Obsah obrázku text, snímek obrazovky, software, Multimediální software

Popis byl vytvořen automaticky

Obsah obrázku snímek obrazovky, text, software

Popis byl vytvořen automaticky

Využití: Efektivní učení se jazyků

Ačkoli v současné chvíli demo model nenabízí tak široké využití, myslím si, že se může jednat o efektivní učební nástroj pro cizí jazyky, obzvláště pro správnou výslovnost. Ať už se učíte španělštinu, francouzštinu nebo dánštinu, je klíčové znát správnou výslovnost – věřte mi, když se poté učíte nová slovíčka, budou se Vám mnohem lépe pamatovat, pokud bude vědět, jak znějí, než když si na nich budete lámat jazyk.

Model dostupný na GitHubu

Pakliže jste technologičtí nadšenci a rádi zkoumáte moderní technologie dopodrobna, můžete se podívat na open-source kód modelu na platformě GitHub, kde je veřejně dostupný ke stáhnutí. K modelu je samozřejmě přiložená i dokumentace: facebookresearch/seamless_communication: Foundational Models for State-of-the-Art Speech and Text Translation (github.com)

Společnost na blogu dodává, že Seamless M4T model je pouze počátečním krokem ve vizi vytvoření globálního, univerzálního dostupného modelu pro širokou veřejnost. Díky umělé inteligenci, která značně vývoj akceleruje je možné, že se v nadcházejících letech budeme moci dočkat dostupných AR (augmentovaná realita) brýlí, které nám budou schopné zprostředkovat překlad jazyka v reálném čase. To, jak se technologie budou vyvíjet, ale ukáže jen čas.

Shrnutí

SeamlessM4T od společnosti Meta: Jedná se o první univerzální multimodální a vícejazyčný model AI pro překlad, který umožňuje komunikaci mluveným i psaným slovem v různých jazycích. Model rozpoznává řeč pro téměř 100 jazyků a nabízí různé formy překladu.
Open-source přístup: Meta prezentovala SeamlessM4T pod výzkumnou licencí, aby výzkumníci a vývojáři mohli projekt dále rozvíjet. Kromě toho byl představen i SeamlessAlign, nejrozsáhlejší otevřený dataset pro multimodální překlad. Zdrojový kód je dostupný na GitHubu.
Historie a vývoj: SeamlessM4T vychází z dřívějších projektů společnosti, včetně „No Language Left Behind“ (NLLB) a „Massively Multilingual Speech“. Model dosahuje výsledků srovnatelných s nejmodernějšími technologiemi, a dokonce překonává modely jako Whisper nebo AudioPaLM-2.
Demo verze: Uživatelé mohou vyzkoušet SeamlessM4T skrze demo webovou verzi, která podporuje 36 různých jazyků a funguje na principu speech-to-speech a speech-to-text.
Budoucnost překladu: Meta vidí tento model jako první krok k vytvoření globálního modelu pro širokou veřejnost. V budoucnu by mohly být dostupné AR brýle s možností překladu v reálném čase, což by pomohlo odstranit komunikační jazykové bariéry.

Tagy: meta