Přizpůsobení modelu řeči

Důležité

Vzhledem k oznámení o vyřazení služby Azure Media Services vám Azure AI Video Indexer oznámí úpravy funkcí Azure AI Video Indexeru. Informace o tom, co to znamená pro váš účet Azure AI Video Indexer, najdete v tématu Změny související s vyřazením služby Azure Media Service (AMS). Podívejte se na průvodce přípravou na vyřazení AMS: Průvodce aktualizací VI a migrací.

Poznámka:

Přizpůsobení modelu řeči, včetně trénování výslovnosti, se podporuje jenom ve zkušebních účtech Azure Video Indexeru a účtech Resource Manageru. Nepodporuje se v klasických účtech. Pokyny k aktualizaci typu účtu bez poplatků najdete v tématu Aktualizace účtu Azure AI Video Indexer. Pokyny k používání vlastního jazyka najdete v tématu Přizpůsobení jazykového modelu.

Díky integraci Azure AI Video Indexeru se službami Azure AI Speech se univerzální jazykový model využívá jako základní model trénovaný s daty vlastněnými Microsoftem a odráží běžně používaný mluvený jazyk. Základní model je předem natrénovaný pomocí dialektů a fonetik představujících různé společné domény. Základní model funguje dobře ve většině scénářů rozpoznávání řeči.

Někdy ale přepis základního modelu přesně nezpracuje nějaký obsah. V těchto situacích se dá přizpůsobený hlasový model použít ke zlepšení rozpoznávání slovníku nebo výslovnosti specifické pro doménu, která je specifická pro váš obsah poskytnutím textových dat pro trénování modelu. Prostřednictvím procesu vytváření a přizpůsobení modelů přizpůsobení řeči je možné váš obsah správně přepisovat. Za použití přizpůsobení řeči Video Indexeru se neúčtují žádné další poplatky.

Kdy použít přizpůsobený model řeči?

Pokud váš obsah obsahuje oborovou terminologii nebo když kontrolujete výsledky přepisu Video Indexeru, můžete si všimnout nepřesností, můžete vytvořit a vytrénovat vlastní hlasový model, který rozpozná podmínky a zlepší kvalitu přepisu. Vytvoření vlastního modelu může být užitečné jenom v případě, že se očekává opakované zobrazení relevantních slov a názvů v obsahu, který chcete indexovat. Trénování modelu je někdy iterativní proces a můžete zjistit, že po počátečním trénování by výsledky mohly stále využívat vylepšení a mohly by těžit z dalšího trénování. Pokyny najdete v části Jak vylepšit vlastní model .

Pokud si ale všimnete, že v přepisu je nesprávně přiřazených několik slov nebo názvů, nemusí být potřeba vlastní model řeči, zejména pokud se slova nebo názvy neočekává, že se v obsahu, který plánujete indexovat v budoucnu, běžně používají. Přepis můžete upravit a opravit na webu Video Indexeru (viz Zobrazení a aktualizace přepisů na webu Azure AI Video Indexer) a nemusíte ho řešit pomocí vlastního modelu řeči.

Seznam jazyků, které podporují vlastní modely a výslovnost, najdete ve sloupcích Přizpůsobení a výslovnost tabulky podpory jazyka v podpoře jazyků ve službě Azure AI Video Indexer.

Trénovat datové sady

Při indexování videa můžete k vylepšení přepisu použít přizpůsobený hlasový model. Modely se trénují načtením s datovými sadami, které můžou obsahovat data ve formátu prostého textu a výslovnost.

Text používaný k testování a trénování vlastního modelu by měl obsahovat ukázky z různorodé sady obsahu a scénářů, které chcete, aby model rozpoznal. Při vytváření a trénování datových sad zvažte následující faktory:

  • Zahrňte text, který popisuje druhy slovních výroků, které uživatelé dělají při interakci s vaším modelem. Pokud například váš obsah souvisí především se sportem, vytrénujte model obsahem obsahujícím terminologii a předmět související s sportem.
  • Zahrňte všechny odchylky řeči, které chcete, aby model rozpoznal. Mnoho faktorů se může lišit v řeči, včetně zvýraznění, dialektů a kombinování jazyků.
  • Zahrnout pouze data, která jsou relevantní pro obsah, který plánujete přepisovat. Zahrnutí dalších dat může celkově poškodit kvalitu rozpoznávání.

Typy datových sad

Existují dva typy datových sad, které můžete použít k přizpůsobení. Pokud chcete zjistit, kterou datovou sadu použít k řešení vašich problémů, projděte si následující tabulku:

Případ použití Datový typ
Zlepšete přesnost rozpoznávání slovníku a gramatiky specifické pro konkrétní odvětví, jako je lékařská terminologie nebo žargon IT. Prostý text
Definujte fonetický a zobrazovaný tvar slova nebo termínu, který má nestandardní výslovnost, například názvy produktů nebo zkratky. Data výslovnosti

Data ve formátu prostého textu pro trénování

Datová sada včetně vět ve formátu prostého textu souvisejícího textu se dá použít ke zlepšení rozpoznávání slov a frází specifických pro doménu. Související textové věty můžou omezit chyby nahrazení související s nesprávným rozpoznáváním běžných slov a slov specifických pro doménu jejich zobrazením v kontextu. Slova specifická pro doménu můžou být neobvyklá nebo vytvořená, ale jejich výslovnost musí být jednoduchá, aby byla rozpoznána.

Osvědčené postupy pro datové sady ve formátu prostého textu

  • Zadejte věty související s doménou v jednom textovém souboru. Místo použití celých vět můžete nahrát seznam slov. I když je ale přidáte do slovníku, nenaučí systém, jak se slova obvykle používají. Poskytnutím úplných nebo částečných promluv (vět nebo frází věcí, které uživatelé pravděpodobně říkají), může se jazykový model naučit nová slova a způsob jejich použití. Vlastní jazykový model je vhodný nejen pro přidání nových slov do systému, ale také pro úpravu pravděpodobnosti známých slov pro vaši aplikaci. Poskytování úplných promluv pomáhá systému lépe se učit.
  • Používejte textová data, která jsou blízko očekávaným mluveným promluvám. Promluvy nemusí být úplné ani gramatické, ale musí přesně odrážet mluvený vstup, který očekáváte, že model rozpozná.
  • Zkuste mít každou větu nebo klíčové slovo na samostatném řádku.
  • Pokud chcete zvýšit váhu termínu, jako jsou názvy produktů, přidejte několik vět, které termín obsahují.
  • U běžných frází, které se používají ve vašem obsahu, je užitečné poskytnout mnoho příkladů, protože systému říká, aby si tyto termíny poslechl. 
  • Vyhněte se zahrnutí neobvyklých symbolů (~, # @ % &), jak se zahodí. Věty, ve kterých se zobrazují, se také zahodí.
  • Nepoužívejte příliš velké vstupy, například stovky tisíc vět, protože tím se zředí účinek zvýšení.

Pomocí této tabulky se ujistěte, že je soubor datové sady prostého textu správně naformátovaný:

Vlastnost Hodnota
Kódování textu UTF-8 BOM
Počet promluv na řádek 1
Maximální velikost souboru 200 MB

Zkuste postupovat podle těchto pokynů v souborech ve formátu prostého textu:

  • Vyhněte se opakování znaků, slov nebo skupin slov více než třikrát, například ano ano ano, protože služba může zahodit řádky s příliš mnoha opakováními.
  • Nepoužívejte speciální znaky ani UTF-8 znaků nad U+00A1.
  • Identifikátory URI jsou odmítnuty.
  • U některých jazyků, jako je japonština nebo korejština, může import velkých objemů textových dat trvat dlouho nebo může časový limit trvat. Zvažte rozdělení datové sady na několik textových souborů s až 20 000 řádky v každé z nich.

Data výslovnosti pro trénování

Do vlastního modelu řeči můžete přidat vlastní datovou sadu výslovnosti, abyste zlepšili rozpoznávání chybných slov, frází nebo názvů.

Datové sady výslovnosti musí obsahovat mluvený tvar slova nebo fráze a rozpoznaný zobrazený formulář. Mluvený tvar je fonetická sekvence napsaná, například "Triple A". Může se skládat z písmen, slov, slabiek nebo kombinace všech tří. Rozpoznaný zobrazený formulář je způsob, jakým chcete, aby se slovo nebo fráze zobrazovaly v přepisu. Tato tabulka obsahuje několik příkladů:

Rozpoznaný zobrazený formulář Mluvený formulář
3CPO tři c p o
CNTK c n t k
AAA Trojité A

Datové sady výslovnosti zadáte do jednoho textového souboru. Zahrňte mluvenou promluvu a vlastní výslovnost pro každou z nich. Každý řádek v souboru by měl začínat rozpoznaným formulářem, znakem tabulátoru a potom fonetickou sekvencí odděleným mezerami.

3CPO    three c p o 
CNTK    c n t k 
IEEE    i triple e 

Při vytváření a trénování výslovných datových sad zvažte následující skutečnosti:

Nedoporučuje se používat vlastní výslovné soubory k úpravě výslovnosti běžných slov.

Pokud existuje několik variant, jak se slovo nebo název nesprávně přepisuje, zvažte použití některých nebo všech z nich při trénování datové sady výslovnosti. Pokud je například Robert zmíněn pětkrát ve videu a přepisován jako Robort, Lanort a lupiči. Můžete zkusit zahrnout všechny varianty v souboru jako v následujícím příkladu, ale buďte opatrní při trénování se skutečnými slovy, jako jsou loupežníci, jako by se lupiči zmínili ve videu, je přepisován jako Robert.

Robert Roport
Robert Ropert
Robert Robbers

Model výslovnosti není určen k adresování zkratek. Pokud například chcete, aby doktor byl přepisován jako Dr., nelze toho dosáhnout pomocí výslovnosti modelu.

V následující tabulce se ujistěte, že jsou soubory datové sady výslovnosti platné a správně naformátované.

Vlastnost Hodnota
Kódování textu UTF-8 BOM (ANSI je také podporován pro angličtinu)
Počet výslovností na řádek 1
Maximální velikost souboru 1 MB (1 kB pro úroveň Free)

Jak vylepšit vlastní modely

Trénování modelu výslovnosti může být iterativní proces, protože můžete získat více znalostí o výslovnosti předmětu po počátečním trénování a vyhodnocení výsledků modelu. Vzhledem k tomu, že existující modely není možné upravovat ani upravovat, vyžaduje iterativní trénování modelu vytvoření a nahrání datových sad s dalšími informacemi a také trénování nových vlastních modelů na základě nových datových sad. Potom byste multimediální soubory přeindexoval pomocí nového vlastního modelu řeči.

Příklad:

Řekněme, že plánujete indexování sportovního obsahu a očekáváte problémy s přesností přepisu s konkrétní sportovní terminologií a také názvy hráčů a trenérů. Před indexováním jste vytvořili model řeči s datovou sadou prostého textu s obsahem obsahujícím relevantní sportovní terminologii a datovou sadu výslovnosti s některými jmény hráčů a trenérů. Indexujete několik videí pomocí vlastního modelu řeči a při kontrole vygenerovaného přepisu zjistíte, že zatímco je terminologie správně přepsána, mnoho jmen není. Pokud chcete v budoucnu zvýšit výkon, můžete provést následující kroky:

  1. Zkontrolujte přepis a poznamenejte si všechna nesprávně přepisovaná jména. Můžou spadat do dvou skupin:

    • Názvy, které nejsou v souboru výslovnosti.
    • Názvy v souboru výslovnosti, ale pořád jsou nesprávně přepisované.
  2. Vytvořte nový soubor datové sady. Buď si stáhněte soubor datové sady výslovnosti nebo upravte místně uložený originál. Pro skupinu A přidejte do souboru nové názvy s nesprávným přepisem (Michael Mikel). Pro skupinu B přidejte další řádky s každým řádkem se správným názvem a jedinečným příkladem nesprávného přepisu. Příklad:

    Stephen Steven
    Stephen Steafan
    Stephen Steevan

  3. Nahrajte tento soubor jako nový soubor datové sady.

  4. Vytvořte nový model řeči a přidejte původní datovou sadu prostého textu a nový soubor datové sady výslovnosti.

  5. Přeindexujte video novým modelem řeči.

  6. V případě potřeby opakujte kroky 1 až 5, dokud nebudou výsledky uspokojivé.