Anpassa en talmodell

Kommentar

Anpassning av talmodell, inklusive uttalsträning, stöds endast i Utvärderingskonton för Video Indexer Azure och Resource Manager-konton. Det stöds inte i klassiska konton. Information om hur du uppdaterar din kontotyp utan kostnad finns i Uppdatera ditt Azure AI Video Indexer-konto. Mer information om hur du använder den anpassade språkupplevelsen finns i Anpassa en språkmodell.

Genom Azure AI Video Indexer-integrering med Azure AI Speech-tjänster används en universalspråkmodell som basmodell som tränas med Microsoft-ägda data och som återspeglar vanligt talat språk. Basmodellen är förtränad med dialekter och fonetik som representerar olika vanliga domäner. Basmodellen fungerar bra i de flesta taligenkänningsscenarier.

Men ibland hanterar inte basmodellens transkription något innehåll korrekt. I dessa situationer kan en anpassad talmodell användas för att förbättra igenkänningen av domänspecifik vokabulär eller uttal som är specifik för ditt innehåll genom att tillhandahålla textdata för att träna modellen. Genom att skapa och anpassa modeller för talanpassning kan ditt innehåll transkriberas korrekt. Det tillkommer ingen extra kostnad för att använda Talanpassning för Video Indexers.

När ska du använda en anpassad talmodell?

Om ditt innehåll innehåller branschspecifik terminologi eller när du granskar Video Indexer-transkriptionsresultat som du märker felaktigheter kan du skapa och träna en anpassad talmodell för att identifiera villkoren och förbättra transkriptionskvaliteten. Det kan bara vara värt att skapa en anpassad modell om relevanta ord och namn förväntas visas upprepade gånger i det innehåll som du planerar att indexeras. Att träna en modell är ibland en iterativ process och du kanske upptäcker att resultaten efter den första träningen fortfarande kan använda förbättringar och kan dra nytta av ytterligare utbildning. Mer information finns i Avsnittet Om hur du förbättrar din anpassade modell .

Men om du märker att några ord eller namn transkriberas felaktigt i avskriften kanske en anpassad talmodell inte behövs, särskilt om ord eller namn inte förväntas användas ofta i innehåll som du planerar för indexering i framtiden. Du kan bara redigera och korrigera avskriften på Video Indexer-webbplatsen (se Visa och uppdatera transkriptioner på Webbplatsen för Azure AI Video Indexer) och behöver inte åtgärda den via en anpassad talmodell.

En lista över språk som stöder anpassade modeller och uttal finns i kolumnerna Anpassning och uttal i språkstödstabellen i Språkstöd i Azure AI Video Indexer.

Träna datauppsättningar

När du indexerar en video kan du använda en anpassad talmodell för att förbättra transkriptionen. Modeller tränas genom att läsa in dem med datauppsättningar som kan innehålla oformaterade textdata och uttalsdata.

Text som används för att testa och träna en anpassad modell bör innehålla exempel från en mängd olika typer av innehåll och scenarier som du vill att din modell ska känna igen. Tänk på följande faktorer när du skapar och tränar dina datauppsättningar:

  • Inkludera text som täcker de typer av verbala instruktioner som användarna gör när de interagerar med din modell. Om ditt innehåll till exempel främst är relaterat till en sport tränar du modellen med innehåll som innehåller terminologi och ämne som är relaterat till sporten.
  • Inkludera alla talavvikelser som du vill att din modell ska känna igen. Många faktorer kan variera tal, inklusive accenter, dialekter och språkblandning.
  • Inkludera endast data som är relevanta för innehåll som du planerar att transkribera. Att inkludera andra data kan skada igenkänningskvaliteten totalt sett.

Datamängdstyper

Det finns två typer av datauppsättningar som du kan använda för anpassning. Information om vilken datauppsättning som ska användas för att lösa dina problem finns i följande tabell:

Användningsfall Datatyp
Förbättra igenkänningsprecisionen för branschspecifik vokabulär och grammatik, till exempel medicinsk terminologi eller IT-jargong. Oformaterad text
Definiera den fonetiska och visade formen av ett ord eller en term som inte har standard uttal, till exempel produktnamn eller förkortningar. Uttalsdata

Oformaterade data för träning

En datauppsättning med oformaterade text meningar av relaterad text kan användas för att förbättra igenkänningen av domänspecifika ord och fraser. Relaterade text meningar kan minska ersättningsfel relaterade till felrekognition av vanliga ord och domänspecifika ord genom att visa dem i kontext. Domänspecifika ord kan vara ovanliga eller påbyggda ord, men deras uttal måste vara enkelt att känna igen.

Metodtips för oformaterade datauppsättningar

  • Ange domänrelaterade meningar i en enda textfil. I stället för att använda fullständiga meningar kan du ladda upp en lista med ord. Men även om detta lägger till dem i vokabulären lär det inte systemet hur orden vanligtvis används. Genom att tillhandahålla fullständiga eller partiella yttranden (meningar eller fraser av saker som användarna sannolikt kommer att säga) kan språkmodellen lära sig de nya orden och hur de används. Den anpassade språkmodellen är bra inte bara för att lägga till nya ord i systemet, utan även för att justera sannolikheten för kända ord för ditt program. Genom att tillhandahålla fullständiga yttranden kan systemet lära sig bättre.
  • Använd textdata som är nära de förväntade talade yttrandena. Yttranden behöver inte vara fullständiga eller grammatiskt korrekta, men de måste korrekt återspegla de talade indata som du förväntar dig att modellen ska känna igen.
  • Försök att ha varje mening eller nyckelord på en separat rad.
  • Om du vill öka vikten för en term, till exempel produktnamn, lägger du till flera meningar som innehåller termen .
  • För vanliga fraser som används i ditt innehåll är det användbart att tillhandahålla många exempel eftersom det talar om för systemet att lyssna efter dessa termer. 
  • Undvik att inkludera ovanliga symboler (~, # @ % &) när ignoreras. De meningar där de visas tas också bort.
  • Undvik att lägga för stora indata, till exempel hundratusentals meningar, eftersom detta späder ut effekten av att öka.

Använd den här tabellen för att se till att datauppsättningsfilen för oformaterad text är korrekt formaterad:

Property Värde
Textkodning UTF-8 BOM
Antal yttranden per rad 1
Maximal filstorlek 200 MB

Prova att följa dessa riktlinjer i dina oformaterade textfiler:

  • Undvik att upprepa tecken, ord eller grupper med ord mer än tre gånger, till exempel "ja ja ja ja" eftersom tjänsten kan släppa rader med för många upprepningar.
  • Använd inte specialtecken eller UTF-8 tecken ovanför U+00A1.
  • URI:er avvisas.
  • För vissa språk, till exempel japanska eller koreanska, kan det ta lång tid att importera stora mängder textdata eller överskrida tidsgränsen. Överväg att dela upp datamängden i flera textfiler med upp till 20 000 rader i varje.

Uttalsdata för träning

Du kan lägga till en anpassad uttalsdatauppsättning i din anpassade talmodell för att förbättra igenkänningen av felaktigt uttalade ord, fraser eller namn.

Uttalsdatauppsättningar måste innehålla den talade formen av ett ord eller en fras samt det identifierade formuläret som visas. Det talade formuläret är den fonetiska sekvens som stavas ut, till exempel "Trippel A". Den kan bestå av bokstäver, ord, stavelser eller en kombination av alla tre. Det identifierade formuläret är hur du vill att ordet eller frasen ska visas i transkriptionen. Den här tabellen innehåller några exempel:

Formulär som visas känns igen Talat formulär
3CPO tre c p o
CNTK c n t k
AAA Trippel A

Du anger uttalsdatauppsättningar i en enda textfil. Inkludera det talade yttrandet och ett anpassat uttal för var och en. Varje rad i filen bör börja med det identifierade formuläret, sedan ett fliktecken och sedan den blankstegsavgränsade fonetiska sekvensen.

3CPO    three c p o 
CNTK    c n t k 
IEEE    i triple e 

Tänk på följande när du skapar och tränar uttalsdatauppsättningar:

Vi rekommenderar inte att du använder anpassade uttalsfiler för att ändra uttalet av vanliga ord.

Om det finns några varianter av hur ett ord eller namn är felaktigt transkriberat bör du överväga att använda vissa eller alla av dem när du tränar uttalsdatauppsättningen. Om Robert till exempel nämns fem gånger i videon och transkriberas som Robort, Ropert och rånare. Du kan prova att inkludera alla variationer i filen som i följande exempel men var försiktig när du tränar med faktiska ord som rånare som om rånare nämns i videon, det transkriberas som Robert.

Robert Roport
Robert Ropert
Robert Robbers

Uttalsmodellen är inte avsedd att hantera förkortningar. Om du till exempel vill att Doktor ska transkriberas som Dr. kan detta inte uppnås genom en uttalsmodell.

Se följande tabell för att se till att uttalsdatauppsättningsfilerna är giltiga och korrekt formaterade.

Property Värde
Textkodning UTF-8 BOM (ANSI stöds också för engelska)
Antal uttal per rad 1
Maximal filstorlek 1 MB (1 KB för den kostnadsfria nivån)

Så här förbättrar du dina anpassade modeller

Att träna en uttalsmodell kan vara en iterativ process, eftersom du kan få mer kunskap om uttalet av ämnet efter den inledande träningen och utvärderingen av modellens resultat. Eftersom befintliga modeller inte kan redigeras eller ändras kräver träning av en modell iterativt att datauppsättningar skapas och laddas upp med ytterligare information samt träning av nya anpassade modeller baserat på de nya datauppsättningarna. Sedan skulle du indexera om mediefilerna med den nya anpassade talmodellen.

Exempel:

Anta att du planerar att indexera sportinnehåll och förutse problem med transkriptionsprecision med specifik sportterminologi samt i namnen på spelare och tränare. Innan du indexerar har du skapat en talmodell med en oformaterad datauppsättning med innehåll som innehåller relevant sportterminologi och en uttalsdatauppsättning med några av spelarnas och tränarnas namn. Du indexerar några videor med hjälp av den anpassade talmodellen och när du granskar den genererade avskriften upptäcker du att även om terminologin transkriberas korrekt är många namn inte det. Du kan vidta följande steg för att förbättra prestandan i framtiden:

  1. Granska avskriften och anteckna alla felaktigt transkriberade namn. De kan delas in i två grupper:

    • Namn som inte finns i uttalsfilen.
    • Namn i uttalsfilen men de transkriberas fortfarande felaktigt.
  2. Skapa en ny datamängdsfil. Ladda antingen ned uttalsdatauppsättningsfilen eller ändra det lokalt sparade originalet. För grupp A lägger du till de nya namnen i filen med hur de felaktigt transkriberades (Michael Mikel). För grupp B lägger du till ytterligare rader med varje rad med rätt namn och ett unikt exempel på hur den transkriberades felaktigt. Till exempel:

    Stephen Steven
    Stephen Steafan
    Stephen Steevan

  3. Ladda upp den här filen som en ny datamängdsfil.

  4. Skapa en ny talmodell och lägg till den ursprungliga oformaterade datauppsättningen och den nya uttalsdatauppsättningsfilen.

  5. Indexera om videon med den nya talmodellen.

  6. Upprepa vid behov steg 1–5 tills resultaten är tillfredsställande.