Vad är tal till text?

I den här översikten får du lära dig om fördelarna och funktionerna i tal till text-funktionen i Speech-tjänsten, som är en del av Azure AI-tjänster. Tal till text kan användas för realtids - eller batch-transkription av ljudströmmar till text.

Kommentar

Information om hur du jämför priser för realtid med batch-transkription finns i Priser för Speech-tjänsten.

En fullständig lista över tillgängliga tal till textspråk finns i Språk- och röststöd.

Tal till text i realtid

Med tal till text i realtid transkriberas ljudet eftersom tal känns igen från en mikrofon eller fil. Använd tal till text i realtid för program som behöver transkribera ljud i realtid, till exempel:

  • Transkriptioner, bildtext eller undertexter för livemöten
  • Diarisering
  • Uttalsbedömning
  • Hjälp med kontaktcenteragenter
  • Diktering
  • Röstagenter

Tal till text i realtid är tillgängligt via Speech SDK och Speech CLI.

Batch-transkription

Batch-transkription används för att transkribera en stor mängd ljud i lagringen. Du kan peka på ljudfiler med en SAS-URI (signatur för delad åtkomst) och asynkront ta emot transkriptionsresultat. Använd batch-transkription för program som behöver transkribera ljud i bulk, till exempel:

  • Transkriptioner, bildtext eller undertexter för förinspelat ljud
  • Analys efter samtal i kontaktcenter
  • Diarisering

Batch-transkription är tillgänglig via:

Anpassat tal

Med anpassat tal kan du utvärdera och förbättra noggrannheten för taligenkänning för dina program och produkter. En anpassad talmodell kan användas för tal till text i realtid, talöversättning och batch-transkription.

Dricks

En värdbaserad distributionsslutpunkt krävs inte för att använda anpassat tal med Batch-transkriptions-API:et. Du kan spara resurser om den anpassade talmodellen endast används för batch-transkription. Mer information finns i Priser för Speech-tjänsten.

Direkt använder taligenkänning en universell språkmodell som basmodell som tränas med Microsoft-ägda data och återspeglar vanligt talat språk. Basmodellen är förtränad med dialekter och fonetik som representerar olika vanliga domäner. När du gör en begäran om taligenkänning används den senaste basmodellen för varje språk som stöds som standard. Basmodellen fungerar bra i de flesta taligenkänningsscenarier.

En anpassad modell kan användas för att utöka basmodellen för att förbättra igenkänningen av domänspecifik vokabulär som är specifik för programmet genom att tillhandahålla textdata för att träna modellen. Det kan också användas för att förbättra igenkänningen baserat på programmets specifika ljudvillkor genom att tillhandahålla ljuddata med referensavskrifter. Mer information finns i REST API för anpassat tal och tal till text.

Anpassningsalternativen varierar beroende på språk eller språk. Information om hur du verifierar stödet finns i Språk- och röststöd för Speech-tjänsten.

Ansvarig AI

Ett AI-system innehåller inte bara tekniken, utan även de personer som använder den, de personer som påverkas av den och miljön där den distribueras. Läs transparensanteckningarna om du vill veta mer om ansvarsfull AI-användning och distribution i dina system.

Nästa steg