Dela via


Vad är tal till text?

Azure AI Speech Service erbjuder avancerade funktioner för tal till text. Den här funktionen stöder både realtids- och batch-transkription, vilket ger mångsidiga lösningar för att konvertera ljudströmmar till text.

Kärnfunktioner

Tal till text-tjänsten erbjuder följande grundläggande funktioner:

Tal till text i realtid

Tal till text i realtid transkriberar ljud eftersom det känns igen från en mikrofon eller fil. Det är idealiskt för program som kräver omedelbar transkription, till exempel:

  • Transkriptioner, bildtexter eller undertexter för livemöten: Ljudranskription i realtid för tillgänglighet och arkivering.
  • Diarisering: Identifiera och skilja mellan olika högtalare i ljudet.
  • Uttalsbedömning: Utvärdera och ge feedback om uttalsprecision.
  • Kundtjänstagenter hjälper till: Tillhandahålla transkription i realtid för att hjälpa kundtjänstrepresentanter.
  • Diktering: Transkribera talade ord till skriftlig text i dokumentationssyfte.
  • Röstagenter: Aktivera interaktiva röstsvarssystem för att transkribera användarfrågor och kommandon.

Tal till text i realtid kan nås via Speech SDK, Speech CLI och REST API, vilket möjliggör integrering i olika program och arbetsflöden. Tal till text i realtid är tillgängligt via Speech SDK, Speech CLI och REST API:er, till exempel API:et för snabb transkription.

Snabb transkription (förhandsversion)

API för snabb transkription används för att transkribera ljudfiler med resultat som returneras synkront och snabbare än realtidsljud. Använd snabb transkription i scenarier där du behöver avskriften av en ljudinspelning så snabbt som möjligt med förutsägbar svarstid, till exempel:

  • Snabb transkription av ljud eller video och undertexter: Få snabbt en transkription av en hel video- eller ljudfil på en enda chans.
  • Videoöversättning: Få omedelbart nya undertexter för en video om du har ljud på olika språk.

Kommentar

API för snabb transkription är endast tillgängligt via tal till text REST API version 2024-05-15-preview och senare.

Om du vill komma igång med snabb transkription kan du läsa använda API:et för snabb transkription (förhandsversion).

Batch-transkriptions-API

Batch-transkription är utformad för att transkribera stora mängder ljud som lagras i filer. Den här metoden bearbetar ljud asynkront och passar för:

  • Transkriptioner, bildtexter eller undertexter för förinspelat ljud: Konvertera lagrat ljudinnehåll till text.
  • Analys efter samtal i kontaktcenter: Analysera inspelade anrop för att extrahera värdefulla insikter.
  • Diarisering: Differentiering mellan högtalare i inspelat ljud.

Batch-transkription är tillgänglig via:

Anpassat tal

Med anpassat tal kan du utvärdera och förbättra noggrannheten för taligenkänning för dina program och produkter. En anpassad talmodell kan användas för tal till text i realtid, talöversättning och batch-transkription.

Dricks

En värdbaserad distributionsslutpunkt krävs inte för att använda anpassat tal med Batch-transkriptions-API:et. Du kan spara resurser om den anpassade talmodellen endast används för batch-transkription. Mer information finns i Priser för Speech-tjänsten.

Direkt använder taligenkänning en universell språkmodell som basmodell som tränas med Microsoft-ägda data och återspeglar vanligt talat språk. Basmodellen är förtränad med dialekter och fonetik som representerar olika vanliga domäner. När du gör en begäran om taligenkänning används den senaste basmodellen för varje språk som stöds som standard. Basmodellen fungerar bra i de flesta taligenkänningsscenarier.

Med anpassat tal kan du skräddarsy taligenkänningsmodellen så att den passar programmets specifika behov bättre. Detta kan vara särskilt användbart för:

  • Förbättra igenkänningen av domänspecifik vokabulär: Träna modellen med textdata som är relevanta för ditt fält.
  • Förbättra noggrannheten för specifika ljudförhållanden: Använd ljuddata med referenstranskriptioner för att förfina modellen.

Mer information om anpassat tal finns i översikten över anpassat tal och dokumentationen om REST API för tal till text.

Mer information om anpassningsalternativ per språk och språk finns i språk- och röststöd för dokumentationen för Speech-tjänsten .

Användningsexempel

Här följer några praktiska exempel på hur du kan använda Tal till text i Azure AI:

Användningsfall Scenario Lösning
Transkriptioner och bildtexter för livemöten En virtuell händelseplattform måste tillhandahålla bildtexter i realtid för webbseminarier. Integrera tal till text i realtid med hjälp av Speech SDK för att transkribera talat innehåll till bildtexter som visas live under händelsen.
Förbättringar av kundtjänst Ett callcenter vill hjälpa agenter genom att tillhandahålla transkriptioner i realtid av kundsamtal. Använd tal till text i realtid via Speech CLI för att transkribera samtal, vilket gör det möjligt för agenter att bättre förstå och svara på kundfrågor.
Videoundertextning En videovärdplattform vill snabbt generera en uppsättning undertexter för en video. Använd snabb transkription för att snabbt få en uppsättning undertexter för hela videon.
Utbildningsverktyg En e-utbildningsplattform syftar till att tillhandahålla transkriptioner för videoföreläsningar. Tillämpa batch-transkription via tal till text-REST API för att bearbeta förinspelade föreläsningsvideor, vilket genererar textavskrifter för studenter.
Dokumentation om hälso- och sjukvård En vårdgivare måste dokumentera patientkonsultationer. Använd tal till text i realtid för diktering, så att vårdpersonal kan tala sina anteckningar och få dem transkriberade omedelbart. Använd en anpassad modell för att förbättra erkännandet av specifika medicinska termer.
Media och underhållning Ett medieföretag vill skapa undertexter för ett stort arkiv med videor. Använd batch-transkription för att bearbeta videofilerna i grupp, vilket genererar korrekta undertexter för varje video.
Marknadsundersökning Ett marknadsundersökningsföretag behöver analysera kundfeedback från ljudinspelningar. Använd batch-transkription för att konvertera ljudfeedback till text, vilket möjliggör enklare analys och insiktsextrahering.

Ansvarsfull AI

Ett AI-system innehåller inte bara tekniken, utan även de personer som använder den, de personer som påverkas av den och miljön där den distribueras. Läs transparensanteckningarna om du vill veta mer om ansvarsfull AI-användning och distribution i dina system.