Vad är tal till text?

Artikel
09/24/2024

Azure AI Speech Service erbjuder avancerade funktioner för tal till text. Den här funktionen stöder både realtids- och batch-transkription, vilket ger mångsidiga lösningar för att konvertera ljudströmmar till text.

Kärnfunktioner

Tal till text-tjänsten erbjuder följande grundläggande funktioner:

Transkription i realtid : Omedelbar transkription med mellanliggande resultat för live-ljudindata.
Snabb transkription: Snabbaste synkrona utdata för situationer med förutsägbar svarstid.
Batch-transkription: Effektiv bearbetning för stora volymer förinspelat ljud.
Anpassat tal: Modeller med förbättrad noggrannhet för specifika domäner och villkor.

Tal till text i realtid

Tal till text i realtid transkriberar ljud eftersom det känns igen från en mikrofon eller fil. Det är idealiskt för program som kräver omedelbar transkription, till exempel:

Transkriptioner, bildtexter eller undertexter för livemöten: Ljudranskription i realtid för tillgänglighet och arkivering.
Diarisering: Identifiera och skilja mellan olika högtalare i ljudet.
Uttalsbedömning: Utvärdera och ge feedback om uttalsprecision.
Kundtjänstagenter hjälper till: Tillhandahålla transkription i realtid för att hjälpa kundtjänstrepresentanter.
Diktering: Transkribera talade ord till skriftlig text i dokumentationssyfte.
Röstagenter: Aktivera interaktiva röstsvarssystem för att transkribera användarfrågor och kommandon.

Tal till text i realtid kan nås via Speech SDK, Speech CLI och REST API, vilket möjliggör integrering i olika program och arbetsflöden. Tal till text i realtid är tillgängligt via Speech SDK, Speech CLI och REST API:er, till exempel API:et för snabb transkription.

Snabb transkription (förhandsversion)

API för snabb transkription används för att transkribera ljudfiler med resultat som returneras synkront och snabbare än realtidsljud. Använd snabb transkription i scenarier där du behöver avskriften av en ljudinspelning så snabbt som möjligt med förutsägbar svarstid, till exempel:

Snabb transkription av ljud eller video och undertexter: Få snabbt en transkription av en hel video- eller ljudfil på en enda chans.
Videoöversättning: Få omedelbart nya undertexter för en video om du har ljud på olika språk.

Kommentar

API för snabb transkription är endast tillgängligt via tal till text REST API version 2024-05-15-preview och senare.

Om du vill komma igång med snabb transkription kan du läsa använda API:et för snabb transkription (förhandsversion).

Batch-transkriptions-API

Batch-transkription är utformad för att transkribera stora mängder ljud som lagras i filer. Den här metoden bearbetar ljud asynkront och passar för:

Transkriptioner, bildtexter eller undertexter för förinspelat ljud: Konvertera lagrat ljudinnehåll till text.
Analys efter samtal i kontaktcenter: Analysera inspelade anrop för att extrahera värdefulla insikter.
Diarisering: Differentiering mellan högtalare i inspelat ljud.

Batch-transkription är tillgänglig via:

REST API för tal till text: Underlättar batchbearbetning med flexibiliteten hos RESTful-anrop. Kom igång genom att läsa Så här använder du batch-transkription och Batch-transkriptionsexempel.
Speech CLI: Stöder både realtids- och batch-transkription, vilket gör det enkelt att hantera transkriptionsuppgifter. För Speech CLI-hjälp med batch-transkriptioner kör du följande kommando:
```
spx help batch transcription
```

Anpassat tal

Med anpassat tal kan du utvärdera och förbättra noggrannheten för taligenkänning för dina program och produkter. En anpassad talmodell kan användas för tal till text i realtid, talöversättning och batch-transkription.

Dricks

En värdbaserad distributionsslutpunkt krävs inte för att använda anpassat tal med Batch-transkriptions-API:et. Du kan spara resurser om den anpassade talmodellen endast används för batch-transkription. Mer information finns i Priser för Speech-tjänsten.

Direkt använder taligenkänning en universell språkmodell som basmodell som tränas med Microsoft-ägda data och återspeglar vanligt talat språk. Basmodellen är förtränad med dialekter och fonetik som representerar olika vanliga domäner. När du gör en begäran om taligenkänning används den senaste basmodellen för varje språk som stöds som standard. Basmodellen fungerar bra i de flesta taligenkänningsscenarier.

Med anpassat tal kan du skräddarsy taligenkänningsmodellen så att den passar programmets specifika behov bättre. Detta kan vara särskilt användbart för:

Förbättra igenkänningen av domänspecifik vokabulär: Träna modellen med textdata som är relevanta för ditt fält.
Förbättra noggrannheten för specifika ljudförhållanden: Använd ljuddata med referenstranskriptioner för att förfina modellen.

Mer information om anpassat tal finns i översikten över anpassat tal och dokumentationen om REST API för tal till text.

Mer information om anpassningsalternativ per språk och språk finns i språk- och röststöd för dokumentationen för Speech-tjänsten .

Användningsexempel

Här följer några praktiska exempel på hur du kan använda Tal till text i Azure AI:

Användningsfall	Scenario	Lösning
Transkriptioner och bildtexter för livemöten	En virtuell händelseplattform måste tillhandahålla bildtexter i realtid för webbseminarier.	Integrera tal till text i realtid med hjälp av Speech SDK för att transkribera talat innehåll till bildtexter som visas live under händelsen.
Förbättringar av kundtjänst	Ett callcenter vill hjälpa agenter genom att tillhandahålla transkriptioner i realtid av kundsamtal.	Använd tal till text i realtid via Speech CLI för att transkribera samtal, vilket gör det möjligt för agenter att bättre förstå och svara på kundfrågor.
Videoundertextning	En videovärdplattform vill snabbt generera en uppsättning undertexter för en video.	Använd snabb transkription för att snabbt få en uppsättning undertexter för hela videon.
Utbildningsverktyg	En e-utbildningsplattform syftar till att tillhandahålla transkriptioner för videoföreläsningar.	Tillämpa batch-transkription via tal till text-REST API för att bearbeta förinspelade föreläsningsvideor, vilket genererar textavskrifter för studenter.
Dokumentation om hälso- och sjukvård	En vårdgivare måste dokumentera patientkonsultationer.	Använd tal till text i realtid för diktering, så att vårdpersonal kan tala sina anteckningar och få dem transkriberade omedelbart. Använd en anpassad modell för att förbättra erkännandet av specifika medicinska termer.
Media och underhållning	Ett medieföretag vill skapa undertexter för ett stort arkiv med videor.	Använd batch-transkription för att bearbeta videofilerna i grupp, vilket genererar korrekta undertexter för varje video.
Marknadsundersökning	Ett marknadsundersökningsföretag behöver analysera kundfeedback från ljudinspelningar.	Använd batch-transkription för att konvertera ljudfeedback till text, vilket möjliggör enklare analys och insiktsextrahering.

Ansvarsfull AI

Ett AI-system innehåller inte bara tekniken, utan även de personer som använder den, de personer som påverkas av den och miljön där den distribueras. Läs transparensanteckningarna om du vill veta mer om ansvarsfull AI-användning och distribution i dina system.

Kom igång med tal till text
Skapa en batch-transkription
Detaljerad prisinformation finns på sidan med priser för Speech-tjänsten.

Dela via

Vad är tal till text?

Kärnfunktioner

Tal till text i realtid

Snabb transkription (förhandsversion)

Batch-transkriptions-API

Anpassat tal

Användningsexempel

Ansvarsfull AI

Feedback

Ytterligare resurser

Dela via

Vad är tal till text?

Kärnfunktioner

Tal till text i realtid

Snabb transkription (förhandsversion)

Batch-transkriptions-API

Anpassat tal

Användningsexempel

Ansvarsfull AI

Relaterat innehåll

Feedback

Ytterligare resurser