Få insikter om medietranskription, översättning och språkidentifiering
Medietranskription, översättning och språkidentifiering
Transkription, översättning och språkidentifiering identifierar, transkriberar och översätter talet i mediefiler till över 50 språk.
Azure AI Video Indexer (VI) bearbetar talet i ljudfilen för att extrahera transkriptionen som sedan översätts till många språk. När du väljer att översätta till ett visst språk översätts både transkriptionen och insikterna som nyckelord, ämnen, etiketter eller OCR till det angivna språket. Transkription kan användas som är eller kombineras med talarinsikter som mappar och tilldelar avskrifterna till högtalarna. Flera högtalare kan identifieras i en ljudfil. Ett ID tilldelas varje talare och visas under deras transkriberade tal.
Språkidentifiering (LID) identifierar det dominerande talat språk som stöds i videofilen. Mer information finns i Tillämpa LID.
Multispråksidentifiering (MLID) identifierar automatiskt talade språk i olika segment i ljudfilen och skickar varje segment som transkriberas på de identifierade språken. I slutet av den här processen kombineras alla transkriptioner till samma fil. Mer information finns i Tillämpa MLID. De resulterande insikterna genereras i en kategoriserad lista i en JSON-fil som innehåller ID, språk, transkriberad text, varaktighet och konfidenspoäng.
När du indexerar mediefiler med flera talare utför Azure AI Video Indexer talardiarisering som identifierar varje talare i en video och tillskriver varje transkriberad rad till en talare. Högtalarna får en unik identitet, till exempel talare nr 1 och talare nr 2. Detta möjliggör identifiering av talare under konversationer och kan vara användbart i olika scenarier, till exempel samtal mellan läkare och patient, interaktion mellan agent och kund och domstolsförfaranden.
Användningsfall för medietranskription, översättning och språkidentifiering
- Främja tillgänglighet genom att göra innehåll tillgängligt för personer med nedsatt hörsel med Hjälp av Azure AI Video Indexer för att generera tal till text-transkription och översättning till flera språk.
- Förbättra innehållsdistributionen till olika målgrupper i olika regioner och språk genom att leverera innehåll på flera språk med azure AI Video Indexer-transkriptions- och översättningsfunktioner.
- Förbättra och förbättra genereringen av manuell undertextning och undertexter med hjälp av Transkriptions- och översättningsfunktionerna i Azure AI Video Indexer och med hjälp av de undertexter som genereras av Azure AI Video Indexer i något av de format som stöds.
- Använda språkidentifiering (LID) eller multispråkidentifiering (MLID) för att transkribera videor på okända språk så att Azure AI Video Indexer automatiskt kan identifiera de språk som visas i videon och generera transkriptionen i enlighet med detta.
Visa insikts-JSON med webbportalen
När du har laddat upp och indexerat en video är insikter tillgängliga i JSON-format för nedladdning med hjälp av webbportalen.
- Välj fliken Bibliotek .
- Välj media som du vill arbeta med.
- Välj Ladda ned och Insikter (JSON). JSON-filen öppnas på en ny webbläsarflik.
- Leta efter nyckelparet som beskrivs i exempelsvaret.
Använda API:et
- Använd begäran hämta videoindex. Vi rekommenderar att du skickar
&includeSummarizedInsights=false
. - Leta efter nyckelparen som beskrivs i exempelsvaret.
Exempelsvar
Alla språk som identifieras i videon finns under källanLanauge och varje instans i transkriptionssetinen innehåller det trakriberade språket.
"insights": {
"version": "1.0.0.0",
"duration": "0:01:50.486",
"sourceLanguage": "en-US",
"sourceLanguages": [
"es-ES",
"en-US"
],
"language": "en-US",
"languages": [
"en-US"
],
"transcript": [
{
"id": 1,
"text": "Hi, I'm Doug from office. We're talking about new features that office insiders will see first and I have a program manager,",
"confidence": 0.8879,
"speakerId": 1,
"language": "en-US",
"instances": [
{
"adjustedStart": "0:00:00",
"adjustedEnd": "0:00:05.75",
"start": "0:00:00",
"end": "0:00:05.75"
}
]
},
{
"id": 2,
"text": "Emily Tran, with office graphics.",
"confidence": 0.8879,
"speakerId": 1,
"language": "en-US",
"instances": [
{
"adjustedStart": "0:00:05.75",
"adjustedEnd": "0:00:07.01",
"start": "0:00:05.75",
"end": "0:00:07.01"
}
]
},
Viktigt!
Det är viktigt att läsa översikten över transparensanteckningen för alla VI-funktioner. Varje insikt har också egna transparensanteckningar:
Anteckningar om transkription, översättning och språkidentifiering
När det används ansvarsfullt och noggrant är Azure AI Video Indexer ett värdefullt verktyg för många branscher. Du måste alltid respektera andras integritet och säkerhet och följa lokala och globala regler. Vi rekommenderar följande åtgärder:
- Noga överväga noggrannheten i resultaten, för att främja mer exakta data, kontrollera kvaliteten på ljudet, låg kvalitet ljud kan påverka de identifierade insikterna.
- Video Indexer utför inte talarigenkänning så att högtalarna inte tilldelas någon identifierare för flera filer. Du kan inte söka efter en enskild talare i flera filer eller avskrifter.
- Talaridentifierare tilldelas slumpmässigt och kan bara användas för att skilja mellan olika talare i en enda fil.
- Korsprat och överlappande tal: När flera talare pratar samtidigt eller avbryter varandra blir det svårt för modellen att korrekt urskilja och tilldela rätt text till motsvarande talare.
- Talaröverlappningar: Ibland kan talare ha liknande talmönster, accenter eller använda liknande ordförråd, vilket gör det svårt för modellen att skilja mellan dem.
- Brusljud: Dålig ljudkvalitet, bakgrundsbrus eller inspelningar av låg kvalitet kan hindra modellens förmåga att korrekt identifiera och transkribera högtalare.
- Emotionellt tal: Känslomässiga variationer i tal, till exempel skrik, gråt eller extrem spänning, kan påverka modellens förmåga att exakt diarisera talare.
- Förklädnad eller personifiering av talare: Om en talare avsiktligt försöker imitera eller dölja sin röst kan modellen felidentifiera talaren.
- Tvetydig talaridentifiering: Vissa segment av tal kanske inte har tillräckligt med unika egenskaper för att modellen säkert ska kunna tillskriva en specifik talare.
- Ljud som innehåller andra språk än de du valde ger oväntade resultat.
- Den minsta segmentlängden för att identifiera varje språk är 15 sekunder.
- Språkidentifieringsförskjutningen är i genomsnitt 3 sekunder.
- Tal förväntas vara kontinuerligt. Frekventa alternationer mellan språk kan påverka modellens prestanda.
- Tal av icke-infödda talare kan påverka modellens prestanda (till exempel när talare använder sitt första språk och de byter till ett annat språk).
- Modellen är utformad för att känna igen spontant konversationstal med rimlig ljudakustik (inte röstkommandon, sång osv.).
- Projektskapande och redigering är inte tillgängliga för videor med flera språk.
- Anpassade språkmodeller är inte tillgängliga när du använder identifiering av flera språk.
- Det går inte att lägga till nyckelord.
- Språkindikeringen ingår inte i den exporterade undertextfilen.
- Uppdateringsavskriften i API:et stöder inte flera språkfiler.
- Modellen är utformad för att känna igen ett spontant konversationstal (inte röstkommandon, sång och så vidare).
- Om Azure AI Video Indexer inte kan identifiera språket med tillräckligt hög konfidens (större än 0,6) är reservspråket engelska.
Här är en lista över språk som stöds.
Komponenter för transkription, översättning och språkidentifiering
Under transkriptions-, översättnings- och språkidentifieringsprocessen bearbetas tal i en mediefil enligt följande:
Komponent | Definition |
---|---|
Källspråk | Användaren laddar upp källfilen för indexering och antingen: – Anger videokällans språk. – Väljer auto detect single language (LID) för att identifiera språket i filen. Utdata sparas separat. – Väljer automatisk identifiering av flera språk (MLID) för att identifiera flera språk i filen. Utdata för varje språk sparas separat. |
Transkriptions-API | Ljudfilen skickas till Azure AI-tjänster för att hämta transkriberade och översatta utdata. Om ett språk anges bearbetas det i enlighet med detta. Om inget språk anges körs en LID- eller MLID-process för att identifiera det språk som filen bearbetas efter. |
Sammanslagning av utdata | De transkriberade och översatta filerna är enhetliga i samma fil. Utdata innehåller talar-ID för varje extraherad mening tillsammans med dess konfidensnivå. |
Konfidensvärde | Den uppskattade konfidensnivån för varje mening beräknas som ett intervall på 0 till 1. Konfidenspoängen representerar säkerheten i resultatets noggrannhet. Till exempel representeras en säkerhet på 82 % som 0,82 poäng. |