Inzichten in mediatranscriptie, vertaling en taalidentificatie ophalen

Artikel
10/09/2024

Mediatranscriptie, vertaling en taalidentificatie

Transcriptie, vertaling en taalidentificatie detecteert, transcribeert en vertaalt de spraak in mediabestanden in meer dan 50 talen.

Azure AI Video Indexer (VI) verwerkt de spraak in het audiobestand om de transcriptie te extraheren die vervolgens in veel talen wordt vertaald. Wanneer u ervoor kiest om te vertalen in een specifieke taal, worden zowel de transcriptie als de inzichten zoals trefwoorden, onderwerpen, labels of OCR omgezet in de opgegeven taal. Transcriptie kan als zodanig worden gebruikt of worden gecombineerd met sprekerinzichten die de transcripties toewijzen en toewijzen aan sprekers. Er kunnen meerdere luidsprekers worden gedetecteerd in een audiobestand. Er wordt een id toegewezen aan elke spreker en wordt weergegeven onder de getranscribeerde spraak.

Taalidentificatie (LID) herkent de ondersteunde dominante gesproken taal in het videobestand. Zie Lid toepassen voor meer informatie.

MLID (Multi Language Identification) herkent automatisch de gesproken talen in verschillende segmenten in het audiobestand en verzendt elk segment dat moet worden getranscribeerd in de geïdentificeerde talen. Aan het einde van dit proces worden alle transcripties gecombineerd in hetzelfde bestand. Zie MLID toepassen voor meer informatie. De resulterende inzichten worden gegenereerd in een gecategoriseerde lijst in een JSON-bestand dat de id, taal, getranscribeerde tekst, duur en betrouwbaarheidsscore bevat.

Bij het indexeren van mediabestanden met meerdere luidsprekers voert Azure AI Video Indexer sprekerverwijdering uit die elke spreker in een video identificeert en elke getranscribeerde regel aan een luidspreker identificeert. De sprekers krijgen een unieke identiteit zoals Speaker #1 en Speaker #2. Dit maakt het mogelijk om sprekers tijdens gesprekken te identificeren en kan nuttig zijn in verschillende scenario's zoals gesprekken tussen artsen en patiënten, interacties tussen agenten en klanten en gerechtelijke procedures.

Use cases voor mediatranscriptie, vertaling en taalidentificatie

Bevordering van toegankelijkheid door inhoud beschikbaar te maken voor mensen met gehoorproblemen met behulp van Azure AI Video Indexer om spraak-naar-teksttranscriptie en vertaling in meerdere talen te genereren.
Verbetering van de distributie van inhoud voor een divers publiek in verschillende regio's en talen door inhoud in meerdere talen te leveren met behulp van de transcriptie- en vertaalmogelijkheden van Azure AI Video Indexer.
Het verbeteren en verbeteren van handmatige ondertiteling en het genereren van ondertitels met behulp van de transcriptie- en vertaalmogelijkheden van Azure AI Video Indexer en met behulp van de ondertiteling die door Azure AI Video Indexer wordt gegenereerd in een van de ondersteunde indelingen.
Met behulp van taalidentificatie (LID) of MLID (Multi Language Identification) om video's in onbekende talen te transcriberen, zodat Azure AI Video Indexer automatisch de talen kan identificeren die in de video worden weergegeven en de transcriptie dienovereenkomstig genereert.

De inzicht-JSON weergeven met de webportal

Zodra u een video hebt geüpload en geïndexeerd, zijn inzichten beschikbaar in JSON-indeling voor downloaden met behulp van de webportal.

Selecteer het tabblad Bibliotheek .
Selecteer media waarmee u wilt werken.
Selecteer Downloaden en de Inzichten (JSON). Het JSON-bestand wordt geopend op een nieuw browsertabblad.
Zoek naar het sleutelpaar dat wordt beschreven in het voorbeeldantwoord.

De API gebruiken

Gebruik de aanvraag Video Index ophalen. We raden u aan door te geven &includeSummarizedInsights=false.
Zoek naar de sleutelparen die worden beschreven in het voorbeeldantwoord.

Voorbeeld van een antwoord

Alle talen die in de video worden gedetecteerd, bevinden zich onder sourceLanauge en elk exemplaar in de transcriptiesectin bevat de getranscribeerde taal.

    "insights": {
      "version": "1.0.0.0",
      "duration": "0:01:50.486",
      "sourceLanguage": "en-US",
      "sourceLanguages": [
        "es-ES",
        "en-US"
      ],
      "language": "en-US",
      "languages": [
        "en-US"
      ],
      "transcript": [
        {
          "id": 1,
          "text": "Hi, I'm Doug from office. We're talking about new features that office insiders will see first and I have a program manager,",
          "confidence": 0.8879,
          "speakerId": 1,
          "language": "en-US",
          "instances": [
            {
              "adjustedStart": "0:00:00",
              "adjustedEnd": "0:00:05.75",
              "start": "0:00:00",
              "end": "0:00:05.75"
            }
          ]
        },
        {
          "id": 2,
          "text": "Emily Tran, with office graphics.",
          "confidence": 0.8879,
          "speakerId": 1,
          "language": "en-US",
          "instances": [
            {
              "adjustedStart": "0:00:05.75",
              "adjustedEnd": "0:00:07.01",
              "start": "0:00:05.75",
              "end": "0:00:07.01"
            }
          ]
        },

Belangrijk

Het is belangrijk om het overzicht van de transparantienotitie voor alle VI-functies te lezen. Elk inzicht heeft ook eigen transparantienotities:

Notities over transcriptie, vertaling en taalidentificatie

Wanneer u op verantwoorde en zorgvuldige wijze wordt gebruikt, is Azure AI Video Indexer een waardevol hulpmiddel voor veel branches. U moet altijd de privacy en veiligheid van anderen respecteren en voldoen aan lokale en wereldwijde voorschriften. We raden het volgende aan:

Houd zorgvuldig rekening met de nauwkeurigheid van de resultaten, om nauwkeurigere gegevens te promoten, controleer de kwaliteit van de audio, audio van lage kwaliteit kan van invloed zijn op de gedetecteerde inzichten.
Video Indexer voert geen sprekerherkenning uit, zodat sprekers geen id hebben toegewezen voor meerdere bestanden. U kunt niet zoeken naar een afzonderlijke spreker in meerdere bestanden of transcripties.
Spreker-id's worden willekeurig toegewezen en kunnen alleen worden gebruikt om verschillende luidsprekers in één bestand te onderscheiden.
Kruispraat en overlappende spraak: wanneer meerdere sprekers tegelijkertijd praten of elkaar onderbreken, wordt het lastig voor het model om de juiste tekst nauwkeurig te onderscheiden en toe te wijzen aan de bijbehorende sprekers.
Spreker overlapt: Soms hebben sprekers vergelijkbare spraakpatronen, accenten of gebruiken ze vergelijkbare woordenlijst, waardoor het model moeilijk onderscheid kan maken tussen deze woorden.
Lawaaierige audio: Slechte audiokwaliteit, achtergrondruis of opnamen van lage kwaliteit kunnen de mogelijkheid van het model om luidsprekers correct te identificeren en te transcriberen, belemmeren.
Emotionele spraak: emotionele variaties in spraak, zoals schreeuwen, huilen of extreme opwinding, kunnen van invloed zijn op het vermogen van het model om sprekers nauwkeurig te diariseren.
Sprekervermomming of imitatie: als een spreker opzettelijk probeert hun stem te imiteren of te vermommen, kan het model de spreker verkeerd identificeren.
Dubbelzinnige sprekeridentificatie: sommige spraaksegmenten hebben mogelijk niet voldoende unieke kenmerken voor het model om het model met vertrouwen aan een specifieke spreker te kunnen toewijzen.
Audio met andere talen dan de talen die u hebt geselecteerd, produceert onverwachte resultaten.
De minimale segmentlengte voor het detecteren van elke taal is 15 seconden.
De offset voor taaldetectie is gemiddeld 3 seconden.
Spraak is naar verwachting continu. Frequente alternations tussen talen kunnen van invloed zijn op de prestaties van het model.
De spraak van niet-systeemeigen sprekers kan van invloed zijn op de prestaties van het model (bijvoorbeeld wanneer sprekers hun eerste taal gebruiken en ze overschakelen naar een andere taal).
Het model is ontworpen om spontane gespreksspraak te herkennen met redelijke audiokoestiek (niet spraakopdrachten, zingen, enz.).
Het maken en bewerken van projecten is niet beschikbaar voor video's in meerdere talen.
Aangepaste taalmodellen zijn niet beschikbaar bij het gebruik van detectie in meerdere talen.
Het toevoegen van trefwoorden wordt niet ondersteund.
De taalindicatie is niet opgenomen in het geëxporteerde ondertitelingsbestand.
Het transcript van de update in de API biedt geen ondersteuning voor bestanden met meerdere talen.
Het model is ontworpen om een spontane gespreksspraak te herkennen (geen spraakopdrachten, zingen, enzovoort).
Als Azure AI Video Indexer de taal niet kan identificeren met een hoge betrouwbaarheid (groter dan 0,6), is de terugvaltaal Engels.

Hier volgt een lijst met ondersteunde talen.

Transcriptie-, vertaal- en taalidentificatieonderdelen

Tijdens de transcriptie, vertaling en taalidentificatieprocedure wordt spraak in een mediabestand als volgt verwerkt:

Onderdeel	Definitie
Brontaal	De gebruiker uploadt het bronbestand voor indexering en een van de volgende opties: - Hiermee geeft u de taal van de videobron. - Hiermee selecteert u automatisch één taal (LID) om de taal van het bestand te identificeren. De uitvoer wordt afzonderlijk opgeslagen. - Selecteert automatisch detecteren van meerdere talen (MLID) om meerdere talen in het bestand te identificeren. De uitvoer van elke taal wordt afzonderlijk opgeslagen.
Transcriptie-API	Het audiobestand wordt verzonden naar Azure AI-services om de getranscribeerde en vertaalde uitvoer op te halen. Als een taal is opgegeven, wordt deze dienovereenkomstig verwerkt. Als er geen taal is opgegeven, wordt een LID- of MLID-proces uitgevoerd om de taal te identificeren waarna het bestand wordt verwerkt.
Eenwording van uitvoer	De getranscribeerde en vertaalde bestanden zijn geïntegreerd in hetzelfde bestand. De uitvoergegevens bevatten de spreker-id van elke geëxtraheerde zin samen met het betrouwbaarheidsniveau.
Betrouwbaarheidswaarde	Het geschatte betrouwbaarheidsniveau van elke zin wordt berekend als een bereik van 0 tot 1. De betrouwbaarheidsscore vertegenwoordigt de zekerheid in de nauwkeurigheid van het resultaat. Een 82% zekerheid wordt bijvoorbeeld weergegeven als een score van 0,82.

Voorbeeldcode

Bekijk alle voorbeelden voor VI

Delen via