Abrufen von Erkenntnissen zur Medientranskription, Übersetzung und Sprachidentifikation

2025-06-04

Die Transkriptions-, Übersetzungs- und Spracherkennungsfeatures erkennen, transkribieren und übersetzen Sprache in Mediendateien in mehr als 50 Sprachen.

Azure AI Video Indexer (VI) verarbeitet die Sprache in der Audiodatei, um die Transkription zu extrahieren, die dann in viele Sprachen übersetzt wird. Wenn Sie die Übersetzung in eine bestimmte Sprache auswählen, werden sowohl die Transkription als auch die Einblicke wie Schlüsselwörter, Themen, Bezeichnungen oder OCR in die angegebene Sprache übersetzt. Transkription kann wie sie ist genutzt werden oder mit Sprecherinformationen kombiniert werden, die die Transkriptionen den Sprechern zuordnen. Mehrere Lautsprecher können in einer Audiodatei erkannt werden. Jedem Sprecher wird eine ID zugewiesen und unter ihrer transkribierten Sprache angezeigt.

Die Sprachidentifikation (LID) erkennt die unterstützte gesprochene Sprache in der Videodatei. Weitere Informationen finden Sie unter Anwenden von LID.

Multi-Language Identification (MLID) erkennt automatisch die gesprochenen Sprachen in verschiedenen Segmenten in der Audiodatei und sendet jedes Segment, das in den identifizierten Sprachen transkribiert wird. Am Ende dieses Prozesses werden alle Transkriptionen in derselben Datei kombiniert. Weitere Informationen finden Sie unter Anwenden von MLID. Die resultierenden Erkenntnisse werden in einer kategorisierten Liste in einer JSON-Datei generiert, die die ID, sprache, transkribierten Text, Dauer und Konfidenzbewertung enthält.

Wenn Azure AI Video Indexer Mediendateien mit mehreren Lautsprechern indiziert, führt er die Sprecherdiarisierung durch. Er identifiziert jeden Sprecher in einem Video und ordnet jede transkribierte Zeile einem Sprecher zu. Die Lautsprecher erhalten eine eindeutige Identität, z. B. Speaker #1 und Speaker #2. Es ermöglicht die Identifizierung von Sprechern während Unterhaltungen und kann in verschiedenen Szenarien nützlich sein, z. B. Arzt-Patienten-Unterhaltungen, Agent-Kundeninteraktionen und Gerichtsverfahren.

Anwendungsfälle für Medientranskription, Übersetzung und Sprachidentifikation

Fördern Sie die Barrierefreiheit, indem Sie mit Azure AI Video Indexer Inhalte für Menschen mit Hörbehinderungen zugänglicher machen, indem Sie Sprach-zu-Text-Transkriptionen und Übersetzungen in mehrere Sprachen generieren.
Verbessern Sie die Inhaltsverteilung an ein vielfältiges Publikum in verschiedenen Regionen und Sprachen. Bereitstellen von Inhalten in mehreren Sprachen mithilfe der Transkriptions- und Übersetzungsfunktionen von Azure AI Video Indexer.
Erweitern und verbessern Sie die Generierung der manueller Untertitelung und der Untertitel. Verwendet die Transkriptions- und Übersetzungsfunktionen von Azure AI Video Indexer und verwendet die Untertitel, die von Azure AI Video Indexer in einem der unterstützten Formate generiert wurden.
Verwenden von Sprachidentifikation (LID) oder Multi language Identification (MLID) zum Transkribieren von Videos in unbekannten Sprachen, damit Azure AI Video Indexer die im Video angezeigten Sprachen automatisch identifizieren und die Transkription entsprechend generieren kann.

Anzeigen des Erkenntnis-JSON mit dem Webportal

Laden Sie nach dem Hochladen und Indizieren eines Videos Einblicke im JSON-Format aus dem Webportal herunter.

Wählen Sie die Registerkarte "Bibliothek" aus.
Wählen Sie die gewünschten Medien aus.
Wählen Sie "Herunterladen" und dann "Insights (JSON)" aus. Die JSON-Datei wird in einem neuen Browser-Tab geöffnet.
Suchen Sie das in der Beispielantwort beschriebene Schlüsselpaar.

Verwenden der API

Verwenden Sie eine Get Video Index-Anforderung . Pass &includeSummarizedInsights=false.
Suchen Sie die in der Beispielantwort beschriebenen Schlüsselpaare.

Beispielantwort

Alle sprachen, die im Video erkannt wurden, befinden sich unter sourceLanguage und jede Instanz im Transkriptionsabschnitt enthält die transkribierte Sprache.

    "insights": {
      "version": "1.0.0.0",
      "duration": "0:01:50.486",
      "sourceLanguage": "en-US",
      "sourceLanguages": [
        "es-ES",
        "en-US"
      ],
      "language": "en-US",
      "languages": [
        "en-US"
      ],
      "transcript": [
        {
          "id": 1,
          "text": "Hi, I'm Doug from office. We're talking about new features that office insiders will see first and I have a program manager,",
          "confidence": 0.8879,
          "speakerId": 1,
          "language": "en-US",
          "instances": [
            {
              "adjustedStart": "0:00:00",
              "adjustedEnd": "0:00:05.75",
              "start": "0:00:00",
              "end": "0:00:05.75"
            }
          ]
        },
        {
          "id": 2,
          "text": "Emily Tran, with office graphics.",
          "confidence": 0.8879,
          "speakerId": 1,
          "language": "en-US",
          "instances": [
            {
              "adjustedStart": "0:00:05.75",
              "adjustedEnd": "0:00:07.01",
              "start": "0:00:05.75",
              "end": "0:00:07.01"
            }
          ]
        },

Wichtig

Lesen Sie die Übersicht über die Transparenzhinweise für alle VI-Features. Jeder Einblick hat auch eine eigene Transparenznotiz.

Transkription, Übersetzung und Sprachidentifikationshinweise

Bei verantwortungsvoller und sorgfältiger Verwendung ist Azure AI Video Indexer ein wertvolles Tool für viele Branchen. Sie müssen immer den Datenschutz und die Sicherheit anderer respektieren und lokale und globale Vorschriften einhalten. Es wird Folgendes empfohlen:

Berücksichtigen Sie sorgfältig die Genauigkeit der Ergebnisse, um genauere Daten zu fördern, die Qualität der Audiodaten zu überprüfen, audioqualitätsarme Audiodaten können sich auf die erkannten Erkenntnisse auswirken.
Der Videoindexer führt keine Lautsprechererkennung durch, sodass Lautsprechern nicht über mehrere Dateien hinweg ein Bezeichner zugewiesen werden. Sie können nicht nach einem einzelnen Sprecher in mehreren Dateien oder Transkriptionen suchen.
Lautsprecher-IDs werden zufällig zugewiesen und können nur verwendet werden, um verschiedene Lautsprecher in einer einzigen Datei zu unterscheiden.
Quersprechen und überlappende Sprache: Wenn mehrere Lautsprecher gleichzeitig sprechen oder miteinander unterbrechen, wird es schwierig, dass das Modell den entsprechenden Lautsprechern den richtigen Text genau unterscheiden und zuweisen kann.
Sprecherüberschneidungen: Manchmal haben Lautsprecher ähnliche Sprachmuster, Akzente oder verwenden ein ähnliches Vokabular, was es für das Modell schwierig macht, zwischen ihnen zu unterscheiden.
Lautes Audio: Schlechte Audioqualität, Hintergrundgeräusche oder aufzeichnungen mit niedriger Qualität können die Fähigkeit des Modells beeinträchtigen, Lautsprecher korrekt zu identifizieren und zu transkribieren.
Emotionale Sprache: Emotionale Variationen in der Sprache, wie Schreien, Weinen oder extreme Aufregung, können sich auf die Fähigkeit des Modells auswirken, Sprecher genau zuzuordnen.
Sprecher tarnen oder Identitätswechsel: Wenn ein Sprecher absichtlich versucht, ihre Stimme nachzuahmen oder zu verschleiern, kann das Modell den Sprecher falsch identifizieren.
Mehrdeutige Sprecheridentifikation: Einige Sprachsegmente weisen möglicherweise nicht genügend eindeutige Merkmale auf, damit das Modell einem bestimmten Sprecher sicher attributieren kann.
Audio, die andere Sprachen als die ausgewählten Sprachen enthält, erzeugt unerwartete Ergebnisse.
Die minimale Segmentlänge für die Erkennung jeder Sprache beträgt 15 Sekunden.
Der Offset der Spracherkennung beträgt 3 Sekunden im Durchschnitt.
Es wird erwartet, dass kontinuierlich gesprochen wird. Häufige Änderungen zwischen Sprachen können sich auf die Leistung des Modells auswirken.
Die Sprache von Nicht-Muttersprachlern kann die Leistung des Modells beeinträchtigen (z. B. wenn Sprecher ihre Muttersprache verwenden und zu einer anderen Sprache wechseln).
Das Modell wurde entwickelt, um spontane Unterhaltungen mit vernünftiger Audioakustik (nicht Sprachbefehle, Gesang usw.) zu erkennen.
Projekterstellung und -bearbeitung stehen für mehrsprachige Videos nicht zur Verfügung.
Benutzerdefinierte Sprachmodelle sind nicht verfügbar, wenn sie die Erkennung mehrerer Sprachen verwenden.
Das Hinzufügen von Schlüsselwörtern wird nicht unterstützt.
Die Sprachanzeige ist nicht in der exportierten Untertiteldatei enthalten.
Das Updatetranskript in der API unterstützt nicht mehrere Sprachendateien.
Das Modell wurde entwickelt, um eine spontane Unterhaltungssprache (nicht Sprachbefehle, Gesang usw.) zu erkennen.
Wenn azure AI Video Indexer die Sprache nicht mit einer hohen Vertrauenswürdigkeit (größer als 0,6) identifizieren kann, ist die Fallbacksprache Englisch.

Hier ist eine Liste der unterstützten Sprachen.

Transkriptions-, Übersetzungs- und Sprachidentifikationskomponenten

Während des Transkriptions-, Übersetzungs- und Sprachidentifikationsverfahrens wird die Sprache in einer Mediendatei wie folgt verarbeitet:

Komponente	Definition
Ausgangssprache	Der Benutzer lädt die Quelldatei für die Indizierung hoch, und entweder: - Gibt die Videoquellsprache an. – Wählt die automatische Erkennung einzelner Sprache (LID) aus, um die Sprache der Datei zu identifizieren. Die Ausgabe wird separat gespeichert. – Wählt die automatische Erkennung mehrerer Sprachen (MLID) aus, um mehrere Sprachen in der Datei zu identifizieren. Die Ausgabe jeder Sprache wird separat gespeichert.
Transkriptions-API	Die Audiodatei wird an Azure AI-Dienste gesendet, um die transkribierte und übersetzte Ausgabe abzurufen. Wenn eine Sprache angegeben ist, wird sie entsprechend verarbeitet. Wenn keine Sprache angegeben ist, wird ein LID- oder MLID-Prozess ausgeführt, um die Sprache zu identifizieren, nach der die Datei verarbeitet wird.
Ausgabevereinheitlichung	Die transkribierten und übersetzten Dateien sind in derselben Datei vereinheitlicht. Die ausgegebenen Daten enthalten die Sprecher-ID jedes extrahierten Satzes zusammen mit seinem Konfidenzniveau.
Konfidenzwert	Das geschätzte Konfidenzniveau jedes Satzes wird als Bereich von 0 bis 1 berechnet. Die Konfidenzbewertung stellt die Sicherheit in der Genauigkeit des Ergebnisses dar. Beispielsweise wird eine Sicherheit von 82 % als 0,82 Punkt dargestellt.

Beispielcode

Alle Beispiele für VI anzeigen