Abrufen von Erkenntnissen zur Medientranskription, Übersetzung und Sprachidentifikation

Artikel
09/03/2024

Medientranskription, Übersetzung und Sprachidentifikation

Transkription, Übersetzung und Sprachidentifikation erkennt, transkribiert und übersetzt die Sprache in Mediendateien in über 50 Sprachen.

Azure AI Video Indexer (VI) verarbeitet die Sprache in der Audiodatei, um die Transkription zu extrahieren, die dann in viele Sprachen übersetzt wird. Wenn Sie die Übersetzung in eine bestimmte Sprache auswählen, werden sowohl die Transkription als auch die Einblicke wie Schlüsselwörter, Themen, Bezeichnungen oder OCR in die angegebene Sprache übersetzt. Transkription kann wie dargestellt oder mit Sprechereinblicken kombiniert werden, die die Transkriptionen zuordnen und den Sprechern zuweisen. Mehrere Lautsprecher können in einer Audiodatei erkannt werden. Jedem Sprecher wird eine ID zugewiesen und unter ihrer transkribierten Sprache angezeigt.

Die Sprachidentifikation (LID) erkennt die unterstützte gesprochene Sprache in der Videodatei. Weitere Informationen finden Sie unter Anwenden von LID.

Multi-Language Identification (MLID) erkennt automatisch die gesprochenen Sprachen in verschiedenen Segmenten in der Audiodatei und sendet jedes Segment, das in den identifizierten Sprachen transkribiert wird. Am Ende dieses Prozesses werden alle Transkriptionen in derselben Datei kombiniert. Weitere Informationen finden Sie unter Anwenden von MLID. Die resultierenden Erkenntnisse werden in einer kategorisierten Liste in einer JSON-Datei generiert, die die ID, sprache, transkribierten Text, Dauer und Konfidenzbewertung enthält.

Beim Indizieren von Mediendateien mit mehreren Lautsprechern führt Azure AI Video Indexer Die Sprecherdiarisierung durch, die jeden Sprecher in einem Video identifiziert und jede transkribierte Zeile einem Lautsprecher zuordnet. Die Lautsprecher erhalten eine eindeutige Identität, z. B. Speaker #1 und Speaker #2. Dies ermöglicht die Identifizierung von Sprechern während Unterhaltungen und kann in verschiedenen Szenarien nützlich sein, z. B. Arzt-Patienten-Unterhaltungen, Agent-Kundeninteraktionen und Gerichtsverfahren.

Anwendungsfälle für Medientranskription, Übersetzung und Sprachidentifikation

Förderung der Barrierefreiheit durch Die Bereitstellung von Inhalten für Personen mit Hörbehinderungen mithilfe von Azure AI Video Indexer zum Generieren von Sprache zu Texttranskription und Übersetzung in mehrere Sprachen.
Verbessern der Inhaltsverteilung an ein vielfältiges Publikum in verschiedenen Regionen und Sprachen, indem Inhalte in mehreren Sprachen mit den Transkriptions- und Übersetzungsfunktionen von Azure AI Video Indexer bereitgestellt werden.
Verbessern und Verbessern der manuellen Generierung von Untertiteln und Untertiteln mithilfe der Transkriptions- und Übersetzungsfunktionen von Azure AI Video Indexer und der Verwendung der Untertitel, die von Azure AI Video Indexer in einem der unterstützten Formate generiert werden.
Verwenden von Sprachidentifikation (LID) oder Multi language Identification (MLID) zum Transkribieren von Videos in unbekannten Sprachen, damit Azure AI Video Indexer die im Video angezeigten Sprachen automatisch identifizieren und die Transkription entsprechend generieren kann.

Anzeigen des Einblicks-JSON mit dem Webportal

Nachdem Sie ein Video hochgeladen und indiziert haben, stehen Einblicke im JSON-Format zum Download über das Webportal zur Verfügung.

Wählen Sie die Registerkarte "Bibliothek" aus.
Wählen Sie Medien aus, mit dem Sie arbeiten möchten.
Wählen Sie "Herunterladen " und " Insights (JSON)" aus. Die JSON-Datei wird auf einer neuen Browserregisterkarte geöffnet.
Suchen Sie nach dem in der Beispielantwort beschriebenen Schlüsselpaar.

Verwenden der API

Verwenden Sie die Anforderung "Videoindex abrufen". Es wird empfohlen, die Übergabe zu übergeben &includeSummarizedInsights=false.
Suchen Sie nach den in der Beispielantwort beschriebenen Schlüsselpaaren.

Beispielantwort

Alle sprachen, die im Video erkannt wurden, befinden sich unter sourceLanauge, und jede Instanz in der Transkription sectin enthält die sprache trascribed.

    "insights": {
      "version": "1.0.0.0",
      "duration": "0:01:50.486",
      "sourceLanguage": "en-US",
      "sourceLanguages": [
        "es-ES",
        "en-US"
      ],
      "language": "en-US",
      "languages": [
        "en-US"
      ],
      "transcript": [
        {
          "id": 1,
          "text": "Hi, I'm Doug from office. We're talking about new features that office insiders will see first and I have a program manager,",
          "confidence": 0.8879,
          "speakerId": 1,
          "language": "en-US",
          "instances": [
            {
              "adjustedStart": "0:00:00",
              "adjustedEnd": "0:00:05.75",
              "start": "0:00:00",
              "end": "0:00:05.75"
            }
          ]
        },
        {
          "id": 2,
          "text": "Emily Tran, with office graphics.",
          "confidence": 0.8879,
          "speakerId": 1,
          "language": "en-US",
          "instances": [
            {
              "adjustedStart": "0:00:05.75",
              "adjustedEnd": "0:00:07.01",
              "start": "0:00:05.75",
              "end": "0:00:07.01"
            }
          ]
        },

Wichtig

Es ist wichtig, die Übersicht über die Transparenzhinweise für alle VI-Features zu lesen. Jeder Einblick hat auch eigene Transparenzhinweise:

Transkription, Übersetzung und Sprachidentifikationshinweise

Bei verantwortungsvoller und sorgfältiger Verwendung ist Azure AI Video Indexer ein wertvolles Tool für viele Branchen. Sie müssen immer den Datenschutz und die Sicherheit anderer respektieren und lokale und globale Vorschriften einhalten. Es wird Folgendes empfohlen:

Berücksichtigen Sie sorgfältig die Genauigkeit der Ergebnisse, um genauere Daten zu fördern, die Qualität der Audiodaten zu überprüfen, audioqualitätsarme Audiodaten können sich auf die erkannten Erkenntnisse auswirken.
Der Videoindexer führt keine Lautsprechererkennung durch, sodass Lautsprechern nicht über mehrere Dateien hinweg ein Bezeichner zugewiesen werden. Sie können nicht nach einem einzelnen Sprecher in mehreren Dateien oder Transkriptionen suchen.
Lautsprecher-IDs werden zufällig zugewiesen und können nur verwendet werden, um verschiedene Lautsprecher in einer einzigen Datei zu unterscheiden.
Quersprechen und überlappende Sprache: Wenn mehrere Lautsprecher gleichzeitig sprechen oder miteinander unterbrechen, wird es schwierig, dass das Modell den entsprechenden Lautsprechern den richtigen Text genau unterscheiden und zuweisen kann.
Sprecherüberschneidungen: Manchmal haben Lautsprecher ähnliche Sprachmuster, Akzente oder verwenden ein ähnliches Vokabular, was es für das Modell schwierig macht, zwischen ihnen zu unterscheiden.
Lautes Audio: Schlechte Audioqualität, Hintergrundgeräusche oder aufzeichnungen mit niedriger Qualität können die Fähigkeit des Modells beeinträchtigen, Lautsprecher korrekt zu identifizieren und zu transkribieren.
Emotionale Sprache: Emotionale Variationen in der Sprache, z. B. Schreien, Weinen oder extreme Spannung, können sich auf die Fähigkeit des Modells auswirken, Lautsprecher genau zu diarisieren.
Sprecher tarnen oder Identitätswechsel: Wenn ein Sprecher absichtlich versucht, ihre Stimme nachzuahmen oder zu verschleiern, kann das Modell den Sprecher falsch identifizieren.
Mehrdeutige Sprecheridentifikation: Einige Sprachsegmente weisen möglicherweise nicht genügend eindeutige Merkmale auf, damit das Modell einem bestimmten Sprecher sicher attributieren kann.
Audio, die andere Sprachen als die ausgewählten Sprachen enthält, erzeugt unerwartete Ergebnisse.
Die minimale Segmentlänge für die Erkennung jeder Sprache beträgt 15 Sekunden.
Der Offset der Spracherkennung beträgt 3 Sekunden im Durchschnitt.
Die Sprache sollte fortlaufend gleich sein. Häufige Änderungen zwischen Sprachen können sich auf die Leistung des Modells auswirken.
Die Spracherkennung von Nicht-Muttersprachlern kann sich auf die Leistung des Modells auswirken (z. B. wenn Die Lautsprecher ihre erste Sprache verwenden und zu einer anderen Sprache wechseln).
Das Modell wurde entwickelt, um spontane Unterhaltungen mit vernünftiger Audioakustik (nicht Sprachbefehle, Gesang usw.) zu erkennen.
Projekterstellung und -bearbeitung stehen für mehrsprachige Videos nicht zur Verfügung.
Benutzerdefinierte Sprachmodelle sind nicht verfügbar, wenn sie die Erkennung mehrerer Sprachen verwenden.
Das Hinzufügen von Schlüsselwörtern wird nicht unterstützt.
Die Sprachanzeige ist nicht in der exportierten Untertiteldatei enthalten.
Das Updatetranskript in der API unterstützt nicht mehrere Sprachendateien.
Das Modell wurde entwickelt, um eine spontane Unterhaltungssprache (nicht Sprachbefehle, Gesang usw.) zu erkennen.
Wenn azure AI Video Indexer die Sprache nicht mit einer hohen Vertrauenswürdigkeit (größer als 0,6) identifizieren kann, ist die Fallbacksprache Englisch.

Hier ist eine Liste der unterstützten Sprachen.

Transkriptions-, Übersetzungs- und Sprachidentifikationskomponenten

Während des Transkriptions-, Übersetzungs- und Sprachidentifikationsverfahrens wird die Spracherkennung in einer Mediendatei wie folgt verarbeitet:

Komponente	Definition
Ausgangssprache	Der Benutzer lädt die Quelldatei für die Indizierung hoch, und entweder: - Gibt die Videoquellsprache an. – Wählt die automatische Erkennung einzelner Sprache (LID) aus, um die Sprache der Datei zu identifizieren. Die Ausgabe wird separat gespeichert. – Wählt die automatische Erkennung mehrerer Sprachen (MLID) aus, um mehrere Sprachen in der Datei zu identifizieren. Die Ausgabe jeder Sprache wird separat gespeichert.
Transkriptions-API	Die Audiodatei wird an Azure AI-Dienste gesendet, um die transkribierte und übersetzte Ausgabe abzurufen. Wenn eine Sprache angegeben ist, wird sie entsprechend verarbeitet. Wenn keine Sprache angegeben ist, wird ein LID- oder MLID-Prozess ausgeführt, um die Sprache zu identifizieren, nach der die Datei verarbeitet wird.
Ausgabevereinheitlichung	Die transkribierten und übersetzten Dateien sind in derselben Datei vereinheitlicht. Die ausgegebenen Daten enthalten die Sprecher-ID jedes extrahierten Satzes zusammen mit seinem Konfidenzniveau.
Konfidenzwert	Das geschätzte Konfidenzniveau jedes Satzes wird als Bereich von 0 bis 1 berechnet. Die Konfidenzbewertung stellt die Sicherheit in der Genauigkeit des Ergebnisses dar. Beispielsweise wird eine Sicherheit von 82 % als 0,82 Punkt dargestellt.

Beispielcode

Alle Beispiele für VI anzeigen

Freigeben über