Freigeben über


Medientranskription, Übersetzung und Sprachidentifikation

Wichtig

Aufgrund der Ankündigung zur Einstellung von Azure Media Services kündigt Azure AI Video Indexer Anpassungen an. Siehe Änderungen im Zusammenhang mit der Einstellung von Azure Media Service (AMS), um zu verstehen, was dies für Ihr Azure AI Video Indexer-Konto bedeutet. Weitere Informationen finden Sie im Leitfaden zur Vorbereitung auf die Einstellung von AMS: VI-Update und -Migration.

Azure AI Video Indexer Transkription, Übersetzung und Sprachidentifikation erkennt, transkribiert und übersetzt die Sprache in Mediendateien automatisch in mehr als 50 Sprachen.

  • Azure AI Video Indexer verarbeitet die Sprache in der Audiodatei, um die Transkription zu extrahieren, die dann in viele Sprachen übersetzt wird. Wenn Sie die Übersetzung in eine bestimmte Sprache auswählen, werden sowohl die Transkription als auch die Einblicke wie Schlüsselwörter, Themen, Bezeichnungen oder OCR in die angegebene Sprache übersetzt. Transkription kann wie dargestellt oder mit Sprechereinblicken kombiniert werden, die die Transkriptionen zuordnen und den Sprechern zuweisen. Mehrere Lautsprecher können in einer Audiodatei erkannt werden. Jedem Sprecher wird eine ID zugewiesen und unter ihrer transkribierten Sprache angezeigt.
  • Azure AI Video Indexer Language Identification (LID) erkennt automatisch die unterstützte gesprochene Sprache in der Videodatei. Weitere Informationen finden Sie unter Anwenden von LID.
  • Azure AI Video Indexer Multi-Language Identification (MLID) erkennt automatisch die gesprochenen Sprachen in verschiedenen Segmenten in der Audiodatei und sendet jedes Segment, das in den identifizierten Sprachen transkribiert wird. Am Ende dieses Prozesses werden alle Transkriptionen in derselben Datei kombiniert. Weitere Informationen finden Sie unter Anwenden von MLID. Die resultierenden Erkenntnisse werden in einer kategorisierten Liste in einer JSON-Datei generiert, die die ID, sprache, transkribierten Text, Dauer und Konfidenzbewertung enthält.
  • Beim Indizieren von Mediendateien mit mehreren Lautsprechern führt Azure AI Video Indexer Die Sprecherdiarisierung durch, die jeden Sprecher in einem Video identifiziert und jede transkribierte Zeile einem Lautsprecher zuordnet. Die Lautsprecher erhalten eine eindeutige Identität, z. B. Speaker #1 und Speaker #2. Dies ermöglicht die Identifizierung von Sprechern während Unterhaltungen und kann in verschiedenen Szenarien nützlich sein, z. B. Arzt-Patienten-Unterhaltungen, Agent-Kundeninteraktionen und Gerichtsverfahren.

Voraussetzungen

Übersicht über Transparenzhinweise

Anzeigen der Erkenntnis

So zeigen Sie die Einblicke auf der Website an:

  1. Wechseln Sie zu Insight, und scrollen Sie zu Transkription und Übersetzung.

So zeigen Sie Spracheinblicke in insights.json:

  1. Wählen Sie "Herunterladen –> Insights (JSON)" aus.

  2. Kopieren Sie das gewünschte Element, unter insights, und fügen Sie es in Ihren Online-JSON-Viewer ein.

    "insights": {
      "version": "1.0.0.0",
      "duration": "0:01:50.486",
      "sourceLanguage": "en-US",
      "sourceLanguages": [
        "en-US"
      ],
      "language": "en-US",
      "languages": [
        "en-US"
      ],
      "transcript": [
        {
          "id": 1,
          "text": "Hi, I'm Doug from office. We're talking about new features that office insiders will see first and I have a program manager,",
          "confidence": 0.8879,
          "speakerId": 1,
          "language": "en-US",
          "instances": [
            {
              "adjustedStart": "0:00:00",
              "adjustedEnd": "0:00:05.75",
              "start": "0:00:00",
              "end": "0:00:05.75"
            }
          ]
        },
        {
          "id": 2,
          "text": "Emily Tran, with office graphics.",
          "confidence": 0.8879,
          "speakerId": 1,
          "language": "en-US",
          "instances": [
            {
              "adjustedStart": "0:00:05.75",
              "adjustedEnd": "0:00:07.01",
              "start": "0:00:05.75",
              "end": "0:00:07.01"
            }
          ]
        },
    

Verwenden Sie das Azure AI Video Indexer-Entwicklerportal, um die JSON-Datei über die API herunterzuladen.

Transkriptions-, Übersetzungs- und Sprachidentifikationskomponenten

Während des Transkriptions-, Übersetzungs- und Sprachidentifikationsverfahrens wird die Spracherkennung in einer Mediendatei wie folgt verarbeitet:

Komponente Definition
Ausgangssprache Der Benutzer lädt die Quelldatei für die Indizierung hoch, und entweder:
- Gibt die Videoquellsprache an.
– Wählt die automatische Erkennung einzelner Sprache (LID) aus, um die Sprache der Datei zu identifizieren. Die Ausgabe wird separat gespeichert.
– Wählt die automatische Erkennung mehrerer Sprachen (MLID) aus, um mehrere Sprachen in der Datei zu identifizieren. Die Ausgabe jeder Sprache wird separat gespeichert.
Transkriptions-API Die Audiodatei wird an Azure AI-Dienste gesendet, um die transkribierte und übersetzte Ausgabe abzurufen. Wenn eine Sprache angegeben ist, wird sie entsprechend verarbeitet. Wenn keine Sprache angegeben ist, wird ein LID- oder MLID-Prozess ausgeführt, um die Sprache zu identifizieren, nach der die Datei verarbeitet wird.
Ausgabevereinheitlichung Die transkribierten und übersetzten Dateien sind in derselben Datei vereinheitlicht. Die ausgegebenen Daten enthalten die Sprecher-ID jedes extrahierten Satzes zusammen mit seinem Konfidenzniveau.
Konfidenzwert Das geschätzte Konfidenzniveau jedes Satzes wird als Bereich von 0 bis 1 berechnet. Die Konfidenzbewertung stellt die Sicherheit in der Genauigkeit des Ergebnisses dar. Beispielsweise wird eine Sicherheit von 82 % als 0,82 Punkt dargestellt.

Beispiele für Anwendungsfälle

  • Förderung der Barrierefreiheit durch Die Bereitstellung von Inhalten für Personen mit Hörbehinderungen mithilfe von Azure AI Video Indexer zum Generieren von Sprache zu Texttranskription und Übersetzung in mehrere Sprachen.
  • Verbessern der Inhaltsverteilung an ein vielfältiges Publikum in verschiedenen Regionen und Sprachen, indem Inhalte in mehreren Sprachen mit den Transkriptions- und Übersetzungsfunktionen von Azure AI Video Indexer bereitgestellt werden.
  • Verbessern und Verbessern der manuellen Generierung von Untertiteln und Untertiteln mithilfe der Transkriptions- und Übersetzungsfunktionen von Azure AI Video Indexer und der Verwendung der Untertitel, die von Azure AI Video Indexer in einem der unterstützten Formate generiert werden.
  • Verwenden von Sprachidentifikation (LID) oder Multi language Identification (MLID) zum Transkribieren von Videos in unbekannten Sprachen, damit Azure AI Video Indexer die im Video angezeigten Sprachen automatisch identifizieren und die Transkription entsprechend generieren kann.

Überlegungen und Einschränkungen bei der Auswahl eines Anwendungsfalles

Bei verantwortungsvoller und sorgfältiger Verwendung ist Azure AI Video Indexer ein wertvolles Tool für viele Branchen. Um den Datenschutz und die Sicherheit anderer zu respektieren und lokale und globale Vorschriften einzuhalten, empfehlen wir Folgendes:

  • Berücksichtigen Sie sorgfältig die Genauigkeit der Ergebnisse, um genauere Daten zu fördern, die Qualität der Audiodaten zu überprüfen, audioqualitätsarme Audiodaten können sich auf die erkannten Erkenntnisse auswirken.
  • Der Videoindexer führt keine Lautsprechererkennung durch, sodass Lautsprechern nicht über mehrere Dateien hinweg ein Bezeichner zugewiesen werden. Sie können nicht nach einem einzelnen Sprecher in mehreren Dateien oder Transkriptionen suchen.
  • Lautsprecher-IDs werden zufällig zugewiesen und können nur verwendet werden, um verschiedene Lautsprecher in einer einzigen Datei zu unterscheiden.
  • Quersprechen und überlappende Sprache: Wenn mehrere Lautsprecher gleichzeitig sprechen oder miteinander unterbrechen, wird es schwierig, dass das Modell den entsprechenden Lautsprechern den richtigen Text genau unterscheiden und zuweisen kann.
  • Sprecherüberschneidungen: Manchmal haben Lautsprecher ähnliche Sprachmuster, Akzente oder verwenden ein ähnliches Vokabular, was es für das Modell schwierig macht, zwischen ihnen zu unterscheiden.
  • Lautes Audio: Schlechte Audioqualität, Hintergrundgeräusche oder aufzeichnungen mit niedriger Qualität können die Fähigkeit des Modells beeinträchtigen, Lautsprecher korrekt zu identifizieren und zu transkribieren.
  • Emotionale Sprache: Emotionale Variationen in der Sprache, z. B. Schreien, Weinen oder extreme Spannung, können sich auf die Fähigkeit des Modells auswirken, Lautsprecher genau zu diarisieren.
  • Sprecher tarnen oder Identitätswechsel: Wenn ein Sprecher absichtlich versucht, ihre Stimme nachzuahmen oder zu verschleiern, kann das Modell den Sprecher falsch identifizieren.
  • Mehrdeutige Sprecheridentifikation: Einige Sprachsegmente weisen möglicherweise nicht genügend eindeutige Merkmale auf, damit das Modell einem bestimmten Sprecher sicher attributieren kann.

Weitere Informationen finden Sie unter: Richtlinien und Einschränkungen bei der Spracherkennung und Transkription.