Abrufen von Erkenntnissen zur Medientranskription, Übersetzung und Sprachidentifikation

Artikel
07/16/2024

Warnung

Im laufe des vergangenen Jahres kündigte Azure AI Video Indexer (VI) die Entfernung ihrer Abhängigkeit von Azure Media Services (AMS) aufgrund seiner Einstellung an. Featuresanpassungen und Änderungen wurden angekündigt, und es wurde ein Migrationshandbuch bereitgestellt.

Der Stichtag für die Migration war der 30. Juni 2024. VI hat den Update-/Migrationszeitraum verlängert, sodass Sie Ihr VI-Konto aktualisieren und sich für die AMS VI-Assetmigration bis zum 15. Juli 2024 anmelden können. Um die AMS VI-Bestandsmigration zu verwenden, müssen Sie Ihr AMS-Konto auch bis Juli verlängern. Navigieren Sie im Azure-Portal zu Ihrem AMS-Konto, und wählen Sie "Hier klicken" aus, um das Konto zu erweitern.

Wenn Sie Ihr VI-Konto nicht aktualisiert haben, können Sie jedoch nach dem 30. Juni keine neuen Videos indizieren, noch können Sie keine Videos wiedergeben, die nicht migriert wurden. Wenn Sie Ihr Konto nach dem 30. Juni aktualisieren, können Sie die Indizierung sofort fortsetzen, aber Sie können keine Videos wiedergeben, die vor der Kontoaktualisierung indiziert wurden, bis sie über die AMS VI-Migration migriert werden.

Medientranskription, Übersetzung und Sprachidentifikation

Transkription, Übersetzung und Sprachidentifikation erkennt, transkribiert und übersetzt die Sprache in Mediendateien in über 50 Sprachen.

Azure AI Video Indexer (VI) verarbeitet die Sprache in der Audiodatei, um die Transkription zu extrahieren, die dann in viele Sprachen übersetzt wird. Wenn Sie die Übersetzung in eine bestimmte Sprache auswählen, werden sowohl die Transkription als auch die Einblicke wie Schlüsselwörter, Themen, Bezeichnungen oder OCR in die angegebene Sprache übersetzt. Transkription kann wie dargestellt oder mit Sprechereinblicken kombiniert werden, die die Transkriptionen zuordnen und den Sprechern zuweisen. Mehrere Lautsprecher können in einer Audiodatei erkannt werden. Jedem Sprecher wird eine ID zugewiesen und unter ihrer transkribierten Sprache angezeigt.

Die Sprachidentifikation (LID) erkennt die unterstützte gesprochene Sprache in der Videodatei. Weitere Informationen finden Sie unter Anwenden von LID.

Multi-Language Identification (MLID) erkennt automatisch die gesprochenen Sprachen in verschiedenen Segmenten in der Audiodatei und sendet jedes Segment, das in den identifizierten Sprachen transkribiert wird. Am Ende dieses Prozesses werden alle Transkriptionen in derselben Datei kombiniert. Weitere Informationen finden Sie unter Anwenden von MLID. Die resultierenden Erkenntnisse werden in einer kategorisierten Liste in einer JSON-Datei generiert, die die ID, sprache, transkribierten Text, Dauer und Konfidenzbewertung enthält.

Beim Indizieren von Mediendateien mit mehreren Lautsprechern führt Azure AI Video Indexer Die Sprecherdiarisierung durch, die jeden Sprecher in einem Video identifiziert und jede transkribierte Zeile einem Lautsprecher zuordnet. Die Lautsprecher erhalten eine eindeutige Identität, z. B. Speaker #1 und Speaker #2. Dies ermöglicht die Identifizierung von Sprechern während Unterhaltungen und kann in verschiedenen Szenarien nützlich sein, z. B. Arzt-Patienten-Unterhaltungen, Agent-Kundeninteraktionen und Gerichtsverfahren.

Anwendungsfälle für Medientranskription, Übersetzung und Sprachidentifikation

Förderung der Barrierefreiheit durch Die Bereitstellung von Inhalten für Personen mit Hörbehinderungen mithilfe von Azure AI Video Indexer zum Generieren von Sprache zu Texttranskription und Übersetzung in mehrere Sprachen.
Verbessern der Inhaltsverteilung an ein vielfältiges Publikum in verschiedenen Regionen und Sprachen, indem Inhalte in mehreren Sprachen mit den Transkriptions- und Übersetzungsfunktionen von Azure AI Video Indexer bereitgestellt werden.
Verbessern und Verbessern der manuellen Generierung von Untertiteln und Untertiteln mithilfe der Transkriptions- und Übersetzungsfunktionen von Azure AI Video Indexer und der Verwendung der Untertitel, die von Azure AI Video Indexer in einem der unterstützten Formate generiert werden.
Verwenden von Sprachidentifikation (LID) oder Multi language Identification (MLID) zum Transkribieren von Videos in unbekannten Sprachen, damit Azure AI Video Indexer die im Video angezeigten Sprachen automatisch identifizieren und die Transkription entsprechend generieren kann.

Anzeigen des Einblicks-JSON mit dem Webportal

Nachdem Sie ein Video hochgeladen und indiziert haben, stehen Einblicke im JSON-Format zum Download über das Webportal zur Verfügung.

Wählen Sie die Registerkarte "Bibliothek" aus.
Wählen Sie Medien aus, mit dem Sie arbeiten möchten.
Wählen Sie "Herunterladen " und " Insights (JSON)" aus. Die JSON-Datei wird auf einer neuen Browserregisterkarte geöffnet.
Suchen Sie nach dem in der Beispielantwort beschriebenen Schlüsselpaar.

Verwenden der API

Verwenden Sie die Anforderung "Videoindex abrufen". Es wird empfohlen, die Übergabe zu übergeben &includeSummarizedInsights=false.
Suchen Sie nach dem in der Beispielantwort beschriebenen Schlüsselpaar.

    "insights": {
      "version": "1.0.0.0",
      "duration": "0:01:50.486",
      "sourceLanguage": "en-US",
      "sourceLanguages": [
        "en-US"
      ],
      "language": "en-US",
      "languages": [
        "en-US"
      ],
      "transcript": [
        {
          "id": 1,
          "text": "Hi, I'm Doug from office. We're talking about new features that office insiders will see first and I have a program manager,",
          "confidence": 0.8879,
          "speakerId": 1,
          "language": "en-US",
          "instances": [
            {
              "adjustedStart": "0:00:00",
              "adjustedEnd": "0:00:05.75",
              "start": "0:00:00",
              "end": "0:00:05.75"
            }
          ]
        },
        {
          "id": 2,
          "text": "Emily Tran, with office graphics.",
          "confidence": 0.8879,
          "speakerId": 1,
          "language": "en-US",
          "instances": [
            {
              "adjustedStart": "0:00:05.75",
              "adjustedEnd": "0:00:07.01",
              "start": "0:00:05.75",
              "end": "0:00:07.01"
            }
          ]
        },

Während des Transkriptions-, Übersetzungs- und Sprachidentifikationsverfahrens wird die Spracherkennung in einer Mediendatei wie folgt verarbeitet:

Komponente	Definition
Ausgangssprache	Der Benutzer lädt die Quelldatei für die Indizierung hoch, und entweder: - Gibt die Videoquellsprache an. – Wählt die automatische Erkennung einzelner Sprache (LID) aus, um die Sprache der Datei zu identifizieren. Die Ausgabe wird separat gespeichert. – Wählt die automatische Erkennung mehrerer Sprachen (MLID) aus, um mehrere Sprachen in der Datei zu identifizieren. Die Ausgabe jeder Sprache wird separat gespeichert.
Transkriptions-API	Die Audiodatei wird an Azure AI-Dienste gesendet, um die transkribierte und übersetzte Ausgabe abzurufen. Wenn eine Sprache angegeben ist, wird sie entsprechend verarbeitet. Wenn keine Sprache angegeben ist, wird ein LID- oder MLID-Prozess ausgeführt, um die Sprache zu identifizieren, nach der die Datei verarbeitet wird.
Ausgabevereinheitlichung	Die transkribierten und übersetzten Dateien sind in derselben Datei vereinheitlicht. Die ausgegebenen Daten enthalten die Sprecher-ID jedes extrahierten Satzes zusammen mit seinem Konfidenzniveau.
Konfidenzwert	Das geschätzte Konfidenzniveau jedes Satzes wird als Bereich von 0 bis 1 berechnet. Die Konfidenzbewertung stellt die Sicherheit in der Genauigkeit des Ergebnisses dar. Beispielsweise wird eine Sicherheit von 82 % als 0,82 Punkt dargestellt.

Freigeben über

Abrufen von Erkenntnissen zur Medientranskription, Übersetzung und Sprachidentifikation

Medientranskription, Übersetzung und Sprachidentifikation

Anwendungsfälle für Medientranskription, Übersetzung und Sprachidentifikation

Anzeigen des Einblicks-JSON mit dem Webportal

Verwenden der API

Transparenzhinweis

Feedback

Feedback

Zusätzliche Ressourcen