Freigeben über


Abrufen von Erkenntnissen zur Medientranskription, Übersetzung und Sprachidentifikation

Warnung

Im laufe des vergangenen Jahres kündigte Azure AI Video Indexer (VI) die Entfernung ihrer Abhängigkeit von Azure Media Services (AMS) aufgrund seiner Einstellung an. Featuresanpassungen und Änderungen wurden angekündigt, und es wurde ein Migrationshandbuch bereitgestellt.

Der Stichtag für die Migration war der 30. Juni 2024. VI hat den Update-/Migrationszeitraum verlängert, sodass Sie Ihr VI-Konto aktualisieren und sich für die AMS VI-Assetmigration bis zum 15. Juli 2024 anmelden können. Um die AMS VI-Bestandsmigration zu verwenden, müssen Sie Ihr AMS-Konto auch bis Juli verlängern. Navigieren Sie im Azure-Portal zu Ihrem AMS-Konto, und wählen Sie "Hier klicken" aus, um das Konto zu erweitern.

Wenn Sie Ihr VI-Konto nicht aktualisiert haben, können Sie jedoch nach dem 30. Juni keine neuen Videos indizieren, noch können Sie keine Videos wiedergeben, die nicht migriert wurden. Wenn Sie Ihr Konto nach dem 30. Juni aktualisieren, können Sie die Indizierung sofort fortsetzen, aber Sie können keine Videos wiedergeben, die vor der Kontoaktualisierung indiziert wurden, bis sie über die AMS VI-Migration migriert werden.

Medientranskription, Übersetzung und Sprachidentifikation

Transkription, Übersetzung und Sprachidentifikation erkennt, transkribiert und übersetzt die Sprache in Mediendateien in über 50 Sprachen.

Azure AI Video Indexer (VI) verarbeitet die Sprache in der Audiodatei, um die Transkription zu extrahieren, die dann in viele Sprachen übersetzt wird. Wenn Sie die Übersetzung in eine bestimmte Sprache auswählen, werden sowohl die Transkription als auch die Einblicke wie Schlüsselwörter, Themen, Bezeichnungen oder OCR in die angegebene Sprache übersetzt. Transkription kann wie dargestellt oder mit Sprechereinblicken kombiniert werden, die die Transkriptionen zuordnen und den Sprechern zuweisen. Mehrere Lautsprecher können in einer Audiodatei erkannt werden. Jedem Sprecher wird eine ID zugewiesen und unter ihrer transkribierten Sprache angezeigt.

Die Sprachidentifikation (LID) erkennt die unterstützte gesprochene Sprache in der Videodatei. Weitere Informationen finden Sie unter Anwenden von LID.

Multi-Language Identification (MLID) erkennt automatisch die gesprochenen Sprachen in verschiedenen Segmenten in der Audiodatei und sendet jedes Segment, das in den identifizierten Sprachen transkribiert wird. Am Ende dieses Prozesses werden alle Transkriptionen in derselben Datei kombiniert. Weitere Informationen finden Sie unter Anwenden von MLID. Die resultierenden Erkenntnisse werden in einer kategorisierten Liste in einer JSON-Datei generiert, die die ID, sprache, transkribierten Text, Dauer und Konfidenzbewertung enthält.

Beim Indizieren von Mediendateien mit mehreren Lautsprechern führt Azure AI Video Indexer Die Sprecherdiarisierung durch, die jeden Sprecher in einem Video identifiziert und jede transkribierte Zeile einem Lautsprecher zuordnet. Die Lautsprecher erhalten eine eindeutige Identität, z. B. Speaker #1 und Speaker #2. Dies ermöglicht die Identifizierung von Sprechern während Unterhaltungen und kann in verschiedenen Szenarien nützlich sein, z. B. Arzt-Patienten-Unterhaltungen, Agent-Kundeninteraktionen und Gerichtsverfahren.

Anwendungsfälle für Medientranskription, Übersetzung und Sprachidentifikation

  • Förderung der Barrierefreiheit durch Die Bereitstellung von Inhalten für Personen mit Hörbehinderungen mithilfe von Azure AI Video Indexer zum Generieren von Sprache zu Texttranskription und Übersetzung in mehrere Sprachen.
  • Verbessern der Inhaltsverteilung an ein vielfältiges Publikum in verschiedenen Regionen und Sprachen, indem Inhalte in mehreren Sprachen mit den Transkriptions- und Übersetzungsfunktionen von Azure AI Video Indexer bereitgestellt werden.
  • Verbessern und Verbessern der manuellen Generierung von Untertiteln und Untertiteln mithilfe der Transkriptions- und Übersetzungsfunktionen von Azure AI Video Indexer und der Verwendung der Untertitel, die von Azure AI Video Indexer in einem der unterstützten Formate generiert werden.
  • Verwenden von Sprachidentifikation (LID) oder Multi language Identification (MLID) zum Transkribieren von Videos in unbekannten Sprachen, damit Azure AI Video Indexer die im Video angezeigten Sprachen automatisch identifizieren und die Transkription entsprechend generieren kann.

Anzeigen des Einblicks-JSON mit dem Webportal

Nachdem Sie ein Video hochgeladen und indiziert haben, stehen Einblicke im JSON-Format zum Download über das Webportal zur Verfügung.

  1. Wählen Sie die Registerkarte "Bibliothek" aus.
  2. Wählen Sie Medien aus, mit dem Sie arbeiten möchten.
  3. Wählen Sie "Herunterladen " und " Insights (JSON)" aus. Die JSON-Datei wird auf einer neuen Browserregisterkarte geöffnet.
  4. Suchen Sie nach dem in der Beispielantwort beschriebenen Schlüsselpaar.

Verwenden der API

  1. Verwenden Sie die Anforderung "Videoindex abrufen". Es wird empfohlen, die Übergabe zu übergeben &includeSummarizedInsights=false.
  2. Suchen Sie nach dem in der Beispielantwort beschriebenen Schlüsselpaar.
    "insights": {
      "version": "1.0.0.0",
      "duration": "0:01:50.486",
      "sourceLanguage": "en-US",
      "sourceLanguages": [
        "en-US"
      ],
      "language": "en-US",
      "languages": [
        "en-US"
      ],
      "transcript": [
        {
          "id": 1,
          "text": "Hi, I'm Doug from office. We're talking about new features that office insiders will see first and I have a program manager,",
          "confidence": 0.8879,
          "speakerId": 1,
          "language": "en-US",
          "instances": [
            {
              "adjustedStart": "0:00:00",
              "adjustedEnd": "0:00:05.75",
              "start": "0:00:00",
              "end": "0:00:05.75"
            }
          ]
        },
        {
          "id": 2,
          "text": "Emily Tran, with office graphics.",
          "confidence": 0.8879,
          "speakerId": 1,
          "language": "en-US",
          "instances": [
            {
              "adjustedStart": "0:00:05.75",
              "adjustedEnd": "0:00:07.01",
              "start": "0:00:05.75",
              "end": "0:00:07.01"
            }
          ]
        },