Freigeben über


Automatisches Erkennen und Transkribieren mehrsprachiger Inhalte

Warnung

Im laufe des vergangenen Jahres kündigte Azure AI Video Indexer (VI) die Entfernung ihrer Abhängigkeit von Azure Media Services (AMS) aufgrund seiner Einstellung an. Featuresanpassungen und Änderungen wurden angekündigt, und es wurde ein Migrationshandbuch bereitgestellt.

Der Stichtag für die Migration war der 30. Juni 2024. VI hat den Stichtag für Updates/Migrationen verlängert, sodass Sie Ihr VI-Konto aktualisieren und sich für die AMS VI-Assetmigration bis zum 31. August 2024 anmelden können.

Wenn Sie Ihr VI-Konto nicht aktualisiert haben, können Sie jedoch nach dem 30. Juni keine neuen Videos indizieren, noch können Sie keine Videos wiedergeben, die nicht migriert wurden. Wenn Sie Ihr Konto nach dem 30. Juni aktualisieren, können Sie die Indizierung sofort fortsetzen, aber Sie können keine Videos wiedergeben, die vor der Kontoaktualisierung indiziert wurden, bis sie über die AMS VI-Migration migriert werden.

Azure AI Video Indexer unterstützt die automatische Sprachidentifikation und Transkription in mehrsprachigen Inhalten. Dieser Prozess beinhaltet das automatische Erkennen der gesprochenen Sprache in verschiedenen Audiosegmenten, das Versenden der einzelnen Segmente der zu transkribierenden Mediendatei und das Zusammenführen der Transkription in einer einzelnen Transkription.

Auswählen der mehrsprachigen Erkennung bei der Indizierung mit dem Portal

Wenn Sie Ihr Video hochladen und indizieren, können Sie die mehrsprachige Erkennung auswählen. Alternativ können Sie beim Erneuten Indizieren Ihres Videos die Multisprachenerkennung auswählen. Die folgenden Schritte beschreiben, wie Sie eine Neuindizierung durchführen:

  1. Navigieren Sie zur Azure KI Video Indexer-Website und melden Sie sich an.

  2. Navigieren Sie zur Seite Bibliothek, und zeigen Sie auf den Namen des Videos, das Sie erneut indizieren möchten.

  3. Wählen Sie in der rechten unteren Ecke die Schaltfläche "Video neu indizieren" aus.

  4. Wählen Sie im Dialogfeld Video erneut indizieren im Dropdownfeld Ausgangssprache des Videos die Option multi-language detection (Mehrsprachige Erkennung) aus.

    • Wenn ein Video als mehrere Sprachen indiziert wird, zeigt der Benutzer an, welches Segment in welcher Sprache transkribiert wird.
    • Die Übersetzung in alle Sprachen ist über das mehrsprachige Transkript vollständig verfügbar.
    • Alle anderen Erkenntnisse werden in der Sprache angezeigt, die den größten Teil der Audiodaten erkannt hat.
    • Untertitel sind im Player ebenfalls in mehreren Sprachen verfügbar.

Portal-Erfahrung

Auswählen der mehrsprachigen Erkennung bei der Indizierung mit der API

Wählen Sie bei der Indizierung bzw. der Neuindizierung eines Videos mithilfe der API die Option multi-language detection im Parameter sourceLanguage aus.

Modellausgabe

Das Modell ruft alle Sprachen ab, die im Video in einer Liste erkannt wurden.

"sourceLanguage": null,
"sourceLanguages": [
    "es-ES",
    "en-US"
],

Darüber hinaus enthält jede Instanz im Transkriptionsabschnitt die Sprache, in der sie transkribiert wurde.

{
  "id": 136,
  "text": "I remember well when my youth Minister took me to hear Doctor King I was a teenager.",
  "confidence": 0.9343,
  "speakerId": 1,
  "language": "en-US",
  "instances": [
    {
       "adjustedStart": "0:21:10.42",
       "adjustedEnd": "0:21:17.48",
       "start": "0:21:10.42",
       "end": "0:21:17.48"
    }
  ]
},

Richtlinien und Einschränkungen

  • Audio, die andere Sprachen als die ausgewählten Sprachen enthält, erzeugt unerwartete Ergebnisse.
  • Die minimale Segmentlänge für die Erkennung jeder Sprache beträgt 15 Sekunden.
  • Der Offset der Spracherkennung beträgt 3 Sekunden im Durchschnitt.
  • Die Sprache sollte fortlaufend gleich sein. Häufige Änderungen zwischen Sprachen können sich auf die Leistung des Modells auswirken.
  • Die Spracherkennung von Nicht-Muttersprachlern kann sich auf die Leistung des Modells auswirken (z. B. wenn Die Lautsprecher ihre erste Sprache verwenden und zu einer anderen Sprache wechseln).
  • Das Modell wurde entwickelt, um spontane Unterhaltungen mit vernünftiger Audioakustik (nicht Sprachbefehle, Gesang usw.) zu erkennen.
  • Projekterstellung und -bearbeitung sind für mehrsprachige Videos nicht verfügbar.
  • Benutzerdefinierte Sprachmodelle sind nicht verfügbar, wenn sie die Erkennung mehrerer Sprachen verwenden.
  • Das Hinzufügen von Schlüsselwörtern wird nicht unterstützt.
  • Die Sprachanzeige ist nicht in der exportierten Untertiteldatei enthalten.
  • Das Updatetranskript in der API unterstützt nicht mehrere Sprachendateien.