Automatisches Identifizieren von gesprochener Sprache mit dem Modell zur Sprachenerkennung

Wichtig

Aufgrund der Ankündigung zur Einstellung von Azure Media Services kündigt Azure AI Video Indexer Anpassungen an. Siehe Änderungen im Zusammenhang mit der Einstellung von Azure Media Service (AMS), um zu verstehen, was dies für Ihr Azure AI Video Indexer-Konto bedeutet. Weitere Informationen finden Sie im Leitfaden zur Vorbereitung auf die Einstellung von AMS: VI-Update und -Migration.

Azure AI Video Indexer unterstützt die automatische Sprachidentifikation (LID), bei der es sich um die automatische Identifizierung der gesprochenen Sprache aus Audioinhalten handelt. Die Mediendatei wird in der dominanten identifizierten Sprache transkribiert.

Sehen Sie sich die Liste der unterstützten Azure AI Video Indexer-Sprachen in unterstützten Sprachen an.

Überprüfen Sie unbedingt den Abschnitt "Richtlinien und Einschränkungen" .

Auswählen der automatischen Sprachidentifizierung bei der Indizierung

Wählen Sie bei der Indizierung bzw. der Neuindizierung eines Videos mithilfe der API die Option auto detect im Parameter sourceLanguage aus.

Wenn Sie das Portal verwenden, wechseln Sie auf der Azure AI Video Indexer-Startseite zu Ihren Kontovideos, und zeigen Sie mit der Maus auf den Namen des Videos, das Sie neu indizieren möchten. Wählen Sie in der rechten unteren Ecke die Schaltfläche "Neu indexieren " aus. Wählen Sie im Dialogfeld Video erneut indizieren im Dropdownfeld Ausgangssprache des Videos die Option Automatische Erkennung.

Screenshot, der zeigt, wo die automatische Erkennung ausgewählt werden soll.

Modellausgabe

Azure AI Video Indexer transkribiert das Video entsprechend der wahrscheinlichsten Sprache, wenn das Vertrauen für diese Sprache lautet > 0.6. Falls die Sprache nicht zuverlässig identifiziert werden kann, wird angenommen, dass die gesprochene Sprache Englisch ist.

Die dominante Sprache für das Modell ist im Insights-JSON-Code als sourceLanguage-Attribut verfügbar (unter „root/videos/insights“). Eine entsprechende Zuverlässigkeitsbewertung ist auch im sourceLanguageConfidence-Attribut verfügbar.

"insights": {
        "version": "1.0.0.0",
        "duration": "0:05:30.902",
        "sourceLanguage": "fr-FR",
        "language": "fr-FR",
        "transcript": [...],
        . . .
        "sourceLanguageConfidence": 0.8563
      }

Richtlinien und Einschränkungen

Die automatische Identifizierung von Sprachen unterstützt die folgenden Sprachen:

Sehen Sie sich die Liste der unterstützten Azure AI Video Indexer-Sprachen in unterstützten Sprachen an.

  • Wenn die Audiodaten andere Sprachen als die unterstützte Liste enthalten, ist das Ergebnis unerwartet.
  • Wenn azure AI Video Indexer die Sprache nicht mit einer hohen Vertrauenswürdigkeit (größer als 0,6) identifizieren kann, ist die Fallbacksprache Englisch.
  • Derzeit gibt es keine Unterstützung für Dateien mit gemischten Sprachaudio. Falls die Audiodaten eine Sprachenmischung enthalten, kommt es zu einem unerwarteten Ergebnis.
  • Audio mit niedriger Qualität kann sich auf die Modellergebnisse auswirken.
  • Die Audiodaten müssen für das Modell mindestens eine Minute mit gesprochener Sprache enthalten.
  • Das Modell wurde entwickelt, um eine spontane Unterhaltungssprache (nicht Sprachbefehle, Gesang usw.) zu erkennen.