Aktivieren der Erkennung von Audioeffekten (Vorschau)

Artikel
03/22/2024

Wichtig

Aufgrund der Ankündigung zur Einstellung von Azure Media Services kündigt Azure AI Video Indexer Anpassungen an. Siehe Änderungen im Zusammenhang mit der Einstellung von Azure Media Service (AMS), um zu verstehen, was dies für Ihr Azure AI Video Indexer-Konto bedeutet. Weitere Informationen finden Sie im Leitfaden zur Vorbereitung auf die Einstellung von AMS: VI-Update und -Migration.

Die Erkennung von Audioeffekten ist eine der KI-Funktionen von Azure AI Video Indexer, die verschiedene Akustikereignisse erkennt und sie in verschiedene akustische Kategorien klassifiziert (z. B. Hunderinde, Crowdreaktionen, Lachen und mehr).

Dieses Feature kann beispielsweise in folgenden Szenarien hilfreich sein:

Unternehmen mit umfangreichen Videoarchiven können durch die der Erkennung von Audioeffekten problemlos die Barrierefreiheit verbessern. Die Funktion bietet mehr Kontext für Personen, die schwerhörig sind, und verbessert die Videotranskription mit Nichtspeech-Effekten.
In der Media & Entertainment do Standard kann das Erkennungsfeature die Effizienz beim Erstellen von Rohdaten für Inhaltsersteller verbessern. Wichtige Momente in Promos und Trailern (z. B. Gelächter, Reaktionen einer Menschenmenge, ein Schuss oder eine Explosion) können mithilfe der Erkennung von Audioeffekten identifiziert werden.
In der öffentlichen Tresor ty & Justice do Standard kann das Feature Schüsse, Explosionen und Glasschattierung erkennen und klassifizieren. Die Erkennung kann in einem Smart-City-System oder in anderen öffentlichen Umgebungen mit Kameras und Mikrofonen implementiert werden, um eine schnelle und zuverlässige Erkennung von Gewalttaten zu ermöglichen.

Unterstützte Audiokategorien

Die Erkennung von Audioeffekten kann verschiedene Kategorien erkennen und klassifizieren. In der folgenden Tabelle finden Sie die verschiedenen Kategorien, die in die verschiedenen Voreinstellungen aufgeteilt sind, unterteilt in Standard und Erweitert. Weitere Informationen finden Sie unter Azure Data Lake Storage – Preise.

Die folgende Tabelle zeigt, welche Kategorien je nach voreingestellten Namen unterstützt werden (Audio Only / Video + Audio vs. Advance Audio / Video + Audio). Wenn Sie die erweiterte Indizierung verwenden, werden Kategorien im Bereich "Insights " der Website angezeigt.

Klasse	Standardindizierung	Erweiterte Indizierung
Massenreaktionen		✔️
Stille	✔️	✔️
Schuss oder Explosion		✔️
Glasbruch		✔️
Alarm oder Sirene		✔️
Gelächter		✔️
Hund		✔️
Klingeln		✔️
Vogel		✔️
Auto		✔️
Engine		✔️
Weinen		✔️
Musik Wiedergabe		✔️
Schreien		✔️
Gewitter		✔️

Ergebnisformate

Die Audioeffekte werden im JSON-Code für Einblicke abgerufen, der die Kategorie-ID, den Typ und die Gruppe von Instanzen pro Kategorie sowie deren spezifischen Zeitrahmen und Konfidenzbewertung enthält.

audioEffects: [{
        id: 0,
        type: "Gunshot or explosion",
        instances: [{
                confidence: 0.649,
                adjustedStart: "0:00:13.9",
                adjustedEnd: "0:00:14.7",
                start: "0:00:13.9",
                end: "0:00:14.7"
            }, {
                confidence: 0.7706,
                adjustedStart: "0:01:54.3",
                adjustedEnd: "0:01:55",
                start: "0:01:54.3",
                end: "0:01:55"
            }
        ]
    }, {
        id: 1,
        type: "CrowdReactions",
        instances: [{
                confidence: 0.6816,
                adjustedStart: "0:00:47.9",
                adjustedEnd: "0:00:52.5",
                start: "0:00:47.9",
                end: "0:00:52.5"
            },
            {
                confidence: 0.7314,
                adjustedStart: "0:04:57.67",
                adjustedEnd: "0:05:01.57",
                start: "0:04:57.67",
                end: "0:05:01.57"
            }
        ]
    }
],

Indizieren von Audioeffekten

Wenn Sie die Erkennung von Audioeffekten für den Indizierungsprozess festlegen möchten, wählen Sie eine der Erweitert-Voreinstellungen im Menü Video- und Audioindizierung aus, wie unten dargestellt.

Bild zur Indizierung von Audioeffekten

Untertitel für Hörgeschädigte

Wenn Audioeffekte in den geschlossenen Untertitel Dateien abgerufen werden, werden sie in eckigen Klammern der folgenden Struktur abgerufen:

type	Beispiel
SRT	00:00:00,000 00:00:03,671 [Schuss oder Explosion]
VTT	00:00:00.000 00:00:03,671 [Schuss oder Explosion]
TTML	Konfidenz: 0,9047 `<p begin="00:00:00.000" end="00:00:03.671">[Gunshot or explosion]</p>`
TXT	[Schuss oder Explosion]
CSV	0.9047,00:00:00.000,00:00:03.671, [Schuss oder Explosion]

Audioeffekte in geschlossenen Untertitel s-Datei werden mit der folgenden Logik abgerufen:

SilenceDer Ereignistyp wird den geschlossenen Untertitel s nicht hinzugefügt.
Die minimale Zeitgeberdauer zum Anzeigen eines Ereignisses beträgt 700 Millisekunden.

Hinzufügen von Audioeffekten in Untertiteldateien

Audioeffekte können den geschlossenen Untertitel s-Dateien hinzugefügt werden, die von Azure AI Video Indexer über die API "Video-Untertitel s abrufen" unterstützt werden, indem sie "true" im includeAudioEffects Parameter oder über die video.ai Websiteerfahrung auswählen, indem Sie "Download ->Untertitel> -Audioeffekte einschließen" auswählen.

Hinweis

Wenn Sie das Updatetranskript von geschlossenen Untertitel Dateien verwenden oder benutzerdefiniertes Sprachmodell aus geschlossenen Untertitel Dateien aktualisieren, werden audioeffekte, die in diesen Dateien enthalten sind, ignoriert.

Einschränkungen und Voraussetzungen

Die Audioeffekte werden erkannt, wenn sie nur in Nichtspeechsegmenten vorhanden sind.
Das Modell ist für Fälle optimiert, in denen keine laute Hintergrundmusik vorhanden ist.
Die Erkennungsergebnisse können durch schlechte Audioqualität beeinträchtigt werden.
Die minimale Dauer des Nichtspeech-Abschnitts beträgt 2 Sekunden.
Musik, die durch repetitive und/oder linear gescannte Frequenz gekennzeichnet ist, wird unter Umständen fälschlicherweise als Alarm oder Sirene klassifiziert.
Das Modell ist derzeit für natürliche und nichtsynthetische Schuss- und Explosionsgeräusche optimiert.
Anklopfen sowie das Zuschlagen von Türen können manchmal fälschlicherweise als Schuss oder Explosion erkannt werden.
Gelegentlich werden fälschlicherweise länger andauerndes Geschrei sowie Geräusche körperlicher Anstrengung erkannt.
Eine Gruppe lachender Personen kann sowohl als Gelächter als auch als Massenreaktion klassifiziert werden.