Aktivieren der Erkennung von Audioeffekten (Vorschau)
Wichtig
Aufgrund der Ankündigung zur Einstellung von Azure Media Services kündigt Azure AI Video Indexer Anpassungen an. Siehe Änderungen im Zusammenhang mit der Einstellung von Azure Media Service (AMS), um zu verstehen, was dies für Ihr Azure AI Video Indexer-Konto bedeutet. Weitere Informationen finden Sie im Leitfaden zur Vorbereitung auf die Einstellung von AMS: VI-Update und -Migration.
Die Erkennung von Audioeffekten ist eine der KI-Funktionen von Azure AI Video Indexer, die verschiedene Akustikereignisse erkennt und sie in verschiedene akustische Kategorien klassifiziert (z. B. Hunderinde, Crowdreaktionen, Lachen und mehr).
Dieses Feature kann beispielsweise in folgenden Szenarien hilfreich sein:
- Unternehmen mit umfangreichen Videoarchiven können durch die der Erkennung von Audioeffekten problemlos die Barrierefreiheit verbessern. Die Funktion bietet mehr Kontext für Personen, die schwerhörig sind, und verbessert die Videotranskription mit Nichtspeech-Effekten.
- In der Media & Entertainment do Standard kann das Erkennungsfeature die Effizienz beim Erstellen von Rohdaten für Inhaltsersteller verbessern. Wichtige Momente in Promos und Trailern (z. B. Gelächter, Reaktionen einer Menschenmenge, ein Schuss oder eine Explosion) können mithilfe der Erkennung von Audioeffekten identifiziert werden.
- In der öffentlichen Tresor ty & Justice do Standard kann das Feature Schüsse, Explosionen und Glasschattierung erkennen und klassifizieren. Die Erkennung kann in einem Smart-City-System oder in anderen öffentlichen Umgebungen mit Kameras und Mikrofonen implementiert werden, um eine schnelle und zuverlässige Erkennung von Gewalttaten zu ermöglichen.
Unterstützte Audiokategorien
Die Erkennung von Audioeffekten kann verschiedene Kategorien erkennen und klassifizieren. In der folgenden Tabelle finden Sie die verschiedenen Kategorien, die in die verschiedenen Voreinstellungen aufgeteilt sind, unterteilt in Standard und Erweitert. Weitere Informationen finden Sie unter Azure Data Lake Storage – Preise.
Die folgende Tabelle zeigt, welche Kategorien je nach voreingestellten Namen unterstützt werden (Audio Only / Video + Audio vs. Advance Audio / Video + Audio). Wenn Sie die erweiterte Indizierung verwenden, werden Kategorien im Bereich "Insights " der Website angezeigt.
Klasse | Standardindizierung | Erweiterte Indizierung |
---|---|---|
Massenreaktionen | ✔️ | |
Stille | ✔️ | ✔️ |
Schuss oder Explosion | ✔️ | |
Glasbruch | ✔️ | |
Alarm oder Sirene | ✔️ | |
Gelächter | ✔️ | |
Hund | ✔️ | |
Klingeln | ✔️ | |
Vogel | ✔️ | |
Auto | ✔️ | |
Engine | ✔️ | |
Weinen | ✔️ | |
Musik Wiedergabe | ✔️ | |
Schreien | ✔️ | |
Gewitter | ✔️ |
Ergebnisformate
Die Audioeffekte werden im JSON-Code für Einblicke abgerufen, der die Kategorie-ID, den Typ und die Gruppe von Instanzen pro Kategorie sowie deren spezifischen Zeitrahmen und Konfidenzbewertung enthält.
audioEffects: [{
id: 0,
type: "Gunshot or explosion",
instances: [{
confidence: 0.649,
adjustedStart: "0:00:13.9",
adjustedEnd: "0:00:14.7",
start: "0:00:13.9",
end: "0:00:14.7"
}, {
confidence: 0.7706,
adjustedStart: "0:01:54.3",
adjustedEnd: "0:01:55",
start: "0:01:54.3",
end: "0:01:55"
}
]
}, {
id: 1,
type: "CrowdReactions",
instances: [{
confidence: 0.6816,
adjustedStart: "0:00:47.9",
adjustedEnd: "0:00:52.5",
start: "0:00:47.9",
end: "0:00:52.5"
},
{
confidence: 0.7314,
adjustedStart: "0:04:57.67",
adjustedEnd: "0:05:01.57",
start: "0:04:57.67",
end: "0:05:01.57"
}
]
}
],
Indizieren von Audioeffekten
Wenn Sie die Erkennung von Audioeffekten für den Indizierungsprozess festlegen möchten, wählen Sie eine der Erweitert-Voreinstellungen im Menü Video- und Audioindizierung aus, wie unten dargestellt.
Untertitel für Hörgeschädigte
Wenn Audioeffekte in den geschlossenen Untertitel Dateien abgerufen werden, werden sie in eckigen Klammern der folgenden Struktur abgerufen:
type | Beispiel |
---|---|
SRT | 00:00:00,000 00:00:03,671 [Schuss oder Explosion] |
VTT | 00:00:00.000 00:00:03,671 [Schuss oder Explosion] |
TTML | Konfidenz: 0,9047 <p begin="00:00:00.000" end="00:00:03.671">[Gunshot or explosion]</p> |
TXT | [Schuss oder Explosion] |
CSV | 0.9047,00:00:00.000,00:00:03.671, [Schuss oder Explosion] |
Audioeffekte in geschlossenen Untertitel s-Datei werden mit der folgenden Logik abgerufen:
Silence
Der Ereignistyp wird den geschlossenen Untertitel s nicht hinzugefügt.- Die minimale Zeitgeberdauer zum Anzeigen eines Ereignisses beträgt 700 Millisekunden.
Hinzufügen von Audioeffekten in Untertiteldateien
Audioeffekte können den geschlossenen Untertitel s-Dateien hinzugefügt werden, die von Azure AI Video Indexer über die API "Video-Untertitel s abrufen" unterstützt werden, indem sie "true" im includeAudioEffects
Parameter oder über die video.ai Websiteerfahrung auswählen, indem Sie "Download ->Untertitel> -Audioeffekte einschließen" auswählen.
Hinweis
Wenn Sie das Updatetranskript von geschlossenen Untertitel Dateien verwenden oder benutzerdefiniertes Sprachmodell aus geschlossenen Untertitel Dateien aktualisieren, werden audioeffekte, die in diesen Dateien enthalten sind, ignoriert.
Einschränkungen und Voraussetzungen
- Die Audioeffekte werden erkannt, wenn sie nur in Nichtspeechsegmenten vorhanden sind.
- Das Modell ist für Fälle optimiert, in denen keine laute Hintergrundmusik vorhanden ist.
- Die Erkennungsergebnisse können durch schlechte Audioqualität beeinträchtigt werden.
- Die minimale Dauer des Nichtspeech-Abschnitts beträgt 2 Sekunden.
- Musik, die durch repetitive und/oder linear gescannte Frequenz gekennzeichnet ist, wird unter Umständen fälschlicherweise als Alarm oder Sirene klassifiziert.
- Das Modell ist derzeit für natürliche und nichtsynthetische Schuss- und Explosionsgeräusche optimiert.
- Anklopfen sowie das Zuschlagen von Türen können manchmal fälschlicherweise als Schuss oder Explosion erkannt werden.
- Gelegentlich werden fälschlicherweise länger andauerndes Geschrei sowie Geräusche körperlicher Anstrengung erkannt.
- Eine Gruppe lachender Personen kann sowohl als Gelächter als auch als Massenreaktion klassifiziert werden.
Feedback
https://aka.ms/ContentUserFeedback.
Bald verfügbar: Im Laufe des Jahres 2024 werden wir GitHub-Issues stufenweise als Feedbackmechanismus für Inhalte abbauen und durch ein neues Feedbacksystem ersetzen. Weitere Informationen finden Sie unterFeedback senden und anzeigen für