Povolení detekce zvukových efektů (Preview)
Důležité
Vzhledem k oznámení o vyřazení služby Azure Media Services vám Azure AI Video Indexer oznámí úpravy funkcí Azure AI Video Indexeru. Informace o tom, co to znamená pro váš účet Azure AI Video Indexer, najdete v tématu Změny související s vyřazením služby Azure Media Service (AMS). Podívejte se na průvodce přípravou na vyřazení AMS: Průvodce aktualizací VI a migrací.
Detekce zvukových efektů je jednou z funkcí Azure AI Video Indexer AI, které detekují různé akustické události a klasifikují je do různých akustických kategorií (například psí štěkání, davové reakce, smích a další).
Některé scénáře, ve kterých je tato funkce užitečná:
- Společnosti s velkou sadou archivů videí můžou snadno zlepšit přístupnost pomocí detekce zvukových efektů. Tato funkce poskytuje více kontextu pro osoby, které jsou špatně sluchu, a vylepšuje přepis videa s nespeech efekty.
- V doméně Media &Entertainment může funkce detekce zvýšit efektivitu při vytváření nezpracovaných dat pro tvůrce obsahu. Důležité momenty v propagačních a přívěsech (například smích, davové reakce, gunshot nebo exploze) je možné identifikovat pomocí detekce zvukových efektů.
- Ve veřejné Sejf ty a spravedlnosti může funkce detekovat a klasifikovat střelné zbraně, exploze a sklo shattering. Je možné ji implementovat v systému inteligentního města nebo v jiných veřejných prostředích, která obsahují kamery a mikrofony, aby nabízela rychlou a přesnou detekci incidentů násilí.
Podporované kategorie zvuku
Detekce zvukových efektů dokáže rozpoznat a klasifikovat různé kategorie. V následující tabulce najdete různé kategorie rozdělené na různé předvolby rozdělené na standardní a rozšířené. Další informace najdete na stránce s cenami.
Následující tabulka ukazuje, které kategorie jsou podporovány v závislosti na přednastaveném názvu (Audio Only / Video + Audio vs. Advance Audio / + Audio). Když používáte rozšířené indexování, kategorie se zobrazí v podokně Přehledy webu.
Třída | Standardní indexování | Rozšířené indexování |
---|---|---|
Davové reakce | ✔️ | |
Ticho | ✔️ | ✔️ |
Střelné nebo exploze | ✔️ | |
Rozbítelné sklo | ✔️ | |
Alarm nebo siréna | ✔️ | |
Smích | ✔️ | |
Pes | ✔️ | |
Zvonění | ✔️ | |
Pták | ✔️ | |
Automobil | ✔️ | |
Modul | ✔️ | |
Pláč | ✔️ | |
Přehrávání hudby | ✔️ | |
Křičí | ✔️ | |
Bouřka | ✔️ |
Formáty výsledků
Zvukové efekty se načtou ve formátu JSON přehledů, které zahrnují ID, typ a sadu instancí na kategorii spolu s konkrétním časovým rámcem a skóre spolehlivosti.
audioEffects: [{
id: 0,
type: "Gunshot or explosion",
instances: [{
confidence: 0.649,
adjustedStart: "0:00:13.9",
adjustedEnd: "0:00:14.7",
start: "0:00:13.9",
end: "0:00:14.7"
}, {
confidence: 0.7706,
adjustedStart: "0:01:54.3",
adjustedEnd: "0:01:55",
start: "0:01:54.3",
end: "0:01:55"
}
]
}, {
id: 1,
type: "CrowdReactions",
instances: [{
confidence: 0.6816,
adjustedStart: "0:00:47.9",
adjustedEnd: "0:00:52.5",
start: "0:00:47.9",
end: "0:00:52.5"
},
{
confidence: 0.7314,
adjustedStart: "0:04:57.67",
adjustedEnd: "0:05:01.57",
start: "0:04:57.67",
end: "0:05:01.57"
}
]
}
],
Jak indexovat zvukové efekty
Pokud chcete nastavit proces indexu tak, aby zahrnoval detekci zvukových efektů, vyberte jednu z rozšířených předvoleb v nabídce Video + audio indexování , jak je vidět níže.
Skrytý titulek
Když se zvukové efekty načtou v uzavřených popis souborech, načtou se v hranatých závorkách následující struktura:
Typ | Příklad |
---|---|
SRT | 00:00:00,000 00:00:03,671 Dělo nebo exploze. |
VTT | 00:00:00.000 00:00:03.671 Dělo nebo exploze. |
TTML | Spolehlivost: 0,9047 <p begin="00:00:00.000" end="00:00:03.671">[Gunshot or explosion]</p> |
TXT | Dělo nebo exploze. |
CSV | 0.9047,00:00:00.000,00:00:03.671, [Gunshot nebo exploze] |
Zvukové efekty v uzavřeném souboru popis s se načtou s následující logikou:
Silence
Typ události se nepřidá do uzavřených popis.- Minimální doba trvání časovače pro zobrazení události je 700 milisekund.
Přidání zvukových efektů v uzavřených popis souborech
Zvukové efekty je možné přidat do uzavřených popis s souborů podporovaných službou Azure AI Video Indexer prostřednictvím rozhraní API Získat video popis s tak, že zvolíte true v parametru includeAudioEffects
nebo v prostředí webu video.ai výběrem možnosti Stáhnout ->Skryté titulky ->Zahrnout zvukové efekty.
Poznámka:
Při použití přepisu aktualizace z uzavřených popis souborů nebo aktualizace vlastního jazykového modelu z uzavřených popis souborů se zvukové efekty zahrnuté v těchto souborech ignorují.
Omezení a předpoklady
- Zvukové efekty jsou zjištěny pouze v jiných segmentech.
- Model je optimalizovaný pro případy, kdy není žádná hlasitá hudba na pozadí.
- Výsledky detekce můžou mít vliv na zvuk s nízkou kvalitou.
- Minimální doba trvání oddílu, která nenípeech, je 2 sekundy.
- Hudba, která je charakterizována opakovanými a/nebo lineárně naskenovanými frekvencemi, lze omylem klasifikovat jako alarm nebo sirénu.
- Model je aktuálně optimalizovaný pro přírodní a nesyntetické zbraně a zvuky exploze.
- Dveřní klepání a dveřní slamy mohou být někdy omylem označeny jako střelné a exploze.
- Dlouhodobé křikování a zvuky lidského fyzického úsilí mohou být někdy omylem zjištěny.
- Skupina lidí smích může být někdy klasifikována jako smích i dav reakce.
Váš názor
https://aka.ms/ContentUserFeedback.
Připravujeme: V průběhu roku 2024 budeme postupně vyřazovat problémy z GitHub coby mechanismus zpětné vazby pro obsah a nahrazovat ho novým systémem zpětné vazby. Další informace naleznete v tématu:Odeslat a zobrazit názory pro