Povolení detekce zvukových efektů (Preview)

Důležité

Vzhledem k oznámení o vyřazení služby Azure Media Services vám Azure AI Video Indexer oznámí úpravy funkcí Azure AI Video Indexeru. Informace o tom, co to znamená pro váš účet Azure AI Video Indexer, najdete v tématu Změny související s vyřazením služby Azure Media Service (AMS). Podívejte se na průvodce přípravou na vyřazení AMS: Průvodce aktualizací VI a migrací.

Detekce zvukových efektů je jednou z funkcí Azure AI Video Indexer AI, které detekují různé akustické události a klasifikují je do různých akustických kategorií (například psí štěkání, davové reakce, smích a další).

Některé scénáře, ve kterých je tato funkce užitečná:

  • Společnosti s velkou sadou archivů videí můžou snadno zlepšit přístupnost pomocí detekce zvukových efektů. Tato funkce poskytuje více kontextu pro osoby, které jsou špatně sluchu, a vylepšuje přepis videa s nespeech efekty.
  • V doméně Media &Entertainment může funkce detekce zvýšit efektivitu při vytváření nezpracovaných dat pro tvůrce obsahu. Důležité momenty v propagačních a přívěsech (například smích, davové reakce, gunshot nebo exploze) je možné identifikovat pomocí detekce zvukových efektů.
  • Ve veřejné Sejf ty a spravedlnosti může funkce detekovat a klasifikovat střelné zbraně, exploze a sklo shattering. Je možné ji implementovat v systému inteligentního města nebo v jiných veřejných prostředích, která obsahují kamery a mikrofony, aby nabízela rychlou a přesnou detekci incidentů násilí.

Podporované kategorie zvuku

Detekce zvukových efektů dokáže rozpoznat a klasifikovat různé kategorie. V následující tabulce najdete různé kategorie rozdělené na různé předvolby rozdělené na standardní a rozšířené. Další informace najdete na stránce s cenami.

Následující tabulka ukazuje, které kategorie jsou podporovány v závislosti na přednastaveném názvu (Audio Only / Video + Audio vs. Advance Audio / + Audio). Když používáte rozšířené indexování, kategorie se zobrazí v podokně Přehledy webu.

Třída Standardní indexování Rozšířené indexování
Davové reakce ✔️
Ticho ✔️ ✔️
Střelné nebo exploze ✔️
Rozbítelné sklo ✔️
Alarm nebo siréna ✔️
Smích ✔️
Pes ✔️
Zvonění ✔️
Pták ✔️
Automobil ✔️
Modul ✔️
Pláč ✔️
Přehrávání hudby ✔️
Křičí ✔️
Bouřka ✔️

Formáty výsledků

Zvukové efekty se načtou ve formátu JSON přehledů, které zahrnují ID, typ a sadu instancí na kategorii spolu s konkrétním časovým rámcem a skóre spolehlivosti.

audioEffects: [{
        id: 0,
        type: "Gunshot or explosion",
        instances: [{
                confidence: 0.649,
                adjustedStart: "0:00:13.9",
                adjustedEnd: "0:00:14.7",
                start: "0:00:13.9",
                end: "0:00:14.7"
            }, {
                confidence: 0.7706,
                adjustedStart: "0:01:54.3",
                adjustedEnd: "0:01:55",
                start: "0:01:54.3",
                end: "0:01:55"
            }
        ]
    }, {
        id: 1,
        type: "CrowdReactions",
        instances: [{
                confidence: 0.6816,
                adjustedStart: "0:00:47.9",
                adjustedEnd: "0:00:52.5",
                start: "0:00:47.9",
                end: "0:00:52.5"
            },
            {
                confidence: 0.7314,
                adjustedStart: "0:04:57.67",
                adjustedEnd: "0:05:01.57",
                start: "0:04:57.67",
                end: "0:05:01.57"
            }
        ]
    }
],

Jak indexovat zvukové efekty

Pokud chcete nastavit proces indexu tak, aby zahrnoval detekci zvukových efektů, vyberte jednu z rozšířených předvoleb v nabídce Video + audio indexování , jak je vidět níže.

Obrázek indexu zvukových efektů

Skrytý titulek

Když se zvukové efekty načtou v uzavřených popis souborech, načtou se v hranatých závorkách následující struktura:

Typ Příklad
SRT 00:00:00,000 00:00:03,671
Dělo nebo exploze.
VTT 00:00:00.000 00:00:03.671
Dělo nebo exploze.
TTML Spolehlivost: 0,9047
<p begin="00:00:00.000" end="00:00:03.671">[Gunshot or explosion]</p>
TXT Dělo nebo exploze.
CSV 0.9047,00:00:00.000,00:00:03.671, [Gunshot nebo exploze]

Zvukové efekty v uzavřeném souboru popis s se načtou s následující logikou:

  • SilenceTyp události se nepřidá do uzavřených popis.
  • Minimální doba trvání časovače pro zobrazení události je 700 milisekund.

Přidání zvukových efektů v uzavřených popis souborech

Zvukové efekty je možné přidat do uzavřených popis s souborů podporovaných službou Azure AI Video Indexer prostřednictvím rozhraní API Získat video popis s tak, že zvolíte true v parametru includeAudioEffects nebo v prostředí webu video.ai výběrem možnosti Stáhnout ->Skryté titulky ->Zahrnout zvukové efekty.

Zvukové efekty v CC

Poznámka:

Při použití přepisu aktualizace z uzavřených popis souborů nebo aktualizace vlastního jazykového modelu z uzavřených popis souborů se zvukové efekty zahrnuté v těchto souborech ignorují.

Omezení a předpoklady

  • Zvukové efekty jsou zjištěny pouze v jiných segmentech.
  • Model je optimalizovaný pro případy, kdy není žádná hlasitá hudba na pozadí.
  • Výsledky detekce můžou mít vliv na zvuk s nízkou kvalitou.
  • Minimální doba trvání oddílu, která nenípeech, je 2 sekundy.
  • Hudba, která je charakterizována opakovanými a/nebo lineárně naskenovanými frekvencemi, lze omylem klasifikovat jako alarm nebo sirénu.
  • Model je aktuálně optimalizovaný pro přírodní a nesyntetické zbraně a zvuky exploze.
  • Dveřní klepání a dveřní slamy mohou být někdy omylem označeny jako střelné a exploze.
  • Dlouhodobé křikování a zvuky lidského fyzického úsilí mohou být někdy omylem zjištěny.
  • Skupina lidí smích může být někdy klasifikována jako smích i dav reakce.