Mengaktifkan deteksi efek audio (pratinjau)

Artikel
03/22/2024

Penting

Karena pengumuman penghentian Azure Media Services, Azure AI Video Indexer mengumumkan penyesuaian fitur Azure AI Video Indexer. Lihat Perubahan yang terkait dengan penghentian Azure Media Service (AMS) untuk memahami apa artinya ini untuk akun Azure AI Video Indexer Anda. Lihat panduan Mempersiapkan penghentian AMS: Pembaruan VI dan migrasi.

Deteksi efek audio adalah salah satu kemampuan Azure AI Video Indexer AI yang mendeteksi berbagai peristiwa akustik dan mengklasifikasikannya ke dalam kategori akustik yang berbeda (seperti menggonggong anjing, reaksi kerumunan, tertawa, dan banyak lagi).

Beberapa skenario di mana fitur ini berguna:

Perusahaan dengan satu set besar arsip video dapat dengan mudah meningkatkan aksesibilitas dengan deteksi efek audio. Fitur ini menyediakan lebih banyak konteks untuk orang yang sulit mendengar, dan meningkatkan transkripsi video dengan efek nonspeech.
Di domain Media & Entertainment, fitur deteksi dapat meningkatkan efisiensi saat membuat data mentah untuk pembuat konten. Momen penting dalam promo dan trailer (seperti tawa, reaksi kerumunan, tembakan, atau ledakan) dapat diidentifikasi dengan menggunakan deteksi efek audio.
Di domain Public Brankas ty & Justice, fitur ini dapat mendeteksi dan mengklasifikasikan tembakan, ledakan, dan pecahan kaca. Ini dapat diimplementasikan dalam sistem kota pintar atau di lingkungan publik lainnya yang mencakup kamera dan mikrofon untuk menawarkan deteksi insiden kekerasan yang cepat dan akurat.

Kategori audio yang didukung

Deteksi efek audio dapat mendeteksi dan mengklasifikasikan kategori yang berbeda. Dalam tabel berikut, Anda dapat menemukan berbagai kategori yang dibagi ke preset yang berbeda, dibagi menjadi Standar dan Tingkat Lanjut. Untuk informasi selengkapnya, lihat Harga.

Tabel berikut menunjukkan kategori mana yang didukung tergantung pada Nama Preset (Audio Saja / Video + Audio vs. Advance Audio / Advance Video + Audio). Saat Anda menggunakan pengindeksan Tingkat Lanjut , kategori muncul di panel Insight situs web.

Kelas	Pengindeksan standar	Pengindeksan tingkat lanjut
Reaksi Kerumunan		✔️
Hening	✔️	✔️
Tembakan atau ledakan		✔️
Kaca pecah		✔️
Alarm atau sirene		✔️
Laughter		✔️
Anjing		✔️
Dering bel		✔️
Burung		✔️
Mobil		✔️
Mesin		✔️
Menangis		✔️
Pemutaran musik		✔️
Berteriak		✔️
Badai		✔️

Format hasil

Efek audio diambil dalam wawasan JSON yang mencakup ID kategori, jenis, dan set instans per kategori bersama dengan jangka waktu dan skor keyakinan spesifik mereka.

audioEffects: [{
        id: 0,
        type: "Gunshot or explosion",
        instances: [{
                confidence: 0.649,
                adjustedStart: "0:00:13.9",
                adjustedEnd: "0:00:14.7",
                start: "0:00:13.9",
                end: "0:00:14.7"
            }, {
                confidence: 0.7706,
                adjustedStart: "0:01:54.3",
                adjustedEnd: "0:01:55",
                start: "0:01:54.3",
                end: "0:01:55"
            }
        ]
    }, {
        id: 1,
        type: "CrowdReactions",
        instances: [{
                confidence: 0.6816,
                adjustedStart: "0:00:47.9",
                adjustedEnd: "0:00:52.5",
                start: "0:00:47.9",
                end: "0:00:52.5"
            },
            {
                confidence: 0.7314,
                adjustedStart: "0:04:57.67",
                adjustedEnd: "0:05:01.57",
                start: "0:04:57.67",
                end: "0:05:01.57"
            }
        ]
    }
],

Cara mengindeks efek audio

Untuk mengatur proses indeks untuk menyertakan deteksi efek audio, pilih salah satu preset Tingkat Lanjut di bawah menu pengindeksan Video + audio seperti yang dapat dilihat di bawah ini.

Gambar Indeks Efek Audio

Teks tertutup

Saat efek audio diambil dalam file keterangan tertutup, efek audio diambil dalam kurung siku struktur berikut:

Jenis	Contoh
SRT	00:00:00,000 00:00:03,671 [Tembakan atau ledakan]
VTT	00:00:00.000 00:00:03.671 [Tembakan atau ledakan]
TTML	Keyakinan: 0,9047 `<p begin="00:00:00.000" end="00:00:03.671">[Gunshot or explosion]</p>`
TXT	[Tembakan atau ledakan]
CSV	0.9047,00:00:00.000,00:00:03.671, [Tembakan atau ledakan]

Efek Audio dalam file keterangan tertutup diambil dengan logika berikut yang digunakan:

Silence jenis peristiwa tidak akan ditambahkan ke keterangan tertutup.
Durasi timer minimum untuk menampilkan peristiwa adalah 700 milidetik.

Menambahkan efek audio dalam file teks tertutup

Efek audio dapat ditambahkan ke file teks tertutup yang didukung oleh Pengindeks Video Azure AI melalui API Dapatkan keterangan video dengan memilih true dalam includeAudioEffects parameter atau melalui pengalaman situs web video.ai dengan memilih Unduh ->Teks Tertutup ->Sertakan Efek Audio.

Catatan

Saat menggunakan transkrip pembaruan dari file keterangan tertutup atau memperbarui model bahasa kustom dari file keterangan tertutup, efek audio yang disertakan dalam file tersebut diabaikan.

Batasan dan asumsi

Efek audio terdeteksi ketika ada di segmen nonspeech saja.
Model ini dioptimalkan untuk kasus di mana tidak ada musik latar belakang yang keras.
Audio berkualitas rendah dapat berdampak pada hasil deteksi.
Durasi bagian nonspeech minimal adalah 2 detik.
Musik yang ditandai dengan frekuensi yang dipindai secara berulang dan/atau linear dapat keliru diklasifikasikan sebagai Alarm atau sirene.
Model ini saat ini dioptimalkan untuk suara tembakan dan ledakan alami dan nonsintetis.
Ketukan pintu dan bantingan pintu terkadang bisa keliru diberi label sebagai tembakan dan ledakan.
Teriakan berkepanjangan dan suara upaya fisik manusia terkadang dapat dideteksi secara keliru.
Sekelompok orang yang tertawa terkadang dapat diklasifikasikan sebagai reaksi Tawa dan Kerumunan.