Wykrywanie efektów dźwiękowych
Ważne
Ze względu na ogłoszenie wycofania usługi Azure Media Services usługa Azure AI Video Indexer ogłasza zmiany funkcji usługi Azure AI Video Indexer. Zobacz Zmiany związane z wycofaniem usługi Azure Media Service (AMS), aby dowiedzieć się, co to oznacza dla konta usługi Azure AI Video Indexer. Zobacz Przewodnik Przygotowywanie do wycofania usługi AMS: VI aktualizacji i migracji.
Wykrywanie efektów dźwiękowych to funkcja usługi Azure AI Video Indexer, która wykrywa szczegółowe informacje na temat różnych zdarzeń akustycznych i klasyfikuje je do kategorii akustycznych. Wykrywanie efektów dźwiękowych może wykrywać i klasyfikować różne kategorie, takie jak śmiech, reakcje tłumu, alarmy i/lub syreny.
Podczas pracy w witrynie internetowej wystąpienia są wyświetlane na karcie Szczegółowe informacje. Można je również wygenerować na liście podzielonej na kategorie w pliku JSON zawierającym identyfikator kategorii, typ, nazwę i wystąpienia na kategorię wraz z określonymi przedziałami czasu i współczynnikiem ufności.
Notatka dotycząca przezroczystości
Przegląd noty przezroczystości
Wyświetlanie szczegółowych informacji
Aby wyświetlić wystąpienia w witrynie internetowej, wykonaj następujące czynności:
- Podczas przekazywania pliku multimedialnego przejdź do pozycji Wideo i indeksowanie audio lub przejdź do pozycji Tylko audio lub Wideo + Audio i wybierz pozycję Zaawansowane.
- Po przekazaniu i zaindeksowanym pliku przejdź do obszaru Szczegółowe informacje i przewiń do efektów dźwiękowych.
Aby wyświetlić plik JSON, wykonaj następujące czynności:
Wybierz pozycję Pobierz —> szczegółowe informacje (JSON).
Skopiuj element w
audioEffects
obszarzeinsights
i wklej go do przeglądarki JSON online."audioEffects": [ { "id": 1, "type": "Silence", "instances": [ { "confidence": 0, "adjustedStart": "0:01:46.243", "adjustedEnd": "0:01:50.434", "start": "0:01:46.243", "end": "0:01:50.434" } ] }, { "id": 2, "type": "Speech", "instances": [ { "confidence": 0, "adjustedStart": "0:00:00", "adjustedEnd": "0:01:43.06", "start": "0:00:00", "end": "0:01:43.06" } ] } ],
Aby pobrać plik JSON za pośrednictwem interfejsu API, użyj portalu deweloperów usługi Azure AI Video Indexer.
Składniki wykrywania efektów dźwiękowych
Podczas procedury wykrywania efektów audio dźwięku dźwięk w pliku multimedialnym jest przetwarzany w następujący sposób:
Składnik | Definicja |
---|---|
Plik źródłowy | Użytkownik przekazuje plik źródłowy do indeksowania. |
Segmentacja | Dźwięk jest analizowany, audio nonspeech jest identyfikowane, a następnie podzielone na krótkie nakładające się wewnętrzne. |
Klasyfikacja | Proces sztucznej inteligencji analizuje poszczególne segmenty i klasyfikuje jego zawartość do kategorii zdarzeń, takich jak reakcja tłumu lub śmiech. Następnie jest tworzona lista prawdopodobieństwa dla każdej kategorii zdarzeń zgodnie z regułami specyficznymi dla działu. |
Poziom ufności | Szacowany poziom ufności każdego efektu audio jest obliczany jako zakres od 0 do 1. Wskaźnik ufności reprezentuje pewność dokładności wyniku. Na przykład 82% pewność jest reprezentowana jako wynik 0,82. |
Przykładowe przypadki użycia
- Firmy z dużym archiwum wideo mogą zwiększyć dostępność, oferując więcej kontekstu dla osób niedosłyszących przez transkrypcję efektów niespeechowych.
- Zwiększona wydajność podczas tworzenia danych pierwotnych dla twórców zawartości. Ważne chwile w promos i przyczepy, takie jak śmiech, reakcje tłumu, strzały lub eksplozje można zidentyfikować, na przykład w Media and Entertainment.
- Wykrywanie i klasyfikowanie strzałów, eksplozji i szkła rozbijania się w systemie smart-city lub w innych środowiskach publicznych, które obejmują kamery i mikrofony, aby zapewnić szybkie i dokładne wykrywanie incydentów przemocy.
Zagadnienia i ograniczenia dotyczące wybierania przypadku użycia
Unikaj używania krótkich lub niskich jakości audio, wykrywanie efektów dźwiękowych zapewnia probabilistyczne i częściowe dane dotyczące wykrytych zdarzeń dźwiękowych niespeech. W celu uzyskania dokładności wykrywanie efektów dźwiękowych wymaga co najmniej 2 sekundy odczyszczenia dźwięku niespeechowego. Polecenia głosowe lub śpiew nie są obsługiwane.
Unikaj używania dźwięku z głośną muzyką w tle lub muzyką z powtarzalną i/lub liniowo skanowaną częstotliwością, wykrywanie efektów dźwiękowych jest przeznaczone tylko dla dźwięku niespeechowego i dlatego nie może klasyfikować wydarzeń w głośnej muzyce. Muzyka z powtarzalną i/lub liniowo skanowaną częstotliwością wiele jest niepoprawnie sklasyfikowanych jako alarm lub syrena.
Starannie rozważ metody użycia w organach ścigania i podobnych instytucjach, aby promować dokładniejsze dane probabilistyczne, uważnie przejrzyj następujące kwestie:
- Efekty dźwiękowe można wykryć tylko w segmentach innych niż speech.
- Czas trwania sekcji nonspeech powinien wynosić co najmniej 2 sekundy.
- Niski poziom dźwięku może mieć wpływ na wyniki wykrywania.
- Wydarzenia w głośnej muzyce w tle nie są klasyfikowane.
- Muzyka z powtarzalną i/lub liniowo skanowaną częstotliwością może być niepoprawnie sklasyfikowana jako alarm lub syrena.
- Zapukanie do drzwi lub zatrzasanie drzwi może być oznaczone jako strzał lub eksplozja.
- Długotrwałe krzycząc lub dźwięki fizycznego wysiłku ludzkiego mogą być niepoprawnie sklasyfikowane.
- Grupa osób śmiejących się może być sklasyfikowana jako śmiech i tłum.
- Naturalne i niesyntetyczne strzały i eksplozje dźwięki są obsługiwane.
Opinia
https://aka.ms/ContentUserFeedback.
Dostępne już wkrótce: W 2024 r. będziemy stopniowo wycofywać zgłoszenia z serwisu GitHub jako mechanizm przesyłania opinii na temat zawartości i zastępować go nowym systemem opinii. Aby uzyskać więcej informacji, sprawdź:Prześlij i wyświetl opinię dla