Udostępnij za pośrednictwem


Wykrywanie efektów dźwiękowych

Ważne

Ze względu na ogłoszenie wycofania usługi Azure Media Services usługa Azure AI Video Indexer ogłasza zmiany funkcji usługi Azure AI Video Indexer. Zobacz Zmiany związane z wycofaniem usługi Azure Media Service (AMS), aby dowiedzieć się, co to oznacza dla konta usługi Azure AI Video Indexer. Zobacz Przewodnik Przygotowywanie do wycofania usługi AMS: VI aktualizacji i migracji.

Wykrywanie efektów dźwiękowych to funkcja usługi Azure AI Video Indexer, która wykrywa szczegółowe informacje na temat różnych zdarzeń akustycznych i klasyfikuje je do kategorii akustycznych. Wykrywanie efektów dźwiękowych może wykrywać i klasyfikować różne kategorie, takie jak śmiech, reakcje tłumu, alarmy i/lub syreny.

Podczas pracy w witrynie internetowej wystąpienia są wyświetlane na karcie Szczegółowe informacje. Można je również wygenerować na liście podzielonej na kategorie w pliku JSON zawierającym identyfikator kategorii, typ, nazwę i wystąpienia na kategorię wraz z określonymi przedziałami czasu i współczynnikiem ufności.

Notatka dotycząca przezroczystości

Przegląd noty przezroczystości

Wyświetlanie szczegółowych informacji

Aby wyświetlić wystąpienia w witrynie internetowej, wykonaj następujące czynności:

  1. Podczas przekazywania pliku multimedialnego przejdź do pozycji Wideo i indeksowanie audio lub przejdź do pozycji Tylko audio lub Wideo + Audio i wybierz pozycję Zaawansowane.
  2. Po przekazaniu i zaindeksowanym pliku przejdź do obszaru Szczegółowe informacje i przewiń do efektów dźwiękowych.

Aby wyświetlić plik JSON, wykonaj następujące czynności:

  1. Wybierz pozycję Pobierz —> szczegółowe informacje (JSON).

  2. Skopiuj element w audioEffects obszarze insightsi wklej go do przeglądarki JSON online.

    "audioEffects": [
      {
        "id": 1,
        "type": "Silence",
        "instances": [
          {
            "confidence": 0,
            "adjustedStart": "0:01:46.243",
            "adjustedEnd": "0:01:50.434",
            "start": "0:01:46.243",
            "end": "0:01:50.434"
          }
        ]
      },
      {
        "id": 2,
        "type": "Speech",
        "instances": [
          {
            "confidence": 0,
            "adjustedStart": "0:00:00",
            "adjustedEnd": "0:01:43.06",
            "start": "0:00:00",
            "end": "0:01:43.06"
          }
        ]
      }
    ],
    

Aby pobrać plik JSON za pośrednictwem interfejsu API, użyj portalu deweloperów usługi Azure AI Video Indexer.

Składniki wykrywania efektów dźwiękowych

Podczas procedury wykrywania efektów audio dźwięku dźwięk w pliku multimedialnym jest przetwarzany w następujący sposób:

Składnik Definicja
Plik źródłowy Użytkownik przekazuje plik źródłowy do indeksowania.
Segmentacja Dźwięk jest analizowany, audio nonspeech jest identyfikowane, a następnie podzielone na krótkie nakładające się wewnętrzne.
Klasyfikacja Proces sztucznej inteligencji analizuje poszczególne segmenty i klasyfikuje jego zawartość do kategorii zdarzeń, takich jak reakcja tłumu lub śmiech. Następnie jest tworzona lista prawdopodobieństwa dla każdej kategorii zdarzeń zgodnie z regułami specyficznymi dla działu.
Poziom ufności Szacowany poziom ufności każdego efektu audio jest obliczany jako zakres od 0 do 1. Wskaźnik ufności reprezentuje pewność dokładności wyniku. Na przykład 82% pewność jest reprezentowana jako wynik 0,82.

Przykładowe przypadki użycia

  • Firmy z dużym archiwum wideo mogą zwiększyć dostępność, oferując więcej kontekstu dla osób niedosłyszących przez transkrypcję efektów niespeechowych.
  • Zwiększona wydajność podczas tworzenia danych pierwotnych dla twórców zawartości. Ważne chwile w promos i przyczepy, takie jak śmiech, reakcje tłumu, strzały lub eksplozje można zidentyfikować, na przykład w Media and Entertainment.
  • Wykrywanie i klasyfikowanie strzałów, eksplozji i szkła rozbijania się w systemie smart-city lub w innych środowiskach publicznych, które obejmują kamery i mikrofony, aby zapewnić szybkie i dokładne wykrywanie incydentów przemocy.

Zagadnienia i ograniczenia dotyczące wybierania przypadku użycia

  • Unikaj używania krótkich lub niskich jakości audio, wykrywanie efektów dźwiękowych zapewnia probabilistyczne i częściowe dane dotyczące wykrytych zdarzeń dźwiękowych niespeech. W celu uzyskania dokładności wykrywanie efektów dźwiękowych wymaga co najmniej 2 sekundy odczyszczenia dźwięku niespeechowego. Polecenia głosowe lub śpiew nie są obsługiwane.  

  • Unikaj używania dźwięku z głośną muzyką w tle lub muzyką z powtarzalną i/lub liniowo skanowaną częstotliwością, wykrywanie efektów dźwiękowych jest przeznaczone tylko dla dźwięku niespeechowego i dlatego nie może klasyfikować wydarzeń w głośnej muzyce. Muzyka z powtarzalną i/lub liniowo skanowaną częstotliwością wiele jest niepoprawnie sklasyfikowanych jako alarm lub syrena.

  • Starannie rozważ metody użycia w organach ścigania i podobnych instytucjach, aby promować dokładniejsze dane probabilistyczne, uważnie przejrzyj następujące kwestie:

    • Efekty dźwiękowe można wykryć tylko w segmentach innych niż speech.
    • Czas trwania sekcji nonspeech powinien wynosić co najmniej 2 sekundy.
    • Niski poziom dźwięku może mieć wpływ na wyniki wykrywania.
    • Wydarzenia w głośnej muzyce w tle nie są klasyfikowane.
    • Muzyka z powtarzalną i/lub liniowo skanowaną częstotliwością może być niepoprawnie sklasyfikowana jako alarm lub syrena.
    • Zapukanie do drzwi lub zatrzasanie drzwi może być oznaczone jako strzał lub eksplozja.
    • Długotrwałe krzycząc lub dźwięki fizycznego wysiłku ludzkiego mogą być niepoprawnie sklasyfikowane.
    • Grupa osób śmiejących się może być sklasyfikowana jako śmiech i tłum.
    • Naturalne i niesyntetyczne strzały i eksplozje dźwięki są obsługiwane.