Uzyskiwanie szczegółowych informacji o wykrywaniu efektów dźwiękowych

Artykuł
09/04/2024

Wykrywanie efektów dźwiękowych

Wykrywanie efektów dźwiękowych wykrywa zdarzenia akustyczne i klasyfikuje je do kategorii, takich jak śmiech, reakcje tłumu, alarmy i/lub syreny.

Przypadki użycia efektów dźwiękowych

Zwiększ dostępność, oferując większy kontekst dla osób niedosłyszących przez transkrypcję efektów niespeechowych.
Poprawa wydajności podczas tworzenia nieprzetworzonych danych dla twórców zawartości. Ważne chwile w promos i przyczepy, takie jak śmiech, reakcje tłumu, strzały lub eksplozje można zidentyfikować, na przykład w Media and Entertainment.
Wykrywaj i klasyfikuj strzały, eksplozje i szkło rozbijające się w systemie smart-city lub w innych środowiskach publicznych, które obejmują kamery i mikrofony.

Obsługiwane kategorie audio

Wykrywanie efektów dźwiękowych może wykrywać i klasyfikować efekty w standardowych i zaawansowanych kategoriach. Aby uzyskać więcej informacji, zobacz cennik.

W poniższej tabeli przedstawiono, które kategorie są obsługiwane w zależności od wstępnie ustawionej nazwy (tylko / audio wideo + audio i dźwięk vs Zaawansowane wideo i dźwięk / zaawansowane). W przypadku korzystania z indeksowania zaawansowane kategorie są wyświetlane w okienku Szczegółowe informacje w witrynie internetowej.

Klasa	Indeksowanie standardowe	Zaawansowane indeksowanie
Reakcje tłumu		✔️
Wyciszyć	✔️	✔️
Strzał lub eksplozja		✔️
Szkło łamiące		✔️
Alarm lub syrena		✔️
Śmiech		✔️
Pies		✔️
Dzwonek dzwoniący		✔️
Ptak		✔️
Samochód		✔️
Aparat		✔️
Płacz		✔️
Odtwarzanie muzyki		✔️
Krzyczeć		✔️
Burza		✔️

Wyświetlanie kodu JSON szczegółowych informacji za pomocą portalu internetowego

Po przekazaniu i zaindeksowaniu klipu wideo szczegółowe informacje są dostępne w formacie JSON do pobrania przy użyciu portalu internetowego.

Wybierz kartę Biblioteka .
Wybierz multimedia, z którym chcesz pracować.
Wybierz pozycję Pobierz i Szczegółowe informacje (JSON). Plik JSON zostanie otwarty na nowej karcie przeglądarki.
Poszukaj pary kluczy opisanej w przykładowej odpowiedzi.

Używanie interfejsu API

Użyj żądania Pobierz indeks wideo. Zalecamy przekazanie &includeSummarizedInsights=falseelementu .
Poszukaj par kluczy opisanych w przykładowej odpowiedzi.

Przykładowa odpowiedź

    "audioEffects": [
      {
        "id": 1,
        "type": "Silence",
        "instances": [
          {
            "confidence": 0,
            "adjustedStart": "0:01:46.243",
            "adjustedEnd": "0:01:50.434",
            "start": "0:01:46.243",
            "end": "0:01:50.434"
          }
        ]
      },
      {
        "id": 2,
        "type": "Speech",
        "instances": [
          {
            "confidence": 0,
            "adjustedStart": "0:00:00",
            "adjustedEnd": "0:01:43.06",
            "start": "0:00:00",
            "end": "0:01:43.06"
          }
        ]
      }
    ]

Ważne

Ważne jest, aby zapoznać się z omówieniem noty przejrzystości dla wszystkich funkcji VI. Każda analiza zawiera również własne uwagi dotyczące przejrzystości:

Uwagi dotyczące wykrywania efektów dźwiękowych

Unikaj używania krótkich lub niskich jakości audio, wykrywanie efektów dźwiękowych zapewnia probabilistyczne i częściowe dane dotyczące wykrytych zdarzeń dźwiękowych niespeech. W celu uzyskania dokładności wykrywanie efektów dźwiękowych wymaga co najmniej 2 sekundy odczyszczenia dźwięku niespeechowego. Polecenia głosowe lub śpiew nie są obsługiwane.  
Unikaj używania dźwięku z głośną muzyką w tle lub muzyką z powtarzalną i/lub liniowo skanowaną częstotliwością, wykrywanie efektów dźwiękowych jest przeznaczone tylko dla dźwięku niespeechowego i dlatego nie może klasyfikować wydarzeń w głośnej muzyce. Muzyka z powtarzalną i/lub liniowo skanowaną częstotliwością wiele jest niepoprawnie sklasyfikowanych jako alarm lub syrena.
Aby promować dokładniejsze dane probabilistyczne, upewnij się, że:
- Efekty dźwiękowe można wykryć tylko w segmentach innych niż speech.
- Czas trwania sekcji nonspeech powinien wynosić co najmniej 2 sekundy.
- Niski poziom dźwięku może mieć wpływ na wyniki wykrywania.
- Wydarzenia w głośnej muzyce w tle nie są klasyfikowane.
- Muzyka z powtarzalną i/lub liniowo skanowaną częstotliwością może być niepoprawnie sklasyfikowana jako alarm lub syrena.
- Zapukanie do drzwi lub zatrzasanie drzwi może być oznaczone jako strzał lub eksplozja.
- Długotrwałe krzycząc lub dźwięki fizycznego wysiłku ludzkiego mogą być niepoprawnie sklasyfikowane.
- Grupa osób śmiejących się może być sklasyfikowana jako śmiech i tłum.
- Naturalne i niesyntetyczne strzały i eksplozje dźwięki są obsługiwane.

Składniki wykrywania efektów dźwiękowych

Podczas procedury wykrywania efektów audio dźwięku dźwięk w pliku multimedialnym jest przetwarzany w następujący sposób:

Składnik	Definicja
Plik źródłowy	Użytkownik przekazuje plik źródłowy do indeksowania.
Segmentacja	Dźwięk jest analizowany, audio nonspeech jest identyfikowane, a następnie podzielone na krótkie nakładające się wewnętrzne.
Klasyfikacja	Proces sztucznej inteligencji analizuje poszczególne segmenty i klasyfikuje jego zawartość do kategorii zdarzeń, takich jak reakcja tłumu lub śmiech. Następnie jest tworzona lista prawdopodobieństwa dla każdej kategorii zdarzeń zgodnie z regułami specyficznymi dla działu.
Poziom ufności	Szacowany poziom ufności każdego efektu audio jest obliczany jako zakres od 0 do 1. Wskaźnik ufności reprezentuje pewność dokładności wyniku. Na przykład 82% pewność jest reprezentowana jako wynik 0,82.

Przykładowy kod

Zobacz wszystkie przykłady dla vi

Napisy

Efekty dźwiękowe w plikach napisów zamkniętych są wyświetlane jako nawiasy kwadratowe:

Typ	Przykład
SRT	00:00:00,000 00:00:03,671 [Strzał lub eksplozja]
VTT	00:00:00.000 00:00:03.671 [Strzał lub eksplozja]
TTML	Pewność siebie: 0,9047 `<p begin="00:00:00.000" end="00:00:03.671">[Gunshot or explosion]</p>`
TXT	[Strzał lub eksplozja]
CSV	0.9047,00:00:00.000,00:00:03.671, [Strzał lub eksplozja]

Uwaga

Silence Typ zdarzenia nie zostanie dodany do napisów zamkniętych.
Minimalny czas trwania czasomierza pokazywania zdarzenia wynosi 700 milisekund.

Dodawanie efektów dźwiękowych do plików napisów zamkniętych

interfejs API

Możesz dodać efekty dźwiękowe do plików napisów z żądaniem Pobierz podpisy wideo i wybierając wartość true dla parametru includeAudioEffects .