Udostępnij za pośrednictwem


Uzyskiwanie szczegółowych informacji o wykrywaniu efektów dźwiękowych

Wykrywanie efektów dźwiękowych

Wykrywanie efektów dźwiękowych wykrywa zdarzenia akustyczne i klasyfikuje je do kategorii, takich jak śmiech, reakcje tłumu, alarmy i/lub syreny.

Przypadki użycia efektów dźwiękowych

  • Zwiększ dostępność, oferując większy kontekst dla osób niedosłyszących przez transkrypcję efektów niespeechowych.
  • Poprawa wydajności podczas tworzenia nieprzetworzonych danych dla twórców zawartości. Ważne chwile w promos i przyczepy, takie jak śmiech, reakcje tłumu, strzały lub eksplozje można zidentyfikować, na przykład w Media and Entertainment.
  • Wykrywaj i klasyfikuj strzały, eksplozje i szkło rozbijające się w systemie smart-city lub w innych środowiskach publicznych, które obejmują kamery i mikrofony.

Obsługiwane kategorie audio

Wykrywanie efektów dźwiękowych może wykrywać i klasyfikować efekty w standardowych i zaawansowanych kategoriach. Aby uzyskać więcej informacji, zobacz cennik.

W poniższej tabeli przedstawiono, które kategorie są obsługiwane w zależności od wstępnie ustawionej nazwy (tylko / audio wideo + audio i dźwięk vs Zaawansowane wideo i dźwięk / zaawansowane). W przypadku korzystania z indeksowania zaawansowane kategorie są wyświetlane w okienku Szczegółowe informacje w witrynie internetowej.

Klasa Indeksowanie standardowe Zaawansowane indeksowanie
Reakcje tłumu ✔️
Wyciszyć ✔️ ✔️
Strzał lub eksplozja ✔️
Szkło łamiące ✔️
Alarm lub syrena ✔️
Śmiech ✔️
Pies ✔️
Dzwonek dzwoniący ✔️
Ptak ✔️
Samochód ✔️
Aparat ✔️
Płacz ✔️
Odtwarzanie muzyki ✔️
Krzyczeć ✔️
Burza ✔️

Wyświetlanie kodu JSON szczegółowych informacji za pomocą portalu internetowego

Po przekazaniu i zaindeksowaniu klipu wideo szczegółowe informacje są dostępne w formacie JSON do pobrania przy użyciu portalu internetowego.

  1. Wybierz kartę Biblioteka .
  2. Wybierz multimedia, z którym chcesz pracować.
  3. Wybierz pozycję Pobierz i Szczegółowe informacje (JSON). Plik JSON zostanie otwarty na nowej karcie przeglądarki.
  4. Poszukaj pary kluczy opisanej w przykładowej odpowiedzi.

Używanie interfejsu API

  1. Użyj żądania Pobierz indeks wideo. Zalecamy przekazanie &includeSummarizedInsights=falseelementu .
  2. Poszukaj par kluczy opisanych w przykładowej odpowiedzi.

Przykładowa odpowiedź

    "audioEffects": [
      {
        "id": 1,
        "type": "Silence",
        "instances": [
          {
            "confidence": 0,
            "adjustedStart": "0:01:46.243",
            "adjustedEnd": "0:01:50.434",
            "start": "0:01:46.243",
            "end": "0:01:50.434"
          }
        ]
      },
      {
        "id": 2,
        "type": "Speech",
        "instances": [
          {
            "confidence": 0,
            "adjustedStart": "0:00:00",
            "adjustedEnd": "0:01:43.06",
            "start": "0:00:00",
            "end": "0:01:43.06"
          }
        ]
      }
    ]

Ważne

Ważne jest, aby zapoznać się z omówieniem noty przejrzystości dla wszystkich funkcji VI. Każda analiza zawiera również własne uwagi dotyczące przejrzystości:

Uwagi dotyczące wykrywania efektów dźwiękowych

  • Unikaj używania krótkich lub niskich jakości audio, wykrywanie efektów dźwiękowych zapewnia probabilistyczne i częściowe dane dotyczące wykrytych zdarzeń dźwiękowych niespeech. W celu uzyskania dokładności wykrywanie efektów dźwiękowych wymaga co najmniej 2 sekundy odczyszczenia dźwięku niespeechowego. Polecenia głosowe lub śpiew nie są obsługiwane.  
  • Unikaj używania dźwięku z głośną muzyką w tle lub muzyką z powtarzalną i/lub liniowo skanowaną częstotliwością, wykrywanie efektów dźwiękowych jest przeznaczone tylko dla dźwięku niespeechowego i dlatego nie może klasyfikować wydarzeń w głośnej muzyce. Muzyka z powtarzalną i/lub liniowo skanowaną częstotliwością wiele jest niepoprawnie sklasyfikowanych jako alarm lub syrena.
  • Aby promować dokładniejsze dane probabilistyczne, upewnij się, że:
    • Efekty dźwiękowe można wykryć tylko w segmentach innych niż speech.
    • Czas trwania sekcji nonspeech powinien wynosić co najmniej 2 sekundy.
    • Niski poziom dźwięku może mieć wpływ na wyniki wykrywania.
    • Wydarzenia w głośnej muzyce w tle nie są klasyfikowane.
    • Muzyka z powtarzalną i/lub liniowo skanowaną częstotliwością może być niepoprawnie sklasyfikowana jako alarm lub syrena.
    • Zapukanie do drzwi lub zatrzasanie drzwi może być oznaczone jako strzał lub eksplozja.
    • Długotrwałe krzycząc lub dźwięki fizycznego wysiłku ludzkiego mogą być niepoprawnie sklasyfikowane.
    • Grupa osób śmiejących się może być sklasyfikowana jako śmiech i tłum.
    • Naturalne i niesyntetyczne strzały i eksplozje dźwięki są obsługiwane.

Składniki wykrywania efektów dźwiękowych

Podczas procedury wykrywania efektów audio dźwięku dźwięk w pliku multimedialnym jest przetwarzany w następujący sposób:

Składnik Definicja
Plik źródłowy Użytkownik przekazuje plik źródłowy do indeksowania.
Segmentacja Dźwięk jest analizowany, audio nonspeech jest identyfikowane, a następnie podzielone na krótkie nakładające się wewnętrzne.
Klasyfikacja Proces sztucznej inteligencji analizuje poszczególne segmenty i klasyfikuje jego zawartość do kategorii zdarzeń, takich jak reakcja tłumu lub śmiech. Następnie jest tworzona lista prawdopodobieństwa dla każdej kategorii zdarzeń zgodnie z regułami specyficznymi dla działu.
Poziom ufności Szacowany poziom ufności każdego efektu audio jest obliczany jako zakres od 0 do 1. Wskaźnik ufności reprezentuje pewność dokładności wyniku. Na przykład 82% pewność jest reprezentowana jako wynik 0,82.

Przykładowy kod

Zobacz wszystkie przykłady dla vi


Napisy

Efekty dźwiękowe w plikach napisów zamkniętych są wyświetlane jako nawiasy kwadratowe:

Typ Przykład
SRT 00:00:00,000 00:00:03,671
[Strzał lub eksplozja]
VTT 00:00:00.000 00:00:03.671
[Strzał lub eksplozja]
TTML Pewność siebie: 0,9047
<p begin="00:00:00.000" end="00:00:03.671">[Gunshot or explosion]</p>
TXT [Strzał lub eksplozja]
CSV 0.9047,00:00:00.000,00:00:03.671, [Strzał lub eksplozja]

Uwaga

  • Silence Typ zdarzenia nie zostanie dodany do napisów zamkniętych.
  • Minimalny czas trwania czasomierza pokazywania zdarzenia wynosi 700 milisekund.

Dodawanie efektów dźwiękowych do plików napisów zamkniętych

interfejs API

Możesz dodać efekty dźwiękowe do plików napisów z żądaniem Pobierz podpisy wideo i wybierając wartość true dla parametru includeAudioEffects .

Uwaga

W przypadku używania transkrypcji aktualizacji z plików napisów zamkniętych lub aktualizowania niestandardowego modelu językowego z plików napisów efekty dźwiękowe zawarte w tych plikach są ignorowane.

Portal internetowy

Możesz również użyć portalu internetowego, wybierając pozycję Pobierz ->Napisy zamknięte ->Include Audio Effects.