Uzyskiwanie szczegółowych informacji o wykrywaniu efektów dźwiękowych
Wykrywanie efektów dźwiękowych
Wykrywanie efektów dźwiękowych wykrywa zdarzenia akustyczne i klasyfikuje je do kategorii, takich jak śmiech, reakcje tłumu, alarmy i/lub syreny.
Przypadki użycia efektów dźwiękowych
- Zwiększ dostępność, oferując większy kontekst dla osób niedosłyszących przez transkrypcję efektów niespeechowych.
- Poprawa wydajności podczas tworzenia nieprzetworzonych danych dla twórców zawartości. Ważne chwile w promos i przyczepy, takie jak śmiech, reakcje tłumu, strzały lub eksplozje można zidentyfikować, na przykład w Media and Entertainment.
- Wykrywaj i klasyfikuj strzały, eksplozje i szkło rozbijające się w systemie smart-city lub w innych środowiskach publicznych, które obejmują kamery i mikrofony.
Obsługiwane kategorie audio
Wykrywanie efektów dźwiękowych może wykrywać i klasyfikować efekty w standardowych i zaawansowanych kategoriach. Aby uzyskać więcej informacji, zobacz cennik.
W poniższej tabeli przedstawiono, które kategorie są obsługiwane w zależności od wstępnie ustawionej nazwy (tylko / audio wideo + audio i dźwięk vs Zaawansowane wideo i dźwięk / zaawansowane). W przypadku korzystania z indeksowania zaawansowane kategorie są wyświetlane w okienku Szczegółowe informacje w witrynie internetowej.
Klasa | Indeksowanie standardowe | Zaawansowane indeksowanie |
---|---|---|
Reakcje tłumu | ✔️ | |
Wyciszyć | ✔️ | ✔️ |
Strzał lub eksplozja | ✔️ | |
Szkło łamiące | ✔️ | |
Alarm lub syrena | ✔️ | |
Śmiech | ✔️ | |
Pies | ✔️ | |
Dzwonek dzwoniący | ✔️ | |
Ptak | ✔️ | |
Samochód | ✔️ | |
Aparat | ✔️ | |
Płacz | ✔️ | |
Odtwarzanie muzyki | ✔️ | |
Krzyczeć | ✔️ | |
Burza | ✔️ |
Wyświetlanie kodu JSON szczegółowych informacji za pomocą portalu internetowego
Po przekazaniu i zaindeksowaniu klipu wideo szczegółowe informacje są dostępne w formacie JSON do pobrania przy użyciu portalu internetowego.
- Wybierz kartę Biblioteka .
- Wybierz multimedia, z którym chcesz pracować.
- Wybierz pozycję Pobierz i Szczegółowe informacje (JSON). Plik JSON zostanie otwarty na nowej karcie przeglądarki.
- Poszukaj pary kluczy opisanej w przykładowej odpowiedzi.
Używanie interfejsu API
- Użyj żądania Pobierz indeks wideo. Zalecamy przekazanie
&includeSummarizedInsights=false
elementu . - Poszukaj par kluczy opisanych w przykładowej odpowiedzi.
Przykładowa odpowiedź
"audioEffects": [
{
"id": 1,
"type": "Silence",
"instances": [
{
"confidence": 0,
"adjustedStart": "0:01:46.243",
"adjustedEnd": "0:01:50.434",
"start": "0:01:46.243",
"end": "0:01:50.434"
}
]
},
{
"id": 2,
"type": "Speech",
"instances": [
{
"confidence": 0,
"adjustedStart": "0:00:00",
"adjustedEnd": "0:01:43.06",
"start": "0:00:00",
"end": "0:01:43.06"
}
]
}
]
Ważne
Ważne jest, aby zapoznać się z omówieniem noty przejrzystości dla wszystkich funkcji VI. Każda analiza zawiera również własne uwagi dotyczące przejrzystości:
Uwagi dotyczące wykrywania efektów dźwiękowych
- Unikaj używania krótkich lub niskich jakości audio, wykrywanie efektów dźwiękowych zapewnia probabilistyczne i częściowe dane dotyczące wykrytych zdarzeń dźwiękowych niespeech. W celu uzyskania dokładności wykrywanie efektów dźwiękowych wymaga co najmniej 2 sekundy odczyszczenia dźwięku niespeechowego. Polecenia głosowe lub śpiew nie są obsługiwane.
- Unikaj używania dźwięku z głośną muzyką w tle lub muzyką z powtarzalną i/lub liniowo skanowaną częstotliwością, wykrywanie efektów dźwiękowych jest przeznaczone tylko dla dźwięku niespeechowego i dlatego nie może klasyfikować wydarzeń w głośnej muzyce. Muzyka z powtarzalną i/lub liniowo skanowaną częstotliwością wiele jest niepoprawnie sklasyfikowanych jako alarm lub syrena.
- Aby promować dokładniejsze dane probabilistyczne, upewnij się, że:
- Efekty dźwiękowe można wykryć tylko w segmentach innych niż speech.
- Czas trwania sekcji nonspeech powinien wynosić co najmniej 2 sekundy.
- Niski poziom dźwięku może mieć wpływ na wyniki wykrywania.
- Wydarzenia w głośnej muzyce w tle nie są klasyfikowane.
- Muzyka z powtarzalną i/lub liniowo skanowaną częstotliwością może być niepoprawnie sklasyfikowana jako alarm lub syrena.
- Zapukanie do drzwi lub zatrzasanie drzwi może być oznaczone jako strzał lub eksplozja.
- Długotrwałe krzycząc lub dźwięki fizycznego wysiłku ludzkiego mogą być niepoprawnie sklasyfikowane.
- Grupa osób śmiejących się może być sklasyfikowana jako śmiech i tłum.
- Naturalne i niesyntetyczne strzały i eksplozje dźwięki są obsługiwane.
Składniki wykrywania efektów dźwiękowych
Podczas procedury wykrywania efektów audio dźwięku dźwięk w pliku multimedialnym jest przetwarzany w następujący sposób:
Składnik | Definicja |
---|---|
Plik źródłowy | Użytkownik przekazuje plik źródłowy do indeksowania. |
Segmentacja | Dźwięk jest analizowany, audio nonspeech jest identyfikowane, a następnie podzielone na krótkie nakładające się wewnętrzne. |
Klasyfikacja | Proces sztucznej inteligencji analizuje poszczególne segmenty i klasyfikuje jego zawartość do kategorii zdarzeń, takich jak reakcja tłumu lub śmiech. Następnie jest tworzona lista prawdopodobieństwa dla każdej kategorii zdarzeń zgodnie z regułami specyficznymi dla działu. |
Poziom ufności | Szacowany poziom ufności każdego efektu audio jest obliczany jako zakres od 0 do 1. Wskaźnik ufności reprezentuje pewność dokładności wyniku. Na przykład 82% pewność jest reprezentowana jako wynik 0,82. |
Przykładowy kod
Zobacz wszystkie przykłady dla vi
Napisy
Efekty dźwiękowe w plikach napisów zamkniętych są wyświetlane jako nawiasy kwadratowe:
Typ | Przykład |
---|---|
SRT | 00:00:00,000 00:00:03,671 [Strzał lub eksplozja] |
VTT | 00:00:00.000 00:00:03.671 [Strzał lub eksplozja] |
TTML | Pewność siebie: 0,9047 <p begin="00:00:00.000" end="00:00:03.671">[Gunshot or explosion]</p> |
TXT | [Strzał lub eksplozja] |
CSV | 0.9047,00:00:00.000,00:00:03.671, [Strzał lub eksplozja] |
Uwaga
Silence
Typ zdarzenia nie zostanie dodany do napisów zamkniętych.- Minimalny czas trwania czasomierza pokazywania zdarzenia wynosi 700 milisekund.
Dodawanie efektów dźwiękowych do plików napisów zamkniętych
interfejs API
Możesz dodać efekty dźwiękowe do plików napisów z żądaniem Pobierz podpisy wideo i wybierając wartość true dla parametru includeAudioEffects
.
Uwaga
W przypadku używania transkrypcji aktualizacji z plików napisów zamkniętych lub aktualizowania niestandardowego modelu językowego z plików napisów efekty dźwiękowe zawarte w tych plikach są ignorowane.
Portal internetowy
Możesz również użyć portalu internetowego, wybierając pozycję Pobierz ->Napisy zamknięte ->Include Audio Effects.