Ses efektleri algılama içgörüleri alma
Ses efektleri algılama
Ses efektleri algılama akustik olayları algılar ve bunları kahkaha, kalabalık tepkileri, alarmlar ve/veya sirenler gibi kategorilere ayırır.
Ses efektleri kullanım örnekleri
- Konuşma dışı etkilerin transkripsiyonunu yaparak işitme engelli bir hedef kitle için daha fazla bağlam sunarak erişilebilirliği geliştirin.
- İçerik oluşturucular için ham veri oluştururken verimliliği artırma. Tanıtımlarda ve fragmanlarda kahkaha, kalabalık tepkileri, silah sesleri veya patlamalar gibi önemli anlar, örneğin Medya ve Eğlence'de tanımlanabilir.
- Bir akıllı şehir sisteminde veya kamera ve mikrofon içeren diğer genel ortamlarda silah seslerini, patlamaları ve cam kırılmalarını algılayıp sınıflandırabilirsiniz.
Desteklenen ses kategorileri
Ses efektleri algılama, efektleri algılayabilir ve standart ve gelişmiş kategorilere sınıflandırabilir. Daha fazla bilgi için bkz. Fiyatlandırma.
Aşağıdaki tabloda, Ön Ayar Adına bağlı olarak hangi kategorilerin desteklendiği gösterilmektedir (Yalnızca / Ses Video + Ses ve Gelişmiş Ses / Gelişmiş Video + Ses). Gelişmiş dizin oluşturmayı kullanırken, kategoriler web sitesinin İçgörüler bölmesinde görünür.
Sınıf | Standart dizin oluşturma | Gelişmiş dizin oluşturma |
---|---|---|
Kalabalık Tepkileri | ✔️ | |
Sessizlik | ✔️ | ✔️ |
Silah sesi veya patlama | ✔️ | |
Kıran cam | ✔️ | |
Alarm veya siren | ✔️ | |
Kahkaha | ✔️ | |
Köpek | ✔️ | |
Zil çaldı | ✔️ | |
Kuş | ✔️ | |
Araba | ✔️ | |
Altyapı | ✔️ | |
Ağlama | ✔️ | |
Müzik çalma | ✔️ | |
Çığlık | ✔️ | |
Fırtına | ✔️ |
Web portalı ile içgörü JSON'unu görüntüleme
Bir videoyu karşıya yükleyip dizine ekledikten sonra, web portalını kullanarak indirmek için JSON biçiminde içgörüler sağlanır.
- Kitaplık sekmesini seçin.
- Çalışmak istediğiniz medyayı seçin.
- İndir'i ve İçgörüler 'i (JSON) seçin. JSON dosyası yeni bir tarayıcı sekmesinde açılır.
- Örnek yanıtta açıklanan anahtar çiftini arayın.
API’yi kullanma
- Video Dizini Al isteğini kullanın. geçirmenizi
&includeSummarizedInsights=false
öneririz. - Örnek yanıtta açıklanan anahtar çiftlerini arayın.
Örnek yanıt
"audioEffects": [
{
"id": 1,
"type": "Silence",
"instances": [
{
"confidence": 0,
"adjustedStart": "0:01:46.243",
"adjustedEnd": "0:01:50.434",
"start": "0:01:46.243",
"end": "0:01:50.434"
}
]
},
{
"id": 2,
"type": "Speech",
"instances": [
{
"confidence": 0,
"adjustedStart": "0:00:00",
"adjustedEnd": "0:01:43.06",
"start": "0:00:00",
"end": "0:01:43.06"
}
]
}
]
Önemli
Tüm VI özellikleri için saydamlık notunun genel bakışını okumak önemlidir. Her içgörüde kendi saydamlık notları da vardır:
Ses efektleri algılama notları
- Kısa veya düşük kaliteli ses kullanmaktan kaçının, ses efektleri algılama, algılanan kesintisiz ses olaylarında olası ve kısmi veriler sağlar. Doğruluk için ses efektleri algılama, en az 2 saniyelik net olmayan ses gerektirir. Sesli komutlar veya şarkı söyleme desteklenmez.
- Sesli arka plan müziği veya tekrarlanan ve/veya doğrusal olarak taranan frekanslı müziklerle ses kullanmaktan kaçının, ses efektleri algılama özelliği yalnızca sese bağlı olmayan ses için tasarlanmıştır ve bu nedenle sesli müzikteki olayları sınıflandıramaz. Tekrarlanan ve/veya doğrusal tarama sıklığına sahip müziklerin çoğu yanlış bir şekilde alarm veya siren olarak sınıflandırılır.
- Daha doğru olasılığa dayalı verileri teşvik etmek için şunların olduğundan emin olun:
- Ses efektleri yalnızca nonspeech segmentlerinde algılanabilir.
- Bir nonspeech bölümünün süresi en az 2 saniye olmalıdır.
- Düşük kaliteli ses algılama sonuçlarını etkileyebilir.
- Yüksek arka plan müziğindeki etkinlikler sınıflandırılmamıştır.
- Tekrarlanan ve/veya doğrusal olarak taranan frekansa sahip müzikler yanlış bir şekilde alarm veya siren olarak sınıflandırılabilir.
- Kapıyı çalmak veya kapıyı çarpmak silah sesi veya patlama olarak etiketlenmiş olabilir.
- Uzun süre bağırarak veya fiziksel insan çabası sesleri yanlış sınıflandırılmış olabilir.
- Gülen bir grup insan hem kahkaha hem de kalabalık olarak sınıflandırılabilir.
- Doğal ve nonsyntetik silah sesi ve patlama sesleri desteklenmektedir.
Ses efektleri algılama bileşenleri
Ses efektleri algılama yordamı sırasında, medya dosyasındaki ses aşağıdaki gibi işlenir:
Bileşen | Tanım |
---|---|
Kaynak dosya | Kullanıcı dizin oluşturmak için kaynak dosyayı karşıya yükler. |
Segmentlere ayırma | Ses analiz edilir, kesintisiz ses tanımlanır ve ardından kısa çakışan iç bileşenlere bölünür. |
Sınıflandırma | Yapay zeka süreci her segmenti analiz eder ve içeriğini kalabalık tepkisi veya kahkaha gibi olay kategorilerinde sınıflandırır. Ardından departmana özgü kurallara göre her olay kategorisi için bir olasılık listesi oluşturulur. |
Güvenilirlik düzeyi | Her ses efektinin tahmini güvenilirlik düzeyi 0 ile 1 arasında bir aralık olarak hesaplanır. Güvenilirlik puanı, sonucun doğruluğundaki kesinliği temsil eder. Örneğin, %82'lik bir kesinlik 0,82 puanı olarak gösterilir. |
Örnek kod
Kapalı açıklamalı alt yazılar
Kapalı açıklamalı alt yazı dosyalarındaki ses efektleri köşeli ayraç olarak görünür:
Tür | Örnek |
---|---|
SRT | 00:00:00,000 00:00:03,671 [Silah sesi veya patlama] |
VTT | 00:00:00.000 00:00:03.671 [Silah sesi veya patlama] |
TTML | Güven: 0,9047 <p begin="00:00:00.000" end="00:00:03.671">[Gunshot or explosion]</p> |
TXT | [Silah sesi veya patlama] |
CSV | 0.9047,00:00:00.000,00:00:00:03.671, [Silah sesi veya patlama] |
Not
Silence
olay türü kapalı açıklamalı alt yazılara eklenmez.- Bir olayı göstermek için en düşük süreölçer süresi 700 milisaniyedir.
Kapalı açıklamalı altyazı dosyalarına ses efektleri ekleme
API
Kapalı açıklamalı alt yazı dosyalarına video açıklamalı alt yazı al isteğiyle ve parametresi için includeAudioEffects
true'yu seçerek ses efektleri ekleyebilirsiniz.
Not
Kapalı açıklamalı altyazı dosyalarından güncelleştirme transkripti kullanılırken veya kapalı açıklamalı altyazı dosyalarından özel dil modelini güncelleştirirken, bu dosyalara dahil edilen ses efektleri yoksayılır.
Web portalı
İndir -Kapalı Açıklamalı Alt Yazılar ->>Ses Efektleri Ekle'yi seçerek de web portalını kullanabilirsiniz.