Aracılığıyla paylaş


Ses efektleri algılama içgörüleri alma

Ses efektleri algılama

Ses efektleri algılama akustik olayları algılar ve bunları kahkaha, kalabalık tepkileri, alarmlar ve/veya sirenler gibi kategorilere ayırır.

Ses efektleri kullanım örnekleri

  • Konuşma dışı etkilerin transkripsiyonunu yaparak işitme engelli bir hedef kitle için daha fazla bağlam sunarak erişilebilirliği geliştirin.
  • İçerik oluşturucular için ham veri oluştururken verimliliği artırma. Tanıtımlarda ve fragmanlarda kahkaha, kalabalık tepkileri, silah sesleri veya patlamalar gibi önemli anlar, örneğin Medya ve Eğlence'de tanımlanabilir.
  • Bir akıllı şehir sisteminde veya kamera ve mikrofon içeren diğer genel ortamlarda silah seslerini, patlamaları ve cam kırılmalarını algılayıp sınıflandırabilirsiniz.

Desteklenen ses kategorileri

Ses efektleri algılama, efektleri algılayabilir ve standart ve gelişmiş kategorilere sınıflandırabilir. Daha fazla bilgi için bkz. Fiyatlandırma.

Aşağıdaki tabloda, Ön Ayar Adına bağlı olarak hangi kategorilerin desteklendiği gösterilmektedir (Yalnızca / Ses Video + Ses ve Gelişmiş Ses / Gelişmiş Video + Ses). Gelişmiş dizin oluşturmayı kullanırken, kategoriler web sitesinin İçgörüler bölmesinde görünür.

Sınıf Standart dizin oluşturma Gelişmiş dizin oluşturma
Kalabalık Tepkileri ✔️
Sessizlik ✔️ ✔️
Silah sesi veya patlama ✔️
Kıran cam ✔️
Alarm veya siren ✔️
Kahkaha ✔️
Köpek ✔️
Zil çaldı ✔️
Kuş ✔️
Araba ✔️
Altyapı ✔️
Ağlama ✔️
Müzik çalma ✔️
Çığlık ✔️
Fırtına ✔️

Web portalı ile içgörü JSON'unu görüntüleme

Bir videoyu karşıya yükleyip dizine ekledikten sonra, web portalını kullanarak indirmek için JSON biçiminde içgörüler sağlanır.

  1. Kitaplık sekmesini seçin.
  2. Çalışmak istediğiniz medyayı seçin.
  3. İndir'i ve İçgörüler 'i (JSON) seçin. JSON dosyası yeni bir tarayıcı sekmesinde açılır.
  4. Örnek yanıtta açıklanan anahtar çiftini arayın.

API’yi kullanma

  1. Video Dizini Al isteğini kullanın. geçirmenizi &includeSummarizedInsights=falseöneririz.
  2. Örnek yanıtta açıklanan anahtar çiftlerini arayın.

Örnek yanıt

    "audioEffects": [
      {
        "id": 1,
        "type": "Silence",
        "instances": [
          {
            "confidence": 0,
            "adjustedStart": "0:01:46.243",
            "adjustedEnd": "0:01:50.434",
            "start": "0:01:46.243",
            "end": "0:01:50.434"
          }
        ]
      },
      {
        "id": 2,
        "type": "Speech",
        "instances": [
          {
            "confidence": 0,
            "adjustedStart": "0:00:00",
            "adjustedEnd": "0:01:43.06",
            "start": "0:00:00",
            "end": "0:01:43.06"
          }
        ]
      }
    ]

Önemli

Tüm VI özellikleri için saydamlık notunun genel bakışını okumak önemlidir. Her içgörüde kendi saydamlık notları da vardır:

Ses efektleri algılama notları

  • Kısa veya düşük kaliteli ses kullanmaktan kaçının, ses efektleri algılama, algılanan kesintisiz ses olaylarında olası ve kısmi veriler sağlar. Doğruluk için ses efektleri algılama, en az 2 saniyelik net olmayan ses gerektirir. Sesli komutlar veya şarkı söyleme desteklenmez.  
  • Sesli arka plan müziği veya tekrarlanan ve/veya doğrusal olarak taranan frekanslı müziklerle ses kullanmaktan kaçının, ses efektleri algılama özelliği yalnızca sese bağlı olmayan ses için tasarlanmıştır ve bu nedenle sesli müzikteki olayları sınıflandıramaz. Tekrarlanan ve/veya doğrusal tarama sıklığına sahip müziklerin çoğu yanlış bir şekilde alarm veya siren olarak sınıflandırılır.
  • Daha doğru olasılığa dayalı verileri teşvik etmek için şunların olduğundan emin olun:
    • Ses efektleri yalnızca nonspeech segmentlerinde algılanabilir.
    • Bir nonspeech bölümünün süresi en az 2 saniye olmalıdır.
    • Düşük kaliteli ses algılama sonuçlarını etkileyebilir.
    • Yüksek arka plan müziğindeki etkinlikler sınıflandırılmamıştır.
    • Tekrarlanan ve/veya doğrusal olarak taranan frekansa sahip müzikler yanlış bir şekilde alarm veya siren olarak sınıflandırılabilir.
    • Kapıyı çalmak veya kapıyı çarpmak silah sesi veya patlama olarak etiketlenmiş olabilir.
    • Uzun süre bağırarak veya fiziksel insan çabası sesleri yanlış sınıflandırılmış olabilir.
    • Gülen bir grup insan hem kahkaha hem de kalabalık olarak sınıflandırılabilir.
    • Doğal ve nonsyntetik silah sesi ve patlama sesleri desteklenmektedir.

Ses efektleri algılama bileşenleri

Ses efektleri algılama yordamı sırasında, medya dosyasındaki ses aşağıdaki gibi işlenir:

Bileşen Tanım
Kaynak dosya Kullanıcı dizin oluşturmak için kaynak dosyayı karşıya yükler.
Segmentlere ayırma Ses analiz edilir, kesintisiz ses tanımlanır ve ardından kısa çakışan iç bileşenlere bölünür.
Sınıflandırma Yapay zeka süreci her segmenti analiz eder ve içeriğini kalabalık tepkisi veya kahkaha gibi olay kategorilerinde sınıflandırır. Ardından departmana özgü kurallara göre her olay kategorisi için bir olasılık listesi oluşturulur.
Güvenilirlik düzeyi Her ses efektinin tahmini güvenilirlik düzeyi 0 ile 1 arasında bir aralık olarak hesaplanır. Güvenilirlik puanı, sonucun doğruluğundaki kesinliği temsil eder. Örneğin, %82'lik bir kesinlik 0,82 puanı olarak gösterilir.

Örnek kod

VI için tüm örneklere bakın


Kapalı açıklamalı alt yazılar

Kapalı açıklamalı alt yazı dosyalarındaki ses efektleri köşeli ayraç olarak görünür:

Tür Örnek
SRT 00:00:00,000 00:00:03,671
[Silah sesi veya patlama]
VTT 00:00:00.000 00:00:03.671
[Silah sesi veya patlama]
TTML Güven: 0,9047
<p begin="00:00:00.000" end="00:00:03.671">[Gunshot or explosion]</p>
TXT [Silah sesi veya patlama]
CSV 0.9047,00:00:00.000,00:00:00:03.671, [Silah sesi veya patlama]

Not

  • Silence olay türü kapalı açıklamalı alt yazılara eklenmez.
  • Bir olayı göstermek için en düşük süreölçer süresi 700 milisaniyedir.

Kapalı açıklamalı altyazı dosyalarına ses efektleri ekleme

API

Kapalı açıklamalı alt yazı dosyalarına video açıklamalı alt yazı al isteğiyle ve parametresi için includeAudioEffects true'yu seçerek ses efektleri ekleyebilirsiniz.

Not

Kapalı açıklamalı altyazı dosyalarından güncelleştirme transkripti kullanılırken veya kapalı açıklamalı altyazı dosyalarından özel dil modelini güncelleştirirken, bu dosyalara dahil edilen ses efektleri yoksayılır.

Web portalı

İndir -Kapalı Açıklamalı Alt Yazılar ->>Ses Efektleri Ekle'yi seçerek de web portalını kullanabilirsiniz.