Aracılığıyla paylaş


Ses efektleri algılama

Uyarı

Azure AI Video Indexer (VI) geçtiğimiz yıl kullanımdan kaldırılma nedeniyle Azure Media Services'a (AMS) bağımlılığının kaldırılmaya başlanacağını duyurdu. Özellik ayarlamaları ve değişiklikler duyuruldu ve bir geçiş kılavuzu sağlandı.

Geçişi tamamlamak için son tarih 30 Haziran 2024'dü. VI, VI hesabınızı güncelleştirebilmeniz ve AMS VI varlık geçişini 31 Ağustos 2024'e kadar kabul edebilmeniz için güncelleştirme/geçiş son tarihini uzatmıştır.

Ancak 30 Haziran'dan sonra VI hesabınızı güncelleştirmediyseniz yeni videoları dizine ekleyemez veya geçirilmemiş videoları oynatamazsınız. Hesabınızı 30 Haziran'dan sonra güncelleştirirseniz, dizin oluşturmayı hemen sürdürebilirsiniz, ancak AMS VI geçişi aracılığıyla geçirilene kadar hesap güncelleştirmeden önce dizine alınmış videoları oynatamazsınız.

Ses efektleri algılama, çeşitli akustik olaylarla ilgili içgörüleri algılayan ve bunları akustik kategorilere sınıflandıran bir Azure AI Video Indexer özelliğidir. Ses efekti algılama, kahkaha, kalabalık tepkileri, alarmlar ve/veya sirenler gibi farklı kategorileri algılayabilir ve sınıflandırabilir.

Web sitesinde çalışırken örnekler İçgörüler sekmesinde görüntülenir. Ayrıca, kategori kimliği, türü, adı ve kategori başına örnekleri içeren bir JSON dosyasındaki kategorilere ayrılmış bir listede, belirli zaman çerçeveleri ve güvenilirlik puanıyla birlikte oluşturulabilirler.

Saydamlık notu

Saydamlık notunu gözden geçirme genel bakış

İçgörüleri görüntüleme

Web sitesindeki örnekleri görmek için aşağıdakileri yapın:

  1. Medya dosyasını karşıya yüklerken Video + Ses Dizini'ne gidin veya Yalnızca Ses veya Video + Ses'e gidin ve Gelişmiş'i seçin.
  2. Dosya karşıya yüklendikten ve dizinlendikten sonra İçgörüler'e gidin ve ses efektlerine kaydırın.

JSON dosyasını görüntülemek için aşağıdakileri yapın:

  1. İndir -> İçgörüler (JSON) seçeneğini belirleyin.

  2. audioEffects öğesini insightsaltında kopyalayın ve Çevrimiçi JSON görüntüleyicinize yapıştırın.

    "audioEffects": [
      {
        "id": 1,
        "type": "Silence",
        "instances": [
          {
            "confidence": 0,
            "adjustedStart": "0:01:46.243",
            "adjustedEnd": "0:01:50.434",
            "start": "0:01:46.243",
            "end": "0:01:50.434"
          }
        ]
      },
      {
        "id": 2,
        "type": "Speech",
        "instances": [
          {
            "confidence": 0,
            "adjustedStart": "0:00:00",
            "adjustedEnd": "0:01:43.06",
            "start": "0:00:00",
            "end": "0:01:43.06"
          }
        ]
      }
    ],
    

JSON dosyasını API aracılığıyla indirmek için Azure AI Video Indexer geliştirici portalını kullanın.

Ses efektleri algılama bileşenleri

Ses efektleri algılama yordamı sırasında, medya dosyasındaki ses aşağıdaki gibi işlenir:

Bileşen Tanım
Kaynak dosya Kullanıcı dizin oluşturmak için kaynak dosyayı karşıya yükler.
Segmentlere ayırma Ses analiz edilir, kesintisiz ses tanımlanır ve ardından kısa çakışan iç bileşenlere bölünür.
Sınıflandırma Yapay zeka süreci her segmenti analiz eder ve içeriğini kalabalık tepkisi veya kahkaha gibi olay kategorilerinde sınıflandırır. Ardından departmana özgü kurallara göre her olay kategorisi için bir olasılık listesi oluşturulur.
Güvenilirlik düzeyi Her ses efektinin tahmini güvenilirlik düzeyi 0 ile 1 arasında bir aralık olarak hesaplanır. Güvenilirlik puanı, sonucun doğruluğundaki kesinliği temsil eder. Örneğin, %82'lik bir kesinlik 0,82 puanı olarak gösterilir.

Kullanım örnekleri

  • Büyük bir video arşivi olan şirketler, işitme engelli bir hedef kitle için konuşma olmayan efektlerin transkripsiyonunu alarak daha fazla bağlam sunarak erişilebilirliği geliştirebilir.
  • İçerik oluşturucular için ham veri oluştururken verimlilik geliştirildi. Tanıtımlarda ve fragmanlarda kahkaha, kalabalık tepkileri, silah sesleri veya patlamalar gibi önemli anlar, örneğin Medya ve Eğlence'de tanımlanabilir.
  • Bir akıllı şehir sisteminde veya şiddet olaylarının hızlı ve doğru bir şekilde algılanması için kameralar ve mikrofonlar içeren diğer kamu ortamlarında silah sesleri, patlamalar ve cam kırılmalarını algılama ve sınıflandırma.

Kullanım örneği seçerken dikkat edilmesi gerekenler ve sınırlamalar

  • Kısa veya düşük kaliteli ses kullanmaktan kaçının, ses efektleri algılama, algılanan kesintisiz ses olaylarında olası ve kısmi veriler sağlar. Doğruluk için ses efektleri algılama, en az 2 saniyelik net olmayan ses gerektirir. Sesli komutlar veya şarkı söyleme desteklenmez.  

  • Sesli arka plan müziği veya tekrarlanan ve/veya doğrusal olarak taranan frekanslı müziklerle ses kullanmaktan kaçının, ses efektleri algılama özelliği yalnızca sese bağlı olmayan ses için tasarlanmıştır ve bu nedenle sesli müzikteki olayları sınıflandıramaz. Tekrarlanan ve/veya doğrusal tarama sıklığına sahip müziklerin çoğu yanlış bir şekilde alarm veya siren olarak sınıflandırılır.

  • Kolluk kuvvetlerinde ve benzer kurumlarda kullanım yöntemlerini dikkatle değerlendirin, daha doğru olasılığa dayalı verileri teşvik edin, aşağıdakileri dikkatlice gözden geçirin:

    • Ses efektleri yalnızca nonspeech segmentlerinde algılanabilir.
    • Bir nonspeech bölümünün süresi en az 2 saniye olmalıdır.
    • Düşük kaliteli ses algılama sonuçlarını etkileyebilir.
    • Yüksek arka plan müziğindeki etkinlikler sınıflandırılmamıştır.
    • Tekrarlanan ve/veya doğrusal olarak taranan frekansa sahip müzikler yanlış bir şekilde alarm veya siren olarak sınıflandırılabilir.
    • Kapıyı çalmak veya kapıyı çarpmak silah sesi veya patlama olarak etiketlenmiş olabilir.
    • Uzun süre bağırarak veya fiziksel insan çabası sesleri yanlış sınıflandırılmış olabilir.
    • Gülen bir grup insan hem kahkaha hem de kalabalık olarak sınıflandırılabilir.
    • Doğal ve nonsyntetik silah sesi ve patlama sesleri desteklenmektedir.