Share via


Ses işleme

Microsoft Ses Yığını, konuşma işleme senaryoları için iyileştirilmiş bir dizi geliştirmedir. Bu, anahtar sözcük tanıma ve konuşma tanıma gibi örnekleri içerir. Giriş ses sinyali üzerinde çalışan çeşitli geliştirmelerden/bileşenlerden oluşur:

  • Gürültü engelleme - Arka plan gürültüsü düzeyini azaltın.
  • Beamforming - Birden çok mikrofon kullanarak sesin kaynağını yerelleştirin ve ses sinyalini iyileştirin.
  • Dereverberation - Ortamdaki yüzeylerden gelen sesin yansımalarını azaltın.
  • Akustik yankı iptali - Mikrofon girişi etkinken sesin cihazdan çalınmasını önle.
  • Otomatik kazanç denetimi - Yumuşak hoparlörleri, uzun mesafeleri veya ayarlanamayan mikrofonları hesaba katmak için kişinin ses düzeyini dinamik olarak ayarlayın.

Block diagram of Microsoft Audio Stack's enhancements.

Farklı senaryolar ve kullanım örnekleri, ses işleme yığınının davranışını etkileyen farklı iyileştirmeler gerektirebilir. Örneğin, telefon aramaları gibi telekomünikasyon senaryolarında, işlem uygulandıktan sonra ses sinyalinde küçük bozulmalar olması kabul edilebilir. Bunun nedeni insanların konuşmayı yüksek doğrulukla anlamaya devam etmesidir. Ancak, bir kişinin yankıda kendi sesini duyması kabul edilemez ve kesintiye neden olur. Bu, bozuk sesin makine tarafından öğrenilen bir konuşma tanıma modelinin doğruluğunu olumsuz etkileyebildiği ancak küçük yankı artık düzeylerine sahip olması kabul edilebilir olan konuşma işleme senaryolarıyla karşıttır.

İşleme, Konuşma SDK'sının kullanıldığı yerde tamamen yerel olarak gerçekleştirilir. Microsoft Ses Yığını tarafından işlenmek üzere Microsoft'un bulut hizmetlerine ses verisi akışı yapılmaz. Bunun tek istisnası, ham sesin işlenmek üzere Microsoft'un bulut hizmetlerine gönderildiği Konuşma Transkripsiyonu Hizmeti'dir.

Microsoft Ses Yığını ayrıca çok çeşitli Microsoft ürünlerine de güç verir:

  • Windows - Microsoft Ses Yığını, Konuşma ses kategorisi kullanılırken varsayılan konuşma işleme işlem hattıdır.
  • Microsoft Teams Ekranlar ve Microsoft Teams Odaları cihazları - Microsoft Teams Ekranlar ve Teams Odaları cihazları, Cortana ile yüksek kaliteli tutmadan ses tabanlı deneyimler sağlamak için Microsoft Ses Yığını'nı kullanır.

Konuşma SDK'sı tümleştirmesi

Konuşma SDK'sı Microsoft Ses Yığını'nı (MAS) tümleştirerek herhangi bir uygulamanın veya ürünün giriş sesinde ses işleme özelliklerini kullanmasına olanak tanır. Konuşma SDK'sı aracılığıyla kullanılabilen bazı önemli Microsoft Ses Yığını özellikleri şunlardır:

  • Gerçek zamanlı mikrofon girişi ve dosya girişi - Microsoft Ses Yığını işleme gerçek zamanlı mikrofon girişine, akışlarına ve dosya tabanlı girişlere uygulanabilir.
  • Geliştirme seçimi - Senaryonuzun tam denetimini sağlamak için SDK, ayrım, gürültü engelleme, otomatik kazanç denetimi ve akustik yankı iptali gibi tek tek iyileştirmeleri devre dışı bırakmanıza olanak tanır. Örneğin, senaryonuz giriş sesinden gizlenmesi gereken işleme çıkış sesini içermiyorsa akustik yankı iptalini devre dışı bırakma seçeneğiniz vardır.
  • Özel mikrofon geometrileri - SDK, doğrusal iki mikrofonlu, doğrusal dört mikrofonlu ve dairesel 7 mikrofonlu diziler gibi önceden ayarlanmış geometrileri desteklemeye ek olarak kendi özel mikrofon geometri bilgilerinizi sağlamanıza olanak tanır (Mikrofon dizisi önerileri bölümünde desteklenen ön ayar geometrileri hakkında daha fazla bilgi edinin).
  • Hüzme oluşturma açıları - Mikrofonlara göre önceden belirlenmiş bir konumdan kaynaklanan ses girişini iyileştirmek için belirli ışın biçimi açıları sağlanabilir.

Microsoft Ses Yığını'nın kullanılması için en düşük gereksinimler

Microsoft Ses Yığını, aşağıdaki gereksinimleri karşılayabilen herhangi bir ürün veya uygulama tarafından kullanılabilir:

  • Ham ses - Microsoft Ses Yığını, en iyi sonuçları elde etmek için giriş olarak ham (işlenmemiş) ses gerektirir. Zaten işlenmiş bir ses sağlamak, ses yığınının yüksek kalitede iyileştirmeler gerçekleştirme becerisini sınırlar.
  • Mikrofon geometrileri - Microsoft Ses Yığını tarafından sunulan tüm iyileştirmeleri doğru bir şekilde gerçekleştirmek için cihazdaki her mikrofonla ilgili geometri bilgileri gereklidir. Bilgiler mikrofon sayısını, fiziksel düzenlemelerini ve koordinatlarını içerir. En fazla 16 giriş mikrofonu kanalı desteklenir.
  • Geri döngü veya başvuru sesi - Akustik yankı iptali gerçekleştirmek için cihazın dışında oynatılan sesi temsil eden bir ses kanalı gereklidir.
  • Giriş biçimi - Microsoft Audio Stack, 16 kHz'nin tam sayı katları olan örnek hızları için aşağı örneklemeyi destekler. En az 16 kHz örnekleme hızı gereklidir. Ayrıca şu biçimler desteklenir: 32 bit IEEE küçük endian float, 32 bit küçük endian signed int, 24 bit endian signed int, 16 bit little endian signed int ve 8 bit signed int.

Sonraki adımlar

Ses işleme için Konuşma SDK'sını kullanma