Bagikan melalui


Rekomendasi array mikrofon

Dalam artikel ini, Anda akan mempelajari cara mendesain array mikrofon yang disesuaikan untuk penggunaan Speech SDK. Ini paling berkaitan jika Anda memilih, menentukan, atau membangun perangkat keras untuk solusi ucapan.

Speech SDK berfungsi paling baik dengan array mikrofon yang dirancang sesuai dengan panduan ini, termasuk geometri mikrofon, pemilihan komponen, dan arsitektur.

Geometri mikrofon

Geometri array berikut direkomendasikan untuk digunakan bersama Microsoft Audio Stack. Lokasi sumber suara dan penolakan kebisingan sekitar ditingkatkan dengan jumlah mikrofon yang lebih besar dengan dependensi pada aplikasi tertentu, skenario pengguna, dan faktor bentuk perangkat.

Array Mikrofon Geometri
Melingkar - 7 Mikrofon 7 mic circular array 6 Luar, 1 Tengah, Radius = 42,5 mm, Jarak Merata
Melingkar - 4 Mikrofon 4 mic circular array 3 Luar, 1 Tengah, Radius = 42,5 mm, Jarak Merata
Linier - 4 Mikrofon 4 mic linear array Panjang = 120 mm, Jarak = 40 mm
Linier - 2 Mikrofon 2 mic linear array Jarak = 40 mm

Saluran mikrofon harus diurutkan naik dari 0, sesuai dengan penomoran yang dijelaskan sebelumnya untuk setiap array. Microsoft Audio Stack memerlukan aliran referensi lain dari pemutaran audio untuk melakukan pembatalan gema.

Pemilihan komponen

Komponen mikrofon harus dipilih untuk mereproduksi sinyal secara akurat, bebas dari kebisingan dan distorsi.

Properti yang direkomendasikan saat memilih mikrofon adalah:

Parameter Disarankan
SNR >= 65 dB (sinyal 1 kHz 94 dBSPL, kebisingan bobot A)
Pencocokan Amplitudo ± 1 dB @ 1 kHz
Pencocokan Fase ± 2° @ 1 kHz
Titik Kelebihan Beban Akustik (AOP) >= 120 dBSPL (THD = 10%)
Laju Bit Minimum 24-bit
Laju Pengambilan Sampel Minimum 16 kHz*
Respons Frekuensi ± 3 dB, 200-8000 Hz Floating Mask*
Keandalan Rentang Suhu Penyimpanan -40°C hingga 70°C
Rentang Suhu Pengoperasian -20°C hingga 55°C

*Tingkat pengambilan sampel yang lebih tinggi atau rentang frekuensi "lebih luas" mungkin diperlukan untuk aplikasi komunikasi berkualitas tinggi (VoIP)

Pemilihan komponen yang baik harus dipasangkan dengan integrasi elektroakustik yang baik untuk menghindari gangguan kinerja pada komponen yang digunakan. Kasus penggunaan unik mungkin juga mengharuskan lebih banyak persyaratan (seperti rentang suhu operasi).

Integrasi array mikrofon

Performa array mikrofon saat diintegrasikan ke dalam perangkat berbeda dari spesifikasi komponen. Penting untuk memastikan bahwa mikrofon cocok dengan baik setelah integrasi. Oleh karena itu performa perangkat yang diukur setelah penguatan tetap atau EQ harus memenuhi rekomendasi berikut:

Parameter Disarankan
SNR >= 64 dB (sinyal 1 kHz 94 dBSPL, kebisingan tertimbang A)
Sensitivitas Output -26 dBFS/Pa @ 1 kHz (disarankan)
Pencocokan Amplitudo ± 2 dB, 200-8000 Hz
THD%* ≤ 1%, 200-8000 Hz, 94 dBSPL
Respons Frekuensi ± 6 dB, 200-12000 Hz Floating Mask**

**Speaker distorsi rendah diperlukan untuk mengukur THD (misalnya, Neumann KH120)

**Rentang frekuensi "Lebih luas" mungkin diperlukan untuk aplikasi komunikasi berkualitas tinggi (VoIP)

Rekomendasi integrasi speaker

Karena pembatalan gema diperlukan untuk perangkat pengenalan ucapan yang berisi pembicara, lebih banyak rekomendasi disediakan untuk pemilihan pembicara dan integrasi.

Parameter Disarankan
Pertimbangan linieritas Tidak ada pemrosesan nonlinear setelah referensi pembicara, jika tidak, aliran referensi loopback berbasis perangkat keras diperlukan
Loopback Speaker Disediakan melalui WASAPI, API privat, plug-in ALSA kustom (Linux), atau disediakan melalui saluran firmware
THD% Urutan kelima minimum Octave Bands ketiga, Pemutaran 70 dBA @ 0,8 m ≤ 6,3%, 315-500 Hz ≤ 5%, 630-5000 Hz
Kopling Gema ke Mikrofon > -10 dB TCLw menggunakan metode ITU-T G.122 Annex B.4, dinormalisasi ke tingkat mikrofon
TCLw = TCLwmeasured + (Tingkat Terukur - Sensitivitas Output target)
TCLw = TCLwmeasured + (Tingkat Terukur - (-26))

Arsitektur desain integrasi

Panduan arsitektur berikut diperlukan saat mengintegrasikan mikrofon ke dalam perangkat:

Parameter Rekomendasi
Kesamaan Port Mikrofon Semua port mikrofon memiliki panjang yang sama dalam array
Dimensi Port Mikrofon Ukuran port Ø0,8-1,0 mm. Panjang Port / Diameter Port < 2
Penyegelan Mikrofon Gasket penyegelan secara seragam diimplementasikan dalam susunan. Rekomendasikan rasio kompresi > 70% untuk gasket busa
Keandalan Mikrofon Jala harus digunakan untuk mencegah debu dan penyerapan (antara PCB untuk mikrofon port bawah dan penyegelan gasket/penutup atas)
Isolasi Mikrofon Gasket karet dan pemisahan getaran melalui struktur, terutama untuk mengisolasi jalur getaran karena speaker terintegrasi
Waktu Pengambilan Sampel Audio perangkat harus bebas dari jitter dan drop-out dengan drift rendah
Kemampuan Rekaman Perangkat harus dapat merekam aliran mentah saluran individual secara bersamaan
USB Semua perangkat input audio USB harus mengatur deskriptor sesuai dengan Spesifikasi USB Audio Devices Rev3
Geometri Mikrofon Driver harus menerapkan Deskriptor Geometri Array Mikrofon dengan benar
Kemampuan Ditemukan Perangkat tidak boleh memiliki algoritma pemrosesan audio nonlinear berbasis perangkat keras, firmware, atau perangkat lunak pihak ketiga yang tidak dapat dikontrol ke/dari perangkat
Format Pengambilan Format pengambilan harus menggunakan laju pengambilan sampel minimum 16 kHz dan kedalaman 24-bit yang disarankan

Pertimbangan arsitektur kelistrikan

Jika berlaku, array dapat dihubungkan ke host USB (seperti SoC yang menjalankan Microsoft Audio Stack (MAS)) dan antarmuka ke layanan Ucapan atau aplikasi lainnya.

Komponen perangkat keras seperti konversi PDM-ke-TDM harus memastikan bahwa rentang dinamis dan SNR mikrofon dipertahankan dalam sampel ulang.

USB Audio Class 2.0 berkecepatan tinggi harus didukung dalam MCUs audio apa pun untuk menyediakan bandwidth yang diperlukan hingga tujuh saluran dengan laju sampel dan kedalaman bit yang lebih tinggi.

Langkah berikutnya