Udostępnij za pośrednictwem


Zalecenia dotyczące zestawu mikrofonów

Z tego artykułu dowiesz się, jak zaprojektować tablicę mikrofonów dostosowaną do użycia z zestawem SPEECH SDK. Jest to najbardziej istotne, jeśli wybierasz, określasz lub kompilujesz sprzęt dla rozwiązań mowy.

Zestaw SPEECH SDK najlepiej sprawdza się z tablicą mikrofonów zaprojektowaną zgodnie z tymi wytycznymi, w tym geometrią mikrofonu, wyborem składników i architekturą.

Geometria mikrofonu

Poniższe geometrie tablic są zalecane do użycia z usługą Microsoft Audio Stack. Lokalizacja źródeł dźwięku i odrzucanie szumu otoczenia jest ulepszona dzięki większej liczbie mikrofonów z zależnościami od określonych aplikacji, scenariuszy użytkownika i współczynnika formy urządzenia.

Tablica Mikrofon Geometria
Okrągły — 7 mikrofonów 7 mic circular array 6 Zewnętrzne, 1 Środek, Promień = 42,5 mm, równomiernie rozmieszczone
Okrągły — 4 mikrofony 4 mic circular array 3 Zewnętrzne, 1 Środek, Promień = 42,5 mm, równomiernie rozmieszczone
Liniowy — 4 mikrofony 4 mic linear array Długość = 120 mm, odstępy = 40 mm
Liniowy — 2 mikrofony 2 mic linear array Odstępy = 40 mm

Kanały mikrofonu powinny być uporządkowane rosnąco z zakresu 0, zgodnie z numerowaniem opisanym wcześniej dla każdej tablicy. Usługa Microsoft Audio Stack wymaga innego strumienia referencyjnego odtwarzania dźwięku w celu przeprowadzenia anulowania echa.

Wybór składnika

Należy wybrać składniki mikrofonu, aby dokładnie odtworzyć sygnał wolny od szumu i zniekształceń.

Zalecane właściwości podczas wybierania mikrofonów to:

Parametr Zalecane
SNR >= 65 dB (sygnał 1 kHz 94 dBSPL, szum ważony A)
Dopasowywanie amplitudy ± 1 dB @ 1 kHz
Dopasowywanie faz ± 2° @ 1 kHz
Punkt przeciążenia akustycznego (AOP) >= 120 dBSPL (THD = 10%)
Szybkość bitów Minimalna 24-bitowa wersja
Częstotliwość próbkowania Minimalna 16 kHz*
Odpowiedź z częstotliwością ± 3 dB, 200-8000 Hz Zmiennoprzecinkowa maska*
Niezawodność Zakres temperatury magazynowania -40°C do 70°C
Zakres temperatury pracy -20°C do 55°C

*W przypadku aplikacji voIP (high-quality communications) konieczne może być wyższe współczynniki próbkowania lub zakresy "szerszych" częstotliwości

Dobry wybór składników musi być sparowany z dobrą integracją elektroakustyczną, aby uniknąć pogorszenia wydajności używanych składników. Unikatowe przypadki użycia mogą również wymagać większej liczby wymagań (takich jak zakresy temperatury działania).

Integracja tablicy mikrofonów

Wydajność tablicy mikrofonów, gdy jest zintegrowana z urządzeniem, różni się od specyfikacji składnika. Ważne jest, aby upewnić się, że mikrofony są dobrze dopasowane po integracji. W związku z tym wydajność urządzenia mierzona po stałym uzyskaniu lub eq powinna spełniać następujące zalecenia:

Parametr Zalecane
SNR >= 64 dB (sygnał 1 kHz 94 dBSPL, szum ważony A)
Czułość danych wyjściowych -26 dBFS/Pa @ 1 kHz (zalecane)
Dopasowywanie amplitudy ± 2 dB, 200-8000 Hz
THD%* ≤ 1%, 200-8000 Hz, 94 dBSPL
Odpowiedź z częstotliwością ± 6 dB, 200-12000 Hz Zmiennoprzecinkowa maska**

**Głośnik o niskim zniekształceniu jest wymagany do pomiaru THD (na przykład Neumann KH120)

**Zakresy częstotliwości "Szersze" mogą być konieczne w przypadku aplikacji o wysokiej jakości komunikacji (VoIP)

Zalecenia dotyczące integracji osoby mówiącej

Ponieważ anulowanie echa jest konieczne w przypadku urządzeń rozpoznawania mowy zawierających osoby mówiące, dostępnych jest więcej zaleceń dotyczących wyboru i integracji osoby mówiącej.

Parametr Zalecane
Zagadnienia dotyczące liniowości Brak nieliniowego przetwarzania po odwołaniu do osoby mówiącej. W przeciwnym razie wymagany jest strumień odwołania sprzężenia zwrotnego opartego na sprzęcie
Sprzężenia zwrotnego prelegenta Udostępniane za pośrednictwem interfejsu WASAPI, prywatnych interfejsów API, niestandardowej wtyczki ALSA (Linux) lub udostępnianej za pośrednictwem kanału oprogramowania układowego
THD% Trzecie przedziały oktawy minimalnej piątej kolejności, odtwarzanie 70 dBA @ 0,8 m ≤ 6,3%, 315-500 Hz ≤ 5%, 630-5000 Hz
Sprzęganie echa z mikrofonami > -10 dB TCLw przy użyciu metody ITU-T G.122 Załącznika B.4, znormalizowane do poziomu mikrofonu
TCLw = TCLwmeasured + (Mierzony poziom — czułość danych wyjściowych docelowych)
TCLw = TCLwmeasured + (Mierzony poziom - (-26))

Architektura projektu integracji

Podczas integrowania mikrofonów z urządzeniem niezbędne są następujące wytyczne dotyczące architektury:

Parametr Zalecenie
Podobieństwo portu mikrofonu Wszystkie porty mikrofonu mają taką samą długość w tablicy
Wymiary portu mikrofonu Rozmiar portu Ø0.8-1.0 mm. Długość portu/ Średnica < portu 2
Uszczelnienie mikrofonu Uszczelnienia uszczelniające równomiernie zaimplementowane w stosie. Zalecany > współczynnik kompresji 70% dla uszczelnień piankowych
Niezawodność mikrofonu Siatka powinna być stosowana w celu zapobiegania kurzowi i wejścia (między PŁYTĄ DRUKOWANĄ w przypadku mikrofonów portowych do dołu i uszczelniania pokrywy/górnej pokrywy)
Izolacja mikrofonu Gumowe uszczelnienia i dekodowanie drgań poprzez strukturę, szczególnie w przypadku izolowania ścieżek drgań ze względu na zintegrowane głośniki
Zegar próbkowania Dźwięk urządzenia musi być wolny od drgań i list rozwijanych z niskim dryfem
Możliwość rejestrowania Urządzenie musi mieć możliwość jednoczesnego rejestrowania pojedynczych strumieni nieprzetworzonych kanałów
USB Wszystkie urządzenia wejściowe audio USB muszą ustawić deskryptory zgodnie z specyfikacją Usb Audio Devices Rev3
Geometria mikrofonu Sterowniki muszą poprawnie implementować deskryptory geometrii tablicy mikrofonów
Odnajdywania Urządzenia nie mogą mieć żadnych nieodkrytych ani niekontrolowanych sprzętu, oprogramowania układowego lub innych firm nieliniowych algorytmów przetwarzania audio do/z urządzenia
Format przechwytywania Formaty przechwytywania muszą używać minimalnej częstotliwości próbkowania 16 kHz i zalecanej głębokości 24-bitowej

Zagadnienia dotyczące architektury elektrycznej

Jeśli ma to zastosowanie, tablice mogą być połączone z hostem USB (takim jak SoC z systemem Microsoft Audio Stack (MAS)) i interfejsami usług mowa lub innymi aplikacjami.

Składniki sprzętowe, takie jak konwersja pdM na TDM, powinny zapewnić zachowanie zakresu dynamicznego i snr mikrofonów w re-samplers.

Szybka klasa audio USB 2.0 powinna być obsługiwana w ramach dowolnych procesorów MCU audio, aby zapewnić niezbędną przepustowość dla maksymalnie siedmiu kanałów o wyższych szybkościach próbkowania i głębokości bitów.

Następne kroki