マイク配列の推奨事項

2025-03-10

この記事では、Speech SDK で使用するためにカスタマイズされたマイク配列を設計する方法について説明します。これは、音声ソリューション用のハードウェアを選択、指定、または構築する場合に最適です。

Speech SDK は、マイクジオメトリ、コンポーネントの選択、アーキテクチャなど、以下のガイドラインに従って設計されたマイク配列で最適に動作します。

マイクのジオメトリ

Microsoft Audio Stack で使用するために、次の配列のジオメトリをお勧めします。音源の場所と周囲のノイズの除去は、特定のアプリケーションへの依存関係を持つマイクの数の増加、ユーザーシナリオ、およびデバイスのフォームファクターにより向上します。

Array	マイク	ジオメトリ
円形 - マイク 7 本		外側に 6、中央に 1、半径 42.5 mm、等間隔
円形 - マイク 4 本		外側に 3、中央に 1、半径 42.5 mm、等間隔
線形 - マイク 4 本		長さ = 120 mm、間隔 = 40 mm
線形 - マイク 2 本		間隔 = 40 mm

マイクのチャネルは、各配列について前に説明した番号付けに従って、0 から昇順に並べられている必要があります。 Microsoft Audio Stack でエコーキャンセルを実行するには、オーディオ再生の別の参照ストリームが必要です。

コンポーネントの選択

ノイズやひずみのない信号を正確に再現するマイクコンポーネントを選択する必要があります。

マイクを選択する際に推奨されるプロパティは次のとおりです。

パラメーター	推奨
SNR	>= 65 dB (1 kHz 信号 94 dBSPL、A で加重されたノイズ)
Amplitude Matching (振幅整合)	± 1 dB @ 1 kHz
Phase Matching (位相整合)	± 2° @ 1 kHz
Acoustic Overload Point (AOP: アコースティックオーバーロードポイント)	>= 120 dBSPL (全高調波歪み率 = 10%)
Bit Rate (ビットレート)	最小 24 ビット
サンプリングレート	最小 16 kHz*
Frequency Response (周波数応答)	± 3 dB、200 - 8000 Hz フローティングマスク*
[信頼性]	保存温度範囲 -40°C から 70°C 動作温度範囲 -20°C から 55°C

* "高品質のコミュニケーション (VoIP) アプリケーションには、より高いサンプリングレート、または "より広い" 周波数範囲が必要になる場合があります"

使用するコンポーネントのパフォーマンス低下を回避するには、適切なコンポーネントの選択が、優れた電子音響の統合と組み合わされている必要があります。固有のユースケースでは、さらに要件が必要になる場合もあります (動作温度範囲など)。

マイク配列の統合

デバイスに統合されたときのマイク配列のパフォーマンスは、コンポーネントの仕様とは異なります。統合された後でマイクが確実に一致するようにすることが重要です。そのため、固定ゲインまたは EQ の後に測定されるデバイスのパフォーマンスは、次の推奨事項を満たす必要があります。

パラメーター	推奨
SNR	>= 64 dB (1 kHz 信号 94 dBSPL、A で加重されたノイズ)
Output Sensitivity (出力感度)	-26 dBFS/Pa @ 1 kHz (推奨)
Amplitude Matching (振幅整合)	± 2 dB、200-8000 Hz
THD % (全高調波歪み率)*	≤ 1%、200-8000 Hz、94 dBSPL
Frequency Response (周波数応答)	± 6 dB、200-12000 Hz フローティングマスク**

** "THD を測定するにはひずみの小さなスピーカーが必要です (例: Neumann KH120)"

** "高品質のコミュニケーション (VoIP) アプリケーションでは、"より広い" 周波数範囲が必要になる場合があります"

スピーカーの統合に関する推奨事項

スピーカーが含まれる音声認識デバイスにはエコーキャンセレーションが必要なため、スピーカーの選択と統合に対してさらに推奨事項が提供されます。

パラメーター	推奨
Linearity Considerations (線形性に関する考慮事項)	スピーカー参照の後に非線形の処理はなし。それ以外の場合は、ハードウェアベースのループバック参照ストリームが必要
Speaker Loopback (スピーカーループバック)	WASAPI、プライベート API、カスタム ALSA プラグイン (Linux) を通じて、またはファームウェアチャネル経由で提供
THD % (全高調波歪み率)	第 3 オクターブバンド最小 5 番目、70 dBA 再生 @ 0.8 m ≤ 6.3%、315-500 Hz ≤ 5%、630-5000 Hz
Echo Coupling to Microphones (マイクへのエコーカップリング)	> -10 dB TCLw (ITU-T G.122 Annex B.4 メソッドを使用)、マイクレベルに正規化 TCLw = TCLwmeasured + (測定されたレベル - ターゲット出力感度) TCLw = TCLwmeasured + (測定されたレベル - (-26))

設計アーキテクチャの統合

次のアーキテクチャのガイドラインは、マイクをデバイスに統合するときに必要です。

パラメーター	推奨
Mic Port Similarity (マイクポートの類似性)	配列内のすべてのマイクポートを同じ長さにする
Mic Port Dimensions (Mic ポートの寸法)	ポートサイズ Ø0.8 1.0 mm。ポートの長さ/ポートの直径 < 2
Mic Sealing (マイクのシーリング)	ガスケットのシーリングは積み重ねて均一に行う。フォームガスケットに対して > 70% の圧縮率を推奨
Mic Reliability (マイクの信頼性)	ほこりと侵入を防止するためにメッシュを使用 (下部ポートのマイク用の PCB とシーリングガスケット/上部カバーの間)
Mic Isolation (マイクの分離)	特に統合したスピーカーによる任意の振動パスを分離するためのゴムガスケットおよび構造による振動分離
Sampling Clock (サンプリングクロック)	オーディオデバイスに、低ドリフトによるジッターとドロップアウトがないこと
Record Capability (記録機能)	デバイスが別々のチャネルの未加工のストリームを同時に記録できること
USB	すべての USB オーディオ入力デバイスは、USB Audio Devices Rev3 の仕様に従って記述子を設定する必要がある
Microphone Geometry (マイクのジオメトリ)	ドライバーはマイク配列ジオメトリ記述子を正しく実装する必要がある
Discoverability (探索可能性)	デバイスには、検出できない、または制御できないハードウェア、ファームウェア、またはサードパーティのソフトウェアベースのデバイス間の非線形オーディオ処理アルゴリズムを含めない
Capture Format (キャプチャ形式)	キャプチャ形式では、16 kHz の最小サンプリングレートと推奨される 24 ビット深度を使用する必要がある

電気アーキテクチャに関する考慮事項

必要に応じて、配列を USB ホスト (Microsoft Audio Stack (MAS) を実行している SoC など) と Azure Cognitive Service for Speech サービスや他のアプリケーションへのインターフェイスに接続できます。

PDM-to-TDM 変換などのハードウェアコンポーネントは、マイクのダイナミックレンジと SNR が再サンプラー内で確実に保持されるようにする必要があります。

最大 7 つのチャネルに高いサンプルレートとビット深度で必要な帯域幅を提供するためには、任意のオーディオ MCU 内で高速な USB Audio Class 2.0 がサポートされている必要があります。

次のステップ

オーディオ処理の詳細を学習する