次の方法で共有


マイク配列の推奨事項

この記事では、Speech SDK で使用するためにカスタマイズされたマイク配列を設計する方法について説明します。 これは、音声ソリューション用のハードウェアを選択、指定、または構築する場合に最適です。

Speech SDK は、マイク ジオメトリ、コンポーネントの選択、アーキテクチャなど、以下のガイドラインに従って設計されたマイク配列で最適に動作します。

マイクのジオメトリ

Microsoft Audio Stack で使用するために、次の配列のジオメトリをお勧めします。 音源の場所と周囲のノイズの除去は、特定のアプリケーションへの依存関係を持つマイクの数の増加、ユーザー シナリオ、およびデバイスのフォーム ファクターにより向上します。

Array マイク ジオメトリ
円形 - マイク 7 本 7 mic circular array 外側に 6、中央に 1、半径 42.5 mm、等間隔
円形 - マイク 4 本 4 mic circular array 外側に 3、中央に 1、半径 42.5 mm、等間隔
線形 - マイク 4 本 4 mic linear array 長さ = 120 mm、間隔 = 40 mm
線形 - マイク 2 本 2 mic linear array 間隔 = 40 mm

マイクのチャネルは、各配列について前に説明した番号付けに従って、0 から昇順に並べられている必要があります。 Microsoft Audio Stack でエコー キャンセルを実行するには、オーディオ再生の別の参照ストリームが必要です。

コンポーネントの選択

ノイズやひずみのない信号を正確に再現するマイク コンポーネントを選択する必要があります。

マイクを選択する際に推奨されるプロパティは次のとおりです。

パラメーター 推奨
SNR >= 65 dB (1 kHz 信号 94 dBSPL、A で加重されたノイズ)
Amplitude Matching (振幅整合) ± 1 dB @ 1 kHz
Phase Matching (位相整合) ± 2° @ 1 kHz
Acoustic Overload Point (AOP: アコースティック オーバーロード ポイント) >= 120 dBSPL (全高調波歪み率 = 10%)
Bit Rate (ビット レート) 最小 24 ビット
サンプリング レート 最小 16 kHz*
Frequency Response (周波数応答) ± 3 dB、200 - 8000 Hz フローティング マスク*
[信頼性] 保存温度範囲 -40°C から 70°C
動作温度範囲 -20°C から 55°C

* "高品質のコミュニケーション (VoIP) アプリケーションには、より高いサンプリング レート、または "より広い" 周波数範囲が必要になる場合があります"

使用するコンポーネントのパフォーマンス低下を回避するには、適切なコンポーネントの選択が、優れた電子音響の統合と組み合わされている必要があります。 固有のユース ケースでは、さらに要件が必要になる場合もあります (動作温度範囲など)。

マイク配列の統合

デバイスに統合されたときのマイク配列のパフォーマンスは、コンポーネントの仕様とは異なります。 統合された後でマイクが確実に一致するようにすることが重要です。 そのため、固定ゲインまたは EQ の後に測定されるデバイスのパフォーマンスは、次の推奨事項を満たす必要があります。

パラメーター 推奨
SNR >= 64 dB (1 kHz 信号 94 dBSPL、A で加重されたノイズ)
Output Sensitivity (出力感度) -26 dBFS/Pa @ 1 kHz (推奨)
Amplitude Matching (振幅整合) ± 2 dB、200-8000 Hz
THD % (全高調波歪み率)* ≤ 1%、200-8000 Hz、94 dBSPL
Frequency Response (周波数応答) ± 6 dB、200-12000 Hz フローティング マスク**

** "THD を測定するにはひずみの小さなスピーカーが必要です (例: Neumann KH120)"

** "高品質のコミュニケーション (VoIP) アプリケーションでは、"より広い" 周波数範囲が必要になる場合があります"

スピーカーの統合に関する推奨事項

スピーカーが含まれる音声認識デバイスにはエコー キャンセレーションが必要なため、スピーカーの選択と統合に対してさらに推奨事項が提供されます。

パラメーター 推奨
Linearity Considerations (線形性に関する考慮事項) スピーカー参照の後に非線形の処理はなし。それ以外の場合は、ハードウェア ベースのループバック参照ストリームが必要
Speaker Loopback (スピーカー ループバック) WASAPI、プライベート API、カスタム ALSA プラグイン (Linux) を通じて、またはファームウェア チャネル経由で提供
THD % (全高調波歪み率) 第 3 オクターブ バンド最小 5 番目、70 dBA 再生 @ 0.8 m ≤ 6.3%、315-500 Hz ≤ 5%、630-5000 Hz
Echo Coupling to Microphones (マイクへのエコー カップリング) > -10 dB TCLw (ITU-T G.122 Annex B.4 メソッドを使用)、マイク レベルに正規化
TCLw = TCLwmeasured + (測定されたレベル - ターゲット出力感度)
TCLw = TCLwmeasured + (測定されたレベル - (-26))

設計アーキテクチャの統合

次のアーキテクチャのガイドラインは、マイクをデバイスに統合するときに必要です。

パラメーター 推奨
Mic Port Similarity (マイク ポートの類似性) 配列内のすべてのマイク ポートを同じ長さにする
Mic Port Dimensions (Mic ポートの寸法) ポート サイズ Ø0.8 1.0 mm。 ポートの長さ/ポートの直径 < 2
Mic Sealing (マイクのシーリング) ガスケットのシーリングは積み重ねて均一に行う。 フォーム ガスケットに対して > 70% の圧縮率を推奨
Mic Reliability (マイクの信頼性) ほこりと侵入を防止するためにメッシュを使用 (下部ポートのマイク用の PCB とシーリング ガスケット/上部カバーの間)
Mic Isolation (マイクの分離) 特に統合したスピーカーによる任意の振動パスを分離するためのゴム ガスケットおよび構造による振動分離
Sampling Clock (サンプリング クロック) オーディオ デバイスに、低ドリフトによるジッターとドロップ アウトがないこと
Record Capability (記録機能) デバイスが別々のチャネルの未加工のストリームを同時に記録できること
USB すべての USB オーディオ入力デバイスは、USB Audio Devices Rev3 の仕様に従って記述子を設定する必要がある
Microphone Geometry (マイクのジオメトリ) ドライバーはマイク配列ジオメトリ記述子を正しく実装する必要がある
Discoverability (探索可能性) デバイスには、検出できない、または制御できないハードウェア、ファームウェア、またはサード パーティのソフトウェア ベースのデバイス間の非線形オーディオ処理アルゴリズムを含めない
Capture Format (キャプチャ形式) キャプチャ形式では、16 kHz の最小サンプリング レートと推奨される 24 ビット深度を使用する必要がある

電気アーキテクチャに関する考慮事項

必要に応じて、配列を USB ホスト (Microsoft Audio Stack (MAS) を実行している SoC など) と Azure Cognitive Service for Speech サービスや他のアプリケーションへのインターフェイスに接続できます。

PDM-to-TDM 変換などのハードウェア コンポーネントは、マイクのダイナミック レンジと SNR が再サンプラー内で確実に保持されるようにする必要があります。

最大 7 つのチャネルに高いサンプル レートとビット深度で必要な帯域幅を提供するためには、任意のオーディオ MCU 内で高速な USB Audio Class 2.0 がサポートされている必要があります。

次のステップ