Рекомендации по микрофонной решетке

Из этой статьи вы узнаете, как спроектировать набор микрофонов, настроенный для использования с пакетом SDK службы "Речь". Это наиболее важно, если вы выбираете, задаете или создаете оборудование для речевых решений.

Пакет SDK службы "Речь" лучше всего работает с массивом микрофонов, разработанным в соответствии с этими рекомендациями, включая геометрию микрофона, выбор компонентов и архитектуру.

Геометрия микрофонов

Для использования с Microsoft Audio Stack рекомендуются следующие геометрические формы набора микрофонов. Расположение источников звука и подавление окружающего шума улучшается за счет большего количества микрофонов в зависимости от конкретных приложений, пользовательских сценариев и форм-фактора устройства.

Массив Микрофоны Геометрия
Кольцевые — 7 микрофонов 7 mic circular array 6 внешних, 1 центр., радиус = 42,5 мм, с равными промежутками
Кольцевые — 4 микрофона 4 mic circular array 3 внешних, 1 центр., радиус = 42,5 мм, с равными промежутками
Линейные — 4 микрофона 4 mic linear array Длина = 120 мм, интервал = 40 мм
Линейные — 2 микрофона 2 mic linear array Интервал = 40 мм

Каналы микрофона должны быть упорядочены по возрастанию от 0, в соответствии с нумерированием, описанным ранее для каждого массива. Microsoft Audio Stack требует другого ссылочного потока воспроизведения звука для выполнения отмены эхо.

Выбор компонентов

Компоненты микрофона должны быть выбраны так, чтобы точно воспроизводить сигнал без шума и искажений.

Рекомендуемые свойства при выборе микрофонов:

Параметр Рекомендуемая конфигурация
Сигнал/шум >= 65 дБ (сигнал 1 кГц 94 дБ SPL, A-взвешенный шум)
Сопоставление амплитуды ± 1 дБ при 1 кГц
Сопоставление этапа ± 2° при 1 кГц
Точка акустической перегрузки (AOP) >= 120 дБSPL (СД = 10 %)
Скорость бита Минимум 24 бит
Частота дискретизации Минимум 16 кГц*
Частота ответа ± 3 дБ, с плавающей маской 200–8000 Гц*
Надежность Диапазон температур хранения от –40 до 70 °C
Диапазон рабочих температур от –20 до 55 °C

*Более высокие частоты выборки или более широкие диапазоны частот могут потребоваться для высококачественных приложений связи (VoIP).

Правильный выбор компонентов должен сочетаться с правильной электроакустической интеграцией, чтобы избежать ухудшения характеристик используемых компонентов. Уникальные варианты использования также могут потребовать больше требований (таких как диапазоны температуры операционной системы).

Интеграция с набором микрофонов

Производительность массива микрофона при интеграции с устройством отличается от спецификации компонента. Важно убедиться, что микрофоны хорошо соответствуют после интеграции. Поэтому характеристики устройства, измеренные после любого фиксированного усиления или эквалайзера, должны соответствовать следующим рекомендациям:

Параметр Рекомендуемая конфигурация
Сигнал/шум >= 64 dB (сигнал 1 кГц 94 dBSPL, шум с взвешанным A)
Чувствительность к выходу –26 дБFS/Па при 1 кГц (рекомендуется)
Сопоставление амплитуды ± 2 дБ, 200–8000 Гц
THD%* ≤ 1%, 200–8000 Гц, 94 dBSPL
Частота ответа ± 6 dB, 200-12000 Гц Floating Mask**

**Для измерения THD требуется низкий динамик искажения (например, Neumann KH120)

**Диапазоны частот "Шире" могут потребоваться для высококачественных приложений связи (VoIP)

Рекомендации по интеграции динамика

Поскольку отмена эха необходима для устройств распознавания речи, содержащих динамики, предоставляются дополнительные рекомендации для выбора и интеграции динамиков.

Параметр Рекомендуемая конфигурация
Рекомендации по линейной шкале Нетлинейной обработки после ссылки на динамик, в противном случае требуется поток ссылок на цикл на основе оборудования
Закольцовывание динамика Обеспечивается через WASAPI, закрытые API, настраиваемый подключаемый модуль ALSA (Linux) или через канал встроенного ПО
СД% Третий октава Диапазоны минимально пятого порядка, 70 dBA Воспроизведение @ 0,8 м ≤ 6,3%, 315-500 Гц ≤ 5%, 630-5000 Гц
Эхо-связь с микрофонами > –10 дБ TCLw с использованием метода ITU-T G.122 Annex B.4, нормализованного до уровня микрофона
TCLw = TCLwmeasured + (измеренный уровень — целевая выходная чувствительность)
TCLw = TCLwmeasured (Измеренный уровень – (–26))

Архитектура интеграции

При интеграции микрофонов в устройство необходимы следующие рекомендации по архитектуре:

Параметр Рекомендация
Сходство микрофонных портов Все порты микрофонов в наборе имеют одинаковую длину
Размеры микрофонного порта Размер порта Ø0,8-1,0 мм. Длина порта/диаметр порта < 2
Микрофонное уплотнение Уплотнительные прокладки равномерно размещены в стопке. Рекомендуемая степень сжатия для прокладок из пеноматериала: > 70%
Надежность микрофона Для предотвращения попадания пыли и посторонних предметов следует использовать сетку (между печатной платой для микрофонов с нижним портом и уплотнительной прокладкой/верхней крышкой)
Изоляция микрофона Резиновые прокладки и изоляция вибрации через структуру, особенно для изоляции любой вибрации благодаря встроенным динамикам
Частота выборки В звуке устройства должна отсутствовать вибрация и пропуски со смещением в область низких частот
Возможность записи Устройство должно иметь возможность записывать необработанные потоки отдельных каналов одновременно
USB Все USB-устройства ввода аудио должны устанавливать дескрипторы в соответствии со спецификацией USB Audio Devices Rev3 Spec
Геометрия микрофонов Драйверы должны правильно реализовывать дескрипторы геометрии набора микрофонов
Возможность обнаружения Устройства не должны иметь неустранимые или неуправляемые аппаратные, встроенное ПО или сторонние нелинейные алгоритмы обработки звука на устройстве
Формат записи Форматы записи должны использовать минимальную частоту дискретизации 16 кГц и рекомендуемую глубину 24 бита

Рекомендации по электрическим соединениям

Если применимо, массивы могут быть подключены к USB-узлу (например, SoC, который запускает Microsoft Audio Stack (MAS)) и интерфейсы к службам распознавания речи или другим приложениям.

Компоненты оборудования, такие как преобразователи PDM-TDM, должны гарантировать, что динамический диапазон и соотношение сигнал/шум микрофонов сохраняются в повторных дискретизаторах.

Чтобы обеспечить необходимую полосу пропускания до семи каналов при более высоких частотах дискретизации и глубине передачи битов, все микроконтроллеры должны поддерживать высокоскоростное соединение USB Audio Class 2.0.

Следующие шаги