Recomendaciones de la matriz de micrófonos

Artículo
09/24/2024

En este artículo, aprenderá a diseñar una matriz de micrófonos personalizada para su uso con el SDK de Voz. Esto es más pertinente si selecciona, especifica o crea hardware para soluciones de voz.

El SDK de Voz funciona mejor con una matriz de micrófonos diseñada acorde a estas directrices, incluida la geometría del micrófono, la selección de componentes y la arquitectura.

Geometría del micrófono

Se recomiendan las geometrías de matriz siguientes para su uso con la pila de audio de Microsoft. La ubicación de las fuentes de sonido y el rechazo del ruido ambiental se han mejorado con un número mayor de micrófonos con dependencias de aplicaciones y escenarios de usuario específicos, y el factor de forma del dispositivo.

Array	Micrófonos	Geometría
Circular: 7 micrófonos		6 externo, 1 centro, Radio = 42,5 mm, Espaciado uniforme
Circular: 4 micrófonos		3 exterior, 1 centro, Radio = 42,5 mm, Espaciado uniforme
Lineal: 4 micrófonos		Longitud = 120 mm, Espaciado = 40 mm
Lineal: 2 micrófonos		Espaciado = 40 mm

Los canales de micrófono deben ordenarse de forma ascendente a partir de 0, según la numeración descrita anteriormente para cada matriz. La pila de audio de Microsoft requiere otra secuencia de referencia de reproducción de audio para realizar la cancelación del eco.

Selección de componentes

Los componentes de micrófono deben seleccionarse para reproducir con precisión una señal libre de ruido y distorsión.

Las propiedades recomendadas al seleccionar micrófonos son:

Parámetro	Recomendado
SNR	>= 65 dB (señal de 1 kHz a 94 dBSPL, ruido ponderado con A)
Coincidencia de amplitud	± 1 dB a 1 kHz
Coincidencia de fase	± 2° a 1 kHz
Punto de sobrecarga acústico (AOP)	>= 120 dBSPL (THD = 10 %)
Velocidad de bits	24 bits como mínimo
Frecuencia de muestreo	Mínimo 16 kHz*
Respuesta de frecuencia	± 3 dB, máscara flotante a 200-8000 Hz*
Confiabilidad	Intervalo de temperatura de almacenamiento: entre -40° C y 70° C Intervalo de temperatura de funcionamiento: entre -20° C y 55° C

*Pueden ser necesarias velocidades de muestreo más altas o "más amplias" en aplicaciones de comunicaciones de alta calidad (VoIP).

Una buena selección de componentes debe ir acompañada de una buena integración electroacústica para evitar reducir el rendimiento de los componentes usados. Los casos de uso únicos también pueden requerir más requisitos (como intervalos de temperatura de funcionamiento).

Integración de la matriz de micrófonos

El rendimiento de la matriz de micrófonos cuando se integra en un dispositivo difiere de la especificación de componentes. Es importante asegurarse de que los micrófonos están bien emparejados después de la integración. Por tanto, el rendimiento del dispositivo medido después de cualquier ganancia fija o EQ debe cumplir las siguientes recomendaciones:

Parámetro	Recomendado
SNR	> 64 dB (señal de 1 kHz a 94 dBSPL, ruido con ponderación A)
Sensibilidad de salida	-26 dBFS/Pa a 1 kHz (recomendado)
Coincidencia de amplitud	± 2 dB, 200-8000 Hz
THD%*	≤ 1 %, 200-8000 Hz, 94 dBSPL
Respuesta de frecuencia	± 6 dB, máscara flotante a 200-12000 Hz**

**Se requiere un altavoz de baja distorsión para medir THD (por ejemplo, Neumann KH120).

**Pueden ser necesarios intervalos de frecuencia "más amplios" para las aplicaciones de comunicaciones de alta calidad (VoIP).

Recomendaciones de integración del altavoz

Como la cancelación del eco es necesaria para los dispositivos de reconocimiento de voz que contienen altavoces, se proporcionan recomendaciones adicionales para la integración y la selección de altavoces.

Parámetro	Recomendado
Consideraciones sobre la linealidad	Sin procesamiento no lineal después de la referencia del altavoz; de lo contrario, se requiere una secuencia de referencia de bucle invertido basada en hardware.
Bucle invertido de altavoz	Se proporciona mediante WASAPI, API privadas, complemento ALSA personalizado (Linux), o se proporciona mediante el canal de firmware
THD %	Bandas de tercios de octava, mínimo quinto orden, reproducción 70 dBA a 0,8 m ≤ 6,3 %, 315-500 Hz ≤ 5 %, 630-5000 Hz.
Acoplamiento de eco a los micrófonos	> TCLw -10 dB mediante el método ITU-T G.122 anexo B.4, normalizado a nivel de micrófono TCLw = TCLwmeasured + (nivel medido - sensibilidad de salida objetivo) TCLw = TCLwmeasured + (nivel medido - (-26))

Arquitectura de diseño de integración

Las siguientes directrices sobre arquitectura son necesarias al integrar micrófonos en un dispositivo:

Parámetro	Recomendación
Similitud del puerto de micrófono	Todos los puertos de micrófono tienen la misma longitud en la matriz
Dimensiones del puerto de micrófono	Tamaño de puerto Ø0,8-1,0 mm. Longitud de puerto/diámetro de puerto < 2
Sellado de micrófono	Juntas de sellado implementadas uniformemente en la pila. Se recomienda una relación de compresión del > 70 % para juntas de espuma.
Confiabilidad del micrófono	Se debe usar una malla para evitar el polvo y el acceso (entre el PCB de los micrófonos de puerto inferior y la junta de sellado/cubierta superior).
Aislamiento del micrófono	Juntas de goma y desacoplamiento de la vibración a través de la estructura, en especial para aislar las vías de vibración debido a los altavoces integrados.
Reloj de muestreo	El audio del dispositivo debe estar libre de vibración y cortes con desviación baja.
Funcionalidad de registro	El dispositivo debe poder grabar secuencias sin procesar de canales individuales de manera simultánea.
USB	Todos los dispositivos de entrada de audio USB deben establecer descriptores de acuerdo con la especificación Rev3 de dispositivos de audio USB.
Geometría del micrófono	Los controladores deben implementar correctamente descriptores de geometría de matriz de micrófonos.
Detectabilidad	Los dispositivos no deben tener algoritmos de procesamiento de audio no lineales basados en hardware, firmware o software de terceros indetectables o incontrolables, ni hacia ni desde el dispositivo.
Formato de captura	Los formatos de captura deben usar una frecuencia de muestreo mínima de 16 kHz y una profundidad recomendada de 24 bits.

Consideraciones sobre la arquitectura eléctrica

Si procede, las matrices pueden estar conectadas a un host USB (por ejemplo, un SoC que ejecuta la pila de audio de Microsoft (MAS)) y las interfaces a servicios de Voz u otras aplicaciones.

Los componentes de hardware, como la conversión de PDM a TDM, deben garantizar que se conserva el rango dinámico y el SNR de los micrófonos dentro de los remuestradores.

Se debe admitir audio USB 2.0 de alta velocidad dentro de cualquier MCU de audio con el fin de proporcionar el ancho de banda necesario para hasta siete canales a frecuencias de muestreo y profundidades de bits mayores.

Pasos siguientes

Más información sobre el procesamiento de audio

Compartir a través de