Recomendações de matriz de microfone
Neste artigo, você aprenderá a criar uma matriz de microfone personalizada para uso com o SDK de Fala. Isso é muito pertinente se você estiver selecionando, especificando ou criando um hardware para soluções de fala.
O SDK de Fala funciona melhor com uma matriz de microfones projetada de acordo com essas diretrizes, incluindo a geometria do microfone, a seleção de componentes e a arquitetura.
Geometria do microfone
As geometrias de matriz a seguir são recomendadas para uso com a Pilha de Áudio da Microsoft. A localização de fontes de som e o bloqueio do ruído de ambiente são aprimorados com um número maior de microfones com dependências em aplicativos específicos, cenários de usuário e com o fator forma de dispositivo.
Array | Microfones | Geometry |
---|---|---|
Circular - 7 microfones | 6 externas, 1 central, raio = 42,5 mm, com espaçamento uniforme | |
Circular - 4 microfones | 3 externas, 1 central, raio = 42,5 mm, com espaçamento uniforme | |
Linear - 4 microfones | Comprimento = 120 mm, Espaçamento = 40 mm | |
Linear - 2 microfones | Espaçamento = 40 mm |
Os canais de microfone devem ser ordenados de forma crescente a partir de 0, de acordo com a numeração descrita anteriormente para cada matriz. O Microsoft Audio Stack requer outro fluxo de referência de reprodução de áudio para realizar o cancelamento de eco.
Seleção de componentes
Os componentes do microfone devem ser selecionados para reproduzir com precisão um sinal sem ruído e distorção.
As propriedades recomendadas ao selecionar microfones são:
Parâmetro | Recomendadas |
---|---|
SNR | >= 65 dB (sinal de 1 kHz, 94 dBSPL, ruído de peso A) |
Correspondência de amplitude | ± 1 dB em 1 kHz |
Correspondência de fase | ± 2° em 1 kHz |
AOP (Ponto de Sobrecarga Acústica) | >= 120 dBSPL (THD = 10%) |
Taxa de bits | Mínimo de 24 bits |
Taxa de amostragem | Mínimo de 16 kHz* |
Frequência da resposta | Máscara flutuante de ± 3 dB e 200 a 8000 Hz* |
Confiabilidade | Intervalo de temperatura de armazenamento: -40 °C a 70 °C Intervalo de temperatura operacional: -20 °C a 55 °C |
*Taxas de amostragem mais altas ou faixas de frequência "mais amplas" podem ser necessárias para aplicativos de comunicação de alta qualidade (VoIP)
Uma boa seleção de componente precisa ser emparelhada com boa integração eletroacústica para evitar prejudicar o desempenho dos componentes usados. Casos de uso exclusivos também podem exigir mais requisitos (como intervalos de temperatura operacional).
Integração de matriz de microfone
O desempenho da matriz de microfones quando integrado a um dispositivo difere da especificação do componente. É importante garantir que os microfones estejam bem combinados após a integração. Portanto, o desempenho do dispositivo medido após qualquer EQ ou lucro fixo deve atender às seguintes recomendações:
Parâmetro | Recomendadas |
---|---|
SNR | >= 64 dB (1 kHz signal 94 dBSPL, A-weighted noise) |
Sensibilidade de saída | -26 dBFS/Pa em 1 kHz (recomendado) |
Correspondência de amplitude | ± 2 dB, 200 a 8000 Hz |
THD%* | ≤ 1%, 200-8000 Hz, 94 dBSPL |
Frequência da resposta | ± 6 dB, 200-12000 Hz Floating Mask** |
**É necessário um alto-falante de baixa distorção para medir o THD (por exemplo, Neumann KH120)
**Intervalos de frequência "mais amplos" podem ser necessários para aplicativos de comunicação de alta qualidade (VoIP)
Recomendações de integração do alto-falante
Como o cancelamento de eco é necessário para dispositivos de reconhecimento de fala que contêm alto-falantes, são fornecidas mais recomendações para a seleção e integração de alto-falantes.
Parâmetro | Recomendadas |
---|---|
Considerações sobre linearidade | Nenhum processamento não linear após a referência do alto-falante, caso contrário, é necessário um fluxo de referência de loopback baseado em hardware |
Loopback do alto-falante | Fornecido via WASAPI, APIs privadas, plug-in de ALSA personalizado (Linux) ou fornecido por meio do canal de firmware |
% de THD | Bandas de Terceira Oitava com ordem mínima de quinta, Reprodução de 70 dBA a 0,8 m ≤ 6,3%, 315 a 500 Hz ≤ 5%, 630 a 5.000 Hz |
Acoplamento de eco a microfones | > -10 dB TCLw usando o método ITU-T G.122 Anexo B.4, normalizado para o nível do microfone TCLw = TCLw medido + (nível medido – sensibilidade de saída de destino) TCLw = TCLw medido + (nível medido – (-26)) |
Arquitetura de design de integração
As seguintes diretrizes para arquitetura são necessárias ao integrar microfones a um dispositivo:
Parâmetro | Recomendação |
---|---|
Similaridade de porta do microfone | Todas as portas do microfone devem ter o mesmo comprimento na matriz |
Dimensões da porta do microfone | Tamanho da porta Ø 0,8 a 1,0 mm. Comprimento da porta/diâmetro da porta < 2 |
Vedação do microfone | Gaxetas de vedação uniformemente implementadas na pilha. Taxa de compactação > 70% recomendada para gaxetas de espuma |
Confiabilidade do microfone | A malha deve ser usada para impedir a poeira e o ingress (entre o PCB para microfones com portas inferiores e a gaxeta de vedação/tampa superior) |
Isolamento do microfone | Gaxetas de borracha e desacoplamento de vibração por meio da estrutura, particularmente para isolar todos os caminhos de vibração devido aos alto-falantes integrados |
Relógio de amostragem | O áudio do dispositivo precisa estar livre de tremulação e ter saídas com baixo descompasso |
Capacidade de registro | O dispositivo precisa ser capaz de registrar fluxos brutos individuais de canal simultaneamente |
USB | Todos os dispositivos de entrada de áudio USB precisam definir descritores de acordo com a Especificação Rev3 de dispositivos de áudio USB |
Geometria do microfone | Os drivers precisam implementar os Descritores de geometria da matriz de microfone corretamente |
Detectabilidade | Os dispositivos não devem possuir algoritmos de processamento de áudio não linear, baseados em hardware, firmware ou software de terceiros, indetectáveis ou incontroláveis no dispositivo |
Formato de captura | Os formatos de captura precisam usar uma taxa de amostragem mínima de 16 kHz e uma profundidade recomendada de 24 bits |
Considerações sobre a arquitetura elétrica
Quando aplicável, as matrizes podem ser conectadas a um host USB (como um SoC que executa o Microsoft Audio Stack (MAS)) e interfaces para serviços de fala ou outros aplicativos.
Componentes de hardware, como a conversão de PDM a TDM, devem garantir que o intervalo dinâmico e o SNR dos microfones sejam preservados em novas amostras.
A Classe de Áudio USB 2.0 de alta velocidade deve ter suporte em qualquer MCU de áudio para fornecer a largura de banda necessária para até sete canais com taxas de exemplo e profundidades de bits mais altas.