Raccomandazioni per gli array di microfoni

Questo articolo illustra come progettare una matrice di microfoni personalizzata per l'uso con Speech SDK. Questo è più pertinente se si seleziona, si specifica o si compila hardware per le soluzioni vocali.

Speech SDK funziona meglio con una matrice di microfoni progettata in base a queste linee guida, tra cui la geometria del microfono, la selezione dei componenti e l'architettura.

Geometria del microfono

Le geometrie di matrice seguenti sono consigliate per l'uso con Microsoft Audio Stack. La posizione delle fonti audio e il rifiuto del rumore ambientale sono migliorate con un maggior numero di microfoni con dipendenze da applicazioni specifiche, scenari utente e fattore di forma del dispositivo.

Matrice Microfoni Geometria
Circolare - 7 microfoni 7 mic circular array 6 Esterno, 1 Centrale, Raggio = 42,5 mm, Con spaziatura uniforme
Circolare - 4 microfoni 4 mic circular array 3 Esterno, 1 Centrale, Raggio = 42,5 mm, Con spaziatura uniforme
Lineare - 4 microfoni 4 mic linear array Lunghezza = 120 mm, spaziatura = 40 mm
Lineare - 2 Microfoni 2 mic linear array Spaziatura = 40 mm

I canali del microfono devono essere ordinati in modo crescente da 0, in base alla numerazione descritta in precedenza per ogni matrice. Microsoft Audio Stack richiede un altro flusso di riferimento di riproduzione audio per eseguire l'annullamento dell'eco.

Selezione del componente

I componenti del microfono devono essere selezionati per riprodurre in modo accurato un segnale privo di rumore e distorsione.

Le proprietà consigliate quando si selezionano i microfoni sono:

Parametro Consigliato
SNR >= 65 dB (segnale 1 kHz 94 dBSPL, rumore ponderato A)
Corrispondenza ampiezza ± 1 dB a 1 kHz
Corrispondenza delle fasi ± 2° a 1 kHz
Punto di overload acustico (AOP) >= 120 dBSPL (THD = 10%)
Velocità in bit Minimo a 24 bit
Frequenza di campionamento Minimo 16 kHz*
Risposta frequenza ± 3 dB, maschera mobile da 200 a 8000 Hz*
Affidabilità Intervallo di temperatura di archiviazione da -40°C a 70°C
Intervallo di temperatura operativa da -20°C a 55°C

*È possibile che siano necessarie frequenze di campionamento più elevate o intervalli di frequenza "più ampi" per le applicazioni VoIP (High Quality Communications)

Una buona selezione dei componenti deve essere abbinata a una buona integrazione elettroacustica per evitare di compromettere le prestazioni dei componenti utilizzati. I casi d'uso univoci possono anche richiedere più requisiti, ad esempio intervalli di temperatura operativa.

Integrazione della matrice di microfoni

Le prestazioni della matrice di microfoni quando integrate in un dispositivo differiscono dalla specifica del componente. È importante assicurarsi che i microfoni siano ben abbinati dopo l'integrazione. Di conseguenza, le prestazioni del dispositivo misurate dopo qualsiasi guadagno fisso o EQ devono soddisfare le raccomandazioni seguenti:

Parametro Consigliato
SNR >= 64 dB (segnale a 1 kHz 94 dBSPL, rumore ponderato A)
Riservatezza output -26 dBFS/Pa a 1 kHz (scelta consigliata)
Corrispondenza ampiezza ± 2 dB, 200-8000 Hz
THD%* ≤ 1%, 200-8000 Hz, 94 dBSPL
Risposta frequenza ± maschera mobile a 6 dB, 200-12000 Hz**

**Un altoparlante a bassa distorsione è necessario per misurare il THD (ad esempio, Neumann KH120)

**Potrebbero essere necessari intervalli di frequenza "più ampi" per le applicazioni VoIP (High Quality Communications)

Raccomandazioni per l'integrazione dell’altoparlante

Poiché per i dispositivi di riconoscimento vocale che contengono degli altoparlanti è necessario l'annullamento dell'eco, vengono forniti altri suggerimenti per la selezione e l'integrazione dell'altoparlante.

Parametro Consigliato
Considerazioni sulla linearità Nessuna elaborazione non lineare dopo il riferimento all'altoparlante; in caso contrario, è necessario un flusso di riferimento loopback basato su hardware
Loopback voce Fornito tramite WASAPI, API private, plug-in ALSA personalizzato (Linux) o fornito tramite canale firmware
THD% Bande di terzo d'ottava minimo quinto ordine, 70 dBA Riproduzione a 0,8 m ≤ 6,3%, 315-500 Hz ≤ 5%, 630-5000 Hz
Accoppiamento echo ai microfoni > -10 dB TCLw utilizzando il metodo ITU-T G.122 Allegato B.4, normalizzato a livello di microfono
TCLw = TCLwmeasured + (livello misurato - sensibilità di output di destinazione)
TCLw = TCLwmeasured + (livello misurato - (-26))

Architettura della progettazione dell'integrazione

Quando si integrano i microfoni in un dispositivo, sono necessarie le linee guida seguenti per l'architettura:

Parametro Elemento consigliato
Somiglianza delle porte del microfono Tutte le porte del microfono hanno la stessa lunghezza nella matrice
Dimensioni porta Mic Dimensioni porta Ø0,8-1,0 mm. Lunghezza porta/Diametro porta< 2
Tenuta del microfono Guarnizioni di tenuta implementate in modo uniforme nello stack-up. Consigliare un rapporto di compressione al 70% > per le guarnizioni di schiuma
Affidabilità del microfono Per evitare l'ingresso di polvere e di materiale (tra il PCB per i microfoni con porta inferiore e la guarnizione di tenuta/il coperchio superiore), è necessario utilizzare un mesh
Isolamento del microfono Bare di gomma e disaccoppiamento delle vibrazioni attraverso la struttura, in particolare per isolare i percorsi di vibrazione a causa di altoparlanti integrati
Clock di campionamento L'audio del dispositivo deve essere privo di jitter e drop-out con bassa deriva
Funzionalità di record Il dispositivo deve essere in grado di registrare i singoli flussi non elaborati del canale contemporaneamente
USB Tutti i dispositivi di input audio USB devono impostare i descrittori in base alla specifica di dispositivi audio USB Rev3
Geometria microfono I driver devono implementare correttamente i descrittori geometry della matrice di microfoni
Individuabilità I dispositivi non devono presentare algoritmi di elaborazione audio non lineari non rilevabili o non controllabili a livello di hardware, firmware o software di terze parti da e verso il dispositivo
Formato acquisizione I formati di acquisizione devono usare una frequenza di campionamento minima di 16 kHz e una profondità a 24 bit consigliata

Considerazioni sull'architettura elettrica

Se applicabile, le matrici possono essere connesse a un host USB (ad esempio un SoC che esegue Microsoft Audio Stack (MAS)) e interfacce ai servizi Voce o ad altre applicazioni.

I componenti hardware, ad esempio la conversione da PDM a TDM, devono garantire che l'intervallo dinamico e l'SNR dei microfoni vengano mantenuti all'interno dei re-sampler.

La classe audio USB ad alta velocità 2.0 deve essere supportata all'interno di qualsiasi MCU audio per fornire la larghezza di banda necessaria per un massimo di sette canali a frequenze di campionamento e profondità di bit più elevate.

Passaggi successivi