Condividi tramite


Elaborazione audio

Microsoft Audio Stack è un set di miglioramenti ottimizzati per gli scenari di elaborazione vocale. Sono inclusi esempi come il riconoscimento delle parole chiave e il riconoscimento vocale. È costituito da vari miglioramenti/componenti che operano sul segnale audio di input:

  • Eliminazione del rumore- Ridurre il livello di rumore di fondo.
  • Beamforming: localizzare l'origine del suono e ottimizzare il segnale audio usando più microfoni.
  • Dereverberation - Ridurre i riflessi del suono dalle superfici nell'ambiente.
  • Annullamento dell'eco acustica: elimina la riproduzione dell'audio dal dispositivo mentre l'input del microfono è attivo.
  • Controllo del guadagno automatico: regolare dinamicamente il livello di voce della persona in modo da tenere conto di altoparlanti morbidi, lunghe distanze o microfoni non incalibrati.

Block diagram of Microsoft Audio Stack's enhancements.

Diversi scenari e casi d'uso possono richiedere ottimizzazioni diverse che influenzano il comportamento dello stack di elaborazione audio. Ad esempio, negli scenari di telecomunicazione, ad esempio le chiamate telefoniche, è accettabile avere piccole distorsioni nel segnale audio dopo l'applicazione dell'elaborazione. Ciò è dovuto al fatto che gli esseri umani possono continuare a comprendere il parlato con alta precisione. Tuttavia, è inaccettabile e dirompente per una persona sentire la propria voce in un eco. Questo contrasto con gli scenari di elaborazione vocale, in cui l'audio distorto può influire negativamente sull'accuratezza di un modello di riconoscimento vocale con apprendimento automatico, ma è accettabile avere livelli minori di residui eco.

L'elaborazione viene eseguita completamente in locale in cui viene usato Speech SDK. Nessun dato audio viene trasmesso ai servizi cloud Microsoft per l'elaborazione da Parte di Microsoft Audio Stack. L'unica eccezione è per il servizio di trascrizione conversazione, in cui l'audio non elaborato viene inviato ai servizi cloud Microsoft per l'elaborazione.

Microsoft Audio Stack supporta anche un'ampia gamma di prodotti Microsoft:

  • Windows : Microsoft Audio Stack è la pipeline di elaborazione vocale predefinita quando si usa la categoria Audio vocale.
  • Dispositivi Microsoft Teams Display e Microsoft Teams Rooms : i dispositivi Microsoft Teams Display e Teams Rooms usano Microsoft Audio Stack per consentire esperienze di alta qualità basate su voce e senza mani con Cortana.

Integrazione di Speech SDK

Speech SDK integra Microsoft Audio Stack (MAS), consentendo a qualsiasi applicazione o prodotto di usare le funzionalità di elaborazione audio sull'audio di input. Alcune delle principali funzionalità di Microsoft Audio Stack disponibili tramite Speech SDK includono:

  • Input e input file del microfono in tempo reale: l'elaborazione di Microsoft Audio Stack può essere applicata all'input, ai flussi e all'input basato su file del microfono in tempo reale.
  • Selezione di miglioramenti : per consentire il controllo completo dello scenario, l'SDK consente di disabilitare singoli miglioramenti come dereverberation, eliminazione del rumore, controllo automatico del guadagno e annullamento dell'eco acustica. Ad esempio, se lo scenario non include l'audio di output di rendering che deve essere eliminato dall'audio di input, è possibile disabilitare l'annullamento dell'eco acustico.
  • Geometrie del microfono personalizzate: l'SDK consente di fornire informazioni personalizzate sulla geometria del microfono, oltre a supportare geometrie preimpostate come le geometrie lineari a due microfoni, quattro microfoni lineari lineari, quattro microfoni lineari e matrici circolari a 7 microfoni (per altre informazioni sulle geometrie predefinite supportate nelle raccomandazioni della matrice microfono).
  • Angoli di beamforming: è possibile fornire angoli di traveforming specifici per ottimizzare l'input audio proveniente da una posizione predeterminata, rispetto ai microfoni.

Requisiti minimi per l'uso di Microsoft Audio Stack

Microsoft Audio Stack può essere usato da qualsiasi prodotto o applicazione in grado di soddisfare i requisiti seguenti:

  • Audio non elaborato: Microsoft Audio Stack richiede audio non elaborato (non elaborato) come input per ottenere i migliori risultati. La fornitura di audio già elaborati limita la capacità dello stack audio di eseguire miglioramenti di alta qualità.
  • Geometrie del microfono: per eseguire correttamente tutti i miglioramenti offerti da Microsoft Audio Stack, sono necessarie informazioni geometriche su ogni microfono nel dispositivo. Le informazioni includono il numero di microfoni, la loro disposizione fisica e le coordinate. Sono supportati fino a 16 canali del microfono di input.
  • Loopback o audio di riferimento: è necessario un canale audio che rappresenta l'audio riprodotto dal dispositivo per eseguire l'annullamento dell'eco acustico.
  • Formato di input: Microsoft Audio Stack supporta il campionamento verso il basso per le frequenze di campionamento che sono multipli integrali di 16 kHz. È necessaria una frequenza di campionamento minima di 16 kHz. Sono supportati anche i formati seguenti: I edizione Enterprise E little endian float a 32 bit, little endian signed int a 32 bit, 24 bit little endian signed int, 16 bit little endian signed int e 8 bit signed int.

Passaggi successivi

Usare Speech SDK per l'elaborazione audio