Elaborazione audio con lo stack audio Microsoft

Il Microsoft Audio Stack (MAS) è un set di miglioramenti per l'elaborazione audio ottimizzati per scenari di elaborazione vocale, ad esempio il riconoscimento delle parole chiave e il riconoscimento vocale. Speech SDK integra MAS, consentendo a qualsiasi applicazione o prodotto di usare le funzionalità di elaborazione audio sull'audio di input.

Pipeline di elaborazione audio

Lo stack audio Microsoft offre due pipeline di elaborazione audio, ognuna ottimizzata per scenari diversi:

Pipeline basata su DSP (impostazione predefinita)

La pipeline predefinita (AUDIO_INPUT_PROCESSING_ENABLE_DEFAULT) usa algoritmi DSP (Digital Signal Processing) tradizionali e fornisce un set completo di miglioramenti: beamforming, riduzione del riverbero, cancellazione dell'eco acustica, controllo automatico del guadagno ed eliminazione del rumore. È possibile disabilitare singoli miglioramenti in base allo scenario in uso. Questa pipeline supporta tutte le geometrie della matrice di microfoni ed è disponibile in Windows e Linux.

Per informazioni dettagliate sui miglioramenti e gli esempi di codice di DSP, vedere DSP-based audio processing with the Microsoft Audio Stack.

Pipeline di cancellazione dell'eco basata su modello

La pipeline basata su modello (AUDIO_INPUT_PROCESSING_ENABLE_V2) sostituisce il canceller echo basato su DSP con un modello di Machine Learning per migliorare l'eliminazione dell'eco. Questa pipeline è incentrata specificamente sulla cancellazione dell'eco acustica e progettata per scenari in cui è fondamentale la qualità di questa funzionalità.

Per informazioni dettagliate ed esempi di codice, vedere La cancellazione eco basata su modello con Microsoft Audio Stack.

Confronto tra pipeline

Miglioramenti audio

Feature Basato su DSP (impostazione predefinita) Basato su modello (V2)
Annullamento dell'eco acustica ✔✔
Eliminazione del rumore
Riduzione del riverbero
Controllo del guadagno automatico
Beamforming
Disabilitare i singoli miglioramenti

✔✔ = Migliorato da ML ✔ = Supportato ✘ = Non supportato

Supporto della piattaforma e del linguaggio

Feature Basato su DSP (impostazione predefinita) Basato su modello (V2)
Windows x64
Windows ARM64
Linux
C++
C#
Java

Integrazione di Speech SDK

Entrambe le pipeline sono disponibili tramite la classe di AudioProcessingOptions Speech SDK. Le funzionalità principali includono:

  • Input del microfono in tempo reale e input da file: l'elaborazione audio può essere applicata all'input del microfono in tempo reale, ai flussi e all'input basato su file.
  • Canale di riferimento voce : è possibile specificare un canale di riferimento voce per l'annullamento echo, usando l'opzione SpeakerReferenceChannel.LastChannel .

Privacy e gestione dei dati

L'elaborazione viene interamente eseguita in ambiente locale, dove viene usato Speech SDK. Nessun dato audio viene trasmesso ai servizi cloud di Microsoft per l'elaborazione da parte dello stack audio Microsoft. L'unica eccezione è il servizio di trascrizione conversazione, in cui l'audio non elaborato viene inviato ai servizi cloud di Microsoft per l'elaborazione.