Traitement audio avec la pile audio Microsoft

La pile audio Microsoft (MAS) est un ensemble d’améliorations du traitement audio optimisées pour les scénarios de traitement vocal, tels que la reconnaissance de mot clé et la reconnaissance vocale. Le SDK Speech intègre MAS, ce qui permet à n’importe quelle application ou produit d’utiliser ses fonctionnalités de traitement audio sur l’audio d’entrée.

Pipelines de traitement audio

La pile audio Microsoft fournit deux pipelines de traitement audio, chacun optimisé pour différents scénarios :

Pipeline basé sur DSP (par défaut)

Le pipeline par défaut (AUDIO_INPUT_PROCESSING_ENABLE_DEFAULT) utilise des algorithmes de traitement de signal numérique (DSP) traditionnels et fournit un ensemble complet d’améliorations : formation de faisceaux, déreverberation, annulation d’écho acoustique, contrôle de gain automatique et suppression du bruit. Vous pouvez désactiver les améliorations individuelles pour qu’elles correspondent à votre scénario. Ce pipeline prend en charge toutes les géométries de tableau de microphones et est disponible sur Windows et Linux.

Pour plus d’informations sur les améliorations et les exemples de code DSP, consultez traitement audio basé sur DSP avec la pile audio Microsoft.

Pipeline d’annulation d’écho basé sur un modèle

Le pipeline basé sur un modèle (AUDIO_INPUT_PROCESSING_ENABLE_V2) remplace l’annulateur d’écho DSP par un modèle Machine Learning pour améliorer la suppression d’écho. Ce pipeline se concentre spécifiquement sur l’annulation d’écho acoustique et est conçu pour les scénarios où la qualité de suppression d’écho est critique.

Pour plus d'informations et des exemples de code, consultez annulation d'écho basée sur un modèle avec Microsoft Audio Stack.

Comparaison de pipelines

Améliorations audio

Fonctionnalité Basé sur DSP (par défaut) Basé sur un modèle (V2)
Annulation de l’écho acoustique ✔✔
Suppression du bruit
Déréverbération
Contrôle automatique du gain
Formation de faisceaux
Désactiver les améliorations individuelles

✔✔ = ML-enhanced ✔ = Supported ✘ = Not supported

Support de la plateforme et du langage

Fonctionnalité Basé sur DSP (par défaut) Basé sur un modèle (V2)
Windows x64
Windows ARM64
Linux
C++
C#
Java

Intégration du Kit de développement logiciel (SDK) Speech

Les deux pipelines sont disponibles via la classe AudioProcessingOptions du SDK Speech. Les fonctionnalités clés sont les suivantes :

  • Entrée de microphone en temps réel et entrée de fichier : le traitement audio peut être appliqué à l’entrée de microphone en temps réel, aux flux et aux entrées basées sur des fichiers.
  • Canal de référence de l’orateur : un canal de référence de l’orateur peut être spécifié pour l’annulation de l’écho, à l’aide de l’option SpeakerReferenceChannel.LastChannel .

Confidentialité et traitement des données

Le traitement s’effectue entièrement localement, là où le Kit de développement logiciel (SDK) Speech est utilisé. Aucune donnée audio n'est diffusée vers les services cloud de Microsoft pour le traitement par la pile audio Microsoft. La seule exception est le service de transcription de conversation, où l'audio brut est envoyé aux services cloud de Microsoft pour le traitement.