Remarque
L’accès à cette page requiert une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page requiert une autorisation. Vous pouvez essayer de modifier des répertoires.
La pile audio Microsoft (MAS) est un ensemble d’améliorations du traitement audio optimisées pour les scénarios de traitement vocal, tels que la reconnaissance de mot clé et la reconnaissance vocale. Le SDK Speech intègre MAS, ce qui permet à n’importe quelle application ou produit d’utiliser ses fonctionnalités de traitement audio sur l’audio d’entrée.
Pipelines de traitement audio
La pile audio Microsoft fournit deux pipelines de traitement audio, chacun optimisé pour différents scénarios :
Pipeline basé sur DSP (par défaut)
Le pipeline par défaut (AUDIO_INPUT_PROCESSING_ENABLE_DEFAULT) utilise des algorithmes de traitement de signal numérique (DSP) traditionnels et fournit un ensemble complet d’améliorations : formation de faisceaux, déreverberation, annulation d’écho acoustique, contrôle de gain automatique et suppression du bruit. Vous pouvez désactiver les améliorations individuelles pour qu’elles correspondent à votre scénario. Ce pipeline prend en charge toutes les géométries de tableau de microphones et est disponible sur Windows et Linux.
Pour plus d’informations sur les améliorations et les exemples de code DSP, consultez traitement audio basé sur DSP avec la pile audio Microsoft.
Pipeline d’annulation d’écho basé sur un modèle
Le pipeline basé sur un modèle (AUDIO_INPUT_PROCESSING_ENABLE_V2) remplace l’annulateur d’écho DSP par un modèle Machine Learning pour améliorer la suppression d’écho. Ce pipeline se concentre spécifiquement sur l’annulation d’écho acoustique et est conçu pour les scénarios où la qualité de suppression d’écho est critique.
Pour plus d'informations et des exemples de code, consultez annulation d'écho basée sur un modèle avec Microsoft Audio Stack.
Comparaison de pipelines
Améliorations audio
| Fonctionnalité | Basé sur DSP (par défaut) | Basé sur un modèle (V2) |
|---|---|---|
| Annulation de l’écho acoustique | ✔ | ✔✔ |
| Suppression du bruit | ✔ | ✘ |
| Déréverbération | ✔ | ✘ |
| Contrôle automatique du gain | ✔ | ✘ |
| Formation de faisceaux | ✔ | ✘ |
| Désactiver les améliorations individuelles | ✔ | ✘ |
✔✔ = ML-enhanced ✔ = Supported ✘ = Not supported
Support de la plateforme et du langage
| Fonctionnalité | Basé sur DSP (par défaut) | Basé sur un modèle (V2) |
|---|---|---|
| Windows x64 | ✔ | ✔ |
| Windows ARM64 | ✔ | ✔ |
| Linux | ✔ | ✘ |
| C++ | ✔ | ✔ |
| C# | ✔ | ✔ |
| Java | ✔ | ✘ |
Intégration du Kit de développement logiciel (SDK) Speech
Les deux pipelines sont disponibles via la classe AudioProcessingOptions du SDK Speech. Les fonctionnalités clés sont les suivantes :
- Entrée de microphone en temps réel et entrée de fichier : le traitement audio peut être appliqué à l’entrée de microphone en temps réel, aux flux et aux entrées basées sur des fichiers.
-
Canal de référence de l’orateur : un canal de référence de l’orateur peut être spécifié pour l’annulation de l’écho, à l’aide de l’option
SpeakerReferenceChannel.LastChannel.
Confidentialité et traitement des données
Le traitement s’effectue entièrement localement, là où le Kit de développement logiciel (SDK) Speech est utilisé. Aucune donnée audio n'est diffusée vers les services cloud de Microsoft pour le traitement par la pile audio Microsoft. La seule exception est le service de transcription de conversation, où l'audio brut est envoyé aux services cloud de Microsoft pour le traitement.
Contenu connexe
- Traitement audio basé sur DSP avec la pile audio Microsoft
- Annulation d'écho basée sur un modèle avec la pile audio Microsoft