Partager via


Audio

Ce document fournit des recommandations pour la conception et le développement d’appareils audio, y compris la lecture audio et les périphériques d’entrée audio destinés à être utilisés avec la plateforme Speech de Microsoft. La plateforme speech est utilisée pour alimenter toutes les expériences vocales dans Windows, telles que la saisie vocale et les sous-titres en direct. L’objectif de ce document est de permettre aux partenaires de l’écosystème de créer un appareil avec une expérience audio optimisée avec la technologie Microsoft.

Configuration matérielle minimale requise et programme de compatibilité matérielle Windows

La configuration matérielle minimale requise et la configuration requise du programme de compatibilité matérielle Windows sont fondamentales pour créer des solutions audio compatibles avec Windows. Bien que les programmes soient facultatifs, il est vivement recommandé que les produits audio répondent aux deux ensembles d’exigences pour garantir une qualité audio de base.

Pour plus d’informations sur chacune d’elles :

Scénario d’optimisation de la lecture audio multi-flux

Bien que le multi-streaming ne soit plus obligatoire pour l’édition Windows 10 Desktop, il est vivement recommandé de disposer d’un minimum de deux convertisseurs numériques vers analogiques (DAC) pour prendre en charge les scénarios de multi-streaming. Si une seule DAC (comme un casque redirigé) est utilisée, il est vivement recommandé de prendre en charge le contrôle du volume audio et de status indépendamment pour chaque point de terminaison audio (par exemple, haut-parleurs intégrés ou prise audio 3,5 mm) afin que les préférences des paramètres utilisateur puissent être conservées.

Optimisation d’une solution audio pour la voix et les communications

Une fois que la solution audio répond à la fois à la configuration matérielle minimale requise et aux exigences du programme de compatibilité Windows, la solution audio fournit des expériences audio de base dans Windows. Selon le segment de marché ciblé, un appareil peut prendre en charge deux optimisations supplémentaires : Plateforme vocale et Skype. Les recommandations relatives à la plateforme Speech et à Skype s’appuient sur les exigences d’une expérience audio de base. Il serait difficile d’optimiser pour Speech Platform ou Skype si la solution audio ne répond pas entièrement aux exigences de base.

Notes

Les instructions relatives à la téléphonie et aux applications telles que Skype seront complétées à cette rubrique lorsqu’elles seront disponibles.

 

recommandations audio

Reconnaissance vocale dans Windows

Les fabricants d’appareils sont encouragés à intégrer et à régler le traitement de l’amélioration vocale dans leur appareil afin d’optimiser les performances par rapport aux critères de test de reconnaissance vocale.

Pour les appareils sans traitement d’amélioration vocale intégré, Microsoft fournit le traitement par défaut dans Windows. Le traitement de l’amélioration vocale de Microsoft n’a pas besoin d’un réglage spécifique à l’appareil par l’IHV.

Le pipeline d’amélioration de la voix Microsoft sera utilisé si le pilote audio n’expose pas de géométrie de microphone et de traitement du signal audio pour la voix. Pour utiliser des améliorations tierces, la géométrie du microphone doit être fournie, prendre en charge le mode de traitement du signal « speech » sur l’entrée audio et s’assurer que les effets fournis par le pilote audio ou ses API logicielles incluent au moins la suppression du bruit et l’annulation de l’écho.

Différence entre la reconnaissance vocale et la téléphonie

De nombreux appareils qui ciblent la fonctionnalité reconnaissance vocale ciblent également l’utilisation de la téléphonie. Les similitudes sont évidentes : les deux scénarios utilisent des appareils avec microphones pour capter la voix humaine, des pipelines de traitement audio pour éliminer le bruit de l’environnement et améliorer la parole humaine, et la consommation d’applications qui s’appuient sur un signal vocal clair pour comprendre la parole.

Les différences résident dans qui ou ce qui consomme le signal vocal. La téléphonie a un consommateur humain, pour qui la qualité de la voix perceptive et l’intelligibilité vocale sont primordiales. La reconnaissance vocale a un consommateur algorithmique, où le Machine Learning formé sur des caractéristiques spécifiques du signal vocal détermine ce qui est reconnu, et où ces fonctionnalités ne s’alignent pas nécessairement sur les normes perceptuelles.

La qualité de la voix perceptive est souvent corrélée à la précision de la reconnaissance vocale, mais ce n’est pas toujours le cas. Ce document se concentre sur les méthodes d’évaluation et d’optimisation de la précision de la reconnaissance vocale. Il est recommandé de prendre en charge le mode de traitement du signal « speech » et de régler ce mode spécifiquement pour la reconnaissance vocale.

La réussite de la certification audio Skype/Lync est un indicateur fort des performances audio de l’appareil.

Recommandations relatives aux appareils audio

Les sections suivantes couvrent les recommandations relatives à la reconnaissance vocale. Pour garantir une expérience vocale de haute qualité, tous les appareils doivent être testés par rapport à ces exigences de performances.

Domaine Type d’aide Quels appareils doivent être testés
Device.SpeechRecognition Fournit les exigences de performances de reconnaissance vocale pour garantir une expérience vocale de haute qualité. Tous les appareils doivent être testés par rapport à ces exigences de performances.
Device.Audio Fournit des instructions pour fonctionner de manière optimale avec le système d’exploitation hôte en termes d’interfaces logicielles, de protocoles de communication et de formats de données. Tous les appareils doivent être testés conformément à ces recommandations.
Device.Audio.Acoustics Fournit des recommandations et des bonnes pratiques pour l’acoustique et les propriétés associées de la conception des appareils. Plus pertinent pour les appareils qui utiliseront le traitement d’amélioration vocale de Microsoft.

 

Device.SpeechRecognition

Le tableau suivant récapitule les recommandations de Microsoft pour la précision de la reconnaissance vocale cible pour les appareils dans différents environnements. Toutes les cibles sont en précision vocale.

Test Description Cible Recommandation
Device.SpeechRecognition.Quiet Un environnement idéal avec un bruit ambiant minimal (plancher sonore < 35 dBA SPL) et aucun bruit de réception (chemin d’écho). Silencieux <= 35 dBA SPL 95 %
Device.SpeechRecognition.AmbientNoise Différents niveaux et types d’environnements bruyants, par exemple Café & Pub. Bruit ambiant @ DUT >= 57 dBA SPL 90%
Device.SpeechRecognition.EchoNoise Différents niveaux et types de scénarios de lecture de rendu (par exemple, lecture multimédia). Echo Noise @ LRP >= 70 dBA SPL 90%

Device.Audio

Cette section contient des recommandations concernant les interfaces logicielles et matérielles, les protocoles de communication et les formats de données de l’appareil. Les appareils destinés à utiliser la fonctionnalité de reconnaissance vocale doivent répondre à toutes les exigences Device.Audio.

Nom Recommandation
Device.Audio.Base.AudioProcessing Les pilotes doivent exposer tous les effets audio via les API FXStreamCLSID, FXModeCLSID et FXEndpointCLSID (ou les API proxy). Les API doivent envoyer une liste précise des effets activés au système lorsqu’ils sont interrogés. Les pilotes doivent prendre en charge les notifications de modification APO et notifier uniquement le système lorsqu’une modification APO s’est produite.
Device.Audio.Base.StreamingFormats La reconnaissance vocale fonctionne sous tous les formats de capture audio et de diffusion en continu de rendu définis dans StreamingFormats HLK, l’optimum étant de 16 kHz avec capture 24 bits et rendu mono.
Device.Audio.Base.SamplePositionAccuracy Il est important que le rendu et la capture des signaux audio soient à la fois 1) échantillonnés avec précision et 2) horodatés avec précision.
Device.Audio.USB.USB Tous les périphériques d’entrée audio USB doivent définir correctement le descripteur en fonction de la spécification de la classe d’appareil USB.org.
Instructions relatives aux pilotes Feuille de route pour le développement de pilotes audio WDM

 

Device.Audio.Acoustics

Cette section contient des recommandations concernant les propriétés acoustiques et connexes de l’appareil, telles que l’emplacement du microphone et du haut-parleur, les réponses du microphone, le bruit reçu de l’appareil, etc. La sélection, l’emplacement, l’intégration et la conception de tableaux de microphone sont quelques-uns des facteurs les plus importants pour prendre en charge des performances de reconnaissance vocale de qualité.

Les recommandations et les tests sont relatifs au signal avant le traitement de l’amélioration vocale, mais après l’égalisation du microphone et le gain de microphone fixe.

Pour plus d’informations sur toutes ces recommandations, y compris les géométries de tableau de micro recommandées, consultez Microphone Array Geometry Descriptor Format.

Nom Recommandation
Device.Audio.Acoustics.MicArray Reportez-vous à Prise en charge du réseau de microphones dans Windows. Le pilote audio doit implémenter la propriété KSPROPERTY_AUDIO_MIC_ARRAY_GEOMETRY . Ensuite, la propriété System.Devices.MicrophoneArray.Geometry est accessible via l’API Windows.Devices.Enumeration. Le pilote audio USB prend en charge cette propriété pour les groupes de microphones USB dont les champs appropriés sont définis dans le descripteur USB.
Descripteur de tableau de microphones L’appareil doit décrire son type de microphone et sa géométrie à l’aide du descripteur de tableau de micros.
Device.Audio.Acoustics.MicSensitivity La recommandation Max est définie pour pouvoir prendre en charge les niveaux d’entrée vocale considérés comme « bruyants » et la recommandation Min est définie pour pouvoir prendre en charge les niveaux d’entrée vocale considérés comme « silencieux ».
Device.Audio.Acoustics.MicIntegration Les microphones doivent être intégrés pour garantir un bon joint acoustique entre le microphone et le châssis de l’appareil, et le cas échéant, le long du tube de portage du microphone. Réduisez le bruit acoustique et les vibrations entre le système et le microphone. Deux solutions typiques sont d’utiliser une botte en caoutchouc ou un joint. Quelle que soit la méthode choisie, case activée que le joint acoustique est suffisant pour toutes les tolérances de production et pour les changements environnementaux et de durée de vie.
Device.Audio.Acoustics.MicPlacement Placez le micro le plus loin possible des sources de bruit telles que les haut-parleurs, les ventilateurs, les claviers, les disques durs et les mains de l’utilisateur, et aussi près que possible de la bouche de l’orateur.
Device.Audio.Acoustics.MicSelfNoise L’utilisation d’un microphone de haute qualité réduit le bruit interne du microphone. Les microphones avec un SNR d’au moins 61 dB nominal sont recommandés pour Standard et 63 dB pour Premium.
Device.Audio.Acoustics.MicReceivedNoise Les deux sources main de bruit reçu sont le bruit acoustique et le bruit électrique. Le bruit acoustique peut provenir de l’extérieur de l’appareil ou être généré en interne dans l’appareil en raison de ventilateurs, de disques durs, etc. Le bruit acoustique peut également être transmis par la mécanique de l’appareil. Le bruit électrique peut être réduit en utilisant des microphones numériques plutôt que des microphones analogiques.
Device.Audio.Acoustics.MicMagnitudeResponse Les masques Premium et Standard s’appliquent à tous les niveaux d’appareil sous Device.Audio.Acoustics.Bande passante, par exemple, un appareil peut avoir une bande passante Standard (bande passante étroite) et une réponse de magnitude Premium au sein de cette bande.
Device.Audio.Acoustics.MicPhaseResponseMatching Cette recommandation garantit que la relation temporelle entre les signaux reçus via des éléments de microphone dans un tableau est cohérente avec la géométrie physique des éléments de microphone dans le tableau.
Device.Audio.Acoustics.MicDistortion Il est recommandé de mesurer la distorsion à l’aide du SDNR (rapport signal/distorsion/bruit pulsé), même si des objectifs THD sont également donnés.
Device.Audio.Acoustics.MicBandwidth La fréquence d’échantillonnage du signal de capture est le principal facteur pour déterminer la bande passante effective du signal vocal. Comme la plateforme vocale utilise des modèles acoustiques de 16 kHz dans le module de reconnaissance vocale, une fréquence d’échantillonnage minimale de 16 kHz est recommandée. 300 Hz est l’extrémité inférieure effective du module de reconnaissance vocale, mais 200 Hz est la limite acoustique recommandée pour les appareils ciblant également les communications vocales.
Device.Audio.Acoustics.RenderDistortion Il est recommandé de mesurer la distorsion à l’aide du SDNR (rapport signal/distorsion/bruit pulsé), même si des objectifs THD sont également donnés.
Device.Audio.Acoustics.RenderPlacement Pour que l’annulateur d’écho acoustique fonctionne correctement, les haut-parleurs de l’appareil doivent être placés à une distance maximale des microphones, ou placer des valeurs null de directivité vers les haut-parleurs.

 

Conditions requises pour activer un pipeline d’amélioration tiers

Les conditions suivantes sont essentielles pour activer un pipeline d’amélioration tiers. Ces recommandations et d’autres sont abordées plus en détail dans les sections suivantes :

  • Rapport d’emplacement du microphone : explique comment implémenter une structure de création de rapports pour un tableau de micros.

  • Le mode speech prend en charge les éléments suivants :

    • Comment inscrire des API pour des modes spécifiques

    • Modes de traitement du signal audio

  • Device.Audio.Base.Audioprocessing : l’annulation de l’écho acoustique (AEC) et la suppression de Nosie (NS) sont requises pour le pipeline tiers :

    • Implémentation d’objets de traitement audio

    • Architecture des objets de traitement audio

Programme de compatibilité matérielle Windows

Kit d’évaluation de matériel en laboratoire Windows (HLK)

Certification audio Skype/Lync

Prise en charge du réseau de microphones dans Windows