Audio

En este documento se proporcionan recomendaciones para el diseño y el desarrollo de dispositivos de audio, como la reproducción de audio y los dispositivos de entrada de audio destinados a su uso con la Plataforma de voz de Microsoft. La plataforma de voz se usa para potenciar todas las experiencias de voz en Windows, como escritura de voz y subtítulos en directo. El objetivo de este documento es permitir que los asociados del ecosistema compilen dispositivos con experiencia de audio optimizada con tecnología de Microsoft.

Requisitos mínimos de hardware y el Programa de compatibilidad de hardware de Windows

Los requisitos mínimos de hardware y los requisitos del Programa de compatibilidad de hardware de Windows son fundamentales para crear soluciones de audio compatibles con Windows. Aunque los programas son opcionales, se recomienda encarecidamente que los productos de audio cumplan ambos conjuntos de requisitos para garantizar la calidad básica del audio.

Para obtener más información sobre cada una de ellas:

Escenario para optimizar la reproducción de audio de varias secuencias

Aunque multi streaming ya no es un requisito para la edición de Windows 10 Desktop, se recomienda tener un mínimo de dos convertidores digitales a analógicos (DAC) para admitir escenarios de multi streaming. Si se usa una sola DAC (como un auricular redirigido), se recomienda admitir el control de volumen de audio y el estado de forma independiente para cada punto de conexión de audio (por ejemplo, altavoces integrados o un conector de audio de 3,5 mm) para que se puedan conservar las preferencias de configuración del usuario.

Optimización de una solución de audio para voz y comunicaciones

Una vez que la solución de audio cumple los requisitos mínimos de hardware y los requisitos del Programa de compatibilidad de Windows, la solución de audio proporcionará experiencias básicas de audio en Windows. En función del segmento de mercado de destino, un dispositivo puede admitir dos optimizaciones adicionales: Plataforma de voz y Skype. Las recomendaciones para speech Platform y Skype se basan en los requisitos de una experiencia básica de audio. Sería un desafío optimizar la plataforma de voz o Skype si la solución de audio no cumple completamente los requisitos básicos.

Nota

Las directrices para la telefonía y las aplicaciones, como Skype, se complementarán con este tema cuando estén disponibles.

 

recomendaciones de audio

Reconocimiento de voz en Windows

Se recomienda a los fabricantes de dispositivos que integren y ajusten el procesamiento de mejoras de voz en su dispositivo para optimizar el rendimiento en relación con los criterios de prueba de reconocimiento de voz.

En el caso de los dispositivos sin procesamiento integrado de mejoras de voz, Microsoft proporciona el procesamiento predeterminado en Windows. El procesamiento de la mejora de voz de Microsoft no necesita un ajuste específico del dispositivo por parte del IHV.

La canalización de mejora de voz de Microsoft se usará si el controlador de audio no expone una geometría de micrófono y un procesamiento de señal de audio para la voz. Para utilizar mejoras de terceros, se debe proporcionar la geometría del micrófono, admitir el modo de procesamiento de señales de "voz" en la entrada de audio y asegurarse de que los efectos proporcionados por el controlador de audio o sus API de software incluyen al menos la supresión de ruido y la cancelación de eco.

Diferencia entre el reconocimiento de voz y la telefonía

Muchos dispositivos que se dirigen a la funcionalidad de reconocimiento de voz también tendrán como destino el uso de telefonía. Las similitudes son evidentes: ambos escenarios usan dispositivos con micrófonos para recoger voz humana, canalizaciones de procesamiento de audio para eliminar el ruido del entorno y mejorar la voz humana, y consumir aplicaciones que dependen de una señal de voz clara para comprender la voz.

Las diferencias se encuentran en quién o qué consume la señal de voz. La telefonía tiene un consumidor humano, para quien la calidad de voz perceptual y la inteligibilidad de voz son primordiales. El reconocimiento de voz tiene un consumidor algorítmico, donde el aprendizaje automático entrenado en características específicas de la señal de voz determina qué se reconoce y dónde esas características no se alinean necesariamente con las normas perceptuales.

La calidad de voz perceptual suele estar correlacionada con la precisión del reconocimiento de voz, pero esto no siempre es el caso. Este documento se centra en los métodos para evaluar y maximizar la precisión del reconocimiento de voz. Se recomienda admitir el modo de procesamiento de señales de "voz" y ajustar ese modo específicamente para el reconocimiento de voz.

Pasar la certificación de audio de Skype/Lync es un indicador sólido del buen rendimiento del audio del dispositivo.

Recomendaciones de dispositivos de audio

En las secciones siguientes se tratan las recomendaciones para la voz. Para garantizar una experiencia de voz de alta calidad, todos los dispositivos deben probarse con estos requisitos de rendimiento.

Área Tipo de guía Qué dispositivos se deben probar
Device.SpeechRecognition Proporciona los requisitos de rendimiento del reconocimiento de voz para garantizar una experiencia de voz de alta calidad. Todos los dispositivos deben probarse con estos requisitos de rendimiento.
Device.Audio Proporciona instrucciones para funcionar de forma óptima con el sistema operativo host en términos de interfaces de software, protocolos de comunicación y formatos de datos. Todos los dispositivos deben probarse con estas directrices.
Device.Audio.Acoustics Proporciona recomendaciones y procedimientos recomendados para la acústica y las propiedades relacionadas del diseño de dispositivos. Lo más relevante para los dispositivos que usarán el procesamiento de mejoras de voz de Microsoft.

 

Device.SpeechRecognition

En la tabla siguiente se resumen las recomendaciones de Microsoft para la precisión del reconocimiento de voz de destino para los dispositivos en varios entornos. Todos los destinos están en precisión de voz.

Prueba Descripción Destino Recomendación
Device.SpeechRecognition.Quiet Un ambiente ideal con ruido ambiente mínimo (ruido del piso < 35 dBA SPL) y sin ruido de recepción (ruta de eco). Quiet <= 35 dBA SPL 95 %
Device.SpeechRecognition.AmbientNoise Varios niveles y tipos de entornos ruidosos, por ejemplo Café & Pub. Ruido ambiente @ DUT >= 57 dBA SPL 90%
Device.SpeechRecognition.EchoNoise Varios niveles y tipos de escenarios de reproducción de representación (por ejemplo, reproducción multimedia). Ruido de eco @ LRP >= 70 dBA SPL 90%

Device.Audio

Las recomendaciones de esta sección se realizan con respecto a las interfaces de software y hardware, los protocolos de comunicación y los formatos de datos del dispositivo. Los dispositivos diseñados para usar la funcionalidad de reconocimiento de voz deben cumplir todos los requisitos de Device.Audio.

Nombre Recomendación
Device.Audio.Base.AudioProcessing Los controladores deben exponer todos los efectos de audio a través de las API FXStreamCLSID, FXModeCLSID y FXEndpointCLSID (o las API de proxy). Las API deben enviar una lista precisa de efectos que están habilitados para el sistema cuando se consultan. Los controladores deben admitir las notificaciones de cambio de APO y solo notificar al sistema cuando se ha producido un cambio de APO.
Device.Audio.Base.StreamingFormats Funciones de reconocimiento de voz en todas las capturas de audio y representar formatos de streaming definidos en el HLK streamingFormats, con un rendimiento óptimo de 16 kHz con captura de 24 bits y representación mono.
Device.Audio.Base.SamplePositionAccuracy Es importante que las señales de audio de representación y captura sean 1) muestreadas con precisión y 2) con marca de tiempo.
Device.Audio.USB.USB Todos los dispositivos de entrada de audio USB deben establecer correctamente el descriptor según la especificación de clase de dispositivo USB.org.
Instrucciones para controladores Hoja de ruta para desarrollar controladores de audio de WDM

 

Device.Audio.Acoustics

Las recomendaciones de esta sección se realizan con respecto a las propiedades acústicas y relacionadas del dispositivo, como la colocación del micrófono y el altavoz, las respuestas del micrófono, el ruido recibido del dispositivo, etc. La selección de micrófonos, la selección, la integración y el diseño de matrices son algunos de los factores más importantes para admitir el rendimiento del reconocimiento de voz de calidad.

Las recomendaciones y pruebas son relativas a la señal antes del procesamiento de la mejora de voz, pero después de la igualdad de micrófono y la ganancia fija del micrófono.

Para obtener más información sobre todas estas recomendaciones, incluidas las geometrías recomendadas de matriz de micrófonos, consulte Formato de descriptor de geometría de matriz de micrófonos.

Nombre Recomendación
Device.Audio.Acoustics.MicArray Consulte Compatibilidad con la matriz de micrófonos en Windows. El controlador de audio debe implementar la propiedad KSPROPERTY_AUDIO_MIC_ARRAY_GEOMETRY . A continuación, se puede acceder a la propiedad System.Devices.MicrophoneArray.Geometry a través de la API Windows.Devices.Enumeration. El controlador de audio USB admitirá esta propiedad para matrices de micrófonos USB que tengan los campos adecuados establecidos en el descriptor USB.
Descriptor de matriz de micrófonos El dispositivo debe describir su tipo de micrófono y geometría mediante el descriptor de matriz mic.
Device.Audio.Acoustics.MicSensitivity La recomendación Max está establecida para poder admitir los niveles de entrada de voz que se consideran "fuertes" y la recomendación Min está establecida para poder admitir los niveles de entrada de voz considerados como "silenciosos".
Device.Audio.Acoustics.MicIntegration Los micrófonos deben integrarse para garantizar un buen sello acústico entre el micrófono y el chasis del dispositivo y, si procede, a lo largo del tubo de portabilidad del micrófono. Minimice el ruido acústico y la vibración entre el sistema y el micrófono. Dos soluciones típicas son utilizar una botas de goma o una junta. Cada vez que se elija el método, compruebe que el sello acústico es suficiente en todas las tolerancias de producción y en los cambios de entorno y duración.
Device.Audio.Acoustics.MicPlacement Coloque el micrófono lo más lejos posible de fuentes de ruido, como altavoces, ventiladores, teclados, unidades de disco duro y las manos del usuario, y lo más cerca posible de la boca del altavoz.
Device.Audio.Acoustics.MicSelfNoise El uso de un micrófono de alta calidad minimizará el ruido interno del micrófono. Se recomiendan micrófonos con un SNR de al menos 61 dB nominal para Standard y 63 dB para Premium.
Device.Audio.Acoustics.MicReceivedNoise Las dos fuentes principales de ruido recibido son ruido acústico y ruido eléctrico. El ruido acústico puede provenir de fuera del dispositivo o generarse internamente en el dispositivo debido a ventiladores, discos duros, etc. El ruido acústico también se puede transmitir a través de la mecánica del dispositivo. El ruido eléctrico se puede minimizar mediante micrófonos digitales en lugar de micrófonos analógicos.
Device.Audio.Acoustics.MicMagnitudeResponse Las máscaras Premium y Estándar se aplican a todos los niveles de dispositivo en Device.Audio.Acoustics.Bandwidth, por ejemplo, un dispositivo puede tener ancho de banda estándar (banda estrecha) y una respuesta de magnitud Premium dentro de esa banda.
Device.Audio.Acoustics.MicPhaseResponseMatching Esta recomendación garantiza que la relación temporal entre las señales recibidas a través de elementos de micrófono de una matriz sea coherente con la geometría física de los elementos de micrófono de la matriz.
Device.Audio.Acoustics.MicDistortion Se recomienda medir la distorsión mediante SDNR (relación de señal de ruido pulsada a distorsión y ruido), aunque también se proporcionan objetivos THD.
Device.Audio.Acoustics.MicBandwidth La frecuencia de muestreo de la señal de captura es el factor principal para determinar el ancho de banda efectivo de la señal de voz. Como la plataforma de voz usa modelos acústicos de 16 kHz en el reconocedor de voz, se recomienda una frecuencia de muestreo mínima de 16 kHz. 300 Hz es el extremo inferior efectivo del reconocedor de voz, pero 200 Hz es el límite acústico recomendado para los dispositivos que también tienen como destino las comunicaciones de voz.
Device.Audio.Acoustics.RenderDistortion Se recomienda medir la distorsión mediante SDNR (relación de señal de ruido pulsada a distorsión y ruido), aunque también se proporcionan objetivos THD.
Device.Audio.Acoustics.RenderPlacement Para permitir que el cancelador de eco acústico funcione bien, los altavoces del dispositivo deben colocarse a una distancia máxima desde los micrófonos o colocar valores NULL de directividad hacia altavoces.

 

Requisitos para habilitar una canalización de mejora de terceros

Los siguientes requisitos son clave para habilitar una canalización de mejora de terceros. Estas y otras recomendaciones se tratan con más detalle en las secciones siguientes:

  • Informes de ubicación del micrófono: explica cómo implementar una estructura de informes para una matriz de micrófonos.

  • El modo de voz admite:

    • Cómo registrar las API para modos específicos

    • Modos de procesamiento de señal de audio

  • Device.Audio.Base.Audioprocessing : la cancelación de eco acústico (AEC) y la supresión de nosie (NS) son necesarias para la canalización de terceros:

    • Implementación de objetos de procesamiento de audio

    • Arquitectura de objetos de procesamiento de audio

Programa de compatibilidad de hardware de Windows

Windows Hardware Lab Kit

Certificación de audio de Skype/Lync

Compatibilidad con la matriz de micrófonos en Windows