Аудио

В этом документе приведены рекомендации по проектированию и разработке звуковых устройств, включая воспроизведение звука и устройства ввода звука, предназначенные для использования с платформой распознавания речи Майкрософт. Платформа "Речь" используется для управления всеми возможностями речи в Windows, таких как ввод голосовых и динамических субтитров. Цель этого документа заключается в том, чтобы партнеры экосистемы могли создавать устройства с оптимизированным звуковым интерфейсом с технологией Майкрософт.

Минимальные требования к оборудованию и программа совместимости оборудования Windows

Минимальные требования к оборудованию и требования к программе совместимости оборудования Windows являются основными для создания решений, совместимых с Windows. Хотя программы являются необязательными, настоятельно рекомендуется, чтобы звуковые продукты соответствовали обоим наборам требований, чтобы обеспечить базовое качество звука.

Дополнительные сведения о каждом из них:

Сценарий оптимизации воспроизведения звука с несколькими потоками

Хотя мультипотоковая передача больше не является требованием для выпуска Windows 10 Desktop, настоятельно рекомендуется иметь не менее двух цифровых аналоговых преобразователей (DAC) для поддержки сценариев многопотоковой передачи. Если используется один DAC (например, перенаправленный наушник), настоятельно рекомендуется поддерживать управление громкостями звука и состояние независимо для каждой конечной точки звука (например, интегрированных динамиков или 3,5 мм аудиоразъема), чтобы параметры пользователя могли быть сохранены.

Оптимизация звукового решения для распознавания речи и коммуникаций

Как только звуковое решение соответствует минимальным требованиям к оборудованию и программе совместимости Windows, звуковое решение будет предоставлять базовые звуковые возможности в Windows. В зависимости от целевого сегмента рынка устройство может поддерживать две дополнительные оптимизации: платформа распознавания речи и Skype. Рекомендации для платформы распознавания речи и Skype на основе требований к базовому интерфейсу звука. Это будет проблемой оптимизации для платформы речи или Skype, если звуковое решение не полностью соответствует основным требованиям.

Примечание.

Рекомендации по телефонии и приложениям, таким как Skype, будут добавлены в этот раздел, когда они доступны.

 

audio recommendations

Распознавание речи в Windows

Производители устройств рекомендуется интегрировать и настроить обработку улучшения речи на устройстве, чтобы оптимизировать производительность относительно критериев теста распознавания речи.

Для устройств без встроенной обработки улучшения речи корпорация Майкрософт предоставляет обработку по умолчанию в Windows. Обработка усовершенствования речи от Корпорации Майкрософт не нуждается в настройке устройства с помощью IHV.

Конвейер улучшения речи Майкрософт будет использоваться, если звуковой драйвер не предоставляет геометрию микрофона и обработку звуковых сигналов для речи. Чтобы использовать сторонние улучшения, геометрия микрофона должна быть предоставлена, поддерживать режим обработки сигнала "речь" на входе звука и гарантировать, что эффекты, предоставляемые звуковым драйвером или его программными API, включают по крайней мере подавление шума и отмену эхо.

Разница между распознаванием речи и телефонией

Многие устройства, предназначенные для функций распознавания речи, также предназначены для использования телефонии. Очевидно, что оба сценария используют устройства с микрофонами для сбора человеческой речи, конвейеров обработки звука для удаления шума из среды и улучшения человеческой речи, а также использования приложений, которые используют четкий сигнал речи для понимания речи.

Различия лежат в том, кто или что потребляет сигнал речи. Телефония имеет человеческого потребителя, для которого перцептуальное качество голоса и распознавание речи являются основными. Распознавание речи имеет алгоритмический потребитель, где машинное обучение обучалось на конкретных функциях сигнала речи определяет, что распознается, и где эти функции не обязательно соответствуют нормативным требованиям.

Качество распознавания речи часто коррелирует с точностью распознавания речи, но это не всегда так. В этом документе рассматриваются методы оценки и максимизации точности распознавания речи. Рекомендуется поддерживать режим обработки сигналов "речь" и настраивать этот режим специально для распознавания речи.

Передача сертификации звука Skype или Lync является сильным индикатором хорошей производительности звука устройства.

Рекомендации по аудиоустройствам

В следующих разделах рассматриваются рекомендации по распознаванию речи. Чтобы обеспечить высокий уровень взаимодействия с речью, все устройства должны быть проверены в соответствии с этими требованиями к производительности.

Площадь Тип руководства Какие устройства следует протестировать
Device.SpeechRecognition Предоставляет требования к производительности распознавания речи для обеспечения высокого качества распознавания речи. Все устройства должны тестироваться в соответствии с этими требованиями к производительности.
Device.Audio Предоставляет рекомендации для оптимальной работы с ос узла с точки зрения программных интерфейсов, протоколов связи и форматов данных. Все устройства должны быть проверены в соответствии с этими рекомендациями.
Device.Audio.Acoustics Предоставляет рекомендации и рекомендации по акустике и связанным свойствам дизайна устройства. Наиболее релевантные для устройств, которые будут использовать обработку улучшения речи Майкрософт.

 

Device.SpeechRecognition

В следующей таблице приведены рекомендации Майкрософт по точности распознавания речи для устройств в различных средах. Все целевые объекты находятся в точности речи.

Тест Description Назначение Рекомендация
Device.SpeechRecognition.Quiet Идеальная среда с минимальным внешним шумом (шумовой этаж < 35 dBA SPL) и без получения (эхо-пути) шума. Quiet <= 35 dBA SPL 95 %
Device.SpeechRecognition.AmbientNoise Различные уровни и типы шумных сред, например Café и Pub. Внешний шум @ DUT >= 57 dBA SPL 90 %
Device.SpeechRecognition.EchoNoise Различные уровни и типы сценариев воспроизведения отрисовки (например, воспроизведение мультимедиа). Эхо шум @ LRP >= 70 dBA SPL 90 %

Device.Audio

Рекомендации в этом разделе рассматриваются программные и аппаратные интерфейсы, протоколы связи и форматы данных устройства. Устройства, предназначенные для использования функций распознавания речи, должны соответствовать всем требованиям Device.Audio.

Имя. Рекомендация
Device.Audio.Base.AudioProcessing Драйверы должны предоставлять все звуковые эффекты через FXStreamCLSID, FXModeCLSID и API-интерфейсы FXEndpointCLSID (или прокси-api). Api-интерфейсы должны отправлять точный список эффектов, которые включены в систему при запросе. Драйверы должны поддерживать уведомления об изменениях APO и уведомлять систему только при изменении APO.
Device.Audio.Base.StreamingFormats Функции распознавания речи во всех форматах потоковой передачи звука и отрисовки, определенных в HLK StreamingFormats, при этом оптимальным значением является 16 кГц с 24-разрядной записью и монорисовкой.
Device.Audio.Base.SamplePositionAccuracy Важно, чтобы отрисовка и запись звуковых сигналов точно и 2) точно отрисовывалась и 2).
Device.Audio.USB.USB Все usb-устройства ввода звука должны правильно задать дескриптор в соответствии со спецификацией класса устройства USB.org.
Рекомендации по драйверам Стратегия разработки звуковых драйверов WDM

 

Device.Audio.Acoustics

Рекомендации в этом разделе относятся к акустическим и связанным свойствам устройства, таким как размещение микрофона и громкоговоритель, ответы микрофона, полученные шум от устройства и т. д. Выбор микрофона, размещение, интеграция и проектирование массива являются одними из наиболее важных факторов для поддержки производительности распознавания речи качества.

Рекомендации и тесты относятся к сигналу перед обработкой улучшения речи, но после равенства микрофона и фиксированного получения микрофона.

Дополнительные сведения обо всех этих рекомендациях, включая рекомендуемые геометрии массива микрофонов, см. в разделе "Формат дескриптора геометрии массива микрофонов".

Имя. Рекомендация
Device.Audio.Acoustics.MicArray Обратитесь к поддержке массива микрофонов в Windows. Звуковой драйвер должен реализовать свойство KSPROPERTY_AUDIO_MIC_ARRAY_GEOMETRY . Затем можно получить доступ к свойству System.Devices.MicrophoneArray.Geometry через API Windows.Devices.Enumeration. USB-звуковой драйвер будет поддерживать это свойство для массивов USB-микрофонов, имеющих соответствующие поля, заданные в дескрипторе USB.
Дескриптор массива микрофонов Устройство должно описать тип микрофона и геометрию с помощью дескриптора массива микрофонов.
Device.Audio.Acoustics.MicSensitivity Для параметра Max задана возможность поддерживать уровни ввода речи, которые считаются "громкими", и рекомендация Min будет иметь возможность поддерживать уровни ввода речи, которые считаются "тихими".
Device.Audio.Acoustics.MicIntegration Микрофоны должны быть интегрированы, чтобы обеспечить хорошую акустическую запечатку между микрофоном и корпусом устройства, и, если это необходимо, вдоль микрофона переносной трубки. Свести к минимуму акустический шум и вибрацию между системой и микрофоном. Двумя типичными решениями являются использование резиновой загрузки или прокладки. Какой бы метод ни был выбран, проверка, что акустическая печать достаточно для всех производственных допустимых значений, а также по сравнению с изменениями среды и времени существования.
Device.Audio.Acoustics.MicPlacement Поместите микрофон как можно дальше от источников шума, таких как громкоговорители, вентиляторы, клавиатуры, жесткие диски, и руки пользователя, и как можно ближе к рот спикера.
Device.Audio.Acoustics.MicSelfNoise Использование высококачественного микрофона свести к минимуму внутренний шум микрофона. Микрофоны с SNR по крайней мере 61 dB номинально рекомендуется использовать для категории "Стандартный" и 63 dB для уровня "Премиум".
Device.Audio.Acoustics.MicReceivedNoise Два основных источника полученного шума — акустический шум и электрический шум. Акустический шум может поступать извне устройства или создаваться внутри устройства из-за вентиляторов, жестких дисков и т. д. Акустический шум также может передаваться с помощью механики устройства. Электрический шум можно свести к минимуму с помощью цифровых микрофонов, а не аналоговых микрофонов.
Device.Audio.Acoustics.MicMagnitudeResponse Маски уровня "Премиум" и "Стандартный" применяются ко всем уровням устройств в разделе Device.Audio.Acoustics.Пропускная способность, например устройство может иметь стандартную пропускную способность (узкий диапазон) и ответ величины Premium в этой полосе.
Device.Audio.Acoustics.MicPhaseResponseMatching Эта рекомендация гарантирует, что темпоральная связь между сигналами, получаемыми с помощью элементов микрофона в массиве, согласуется с физической геометрией элементов микрофона в массиве.
Device.Audio.Acoustics.MicDistortion Искажение рекомендуется измерять с помощью SDNR (пульсовый коэффициент сигнала шума к искажениям и шуму), хотя целевые объекты THD также предоставляются.
Device.Audio.Acoustics.MicBandwidth Частота выборки сигнала захвата является основным фактором в определении эффективной пропускной способности сигнала речи. Поскольку платформа распознавания речи использует 16 кГц акустических моделей в распознавателье речи, рекомендуется использовать минимальную частоту выборки 16 кГц. 300 Гц — это эффективный нижний конец распознавателя речи, однако 200 Гц — это рекомендуемое акустическое ограничение для устройств, предназначенных для голосовых коммуникаций.
Device.Audio.Acoustics.RenderDistortion Искажение рекомендуется измерять с помощью SDNR (пульсовый коэффициент сигнала шума к искажениям и шуму), хотя целевые объекты THD также предоставляются.
Device.Audio.Acoustics.RenderPlacement Чтобы включить акустическую отмену эхо-отмены для работы, динамики устройств должны размещаться на максимальном расстоянии от микрофонов или помещать значения directivity null к громкоговорителям.

 

Требования к включению конвейера улучшения стороннего производителя

Следующие требования являются ключевыми для включения конвейера улучшения стороннего производителя. Эти и другие рекомендации подробно рассматриваются в следующих разделах:

  • Отчеты о расположении микрофона— объясняет, как реализовать структуру отчетов для массива микрофонов.

  • Режим речи поддерживает:

    • Регистрация API для определенных режимов

    • Режимы обработки звуковых сигналов

  • Device.Audio.Base.Audioprocessing — акустическая отмена эхо (AEC) и подавление Nosie (NS) требуются для стороннего конвейера:

    • Реализация объектов обработки звука

    • Архитектура объекта обработки звука

Программа совместимости оборудования Windows

Комплект лабораторий оборудования Windows

Сертификация звука Skype или Lync

Поддержка массива микрофонов в Windows