Голосовой ввод

Voice input

Голос — один из основных типов ввода в HoloLens. Она позволяет напрямую командировать голограмму без использования жестов рук. Голосовой ввод позволяет естественным способом сообщить о своих намерениях. Голос особенно хорошо подходит для обхода сложных интерфейсов, так как он позволяет пользователям прорезать вложенные меню с помощью одной команды.

Голосовой ввод поддерживается тем же механизмом, который поддерживает речь во всех универсальных приложениях Windows. В HoloLens распознавание речи всегда будет работать на Windows языке интерфейса, настроенном на устройстве Параметры.


Голос и взгляд

Если вы используете голосовые команды, направление головы или взгляда является типичным механизмом нацеливания, будь то курсор для выбора или направления команды в приложение, которое вы просматриваете. Он может даже не потребоваться, чтобы показать любой курсор взгляда ("см. его, сказать") Некоторые голосовые команды вообще не требуют целевого объекта, например "Перейти к запуску" или "Эй Кортана".


Поддержка устройств

Компонент HoloLens (1-го поколения) HoloLens 2 Иммерсивные гарнитуры
Голосовой ввод ✔️ ✔️ ✔️ (с микрофоном)

Команда select

HoloLens (1-го поколения)

Даже без специального добавления голосовой поддержки в приложение пользователи могут активировать голограммы, просто сказав системную голосовую команду "выбрать". Это работает так же, как касание воздуха на HoloLens, нажатие кнопки выбора на HoloLens щелчок или нажатие триггера на контроллере движения Windows Mixed Reality. Вы услышите звук и увидите подсказку с кнопкой "выбрать" в качестве подтверждения. "Select" включается алгоритмом обнаружения ключевых слов с низким энергопотреблением, что означает, что вы можете сказать это в любое время с минимальным воздействием на время работы батареи. Вы можете даже сказать "выбрать" руками на вашей стороне.



HoloLens 2

Чтобы использовать голосовую команду select в HoloLens 2, сначала необходимо открыть курсор взгляда для использования в качестве указателя. Команда, чтобы открыть ее, легко вспомнить- просто сказать: "выбрать".

Чтобы выйти из режима, снова используйте руки, коснувшись воздуха, приближаясь к кнопке пальцами или используя системный жест.

Изображение: скажите "выбрать", чтобы использовать голосовую команду для выбора

A user can say



"Привет, Кортана!"

Вы можете сказать :"Эй Кортана", чтобы в любое время воспитывать Кортана. Вы не должны ждать, пока она, кажется, будет продолжать задавать ей свой вопрос или давать ей инструкцию. Например, попробуйте сказать "Эй Кортана, какая погода?" в качестве одного предложения. Дополнительные сведения о Кортана и о том, что вы можете сделать, спросите ее! Скажите :"Эй Кортана, что я могу сказать?" И она подберет список рабочих и предлагаемых команд. Если вы уже находитесь в приложении Кортана, щелкните значок ?на боковой панели, чтобы открыть это же меню.

команды для конкретных HoloLens

  • "Что можно говорить?"
  • "Перейти к началу" - вместо цветения, чтобы перейти к меню "Пуск"
  • Запуск <приложения>
  • "Переместить <приложение> сюда"
  • "Take a picture" (Сделать фотографию)
  • "Начать запись"
  • "Stop recording" (Остановить запись)
  • "Показать луч руки"
  • "Скрыть луч руки"
  • "Увеличить яркость"
  • "Уменьшение яркости"
  • "Увеличить объем"
  • "Уменьшить объем"
  • "Отключить звук" или "Включить"
  • "Завершение работы устройства"
  • "Перезапустить устройство"
  • "Перейти в спящий режим"
  • "Который час?"
  • "Сколько батареи у меня осталось?"


"Видишь это, говоришь"

HoloLens имеет модель "увидеть, сказать это" для голосового ввода, где метки на кнопках сообщают пользователям, какие голосовые команды они также могут сказать. Например, при просмотре окна приложения в HoloLens (1-го поколения) пользователь может сказать команду "Изменить", чтобы настроить положение приложения в мире.

Изображение. Пользователь может сказать команду "Изменить", которая отображается на панели приложения, чтобы настроить положение приложения

space
When looking at an app window or hologram, a user can say the


Когда приложения следуют этому правилу, пользователи могут легко понять, что делать для управления системой. При взгляде на кнопку в HoloLens (1-го поколения), вы увидите подсказку "голосовые веллы", которая появится через секунду, если кнопка включена голосовой связью и отображает команду, чтобы поговорить с ним. Чтобы отобразить подсказки голоса в HoloLens 2, покажите курсор голоса, сказав "выбрать" или "Что можно сказать" (см. изображение).

Изображение: команды "Просмотреть, сказать, что это" отображаются под кнопками

See it, say it commands appear below the buttons



Голосовые команды для быстрой обработки голограммы

Существует множество голосовых команд, которые можно сказать, глядя на голограмму, чтобы быстро выполнять задачи манипуляции. Эти голосовые команды работают в окнах приложений и трехмерных объектах, которые вы разместили в мире.

Команды манипуляции голограммы

  • Лицом ко мне
  • Больше | Добавлять
  • Меньше

На HoloLens 2 вы также можете создавать более естественные взаимодействия в сочетании с взглядом, который неявно предоставляет контекстную информацию о том, что вы ссылаетесь. Например, можно взглянуть на голограмму и сказать "поставить это", а затем посмотреть, где вы хотите поместить его и сказать "здесь". Или вы можете взглянуть на голографическую часть на сложной машине и сказать: "Дайте мне больше информации об этом".

Обнаружение голосовых команд

Некоторые команды, такие как команды для быстрой манипуляции выше, могут быть скрыты. Чтобы узнать, какие команды можно использовать, взглянуть на объект и сказать: "Что я могу сказать?". Появится список возможных команд. Вы также можете использовать курсор взгляда головы, чтобы посмотреть вокруг и отобразить подсказки голоса для каждой кнопки перед вами.

Если вам нужен полный список, просто скажите "Показать все команды" в любое время.

Диктовка

Вместо ввода текста с помощью касаний воздуха диктовка голоса может быть более эффективной для ввода текста в приложение. Это может значительно ускорить ввод с меньшими усилиями для пользователя.

Voice dictation starts by selecting the microphone button
Диктовка голоса начинается с нажатия кнопки микрофона на клавиатуре

В любое время, когда голографическая клавиатура активна, вместо ввода можно переключиться в режим диктовки. Выберите микрофон на стороне текстового поля ввода, чтобы приступить к работе.

Добавление голосовых команд в приложение

Рассмотрите возможность добавления голосовых команд при создании любого взаимодействия. Голосовая связь — это эффективный способ управления системой и приложениями. Так как пользователи говорят с различными типами диалектов и акцентов, правильный выбор ключевых слов речи гарантирует, что команды пользователей интерпретируются однозначно.

Рекомендации

Ниже приведены некоторые рекомендации, которые помогут облегчить распознавание речи.

  • Используйте краткие команды. По возможности выбирайте ключевые слова из двух или более слогов. В односложных словах лица с разными акцентами обычно используют разные гласные. Пример: "Воспроизведение видео" лучше, чем "Воспроизвести выбранное видео"
  • Использование простого словаря — пример: "Показать заметку" лучше, чем "Показать плакат"
  • Убедитесь, что команды неразрушительны. Убедитесь , что все действия речевых команд являются неразрушительными и могут быть легко отменены, если другой пользователь, выступающий рядом с пользователем, случайно активирует команду.
  • Избегайте аналогичных звуковых команд. Избегайте регистрации нескольких речевых команд, которые звучат аналогично. Пример: "Показать больше" и "Показать магазин" может быть похожим звуком.
  • Отмените регистрацию приложения, если оно не используется . Если приложение не находится в состоянии, в котором допустима определенная голосовая команда, рассмотрите возможность отмены регистрации, чтобы другие команды не путались для этого.
  • Протестируйте с разными акцентами. Протестируйте приложение с пользователями с разными акцентами.
  • Обеспечьте согласованность голосовых команд. Если команда "Назад" переводит на предыдущую страницу, поддерживайте это поведение в своих приложениях.
  • Избегайте использования системных команд . Для системы зарезервированы следующие голосовые команды, поэтому не используйте их в приложениях:
    • "Привет, Кортана!".
    • "Выбрать"
    • "Перейти к началу"

Преимущества голосового ввода

Голосовой ввод — это естественный способ сообщить о наших намерениях. Голос особенно хорошо подходит для обходов интерфейса, так как он может помочь пользователям выполнить несколько шагов интерфейса. Пользователь может просто сказать «вернуться», глядя на веб-страницу, вместо того, чтобы нажимать на кнопку в приложении. Это небольшое экономия времени оказывает мощное эмоциональное влияние на восприятие пользователем опыта и дает им небольшое количество сверхдержавы. Использование голоса также является удобным методом ввода, когда у нас есть руки полные или многофакторная задача. На устройствах, где ввод текста на клавиатуре затруднен, диктовка голоса может быть эффективным альтернативным способом ввода текста. Наконец, в некоторых случаях, когда диапазон точности для взгляда и жеста ограничен, голос может помочь устранить неоднозначные намерения пользователя.

Преимущества использования голоса для пользователя

  • Экономия времени — конечная цель достигается намного эффективнее.
  • Сокращение усилий — задания выполняются намного быстрее и не требуют значительных усилий.
  • Облегчение восприятия информации — это интуитивно понятно, легко выучить и запомнить.
  • Это действие является социально-приемлемым — оно должно соответствовать социально-одобренным нормам поведения.
  • Это установившаяся практика — использование голосовой связи легко может стать привычным поведением.

Проблемы для голосового ввода

Хотя голосовой ввод отлично подходит для многих различных приложений, он также сталкивается с рядом проблем. Понимание преимуществ и проблем для голосового ввода позволяет разработчикам приложений сделать более умный выбор того, как и когда использовать голосовой ввод и создать отличный интерфейс для своих пользователей.

Голосовой ввод для непрерывного управления входным вводом Детальный контроль является одним из них. Например, пользователю может потребоваться изменить громкость в музыкальном приложении. Она может сказать "громче", но это не ясно, сколько громче система должна сделать объем. Пользователь может сказать: "Сделать его немного громче", но "немного" трудно количественно оценить. Перемещение или масштабирование голограмм с помощью голоса аналогично сложно.

Надежность обнаружения голосовых входных данных Хотя системы голосового ввода становятся лучше и лучше, иногда они могут неправильно слышать и интерпретировать голосовую команду. Ключом является решение проблемы в приложении. Предоставьте пользователям обратную связь, когда система прослушивает и что понимает система, объясняет потенциальные проблемы, связанные с речью пользователей.

Голосовой ввод в общих пространствах Голос может быть не социально приемлемым в пространствах, которыми вы делитесь с другими. Вот несколько примеров:

  • Пользователь может не беспокоить других пользователей (например, в тихой библиотеке или общем офисе)
  • Пользователи могут чувствовать себя неловко, когда говорят с собой в общественных местах,
  • Пользователь может чувствовать себя неудобно диктовку личного или конфиденциального сообщения (включая пароли), пока другие слушают

Голосовой ввод уникальных или неизвестных слов Трудности при голосовом вводе также возникают, когда пользователи диктовывают слова, которые могут быть неизвестны системе, такие как псевдонимы, определенные сленговые слова или сокращения.

Обучение голосовые команды, хотя конечной целью является естественное общение с вашей системой, часто приложения по-прежнему полагаются на определенные предварительно определенные голосовые команды. Проблема, связанная со значительным набором голосовых команд, заключается в том, как научить их без перегрузки пользователя и как помочь пользователю сохранить их.



Состояния обратной связи голосовых команд

При правильном применении голосовых команд пользователь понимает, что он может сказать, и получает обратную связь о том, что система услышала его правильно. Эти два сигнала придают пользователю уверенность в правильности выбора голосовых команд в качестве основного метода ввода. Ниже приведена схема, показывающая, что происходит с курсором после распознавания голосовой команды и как он сообщает это пользователю.

1. Regular cursor state
1. Регулярное состояние курсора

2. Communicates voice feedback and then disappears
2. Обмен данными о голосовой связи, а затем исчезает

*3. Regular cursor state
3. Возвращается в регулярное состояние курсора




Главное, что пользователю следует знать о "речи" в смешанной реальности

  • Скажите "Выбрать" при нацеливание на кнопку (вы можете использовать ее в любом месте, чтобы выбрать кнопку).
  • Вы можете произнести имя метки кнопки панели приложения в некоторых приложениях, чтобы выполнить действие. Например, при просмотре приложения пользователь может сказать команду "Удалить", чтобы удалить приложение из мира (это экономит время от необходимости выбирать его рукой).
  • Вы можете начать Кортана слушать, сказав: "Эй, Кортана". Вы можете задать ей вопросы ("Эй, Кортана, как высокий Эйфелевой башни"), сказать ей, чтобы открыть приложение ("Эй Кортана, открыть Netflix"), или сказать ей, чтобы поднять меню "Пуск" ("Эй Кортана, взять меня домой") и многое другое.

Распространенные вопросы пользователей о голосовых командах

  • Что я могу сказать?
  • Как узнать, что система услышала меня правильно?
    • Система продолжает неправильно интерпретировать мои голосовые команды.
    • Она не реагирует, когда я даю ей голосовые команды.
  • Она неправильно реагирует, когда я даю ей голосовые команды.
  • Как нацеливать голос на конкретное приложение или команду приложения?
  • Можно ли использовать голос для различных команд в голографическом кадре в HoloLens?

Обмен данными

Для приложений, которые хотят воспользоваться настраиваемыми параметрами обработки звуковых входных данных, предоставляемыми HoloLens, важно понимать различные категории аудиопотоков, которые может использовать ваше приложение. Windows 10 поддерживает несколько различных категорий потоков, и HoloLens использует три из них, чтобы обеспечить пользовательскую обработку для оптимизации качества звука микрофона, адаптированного для распознавания речи, связи и других, которые можно использовать для сценариев захвата звука окружающей среды (то есть "camcorder").

  • Категория потоков AudioCategory_Communications настраивается для сценариев качества звонков и закадрового текста и предоставляет клиенту 16-кГц 24-разрядный монофонический аудиопоток голоса пользователя.
  • Категория потока AudioCategory_Speech настраивается для модуля речи HoloLens (Windows) и предоставляет ему 16-кГц 24-разрядный монопоток голоса пользователя. Эта категория может использоваться сторонними обработчиками речи при необходимости.
  • Категория потоков AudioCategory_Other настраивается для записи звука окружающей среды и предоставляет клиенту 48-кГц 24-разрядный стереопоток.

Вся эта обработка звука является аппаратным ускорением, что означает, что функции истощают гораздо меньше энергии, чем если бы такая же обработка была выполнена на HoloLens ЦП. Избегайте выполнения другой обработки входных аудиоданных на ЦП, чтобы максимально увеличить время работы системной батареи и воспользоваться преимуществами встроенной разгрузки обработки входных звуковых данных.

Языки

HoloLens 2 поддерживает несколько языков. Имейте в виду, что команды речи всегда будут выполняться на языке интерфейса системы, даже если установлены несколько клавиатур или если приложения пытаются создать распознаватель речи на другом языке.

Устранение неполадок

Если у вас возникли проблемы с использованием команды select и "Hey Кортана", попробуйте перейти в более тихое пространство, отключившись от источника шума, или говоря громче. В настоящее время все распознавание речи на HoloLens настраивается и оптимизировано специально для носителей США английского языка.

Для выпуска Windows Mixed Reality Developer Edition 2017 логика управления звуковыми конечными точками будет работать нормально (навсегда) после выхода из системы и обратно на компьютер после первоначального подключения HMD. Перед первым выходом или событием после прохождения wmR OOBE пользователь может столкнуться с различными проблемами с функциями звука, начиная от звука до без переключения звука в зависимости от того, как система была настроена перед подключением HMD в первый раз.



Голосовой ввод в MRTK (Смешанная реальность набор средств) для Unity

С помощью MRTK можно легко назначить голосовую команду для любых объектов. Используйте профиль ввода речи MRTK для определения ключевых слов. Назначив скрипт SpeechInputHandler , вы можете сделать любой объект ответом на ключевые слова, определенные в профиле ввода речи. SpeechInputHandler также предоставляет метку подтверждения речи для повышения достоверности пользователя.


См. также