Голосовой ввод

2023-07-12

Голосовой ввод

Голос — один из основных типов ввода в HoloLens. Он позволяет напрямую командовать голограммой без использования жестов рукой. Голосовой ввод позволяет естественным способом сообщить о своих намерениях. Голос особенно хорошо подходит для обхода сложных интерфейсов, так как он позволяет пользователям прорезать вложенные меню с помощью одной команды.

Голосовой ввод работает на том же механизме , который поддерживает речь во всех универсальных приложениях для Windows. В HoloLens распознавание речи всегда будет работать на языке интерфейса Windows, настроенном в параметрах устройства.

Голос и взгляд

При использовании голосовых команд типичным механизмом нацеливания является взгляд головы или взгляда, будь то с курсором для выбора или для направления команды в приложение, которое вы просматриваете. Он может даже не потребоваться для отображения курсора взгляда ("увидеть его, сказать это"). Некоторые голосовые команды вообще не требуют целевого объекта, например "Перейти к запуску" или "Привет, Кортана".

Поддержка устройств

Компонент	HoloLens (1-го поколения)	HoloLens 2	Иммерсивные гарнитуры
Голосовой ввод	✔️	✔️	✔️ (с микрофоном)

Команда "выбрать"

HoloLens (1-го поколения)

Даже без специального добавления голосовой поддержки в приложение пользователи могут активировать голограммы, просто произнеся системную голосовую команду "выбрать". Это поведение выполняется так же, как при касании воздуха в HoloLens, нажатии кнопки выбора на clickие HoloLens или нажатии триггера на контроллере движения Windows Mixed Reality. Вы услышите звук и увидите подсказку с "выбрать" в качестве подтверждения. "Выбрать" включается с помощью алгоритма обнаружения ключевое слово с низким энергопотреблением. Это означает, что вы можете сказать это в любое время с минимальным влиянием на время работы батареи. Вы даже можете сказать "выбрать" руками на вашей стороне.

HoloLens 2

Чтобы использовать голосовую команду "выбрать" в HoloLens 2, необходимо сначала открыть курсор взгляда, который будет использоваться в качестве указателя. Команда для ее создания легко запомнить — просто произнесите "выбрать".

Чтобы выйти из режима, снова используйте руки, коснувшись воздуха, подойдя к кнопке пальцами или с помощью системного жеста.

Изображение: произнесите "select", чтобы использовать голосовую команду для выбора

Пользователь может сказать

"Привет, Кортана!"

Вы можете сказать "Привет, Кортана", чтобы вызвать Кортану в любое время. Вам не нужно ждать, пока она появится, чтобы продолжить задавать ей ваш вопрос или давать ей инструкции. Например, попробуйте сказать "Привет, Кортана, какая погода?" как одно предложение. Дополнительные сведения о Кортане и о том, что вы можете сделать, спросите ее! Скажите "Привет, Кортана, что я могу сказать?", и она подберет список рабочих и предлагаемых команд. Если вы уже используете приложение Кортаны, щелкните значок ? на боковой панели, чтобы открыть это же меню.

Команды HoloLens

"Что можно говорить?"
"Перейти к началу" — вместо блума, чтобы перейти в меню "Пуск"
"Запуск <приложения>"
"Переместить <приложение> сюда"
"Take a picture" (Сделать фотографию)
"Начать запись"
"Stop recording" (Остановить запись)
"Показать луч руки"
"Скрыть луч руки"
"Увеличение яркости"
"Уменьшить яркость"
"Увеличение объема"
"Уменьшить объем"
"Отключить звук" или "Включить"
"Завершение работы устройства"
"Перезапустить устройство"
"Перейти в спящий режим"
"Который час?"
"Сколько батареи осталось?"

"Видишь, скажи"

HoloLens имеет модель "увидеть это, сказать это" для голосового ввода, где метки на кнопках сообщают пользователям, какие голосовые команды они также могут произносить. Например, при просмотре окна приложения в HoloLens (1-го поколения) пользователь может сказать команду "Настроить", чтобы изменить положение приложения в мире.

Изображение: пользователь может произвести команду "Настроить", которая отображается на панели приложения, чтобы изменить положение приложения

При просмотре окна приложения или голограммы пользователь может с помощью команды

Когда приложения следуют этому правилу, пользователи могут легко понять, что сказать для управления системой. При просмотре кнопки в HoloLens (1-го поколения) вы увидите подсказку "Голосовое ожидание", которая всплывает через секунду, если кнопка включена с поддержкой голоса и отображает команду для "нажмите". Чтобы отобразить подсказки голоса в HoloLens 2, покажите голосовой курсор, сказав "выбрать" или "Что можно сказать" (см. изображение).

Изображение: под кнопками отображаются команды "Просмотреть, сказать"

Просмотрите его, предположим, что под кнопками отображаются команды

Голосовые команды для быстрой работы с голограммами

Существует множество голосовых команд, которые можно сказать, глядя на голограмму, чтобы быстро выполнять задачи манипуляции. Эти голосовые команды работают в окнах приложений и трехмерных объектах, которые вы разместили в мире.

Команды для управления голограммами

Лицом ко мне
Больше | Добавлять
Меньше

На HoloLens 2 вы также можете создавать более естественные взаимодействия в сочетании с взглядом, который неявно предоставляет контекстную информацию о том, что вы имеете в виду. Например, можно взглянуть на голограмму и сказать "put this", а затем посмотреть, где вы хотите разместить ее, и сказать "здесь". Или вы можете взглянуть на голографическую часть на сложной машине и сказать: "Дайте мне больше информации об этом".

Обнаружение голосовых команд

Некоторые команды, например приведенные выше команды для быстрого манипулирования, могут быть скрыты. Чтобы узнать, какие команды можно использовать, посмотрите на объект и скажите: "Что я могу сказать?". Появится список возможных команд. Вы также можете использовать курсор взгляда головы, чтобы посмотреть вокруг и показать подсказки голоса для каждой кнопки перед вами.

Если вам нужен полный список, просто скажите "Показать все команды" в любое время.

Диктовка

Вместо того, чтобы вводить текст с помощью касаний воздуха, голосовой диктовка может быть более эффективной для ввода текста в приложение. Это может значительно ускорить ввод с меньшими усилиями для пользователя.

Голосовой диктовка начинается с нажатия кнопки микрофона на клавиатуре

Когда голографическая клавиатура активна, вы можете переключиться в режим диктовки, а не вводить текст. Выберите микрофон в боковой части текстового поля ввода, чтобы приступить к работе.

Добавление голосовых команд в приложение

Рассмотрите возможность добавления голосовых команд при создании любого взаимодействия. Голос — это мощный способ управления системой и приложениями. Так как пользователи говорят с различными диалектами и акцентами, правильный выбор ключевых слов речи обеспечит однозначное толкование команд пользователей.

Преимущества голосового ввода

Голосовой ввод — это естественный способ сообщить о наших намерениях. Голос особенно хорошо подходит для обходов интерфейса, так как он может помочь пользователям прорезать несколько этапов интерфейса. Пользователь может просто сказать «вернуться», глядя на веб-страницу, вместо того, чтобы нажимать на кнопку в приложении. Эта небольшая экономия времени оказывает мощное эмоциональное влияние на восприятие пользователем опыта и дает им небольшое количество сверхспособности. Использование голоса также является удобным методом ввода, когда у нас есть полные руки или многозадается. На устройствах, где печатать на клавиатуре сложно, голосовая диктовка может быть эффективным альтернативным способом ввода текста. Наконец, в некоторых случаях, когда диапазон точности взгляда и жеста ограничен, голос может помочь устранить неоднозначное намерение пользователя.

Преимущества использования голоса для пользователя

Экономия времени — конечная цель достигается намного эффективнее.
Сокращение усилий — задания выполняются намного быстрее и не требуют значительных усилий.
Облегчение восприятия информации — это интуитивно понятно, легко выучить и запомнить.
Это действие является социально-приемлемым — оно должно соответствовать социально-одобренным нормам поведения.
Это установившаяся практика — использование голосовой связи легко может стать привычным поведением.

Проблемы при голосовом вводе

Хотя голосовой ввод отлично подходит для многих различных приложений, он также сталкивается с рядом проблем. Понимание преимуществ и проблем голосового ввода позволяет разработчикам приложений более эффективно выбрать способ и время использования голосового ввода и создать отличный интерфейс для пользователей.

Голосовой ввод для управления непрерывным вводом Одним из них является детализированное управление. Например, пользователю может потребоваться изменить громкость в музыкальном приложении. Она может сказать "громче", но не ясно, насколько громче система должна сделать громкость. Пользователь может сказать: "Сделать это немного громче", но "немного" трудно поддаться количеству. Перемещение или масштабирование голограмм с помощью голоса также сложно.

Надежность обнаружения голосового ввода Хотя системы голосового ввода становятся все лучше и лучше, иногда они могут неправильно слышать и интерпретировать голосовые команды. Главное — решить проблему в приложении. Предоставьте пользователям отзывы, когда система слушает, и то, что система поняла, проясняет потенциальные проблемы с пониманием речи пользователей.

Голосовой ввод в общих пространствах Голос может быть социально неприемлемым в пространствах, которыми вы делитесь с другими. Вот несколько таких случаев.

Пользователь может не беспокоить других пользователей (например, в тихой библиотеке или общем офисе).
Пользователи могут чувствовать себя неловко, когда они говорят с собой на публике,
Пользователь может чувствовать себя неловко, диктуя личное или конфиденциальное сообщение (включая пароли), в то время как другие прослушивают

Голосовой ввод уникальных или неизвестных слов Трудности при голосовом вводе также возникают, когда пользователи диктуют слова, которые могут быть неизвестны системе, такие как псевдонимы, определенные сленговые слова или сокращения.

Обучение голосовых команд Хотя конечной целью является естественное общение с системой, часто приложения по-прежнему полагаются на конкретные предварительно определенные голосовые команды. Проблема, связанная со значительным набором голосовых команд, заключается в том, как научить их, не перегружая пользователя, и как помочь пользователю сохранить их.

Состояния обратной связи голосовых команд

При правильном применении голосовых команд пользователь понимает, что он может сказать, и получает обратную связь о том, что система услышала его правильно. Эти два сигнала придают пользователю уверенность в правильности выбора голосовых команд в качестве основного метода ввода. Ниже приведена схема, показывающая, что происходит с курсором после распознавания голосовой команды и как он сообщает это пользователю.

1. Регулярное состояние курсора

2. Сообщает голосовую обратную связь, а затем исчезает

*3. Состояние обычного курсора
3. Возвращается в обычное состояние курсора

Главное, что пользователю следует знать о "речи" в смешанной реальности

Произнесите "Выбрать" при нацеливание на кнопку (вы можете использовать его в любом месте, чтобы выбрать кнопку).
Вы можете произнести имя метки кнопки панели приложения в некоторых приложениях, чтобы выполнить действие. Например, при просмотре приложения пользователь может сказать команду "Удалить", чтобы удалить приложение из мира (это экономит время от необходимости выбирать его рукой).
Вы можете начать прослушивание Кортаны, сказав "Привет, Кортана!" Вы можете задать ей вопросы ("Привет, Кортана, насколько высока Эйфелева башня"), попросить открыть приложение ("Привет, Кортана, откройте Netflix") или попросить ее открыть меню "Пуск" ("Привет, Кортана, отвези меня домой") и многое другое.

Распространенные вопросы пользователей о голосовых командах

Что я могу сказать?
Как узнать, что система услышала меня правильно?
- Система продолжает неправильно интерпретировать мои голосовые команды.
- Она не реагирует, когда я даю ей голосовые команды.
Она неправильно реагирует, когда я даю ей голосовые команды.
Как нацеливать голос на конкретное приложение или команду приложения?
Можно ли использовать голос для различных команд в голографическом кадре в HoloLens?

Связь

Для приложений, которые хотят воспользоваться настраиваемыми параметрами обработки входных аудиоданных, предоставляемыми HoloLens, важно понимать различные категории аудиопотоков , которые может использовать приложение. Windows 10 поддерживает несколько различных категорий потоков, и HoloLens использует три из них, чтобы обеспечить пользовательскую обработку для оптимизации качества звука микрофона, адаптированного для речи, коммуникации и т. п., которые можно использовать для сценариев захвата звука в окружающей среде (т. е. "видеокамеры").

Категория потока AudioCategory_Communications настроена для сценариев качества звонка и закадрового текста и предоставляет клиенту 24-разрядный монофонический аудиопоток с частотой 16 кГц для голоса пользователя.
Категория потока AudioCategory_Speech настраивается для подсистемы распознавания речи HoloLens (Windows) и предоставляет ей 24-разрядный монопоток с частотой 16 кГц для голоса пользователя. При необходимости эту категорию могут использовать сторонние обработчики речи.
Категория потока AudioCategory_Other настраивается для записи звука в окружающей среде и предоставляет клиенту 24-разрядный стереофонический аудиопоток с частотой 48 кГц.

Вся эта обработка звука выполняется с аппаратным ускорением, что означает, что функции истощают гораздо меньше энергии, чем если бы такая же обработка выполнялась на ЦП HoloLens. Избегайте выполнения других входных звуковых данных на ЦП, чтобы максимально увеличить время работы батареи системы и воспользоваться преимуществами встроенной разгруженной обработки входных аудиоданных.

Языки

HoloLens 2 поддерживает несколько языков. Помните, что голосовые команды всегда будут выполняться на языке интерфейса системы, даже если установлено несколько клавиатур или если приложения пытаются создать распознаватель речи на другом языке.

Устранение неполадок

Если у вас возникли проблемы с использованием команд "Выбрать" и "Привет, Кортана", попробуйте перейти в более тихое пространство, отвернувшись от источника шума или проговорив громче. В настоящее время все функции распознавания речи в HoloLens настраиваются и оптимизированы специально для носителей США английского языка.

В выпуске Windows Mixed Reality Developer Edition 2017 логика управления конечной точкой аудио будет работать нормально (навсегда) после выхода из системы и обратно на компьютер после первоначального подключения HMD. Перед первым выходом или выходом из системы после запуска wmr OOBE пользователь мог столкнуться с различными проблемами со звуком, от отсутствия звука до переключения звука в зависимости от того, как была настроена система перед первым подключением к HMD.