Entrada de voz

2023-03-21

Entrada de voz

La voz es una de las formas clave de entrada en HoloLens. Permite comandos directos de un holograma sin tener que usar gestos de mano. La entrada de voz es una manera natural de comunicar tus intenciones. La voz es especialmente buena en el recorrido de interfaces complejas, ya que permite a los usuarios cortar a través de menús anidados con un comando.

La entrada de voz se basa en el mismo motor que admite voz en todas las aplicaciones universales de Windows. En HoloLens, el reconocimiento de voz siempre funcionará en el idioma de visualización de Windows configurado en la configuración del dispositivo.

Voz y mirada

Cuando se usan comandos de voz, la mirada con la cabeza o el ojo es el mecanismo de destino típico, ya sea con un cursor para "seleccionar" o para canalizar el comando a una aplicación que está examinando. Es posible que ni siquiera sea necesario mostrar ningún cursor de mirada ("verlo, dilo"). Algunos comandos de voz no requieren un destino en absoluto, como "ir a empezar" o "Hola Cortana".

Compatibilidad con dispositivos

Característica	HoloLens (1.ª generación)	HoloLens 2	Cascos envolventes
Entrada de voz	✔️	✔️	✔️ (con micrófono)

Comando "select"

HoloLens (1ª generación)

Incluso sin agregar específicamente compatibilidad con voz a la aplicación, los usuarios pueden activar hologramas simplemente diciendo el comando de voz del sistema "select". Esto se comporta igual que una pulsación de aire en HoloLens, presionando el botón de selección en el clicker de HoloLens o presionando el desencadenador en un controlador de movimiento Windows Mixed Reality. Escuchará un sonido y verá que aparece una información sobre herramientas con "select" como confirmación. "Select" está habilitado por un algoritmo de detección de palabras clave de bajo consumo, lo que significa que puede decirlo en cualquier momento con un impacto mínimo en la duración de la batería. Incluso puedes decir "seleccionar" con las manos a tu lado.

HoloLens 2

Para usar el comando de voz "select" en HoloLens 2, primero debe abrir el cursor de mirada para usarlo como puntero. El comando para abrirlo es fácil de recordar, simplemente decir, "seleccionar".

Para salir del modo, vuelva a usar las manos pulsando en el aire, acercándose a un botón con los dedos o usando el gesto del sistema.

Imagen: diga "select" para usar el comando de voz para la selección

Un usuario puede decir

Hola Cortana

Puedes decir "Hey Cortana" para abrir Cortana en cualquier momento. No tienes que esperar a que la siga haciendo tu pregunta o dándole una instrucción. Por ejemplo, intente decir "Hey Cortana, ¿cuál es el tiempo?" como una sola frase. Para obtener más información sobre Cortana y lo que puede hacer, pídale! Diga "Hey Cortana, ¿qué puedo decir?" y ella extraerá una lista de comandos de trabajo y sugeridos. Si ya está en la aplicación Cortana, seleccione el icono ? de la barra lateral para extraer este mismo menú.

Comandos específicos de HoloLens

"¿Qué puedo decir?"
"Ir a inicio": en lugar de florecer para llegar al menú Inicio
"Iniciar <aplicación>"
"Mover <la aplicación> aquí"
"Toma una foto"
"Iniciar grabación"
"Detén el vídeo"
"Mostrar rayo de mano"
"Ocultar rayo de mano"
"Aumentar el brillo"
"Disminuir el brillo"
"Aumentar el volumen"
"Disminuir el volumen"
"Silenciar" o "Desactivar"
"Apagar el dispositivo"
"Reiniciar el dispositivo"
"Ir a dormir"
"¿Qué hora es?"
"¿Cuánto batería me queda?"

"Mira, dilo"

HoloLens tiene un modelo de "verlo, decirlo" para la entrada de voz, donde las etiquetas de los botones indican a los usuarios qué comandos de voz pueden decir también. Por ejemplo, al examinar una ventana de la aplicación en HoloLens (1.ª generación), un usuario puede decir el comando "Ajustar" para ajustar la posición de la aplicación en el mundo.

Imagen: un usuario puede decir el comando "Ajustar", que ve en la barra de la aplicación para ajustar la posición de la aplicación.

Al examinar una ventana de aplicación o un holograma, un usuario puede decir el comando

Cuando las aplicaciones siguen esta regla, los usuarios pueden comprender fácilmente qué decir para controlar el sistema. Mientras observa en un botón de HoloLens (1.ª generación), verá una información sobre herramientas de "permanencia de voz" que aparece después de un segundo si el botón está habilitado para voz y muestra el comando para hablar con "presionarlo". Para mostrar información sobre herramientas de voz en HoloLens 2, muestre el cursor de voz diciendo "select" o "What can I say" (Ver imagen).

Imagen: "Verlo, decir que" los comandos aparecen debajo de los botones

Vea, supongamos que los comandos aparecen debajo de los botones.

Comandos de voz para la manipulación rápida de hologramas

Hay muchos comandos de voz que puedes decir mientras observas en un holograma para realizar rápidamente tareas de manipulación. Estos comandos de voz funcionan en ventanas de aplicaciones y objetos 3D que ha colocado en el mundo.

Comandos de manipulación de hologramas

Carame
Mayor | Mejorar
Más pequeño

En HoloLens 2, también puede crear interacciones más naturales en combinación con la mirada ocular, que proporciona implícitamente información contextual sobre lo que hace referencia. Por ejemplo, podría ver un holograma y decir "poner esto" y, a continuación, mirar dónde quiere colocarlo y decir "por aquí". O bien, podría ver una parte holográfica en una máquina compleja y decir: "dame más información sobre esto".

Detección de comandos de voz

Algunos comandos, como los comandos para la manipulación rápida anterior, se pueden ocultar. Para obtener información sobre los comandos que puede usar, mire un objeto y diga: "¿Qué puedo decir?". Aparece una lista de posibles comandos. También puede usar el cursor de mirada con la cabeza para mirar alrededor y mostrar la información sobre herramientas de voz para cada botón delante de usted.

Si desea una lista completa, por ejemplo, "Mostrar todos los comandos" en cualquier momento.

Dictado

En lugar de escribir con pulsaciones de aire, el dictado de voz puede ser más eficaz para introducir texto en una aplicación. Esto puede acelerar considerablemente la entrada con menos esfuerzo para el usuario.

El dictado de voz comienza seleccionando el botón micrófono en el teclado.

Cada vez que el teclado holográfico esté activo, puede cambiar al modo de dictado en lugar de escribir. Seleccione el micrófono en el lado del cuadro de entrada de texto para empezar.

Adición de comandos de voz a la aplicación

Considera la posibilidad de agregar comandos de voz a cualquier experiencia que compiles. La voz es una forma eficaz de controlar el sistema y las aplicaciones. Dado que los usuarios hablan con diferentes tipos de dialectos y acentos, la elección adecuada de palabras clave de voz se asegurará de que los comandos de los usuarios se interpreten de forma inequívoca.

Procedimientos recomendados

A continuación se muestran algunas prácticas que te ayudarán a realizar sin problemas las tareas de reconocimiento de voz.

Usa comandos concisos: cuando sea posible, elige palabras clave de dos o más sílabas. Las palabras de una sílaba tienden a tener diferentes pronunciaciones de las vocales dependiendo del acento de la persona. Ejemplo: "Reproducir vídeo" es mejor que "Reproducir el vídeo seleccionado actualmente"
Usar vocabulario simple : ejemplo: "Mostrar nota" es mejor que "Mostrar placard"
Asegúrese de que los comandos no sean destructivos : asegúrese de que las acciones de comandos de voz no sean destructivas y que se puedan deshacer fácilmente en caso de que otra persona que hable cerca del usuario desencadene accidentalmente un comando.
Evitar comandos de sonido similares : evite registrar varios comandos de voz que son similares. Ejemplo: "Mostrar más" y "Show store" pueden ser similares.
Anular el registro de la aplicación cuando no lo use : cuando la aplicación no esté en un estado en el que un comando de voz determinado sea válido, considere la posibilidad de anular el registro para que otros comandos no se confundan para ese.
Prueba con diferentes acentos: prueba la aplicación con usuarios con diferentes acentos.
Mantén la coherencia en los comandos de voz: si "Volver" va a la página anterior, mantén este comportamiento en tus aplicaciones.
Evitar el uso de comandos del sistema : los siguientes comandos de voz están reservados para el sistema, por lo que evite usarlos en las aplicaciones:
- "Hola Cortana"
- "Seleccionar"
- "Ir a empezar"

Ventajas de la entrada de voz

Las entradas de voz son una manera natural de comunicar nuestras intenciones. La voz es especialmente buena en los recorridos de interfaz, ya que puede ayudar a los usuarios a recorrer varios pasos de una interfaz. Un usuario podría decir "volver" mientras mira una página web, en lugar de tener que subir y hacer clic en el botón Atrás de la aplicación. Este pequeño ahorro de tiempo tiene un efecto emocional poderoso en la percepción del usuario de la experiencia y les da una pequeña cantidad de superpotencia. El uso de voz también es un método de entrada conveniente cuando tenemos nuestros brazos llenos o son tareas múltiples. En los dispositivos en los que escribir en un teclado es difícil, el dictado de voz puede ser una manera alternativa eficaz de introducir texto. Por último, en algunos casos cuando el intervalo de precisión para la mirada y el gesto son limitados, la voz puede ayudar a desambiguar la intención del usuario.

Cómo puede beneficiar al usuario la utilización de la voz

Reduce el tiempo: debe hacer que el objetivo final sea más eficaz.
Minimiza el esfuerzo: debe hacer que las tareas se realicen de forma más fluida y sin esfuerzo.
Reduce la carga cognitiva: es una forma intuitiva y fácil de aprender y recordar.
Es socialmente aceptable; debe ajustarse a las normas sociales de comportamiento.
Es fácil de convertir en rutina: puede convertirse fácilmente en un comportamiento habitual.

Desafíos para la entrada de voz

Aunque la entrada de voz es excelente para muchas aplicaciones diferentes, también se enfrenta a varios desafíos. Comprender las ventajas y los desafíos de la entrada de voz permite a los desarrolladores de aplicaciones tomar decisiones más inteligentes sobre cómo y cuándo usar la entrada de voz y crear una excelente experiencia para sus usuarios.

Entrada de voz para el control de entrada continua El control específico es uno de ellos. Por ejemplo, un usuario podría querer cambiar su volumen en su aplicación de música. Puede decir "más fuerte", pero no está claro cuánto más fuerte se supone que el sistema hace el volumen. El usuario podría decir: "Hacer que sea un poco más fuerte", pero "un poco" es difícil cuantificar. Mover o escalar hologramas con voz es igualmente difícil.

Confiabilidad de la detección de entrada de voz Aunque los sistemas de entrada de voz se vuelven mejores y mejores, a veces pueden oír e interpretar incorrectamente un comando de voz. La clave es abordar el desafío de la aplicación. Proporcionar comentarios a los usuarios cuando el sistema escucha y lo que el sistema entiende aclara los posibles problemas de comprensión de la voz de los usuarios.

Entrada de voz en espacios compartidos La voz puede no ser socialmente aceptable en espacios que comparta con otros. Estos son algunos ejemplos:

Es posible que el usuario no quiera molestar a otros (por ejemplo, en una biblioteca silenciosa o en una oficina compartida).
Es posible que los usuarios se sientan incómodos hablando con ellos mismos en público,
Un usuario puede sentirse incómodo dictando un mensaje personal o confidencial (incluidas las contraseñas) mientras otros están escuchando

Entrada de voz de palabras únicas o desconocidas Las dificultades para la entrada de voz también vienen cuando los usuarios dictan palabras que pueden ser desconocidas para el sistema, como alias, ciertas palabras jergas o abreviaturas.

Aprendizaje de comandos de voz Aunque el objetivo final es hablar naturalmente con el sistema, a menudo las aplicaciones todavía dependen de comandos de voz predefinidos específicos. Un desafío asociado a un conjunto significativo de comandos de voz es cómo enseñarlos sin sobrecargar al usuario y cómo ayudar al usuario a mantenerlos.

Estados de la respuesta a la voz

Cuando la voz se aplica correctamente, el usuario entiende lo que puede decir y obtiene una respuesta clara de que el sistema le ha oído correctamente. Estas dos señales hacen que el usuario se sienta seguro utilizando la voz como entrada principal. A continuación se muestra un diagrama que muestra lo que sucede con el cursor cuando se reconoce la entrada de voz y cómo se lo comunica al usuario.

1. Estado normal del cursor

2. Comunica los comentarios de voz y, a continuación, desaparece

*3. Estado normal del cursor
3. Vuelve al estado normal del cursor

Cosas principales que los usuarios deben saber sobre los comandos de voz en la realidad mixta

Diga "Seleccionar" mientras tiene como destino un botón (puede usar esto en cualquier lugar para seleccionar un botón).
Puedes decir el nombre de etiqueta de un botón de la barra de la aplicación en algunas aplicaciones para realizar una acción. Por ejemplo, al examinar una aplicación, un usuario puede decir el comando "Quitar" para quitar la aplicación del mundo (esto ahorra tiempo de tener que seleccionarla con la mano).
Puedes empezar a escuchar Cortana diciendo "Hey Cortana". Puedes hacerle preguntas ("Hey Cortana, cuánto alto es la torre Eiffel"), decirle que abra una aplicación ("Hey Cortana, abra Netflix") o dile que abra el menú inicio ("Hey Cortana, llévame a casa") y mucho más.

Preguntas y dudas comunes que tienen los usuarios acerca del uso de la voz

What can I say? (¿Qué puedo decir?)
¿Cómo sé si el sistema me escuchó correctamente?
- El sistema se equivoca todo el tiempo con mis comandos de voz.
- No reacciona cuando digo un comando de voz.
Reacciona de forma equivocada cuando digo un comando de voz.
¿Cómo dirijo mi voz a una aplicación o un comando de la aplicación específicos?
¿Puedo usar la voz para comandar cosas en el marco holográfico en HoloLens?

Comunicación

En el caso de las aplicaciones que quieran aprovechar las opciones de procesamiento de entrada de audio personalizadas proporcionadas por HoloLens, es importante comprender las distintas categorías de secuencias de audio que la aplicación puede consumir. Windows 10 admite varias categorías de transmisión diferentes y HoloLens usa tres de ellas para permitir que el procesamiento personalizado optimice la calidad de audio del micrófono adaptada para voz, comunicación y otros, que se pueden usar para escenarios de captura de audio en entorno ambiente (es decir, "videocámara").

La categoría de secuencia de AudioCategory_Communications se personaliza para escenarios de narración y calidad de llamadas y proporciona al cliente una secuencia de audio mono de 16 kHz de 24 bits de la voz del usuario.
La categoría de flujo de AudioCategory_Speech se personaliza para el motor de voz de HoloLens (Windows) y proporciona una secuencia mono de 16 kHz de 24 bits de la voz del usuario. Si es necesario, los motores de voz de terceros pueden usar esta categoría.
La categoría de secuencia de AudioCategory_Other está personalizada para la grabación de audio en entorno ambiente y proporciona al cliente una secuencia de audio estéreo de 48 kHz de 24 bits.

Todo este procesamiento de audio es acelerado por hardware, lo que significa que las características purgan mucho menos energía que si el mismo procesamiento se realizó en la CPU de HoloLens. Evite ejecutar otro procesamiento de entrada de audio en la CPU para maximizar la duración de la batería del sistema y aprovechar el procesamiento integrado de entrada de audio descargado.

Idiomas

HoloLens 2 admite varios idiomas. Tenga en cuenta que los comandos de voz siempre se ejecutarán en el idioma de visualización del sistema incluso si hay varios teclados instalados o si las aplicaciones intentan crear un reconocedor de voz en otro idioma.

Solución de problemas

Si tiene problemas al usar "select" y "Hey Cortana", intente moverse a un espacio más tranquilo, apartándose de la fuente de ruido o hablando más fuerte. En este momento, todo el reconocimiento de voz en HoloLens está optimizado y optimizado específicamente para hablantes nativos de Estados Unidos inglés.

Para la versión 2017 de Windows Mixed Reality Developer Edition, la lógica de administración de puntos de conexión de audio funcionará correctamente (para siempre) después de cerrar sesión y volver al escritorio del equipo después de la conexión HMD inicial. Antes de ese primer cierre de sesión o cierre de sesión después de pasar por WMR OOBE, el usuario podría experimentar varios problemas de funcionalidad de audio que van desde ningún audio hasta ningún cambio de audio en función de cómo se configuró el sistema antes de conectar el HMD por primera vez.

Entrada de voz en MRTK (Mixed Reality Toolkit) para Unity

Con MRTK, puede asignar fácilmente un comando de voz en cualquier objeto. Use el perfil de entrada de voz de MRTK para definir las palabras clave. Al asignar el script SpeechInputHandler , puede hacer que cualquier objeto responda a las palabras clave definidas en el perfil de entrada de voz. SpeechInputHandler también proporciona la etiqueta de confirmación de voz para mejorar la confianza del usuario.

MRTK: comando de voz

Compartir a través de

Entrada de voz

Voz y mirada

Compatibilidad con dispositivos

Comando "select"

Hola Cortana

"Mira, dilo"

Comandos de voz para la manipulación rápida de hologramas

Detección de comandos de voz

Dictado

Adición de comandos de voz a la aplicación

Procedimientos recomendados

Ventajas de la entrada de voz

Desafíos para la entrada de voz

Estados de la respuesta a la voz

Cosas principales que los usuarios deben saber sobre los comandos de voz en la realidad mixta

Preguntas y dudas comunes que tienen los usuarios acerca del uso de la voz

Comunicación

Idiomas

Solución de problemas

Entrada de voz en MRTK (Mixed Reality Toolkit) para Unity

Consulte también

Comentarios

Recursos adicionales