Entrada de voz

Artigo
07/12/2023

Entrada de voz

A voz é uma das principais formas de entrada no HoloLens. Ele permite que você comando diretamente um holograma sem precisar usar gestos manuais. A entrada de voz pode ser uma maneira natural de comunicar sua intenção. A voz é especialmente boa em percorrer interfaces complexas, pois permite que os usuários cortem os menus aninhados com um comando.

A entrada de voz é alimentada pelo mesmo mecanismo que dá suporte à fala em todos os Aplicativos Universais do Windows. No HoloLens, o reconhecimento de fala sempre funcionará na linguagem de exibição do Windows definida nas Configurações do dispositivo.

Voz e foco

Quando você está usando comandos de voz, o foco de cabeça ou de olho é o mecanismo de direcionamento típico, seja com um cursor para "selecionar" ou para canalizar seu comando para um aplicativo que você está olhando. Pode até não ser necessário mostrar nenhum cursor de foco ("veja, diga"). Alguns comandos de voz não exigem um destino, como "ir para iniciar" ou "Ei Cortana".

Suporte a dispositivos

Recurso	HoloLens (1ª geração)	HoloLens 2	Headsets imersivos
Entrada de voz	✔️	✔️	✔️ (com microfone)

O comando "select"

HoloLens (1ª geração)

Mesmo sem adicionar especificamente suporte de voz ao seu aplicativo, os usuários podem ativar hologramas simplesmente dizendo o comando de voz do sistema "select". Isso se comporta da mesma forma que um toque de ar no HoloLens, pressionando o botão selecionar no clicker do HoloLens ou pressionando o gatilho em um controlador de movimento Windows Mixed Reality. Você ouvirá um som e verá uma dica de ferramenta com "selecionar" aparecer como confirmação. "Selecionar" é habilitado por um algoritmo de detecção de palavra-chave de baixa potência, o que significa que você pode dizer isso a qualquer momento com impacto mínimo na vida útil da bateria. Você pode até mesmo dizer "selecionar" com as mãos ao seu lado.

HoloLens 2

Para usar o comando de voz "select" no HoloLens 2, primeiro você precisa abrir o cursor de foco para usar como ponteiro. O comando para trazê-lo à ativa é fácil de lembrar– basta dizer "selecionar".

Para sair do modo, use as mãos novamente tocando no ar, aproximando-se de um botão com os dedos ou usando o gesto do sistema.

Imagem: diga "selecionar" para usar o comando de voz para seleção

Um usuário pode dizer

Ei Cortana

Você pode dizer "Ei Cortana" para abrir a Cortana a qualquer momento. Você não tem que esperar que ela apareça para continuar fazendo sua pergunta ou dando-lhe uma instrução. Por exemplo, tente dizer "Ei Cortana, qual é o clima?" como uma única frase. Para obter mais informações sobre a Cortana e o que você pode fazer, pergunte a ela! Diga "Ei Cortana, o que posso dizer?" e ela fará uma lista de comandos de trabalho e sugeridos. Se você já estiver no aplicativo Cortana, selecione o ícone ? na barra lateral para efetuar pull desse mesmo menu.

Comandos específicos do HoloLens

"O que posso falar?"
"Ir para Iniciar" – em vez de florescer para chegar ao Menu Iniciar
"Iniciar <aplicativo>"
"Mover <aplicativo> para cá"
"Take a picture"
"Iniciar gravação"
"Stop recording"
"Mostrar raio de mão"
"Ocultar raio de mão"
"Aumentar o brilho"
"Diminuir o brilho"
"Aumentar o volume"
"Diminuir o volume"
"Ativar mudo" ou "Desativar mudo"
"Desligar o dispositivo"
"Reiniciar o dispositivo"
"Ir dormir"
"Qual é a hora?"
"Quanta bateria ainda tenho?"

"Veja, diga"

O HoloLens tem um modelo "veja, diga" para entrada de voz, em que os rótulos nos botões informam aos usuários quais comandos de voz eles também podem dizer. Por exemplo, ao examinar uma janela do aplicativo no HoloLens (1ª geração), um usuário pode dizer o comando "Ajustar" para ajustar a posição do aplicativo no mundo.

Imagem: um usuário pode dizer o comando "Ajustar", que ele vê na Barra de aplicativos para ajustar a posição do aplicativo

Ao examinar uma janela ou holograma de aplicativo, um usuário pode dizer o comando

Quando os aplicativos seguem essa regra, os usuários podem entender facilmente o que dizer para controlar o sistema. Ao observar um botão no HoloLens (1ª geração), você verá uma dica de ferramenta de "espera de voz" que aparece depois de um segundo se o botão estiver habilitado para voz e exibir o comando para falar para "pressioná-lo". Para revelar dicas de ferramenta de voz em HoloLens 2, mostre o cursor de voz dizendo "selecionar" ou "O que posso dizer" (Ver imagem).

Imagem: os comandos "Veja, diga- o" aparecem abaixo dos botões

Confira, digamos que os comandos apareçam abaixo dos botões

Comandos de voz para manipulação rápida de hologramas

Há muitos comandos de voz que você pode dizer enquanto olha para um holograma para realizar tarefas de manipulação rapidamente. Esses comandos de voz funcionam em janelas de aplicativos e objetos 3D que você colocou no mundo.

Comandos de manipulação de holograma

Enfrentar-me
Maior | Melhorar
Menor

Em HoloLens 2, você também pode criar interações mais naturais em combinação com o foco nos olhos, que fornece implicitamente informações contextuais sobre o que você está se referindo. Por exemplo, você pode olhar para um holograma e dizer "coloque isso" e, em seguida, examinar onde você deseja colocá-lo e dizer " aqui". Ou você pode examinar uma parte holográfica em uma máquina complexa e dizer: "dê-me mais informações sobre isso".

Descobrindo comandos de voz

Alguns comandos, como os comandos para manipulação rápida acima, podem ser ocultos. Para saber mais sobre quais comandos você pode usar, olhe para um objeto e diga" o que posso dizer?". Uma lista de comandos possíveis é exibida. Você também pode usar o cursor de foco de cabeça para olhar ao redor e revelar as dicas de ferramenta de voz para cada botão na sua frente.

Se você quiser uma lista completa, basta dizer "Mostrar todos os comandos" a qualquer momento.

Ditado

Em vez de digitar com toques de ar, o ditado de voz pode ser mais eficiente para inserir texto em um aplicativo. Isso pode acelerar muito a entrada com menos esforço para o usuário.

O ditado de voz começa selecionando o botão de microfone no teclado

Sempre que o teclado holográfico estiver ativo, você poderá alternar para o modo de ditado em vez de digitar. Selecione o microfone na lateral da caixa de entrada de texto para começar.

Adicionando comandos de voz ao seu aplicativo

Considere a adição de comandos de voz em qualquer experiência que você criar. A voz é uma maneira poderosa de controlar o sistema e os aplicativos. Como os usuários falam com diferentes tipos de dialetos e destaques, a escolha adequada de palavras-chave de fala garantirá que os comandos dos usuários sejam interpretados de forma inequívoca.

Práticas recomendadas

A seguir, algumas práticas que auxiliarão em um reconhecimento de fala perfeito.

Use comandos concisos - quando possível, escolha palavras com duas ou mais sílabas. Palavras com uma sílaba tendem a empregar sons de vogais diferentes quando faladas por pessoas com sotaques diferentes. Exemplo: "Reproduzir vídeo" é melhor do que "Reproduzir o vídeo selecionado no momento"
Usar vocabulário simples – Exemplo: "Mostrar nota" é melhor do que "Mostrar cartaz"
Verifique se os comandos não são destrutivos – verifique se todas as ações de comando de fala não são destrutivas e podem ser facilmente desfeitas caso outra pessoa falando perto do usuário dispare acidentalmente um comando.
Evite comandos de som semelhantes – evite registrar vários comandos de fala que soem semelhantes. Exemplo: "Mostrar mais" e "Mostrar repositório" podem ser semelhantes.
Cancelar o registro do aplicativo quando ele não usar – quando o aplicativo não estiver em um estado no qual um comando de fala específico é válido, considere cancelá-lo para que outros comandos não sejam confundidos com esse.
Teste com sotaques diferentes - teste seu aplicativo com usuários que tenham sotaques diferentes.
Mantenha a consistência nos comandos de voz - se "Voltar" vai para a página anterior, mantenha esse comportamento em seus aplicativos.
Evite usar comandos do sistema – os seguintes comandos de voz são reservados para o sistema, portanto, evite usá-los em seus aplicativos:
- "Ei, Cortana!"
- "Selecionar"
- "Vá para o início"

Vantagens da entrada de voz

A entrada de voz é uma maneira natural de comunicarmos nossas intenções. A voz é especialmente boa em passagens de interface porque pode ajudar os usuários a cortar várias etapas de uma interface. O usuário pode dizer "voltar" ao olhar para uma página da Web, em vez de precisar acessar a parte superior do aplicativo e pressionar o botão Voltar. Esse pequeno salvamento de tempo tem um poderoso efeito emocional na percepção do usuário sobre a experiência e lhes dá uma pequena quantidade de superpotência. O uso de voz também é um método de entrada conveniente quando temos os braços cheios ou são multitarefas. Em dispositivos em que a digitação em um teclado é difícil, o ditado de voz pode ser uma maneira alternativa eficiente de inserir texto. Por fim, em alguns casos, quando o intervalo de precisão de foco e gesto é limitado, a voz pode ajudar a desambiguar a intenção do usuário.

Como o uso da voz pode beneficiar o usuário?

Reduz o tempo - deve tornar o objetivo final mais eficiente.
Minimiza o esforço - deve tornar as tarefas mais fluídas e simples.
Reduz a carga cognitiva - é intuitivo e fácil de lembrar e aprender.
É aceitável socialmente. Deve se ajustar às normas sociais de comportamento.
É rotineiro - a voz pode facilmente se tornar um comportamento habitual.

Desafios para entrada de voz

Embora a entrada de voz seja ótima para muitos aplicativos diferentes, ela também enfrenta vários desafios. Entender as vantagens e os desafios da entrada de voz permite que os desenvolvedores de aplicativos façam escolhas mais inteligentes sobre como e quando usar a entrada de voz e criem uma ótima experiência para seus usuários.

Entrada de voz para controle de entrada contínuo O controle refinado é um deles. Por exemplo, um usuário pode querer alterar seu volume em seu aplicativo de música. Ela pode dizer "mais alto", mas não está claro quanto mais alto o sistema deve fazer o volume. O usuário poderia dizer: "Torne-o um pouco mais alto", mas "um pouco" é difícil quantificar. Mover ou dimensionar hologramas com voz é igualmente difícil.

Confiabilidade da detecção de entrada de voz Embora os sistemas de entrada de voz se tornem cada vez melhores, às vezes eles podem ouvir e interpretar incorretamente um comando de voz. A chave é resolver o desafio em seu aplicativo. Forneça comentários aos usuários quando o sistema estiver escutando e o que o sistema entendeu esclarece possíveis problemas ao entender a fala dos usuários.

Entrada de voz em espaços compartilhados A voz pode não ser socialmente aceitável em espaços que você compartilha com outras pessoas. Veja alguns exemplos:

Talvez o usuário não queira incomodar outras pessoas (por exemplo, em uma biblioteca silenciosa ou em um escritório compartilhado)
Os usuários podem se sentir constrangidos ao serem vistos conversando consigo mesmos em público,
Um usuário pode se sentir desconfortável ditando uma mensagem pessoal ou confidencial (incluindo senhas) enquanto outras pessoas estão ouvindo

Entrada de voz de palavras exclusivas ou desconhecidas As dificuldades de entrada de voz também vêm quando os usuários estão ditando palavras que podem ser desconhecidas para o sistema, como apelidos, determinadas gírias ou abreviações.

Comandos de voz de aprendizagem Embora o objetivo final seja conversar naturalmente com seu sistema, muitas vezes os aplicativos ainda dependem de comandos de voz predefinidos específicos. Um desafio associado a um conjunto significativo de comandos de voz é como ensiná-los sem sobrecarregar o usuário e como ajudar o usuário a mantê-los.

Estados de retorno de voz

Quando a voz é aplicada corretamente, o usuário sabe o que pode dizer e obtém um retorno claro, e o sistema o ouve corretamente. Esses dois sinais fazem o usuário se sentir seguro para usar a Voz como uma entrada primária. A seguir, um diagrama mostrando o que acontece com o cursor quando a entrada de voz é reconhecida e como ele comunica isso ao usuário.

1. Estado regular do cursor

2. Comunica comentários de voz e desaparece

*3. Estado do cursor regular
3. Retorna ao estado regular do cursor

As principais coisas que os usuários devem saber sobre "fala" na realidade misturada

Diga "Selecionar" ao direcionar um botão (você pode usar isso em qualquer lugar para selecionar um botão).
Você pode dizer o nome do rótulo de um botão da barra de aplicativos em alguns aplicativos para realizar uma ação. Por exemplo, ao examinar um aplicativo, um usuário pode dizer o comando "Remover" para remover o aplicativo do mundo (isso economiza tempo de ter que selecioná-lo com a mão).
Você pode começar a ouvir a Cortana dizendo "Ei Cortana". Você pode fazer perguntas a ela ("Ei Cortana, quão alta é a torre Eiffel"), dizer a ela para abrir um aplicativo ("Ei Cortana, abra a Netflix" ou dizer a ela para abrir o Menu Iniciar ("Ei Cortana, me leve para casa") e muito mais.

Perguntas e preocupações comuns dos usuários em relação à voz

O que posso dizer?
Como saberei que o sistema me ouviu corretamente?
- O sistema não entende corretamente meus comandos de voz.
- Ele não reage quando dou um comando de voz.
Ele reage de maneira errada quando dou um comando de voz.
Como direcionar minha voz a um aplicativo específico ou a um comando de aplicativo?
Posso usar a voz para comandar as coisas no quadro holográfico do HoloLens?

Comunicação

Para aplicativos que desejam aproveitar as opções personalizadas de processamento de entrada de áudio fornecidas pelo HoloLens, é importante entender as várias categorias de fluxo de áudio que seu aplicativo pode consumir. O Windows 10 dá suporte a várias categorias de fluxo diferentes e o HoloLens usa três delas para habilitar o processamento personalizado para otimizar a qualidade de áudio do microfone personalizada para fala, comunicação e outras, que podem ser usadas para cenários de captura de áudio do ambiente ambiente ambiente (ou seja, "camcorder").

A categoria de fluxo AudioCategory_Communications é personalizada para cenários de qualidade de chamada e narração e fornece ao cliente um fluxo de áudio mono de 24 bits de 16 kHz da voz do usuário
A categoria de fluxo AudioCategory_Speech é personalizada para o mecanismo de fala do HoloLens (Windows) e fornece um fluxo mono de 24 bits de 16 kHz da voz do usuário. Essa categoria pode ser usada por mecanismos de fala de terceiros, se necessário.
A categoria de fluxo AudioCategory_Other é personalizada para gravação de áudio de ambiente ambiente ambiente e fornece ao cliente um fluxo de áudio estéreo de 48 kHz de 24 bits.

Todo esse processamento de áudio é acelerado por hardware, o que significa que os recursos esvaziam muito menos energia do que se o mesmo processamento foi feito na CPU do HoloLens. Evite executar outro processamento de entrada de áudio na CPU para maximizar a duração da bateria do sistema e aproveitar o processamento interno de entrada de áudio descarregado.

Languages

HoloLens 2 dá suporte a vários idiomas. Tenha em mente que os comandos de fala sempre serão executados no idioma de exibição do sistema mesmo se vários teclados estiverem instalados ou se os aplicativos tentarem criar um reconhecedor de fala em um idioma diferente.

Solução de problemas

Se você estiver tendo problemas ao usar "select" e "Hey Cortana", tente ir para um espaço mais silencioso, afastando-se da fonte de ruído ou falando mais alto. Neste momento, todo o reconhecimento de fala no HoloLens é ajustado e otimizado especificamente para falantes nativos de Estados Unidos inglês.

Para o Windows Mixed Reality Developer Edition versão 2017, a lógica de gerenciamento de ponto de extremidade de áudio funcionará bem (para sempre) depois de fazer logon e voltar para a área de trabalho do computador após a conexão inicial do HMD. Antes desse primeiro evento de saída/entrada depois de passar pelo WMR OOBE, o usuário poderia enfrentar vários problemas de funcionalidade de áudio que variam de nenhum áudio a nenhuma troca de áudio, dependendo de como o sistema foi configurado antes de conectar o HMD pela primeira vez.

Entrada de voz no MRTK (Realidade Misturada Toolkit) para Unity

Com o MRTK, você pode atribuir facilmente o comando de voz em qualquer objeto. Use o Perfil de Entrada de Fala do MRTK para definir suas palavras-chave. Ao atribuir o script SpeechInputHandler , você pode fazer com que qualquer objeto responda às palavras-chave definidas no Perfil de Entrada de Fala. SpeechInputHandler também fornece um rótulo de confirmação de fala para melhorar a confiança do usuário.

MRTK – Comando de voz

Compartilhar via

Entrada de voz

Voz e foco

Suporte a dispositivos

O comando "select"

Ei Cortana

"Veja, diga"

Comandos de voz para manipulação rápida de hologramas

Descobrindo comandos de voz

Ditado

Adicionando comandos de voz ao seu aplicativo

Práticas recomendadas

Vantagens da entrada de voz

Desafios para entrada de voz

Estados de retorno de voz

As principais coisas que os usuários devem saber sobre "fala" na realidade misturada

Perguntas e preocupações comuns dos usuários em relação à voz

Comunicação

Languages

Solução de problemas

Entrada de voz no MRTK (Realidade Misturada Toolkit) para Unity

Confira também

Recursos adicionais