Controlo do reconhecimento de voz

Concluído

O reconhecimento de voz, tal como a sintetização de voz, evoluiu muito desde os seus primórdios. Contudo, embora possa ser uma ferramenta útil para criar uma experiência acessível, ainda não é perfeita.

Nas próximas unidades, vai aprender:

  • Que o reconhecimento de voz geral do Windows está direcionado para o ditado. É utilizável, mas lento a nível de introdução de cálculos;
  • Que uma instância específica de um sistema de reconhecimento de voz consegue interpretar entradas que soem naturalmente;
  • Que o controlo de voz é divertido e útil;
  • Que o contexto é necessário para o reconhecimento de voz. Palavras como "coser" e "cozer" soam da mesma forma e apenas o contexto as permite distinguir;
  • Que são necessárias algumas permissões antes da ativação do reconhecimento de voz.

Reconhecimento de voz

Certifique-se de que tem um headset com microfone e altifalantes ligado ao seu computador de programação. É difícil testar o reconhecimento de voz se não houver voz a reconhecer.

A ferramenta predefinida de reconhecimento de voz do Windows

Sem fazer mais alterações ao nosso código, vamos ver como funciona a ferramenta de reconhecimento de voz do Windows com a nossa calculadora.

  1. Na barra de pesquisa do Windows, introduza "reconhecimento de voz". Selecione Iniciar Reconhecimento de Voz na janela que aparece. Deve ver o pequeno gráfico que mostra o momento em que o sistema de reconhecimento de voz está ativado ou desativado. Selecione o ícone de microfone para que o texto A ouvir apareça.

Windows is listening.

  1. Execute a calculadora, verifique se está em foco e experimente proferir um cálculo. Repare que os números têm de ser ditos um por um. 741 não pode ser proferido como "seven hundred and forty-one" (setecentos e quarenta e um), mas sim "seven" (sete), pausa, "four" (quatro), pausa, "one" (um). Diga "times two" (vezes dois) e, em seguida, "equals" (é igual a) para calcular o resultado.

  2. Tente falar um número decimal: "3.14". Repare que precisa de proferir lentamente os números e que a palavra "comma" (vírgula) permitirá apresentar corretamente a vírgula decimal.

  3. O sistema de reconhecimento está ciente das entradas de AutomationProperites.Name que definiu anteriormente. Pode dizer "Sine" (seno) para acionar o botão Sin, "to the power of" (elevado a) para acionar o botão ^, etc.

  4. Tente guardar os números na memória da calculadora (repare que isto só está disponível quando o visor contém apenas um número). Tente ativar e desativar os botões de ativar/desativar ao proferir o texto do cabeçalho.

  5. Para introduzir constantes, comece por dizer "Show constants" (Mostrar constantes). Em seguida, para selecionar qualquer constante e a adicionar ao cálculo, diga "double-click" (duplo clique) antes das palavras que identificam a constante de forma evidente. Por exemplo, experimente dizer "double-click feet to meters" (duplo clique, pés para metros). O valor constante (0,3048) deve ser adicionado ao seu cálculo. Às vezes, tem de dizer algo várias vezes para o esclarecer!

Nota

Se o utilitário de reconhecimento de voz tiver dúvidas em relação ao botão que pretendia, mas houver uma correspondência próxima com dois ou mais botões, ele realçará esses botões com um número associado e dá-lhe a opção de dizer um dos números seguido de "OK".

Se explorar o reconhecimento de voz padrão, ficará a conhecer bastante bem as funcionalidades e desvantagens do mesmo. No caso de algumas aplicações, isto poderá ser tudo o que é necessário ou pretendido. Contudo, no caso da calculadora, poderá dizer uma frase inteira sem pausas, tal como "what is four hundred and fifty-four divided by the arc cosine of zero point six six" (quatrocentos e cinquenta e quatro a dividir pelo arco cosseno de zero vírgula seis seis é igual a). É óbvio que isto não corresponde a botões individuais, pelo que não se pode esperar que o sistema padrão de reconhecimento do Windows o suporte. Se quisermos melhorar essa experiência, vamos precisar de fazer algo mais complexo.