Integrar e usar o reconhecimento de fala e a transcrição

Concluído

O serviço de Fala é a unificação da conversão de fala em texto, da conversão de texto em fala e da tradução da fala em apenas uma assinatura do Azure. É fácil habilitar por fala seus aplicativos, ferramentas e dispositivos com a CLI de Fala, o SDK de Fala, o SDK de Dispositivos de Fala, o Speech Studio ou as APIs REST.

Reconhecimento de fala

O serviço de Reconhecimento do Locutor fornece algoritmos que verificam e identificam os locutores por meio das características de voz exclusivas deles usando a biometria da voz. Ele é usado para responder à pergunta "quem está falando?" Primeiro, você fornece dados de treinamento de áudio para apenas um locutor, que cria um perfil de registro com base nas características exclusivas da voz do locutor. Em seguida, você pode fazer a verificação cruzada de amostras de áudios de vozes em relação a esse perfil a fim de verificar se o locutor é a mesma pessoa (verificação do locutor) ou em relação a um grupo de perfis de locutores inscritos para ver se corresponde a algum perfil do grupo (identificação de locutor). Em contraste, a Diarização do Alto-falante usa uma operação em lote para agrupar fluxos de áudio por identidade do alto-falante, o que significa que diferentes dispositivos teriam cada um seus próprios segmentos de áudio.

Transcrição

A transcrição se traduz em um conjunto de operações da API REST que permite transcrever áudio no armazenamento. Será possível transmitir arquivos de áudio com um URI de SAS (assinatura de acesso compartilhado) e receber resultados de transcrição de maneira assíncrona.

Comandos de fala do MRTK

Assim como a Entrada de Fala do Windows, os provedores de entrada de fala não criam controladores, mas permitem que você defina palavras-chave que geram eventos de entrada de fala quando reconhecidos. Você vai configurar as palavras-chave para reconhecimento no Perfil de Comandos de Fala no Perfil do Sistema de Entrada. Para cada comando, você também pode:

  • Selecionar uma ação de entrada para mapear para o comando. Dessa forma, você pode, por exemplo, fazer com que a Seleção por Palavra-chave tenha o mesmo efeito que um clique com o botão esquerdo do mouse mapeando as duas opções para a mesma ação.
  • Especifique um código-chave que produz o mesmo evento de fala quando pressionado.
  • Adicione uma chave de localização usada nos aplicativos UWP para obter a palavra-chave localizada dos recursos do aplicativo.

SDK de fala

O SDK (Software Development Kit) expõe muitas funcionalidades do serviço de fala para permitir que você desenvolva aplicativos habilitados por fala. O SDK de Fala está disponível em muitas linguagens de programação e em todas as plataformas. O SDK de Fala expõe muitos recursos (embora não todos) do serviço de Fala. Muitas vezes, os recursos do SDK de Fala são associados a cenários. O SDK de Fala é ideal para cenários em tempo real ou não que usam dispositivos locais, arquivos, Armazenamento de Blobs do Azure e, até mesmo, fluxos de entrada e saída. Quando não é possível acessar um cenário com o SDK de Fala, procure uma alternativa de API REST.

Percepção espacial

A percepção espacial fornece acesso programático a dados de mapeamento espacial, fornecendo informações de aplicativos de realidade misturada sobre superfícies em regiões de espaço especificadas por aplicativo perto do usuário. Declare a funcionalidade de percepção espacial somente quando seu aplicativo usar explicitamente essas malhas de superfície. A funcionalidade não é necessária para que aplicativos de realidade misturada executem a renderização holográfica com base na pose de cabeçalho do usuário.

Servidor de clientes de Internet

O servidor cliente da Internet permite cenários P2P (ponto a ponto) em que o aplicativo precisa escutar as conexões de rede de entrada.

Servidor de clientes de rede privada

O servidor do cliente da rede privada fornece acesso de entrada e saída para redes domésticas e de trabalho por meio do firewall. Geralmente, esse recurso é usado para jogos que se comunicam pela LAN (rede local) e para aplicativos que compartilham dados entre diferentes dispositivos locais.