Compartilhar via


Casos de uso do Reconhecimento do Locutor

Importante

Traduções não em inglês são fornecidas apenas para conveniência. Consulte a versão EN-US deste documento para obter a versão de associação.

O que é uma Nota de Transparência?

Um sistema de IA inclui não apenas a tecnologia, mas também as pessoas que a usarão, as pessoas que serão afetadas por ela e o ambiente em que ela foi implantada. Criar um sistema adequado para sua finalidade pretendida requer uma compreensão de como a tecnologia funciona, suas funcionalidades e limitações e como obter o melhor desempenho.

A Microsoft fornece Notas de Transparência para ajudar você a entender como a nossa tecnologia de IA funciona. Eles incluem as opções que os proprietários do sistema podem fazer que influenciam o desempenho e o comportamento do sistema e a importância de pensar em todo o sistema, incluindo a tecnologia, as pessoas e o meio ambiente. Você pode usar as Notas de Transparência ao desenvolver ou implantar seu próprio sistema ou compartilhá-las com as pessoas que usarão ou serão afetadas pelo seu sistema.

As Notas de Transparência fazem parte de um esforço mais amplo da Microsoft para colocar em prática nossos princípios de IA. Para saber mais, confira os princípios de IA da Microsoft.

Introdução ao reconhecimento do locutor

O Reconhecimento do Locutor é um recurso de IA que pode identificar um indivíduo falando em um clipe de áudio. A voz humana tem características únicas que podem ser associadas a um indivíduo. O Reconhecimento do Locutor pode reconhecer alto-falantes comparando as características de voz exclusivas da fala de entrada com assinaturas de voz registradas. Para obter mais informações, consulte Reconhecimento do Locutor.

As noções básicas do Reconhecimento do Locutor

Os recursos de reconhecimento do locutor são fornecidos por meio de duas APIs:

  • A Verificação do Locutor permite que você determine cenários como "Esta Anna está falando?". Ele verifica a identidade de um indivíduo comparando as características de voz de sua fala com a assinatura de voz registrada da identidade reivindicada.

    Diagrama que mostra como funciona a Verificação do Locutor.

  • A Identificação do Locutor permite determinar cenários como "Quem está falando, Anna, Isha ou Jing?". Ele atribui o discurso a falantes individuais dentro de um grupo de inscritos.

Prazo Definição
Assinatura de voz Também denominado modelo ou impressão de voz. É um vetor numérico que representa as características de voz de um indivíduo, extraídos de gravações de áudio de uma pessoa falando. As gravações de áudio originais não podem ser interpretadas ou reconstruídas com base em uma assinatura de voz. A qualidade da assinatura de voz é um determinante fundamental de quão precisos são os resultados.
Registro O registro é o processo de criação de assinaturas de voz dos arquivos de áudio da fala dos indivíduos, para que possam ser reconhecidos posteriormente. Quando uma pessoa está registrada em um sistema de reconhecimento, o modelo dessa pessoa também é associado a um identificador primário1 que será usado para determinar qual assinatura de voz comparar com a entrada de fala de reconhecimento.
Reconhecimento Durante o Reconhecimento, o áudio de uma pessoa falando é comparado com uma ou mais assinaturas de voz. O processo será chamado de verificação se o áudio for comparado com uma assinatura de voz específica. É chamado de identificação se o áudio for comparado com mais de uma assinatura de voz para identificar o falante.
Verificação de locutor dependente de texto Também chamado de verificação ativa. O orador escolhe uma frase secreta específica (conjunto de palavras) a ser falada durante as fases de registro e verificação. Durante a verificação, o sistema reconhece o texto da frase secreta e o compara com a frase secreta de registro. O resultado é baseado na correspondência da assinatura de voz e na correspondência da senha.
Assinatura da senha No áudio de registro de APIs dependentes de texto, a frase secreta escolhida é reconhecida como texto. Em seguida, a assinatura de voz e o texto da frase secreta são armazenados. A frase secreta exclusiva, como "Minha voz é meu passaporte, verifique-me", é chamada de assinatura de frase secreta. A assinatura da senha também é comparada com o texto da entrada de áudio da fala durante o reconhecimento.
Verificação de locutor independente de texto Também chamado de verificação passiva. Os alto-falantes não são obrigados a falar palavras predefinidas, em vez disso, os falantes podem usar qualquer frase. A assinatura de voz é usada durante a verificação, mas o conteúdo da fala não é considerado. Durante o reconhecimento, os falantes não precisam necessariamente usar a mesma frase que usaram durante a inscrição. Recomenda-se usar gravações de áudio mais longas durante o registro para obter um desempenho confiável.
Frase de ativação É uma frase predefinida que o locutor precisa ler no início do registro ao usar APIs independentes de texto quando o registro ativo está habilitado. Embora os falantes possam usar qualquer frase durante o processo de reconhecimento na verificação ou identificação do locutor independente de texto, quando o registro ativo está habilitado, a Microsoft exige que o locutor leia primeiro esta frase de ativação. Após a etapa de ativação, o locutor pode continuar o registro usando qualquer frase.

1 Os desenvolvedores podem associar o GUID (identificadores globalmente exclusivos) gerado pela Microsoft ao identificador primário de um indivíduo para dar suporte à verificação desse indivíduo. O Reconhecimento de Locutor não armazena identificadores primários, como IDs de cliente, com assinaturas de voz. Em vez disso, a Microsoft associa assinaturas de voz armazenadas a GUIDs aleatórios.

Acesso limitado ao reconhecimento do locutor

O Reconhecimento do Locutor é um serviço de Acesso Limitado e o registro é necessário para acesso a alguns recursos. Para saber mais sobre a política de Acesso Limitado da Microsoft, visite aka.ms/limitedaccesscogservices. Determinados recursos só estão disponíveis para clientes e parceiros gerenciados da Microsoft e somente para determinados casos de uso selecionados no momento do registro.

Casos de uso aprovados

Os seguintes casos de uso são aprovados para os clientes:

  • Verificação de identidade do cliente: Os sistemas de resposta de voz interativa ou central de chamada podem usar a verificação do locutor para ajudar a verificar a identidade de um cliente quando um chamador busca acessar as informações do cliente ou tomar medidas em relação à conta do cliente.
  • Autenticação multifator: Verifique a identidade comparando as características de voz com a assinatura de voz registrada como um dos fatores para melhorar a segurança.
  • Personalização de dispositivo inteligente: Dispositivos de interação habilitados para voz, como veículos inteligentes ou alto-falantes inteligentes, podem usar o Reconhecimento do Locutor para fornecer conteúdo personalizado. Por exemplo, você pode reproduzir diferentes tipos de filmes ou músicas em resposta a comandos de voz em uma casa usando a API de Verificação do Locutor independente de texto.
  • Identificação do locutor para reuniões: Identifique os alto-falantes individuais de uma transcrição de reunião ou em legendas.
  • [Somente Setor Público] Identificação ou verificação do locutor para: (a ) auxiliar a aplicação da lei ou funcionários do tribunal na acusação ou defesa de um crime grave ou identificar uma pessoa desaparecida, em todos os casos apenas na medida especificamente autorizada por uma ordem judicial emitida em uma jurisdição que mantém um judiciário justo e independente, e desde que a pessoa a ser identificada ou verificada não seja menor de idade; OU (b) auxiliar funcionários de organizações internacionais devidamente capacitadas na acusação de abusos da legislação penal internacional, da legislação internacional dos direitos humanos ou da legislação humanitária internacional, desde que a pessoa a ser identificada ou verificada não seja menor de idade.

Considerações ao usar o Reconhecimento do Locutor

  • Evite usar para reconhecer vários alto-falantes em uma entrada de fala: O Reconhecimento do Locutor não pode reconhecer mais de uma pessoa em uma única entrada de fala. O Reconhecimento do Locutor destina-se a receber a entrada de fala de uma pessoa e compará-la com uma ou mais assinaturas de voz.
  • Evite usar como um único fator na autenticação em que a segurança seja importante: O Reconhecimento do Locutor não foi projetado para diferenciar uma voz sintetizada ou gravações de uma voz de um alto-falante humano ao vivo. Considere cuidadosamente cenários com risco de falsificação. O Reconhecimento do Locutor não deve ser usado como o único fator na autenticação de um usuário em aplicativos em que a segurança é a meta, como acesso a informações financeiras ou segurança física.
  • Registrar usuários ativamente: as assinaturas de voz contêm características biométricas de impressão de voz dos oradores. Para ajudar a evitar o uso indevido do Reconhecimento do Locutor, a Microsoft fornece um recurso de registro ativo para usuários de APIs independentes de texto por meio de uma etapa de ativação. A etapa de ativação indica a participação ativa dos alto-falantes na criação de suas assinaturas de voz e tem como objetivo ajudar a evitar o cenário em que os palestrantes são registrados sem sua consciência. Lembre-se de que essa etapa de ativação não alivia as obrigações legais do cliente para garantir que ele tenha recebido todas as permissões e consentimentos necessários de seus usuários para fins de processamento, retenção e usos pretendidos de assinaturas de locutor criadas.
  • Limite o número de candidatos à identificação do locutor: A API de Identificação do Locutor só pode levar até 50 candidatos para comparar a entrada de fala em uma chamada à API.
  • Considerações legais e regulatórias: as organizações precisam avaliar possíveis obrigações legais e regulatórias específicas ao usar quaisquer serviços e soluções de IA, o que pode não ser apropriado para uso em todos os setores ou cenários. Além disso, os serviços ou soluções de IA não foram projetados para e não podem ser usados de formas proibidas nos termos de serviço aplicáveis e nos códigos de conduta relevantes.

Próximas etapas