Reconhecimento do Locutor

O reconhecimento do locutor dos Serviços de IA do Azure – Serviço de Fala fornece algoritmos que verificam e identificam os alto-falantes por suas características de voz exclusivas. O Reconhecimento do Locutor é usado para responder à pergunta "quem está falando?". Saiba mais.

A voz tem características únicas que podem ser associadas a um indivíduo. Fornecemos APIs de Verificação do Locutor e APIs de Identificação do Locutor para dois aplicativos principais de tecnologias de Reconhecimento de Locutor.

Verificação do locutor

A verificação do locutor pode ser dependente de texto ou independente de texto. A verificação dependente de texto significa que os locutores precisam escolher a mesma frase secreta para uso durante as fases de registro e de verificação. A verificação do conteúdo de fala e da assinatura de voz facilita um cenário de verificação multifator; A verificação independente de texto significa que os palestrantes podem falar no idioma cotidiano nas frases de registro e verificação.

Verificação do locutor dependente de texto

Na fase de registro do locutor, a voz do locutor é gravada dizendo uma frase secreta de um conjunto de frases predefinidas. Os recursos de voz são extraídos da gravação de áudio para formar uma assinatura de voz exclusiva enquanto a frase secreta escolhida é reconhecida. Juntos, a assinatura de voz e a frase secreta seriam usados para verificar o alto-falante.

Na fase de verificação, a ID associada ao indivíduo a ser verificado é enviada à API de verificação do locutor. O serviço de verificação do locutor extrai recursos de voz e a frase secreta da gravação de fala de entrada. Em seguida, ele compara os recursos de voz e a frase secreta com o perfil de registro do alto-falante correspondente.

A resposta retorna "Aceitar" ou "Rejeitar" com uma pontuação de similaridade variando de 0 a 1. A resposta "Aceitar" ou "Rejeitar" é um resultado que combina o resultado da verificação do locutor e o resultado do reconhecimento de fala, enquanto a pontuação de similaridade mede apenas a similaridade de voz. Retornamos "Aceitar" quando o resultado do reconhecimento de fala corresponder à frase de registro e a pontuação de similaridade de voz for maior ou igual a 0,5. No entanto, o resultado deve ser determinado com base no cenário e em outros fatores de verificação que estão sendo usados. Recomendamos que você experimente seus próprios dados e determine seu limite para substituir as respostas "Aceitar" ou "Rejeitar", conforme apropriado.

Na versão atual da API de verificação do locutor dependente de texto, fornecemos 10 frases em inglês para os alto-falantes escolherem.

Vou fazer uma oferta que ele não pode recusar.
Houston tivemos um problema.
Minha voz é meu passaporte verificar-me.
O suco de maçã tem um gosto engraçado depois da pasta de dente.
Você pode entrar sem sua senha.
Você pode ativar o sistema de segurança agora.
Minha voz é mais forte que senhas.
Minha senha não é da sua conta.
Meu nome é desconhecido para você.
Seja você mesmo, todos os outros já foram levados"

Você pode criar suas próprias frases secretas enviando solicitações separadas para a API de verificação do locutor independente de texto e a API de conversão de fala em texto. Combinando o resultado da verificação do locutor e o resultado do reconhecimento de fala, você pode determinar a identidade do locutor.

As APIs não têm como objetivo determinar se o áudio é de uma pessoa viva, uma imitação ou uma gravação de um locutor registrado. A geração de frases aleatórias para o alto-falante ler é considerada eficaz para evitar ataques de reprodução.

Verificação do Locutor Independente de Texto

A verificação do locutor também pode ser independente de texto, o que significa que não há restrições sobre o que o locutor diz no áudio.

Na fase de registro, os recursos de voz são extraídos do áudio de um locutor para formar uma assinatura de voz exclusiva.

Na fase de verificação, o áudio e a ID associados ao indivíduo a ser verificado são enviados para a API de verificação do locutor. O serviço de verificação do locutor extrai recursos de voz da gravação de fala de entrada. Em seguida, ele compara os recursos de voz com a assinatura de voz no perfil de registro do alto-falante correspondente.

A resposta retorna "Aceitar" ou "Rejeitar" com uma pontuação de similaridade variando de 0 a 1. A resposta "Aceitar" é retornada quando a pontuação de similaridade é maior ou igual a 0,5. No entanto, o resultado deve ser determinado com base no cenário e em outros fatores de verificação que estão sendo usados. Recomendamos que você experimente seus próprios dados e determine seu limite para substituir a resposta "Aceitar" ou "Rejeitar", conforme apropriado.

As APIs não têm como objetivo determinar se o áudio é de uma pessoa viva, uma imitação ou uma gravação de um locutor registrado.

Identificação do locutor

A identificação do locutor é a tarefa de determinar a identidade de uma voz desconhecida entre um conjunto de palestrantes candidatos. A API de Identificação do Locutor retorna uma lista de "melhores correspondências" com base nas pontuações de similaridade em relação a uma lista fornecida de IDs. A API de Identificação do Locutor é independente de texto, pois não compara o que foi dito no registro e no reconhecimento.

Identificação do Locutor Independente de Texto

O registro de identificação do locutor não depende do texto, o que significa que não há restrições sobre o que é dito pelo locutor no áudio. Não há necessidade de uma frase secreta. Na fase de registro, a voz do locutor é registrada e os recursos de voz são extraídos para formar uma assinatura de voz exclusiva.

Na fase de identificação, o serviço de identificação do locutor extrai recursos de voz da gravação de fala de entrada. Em seguida, ele compara os recursos com as assinaturas de voz nos dados de registro de uma lista especificada de palestrantes (até 50 palestrantes candidatos em cada solicitação). A resposta incluiu uma ID identificada e cinco IDs mais bem classificadas com pontuações de similaridade variando de 0 a 1. A ID identificada é determinada com base na pontuação de similaridade do melhor alto-falante correspondente. Se nenhum dos palestrantes candidatos retornar uma pontuação de similaridade maior ou igual a 0,5, a resposta retornará uma cadeia de caracteres de zero para representar "nenhuma correspondência foi encontrada". No entanto, o resultado deve ser determinado com base em seu cenário e outros fatores que estão sendo usados. Recomendamos que você experimente seus dados e determine seu limite para substituir a "correspondência ou nenhuma correspondência" padrão, conforme apropriado.