Text Independent - Identify Single Speaker
Identificar perfil de alto-falante único
Identifica quem está falando em áudio de entrada entre uma lista de perfis de candidatos.
Limitações:
O comprimento mínimo de entrada de áudio é de 1 segundo
O comprimento máximo da entrada de áudio é de 120 segundos
A contagem mínima de oradores candidatos é de 1
A contagem máxima de oradores candidatos é de 50
O comprimento mínimo efetivo da fala (excluindo silêncio e outros quadros que não sejam de fala) é de 4 segundos Essa limitação pode ser desativada definindo "ignoreMinLength" como true.
A relação sinal-ruído (SNR) mínima de áudio é 2dB
POST {endpoint}/speaker-recognition/identification/text-independent/profiles:identifySingleSpeaker?api-version=2021-09-05&profileIds={profileIds}
POST {endpoint}/speaker-recognition/identification/text-independent/profiles:identifySingleSpeaker?api-version=2021-09-05&profileIds={profileIds}&ignoreMinLength={ignoreMinLength}
Parâmetros do URI
| Name | Em | Necessário | Tipo | Description |
|---|---|---|---|---|
|
endpoint
|
path | True |
string |
Pontos de extremidade de Serviços Cognitivos suportados (protocolo e nome do host, por exemplo: https://westus.api.cognitive.microsoft.com). |
|
api-version
|
query | True |
string |
Especifica a versão da operação a ser usada para essa solicitação. |
|
profile
|
query | True |
string[] |
IDs de perfil delimitados por vírgula. O número máximo suportado é de 50 IDs. |
|
ignore
|
query |
boolean |
Se verdadeiro, a quantidade mínima de fala necessária para a identificação é ignorada. O padrão é false. |
Cabeçalho do Pedido
Media Types: "audio/wav; codecs=audio/pcm"
| Name | Necessário | Tipo | Description |
|---|---|---|---|
| Ocp-Apim-Subscription-Key | True |
string |
Corpo do Pedido
Media Types: "audio/wav; codecs=audio/pcm"
| Name | Tipo | Description |
|---|---|---|
| audioData |
object (file) |
Arquivo de áudio binário. Os formatos suportados são áudio / wav; codecs = áudio/pcm. Suporta áudio até 5MB. |
Respostas
| Name | Tipo | Description |
|---|---|---|
| 200 OK |
OK |
|
| Other Status Codes |
Fracasso Cabeçalhos x-ms-error-code: string |
Segurança
Ocp-Apim-Subscription-Key
Tipo:
apiKey
Em:
header
Exemplos
Successful Query
Pedido de amostra
POST https://westus.api.cognitive.microsoft.com/speaker-recognition/identification/text-independent/profiles:identifySingleSpeaker?api-version=2021-09-05&profileIds=3669fa29-1bf3-45ad-beea-6b348d058d7e,111f427c-3791-468f-b709-fcef7660fff9,0e196cd9-32d5-4883-8631-54a0e7c7cb3d,0e196cd9-32d5-4883-8631-54a0e7c7cb3d,726e57d9-04e0-4214-b482-7f786fa83560,f95189fd-1bf5-4485-9c2e-e5897e0c98ca
"{binary file date}"
Resposta da amostra
Content-Type: application/json
{
"identifiedProfile": {
"profileId": "111f427c-3791-468f-b709-fcef7660fff9",
"score": 0.63
},
"profilesRanking": [
{
"profileId": "111f427c-3791-468f-b709-fcef7660fff9",
"score": 0.63
},
{
"profileId": "3669fa29-1bf3-45ad-beea-6b348d058d7e",
"score": 0.49
},
{
"profileId": "0e196cd9-32d5-4883-8631-54a0e7c7cb3d",
"score": 0.4
},
{
"profileId": "726e57d9-04e0-4214-b482-7f786fa83560",
"score": 0.1
},
{
"profileId": "f95189fd-1bf5-4485-9c2e-e5897e0c98ca",
"score": 0.03
}
]
}
Content-Type: application/json
x-ms-error-code: Error Code
{
"error": {
"code": "Error Code",
"message": "Erro Messae"
}
}
Definições
| Name | Description |
|---|---|
| Error | |
|
Identified |
|
|
Identify |
Informação do orador identificado |
|
Speaker |
Mensagem de erro do orador |
Error
| Name | Tipo | Description |
|---|---|---|
| code |
string |
|
| message |
string |
IdentifiedSingleSpeakerInfo
| Name | Tipo | Description |
|---|---|---|
| identifiedProfile |
Objeto contendo dados de perfil identificado. |
|
| profilesRanking |
Objeto que contém dados dos 5 principais perfis (incluindo perfil identificado) classificados em ordem decrescente por pontuação. |
IdentifyInfo
Informação do orador identificado
| Name | Tipo | Description |
|---|---|---|
| profileId |
string (uuid) |
ID do perfil identificado. Se nenhum candidato for identificado como o orador certo, o valor será definido como GUID vazio. |
| score |
number |
Um número flutuante que indica a semelhança entre o áudio de entrada e a impressão de voz direcionada. Este número deve estar entre 0 e 1. Um número maior significa maior semelhança. |
SpeakerErrorInfo
Mensagem de erro do orador
| Name | Tipo | Description |
|---|---|---|
| error |