Text Independent - Identify Single Speaker
Identyfikowanie profilu pojedynczego osoby mówiącej
Określa, kto mówi w dźwięku wejściowym wśród listy profilów kandydatów.
Ograniczenia:
Minimalna długość wejścia audio wynosi 1 sekundy
Maksymalna długość wejścia audio wynosi 120 sekund
Minimalna liczba kandydatów to 1
Maksymalna liczba kandydatów to 50
Minimalna efektywna długość mowy (z wyłączeniem ciszy i innych ramek mowy) jest 4 sekundy To ograniczenie można wyłączyć przez ustawienie "ignoreMinLength" na wartość true.
Minimalny współczynnik sygnału dźwiękowego do szumu (SNR) jest 2dB
POST {endpoint}/speaker-recognition/identification/text-independent/profiles:identifySingleSpeaker?api-version=2021-09-05&profileIds={profileIds}
POST {endpoint}/speaker-recognition/identification/text-independent/profiles:identifySingleSpeaker?api-version=2021-09-05&profileIds={profileIds}&ignoreMinLength={ignoreMinLength}
Parametry identyfikatora URI
| Nazwa | W | Wymagane | Typ | Opis |
|---|---|---|---|---|
|
endpoint
|
path | True |
string |
Obsługiwane punkty końcowe usług Cognitive Services (protokół i nazwa hosta, na przykład: https://westus.api.cognitive.microsoft.com). |
|
api-version
|
query | True |
string |
Określa wersję operacji do użycia dla tego żądania. |
|
profile
|
query | True |
string[] |
Identyfikatory profilów rozdzielonych przecinkami. Maksymalna obsługiwana liczba to 50 identyfikatorów. |
|
ignore
|
query |
boolean |
Jeśli to prawda, minimalna ilość mowy potrzebnej do identyfikacji zostanie pominięta. Wartość domyślna to false. |
Nagłówek żądania
Media Types: "audio/wav; codecs=audio/pcm"
| Nazwa | Wymagane | Typ | Opis |
|---|---|---|---|
| Ocp-Apim-Subscription-Key | True |
string |
Treść żądania
Media Types: "audio/wav; codecs=audio/pcm"
| Nazwa | Typ | Opis |
|---|---|---|
| audioData |
object (file) |
Binarny plik dźwiękowy. Obsługiwane formaty to audio/wav; codecs=audio/pcm. Obsługuje dźwięk do 5 MB. |
Odpowiedzi
| Nazwa | Typ | Opis |
|---|---|---|
| 200 OK |
OK |
|
| Other Status Codes |
Niepowodzenie Nagłówki x-ms-error-code: string |
Zabezpieczenia
Ocp-Apim-Subscription-Key
Typ:
apiKey
W:
header
Przykłady
Successful Query
Przykładowe żądanie
POST https://westus.api.cognitive.microsoft.com/speaker-recognition/identification/text-independent/profiles:identifySingleSpeaker?api-version=2021-09-05&profileIds=3669fa29-1bf3-45ad-beea-6b348d058d7e,111f427c-3791-468f-b709-fcef7660fff9,0e196cd9-32d5-4883-8631-54a0e7c7cb3d,0e196cd9-32d5-4883-8631-54a0e7c7cb3d,726e57d9-04e0-4214-b482-7f786fa83560,f95189fd-1bf5-4485-9c2e-e5897e0c98ca
"{binary file date}"
Przykładowa odpowiedź
Content-Type: application/json
{
"identifiedProfile": {
"profileId": "111f427c-3791-468f-b709-fcef7660fff9",
"score": 0.63
},
"profilesRanking": [
{
"profileId": "111f427c-3791-468f-b709-fcef7660fff9",
"score": 0.63
},
{
"profileId": "3669fa29-1bf3-45ad-beea-6b348d058d7e",
"score": 0.49
},
{
"profileId": "0e196cd9-32d5-4883-8631-54a0e7c7cb3d",
"score": 0.4
},
{
"profileId": "726e57d9-04e0-4214-b482-7f786fa83560",
"score": 0.1
},
{
"profileId": "f95189fd-1bf5-4485-9c2e-e5897e0c98ca",
"score": 0.03
}
]
}
Content-Type: application/json
x-ms-error-code: Error Code
{
"error": {
"code": "Error Code",
"message": "Erro Messae"
}
}
Definicje
| Nazwa | Opis |
|---|---|
| Error | |
|
Identified |
|
|
Identify |
Zidentyfikowane informacje o prelegentach |
|
Speaker |
Komunikat o błędzie osoby mówiącej |
Error
| Nazwa | Typ | Opis |
|---|---|---|
| code |
string |
|
| message |
string |
IdentifiedSingleSpeakerInfo
| Nazwa | Typ | Opis |
|---|---|---|
| identifiedProfile |
Obiekt zawierający dane zidentyfikowanego profilu. |
|
| profilesRanking |
Obiekt zawierający dane z 5 pierwszych profilów (w tym zidentyfikowany profil) posortowany w kolejności malejącej według wyniku. |
IdentifyInfo
Zidentyfikowane informacje o prelegentach
| Nazwa | Typ | Opis |
|---|---|---|
| profileId |
string (uuid) |
Identyfikator zidentyfikowanego profilu. Jeśli żaden kandydat nie zostanie zidentyfikowany jako właściwy mówca, wartość zostanie ustawiona na pusty identyfikator GUID. |
| score |
number |
Liczba zmiennoprzecinkowa wskazująca podobieństwo między wejściowym dźwiękiem a docelowym drukowaniem głosowym. Ta liczba musi należeć do zakresu od 0 do 1. Większa liczba oznacza większą podobieństwo. |
SpeakerErrorInfo
Komunikat o błędzie osoby mówiącej
| Nazwa | Typ | Opis |
|---|---|---|
| error |