Udostępnij za pośrednictwem


Text Independent - Identify Single Speaker

Identyfikowanie profilu pojedynczego osoby mówiącej
Określa, kto mówi w dźwięku wejściowym wśród listy profilów kandydatów.

Ograniczenia:

  • Minimalna długość wejścia audio wynosi 1 sekundy

  • Maksymalna długość wejścia audio wynosi 120 sekund

  • Minimalna liczba kandydatów to 1

  • Maksymalna liczba kandydatów to 50

  • Minimalna efektywna długość mowy (z wyłączeniem ciszy i innych ramek mowy) jest 4 sekundy To ograniczenie można wyłączyć przez ustawienie "ignoreMinLength" na wartość true.

  • Minimalny współczynnik sygnału dźwiękowego do szumu (SNR) jest 2dB

POST {endpoint}/speaker-recognition/identification/text-independent/profiles:identifySingleSpeaker?api-version=2021-09-05&profileIds={profileIds}
POST {endpoint}/speaker-recognition/identification/text-independent/profiles:identifySingleSpeaker?api-version=2021-09-05&profileIds={profileIds}&ignoreMinLength={ignoreMinLength}

Parametry identyfikatora URI

Nazwa W Wymagane Typ Opis
endpoint
path True

string

Obsługiwane punkty końcowe usług Cognitive Services (protokół i nazwa hosta, na przykład: https://westus.api.cognitive.microsoft.com).

api-version
query True

string

Określa wersję operacji do użycia dla tego żądania.

profileIds
query True

string[]

Identyfikatory profilów rozdzielonych przecinkami. Maksymalna obsługiwana liczba to 50 identyfikatorów.

ignoreMinLength
query

boolean

Jeśli to prawda, minimalna ilość mowy potrzebnej do identyfikacji zostanie pominięta. Wartość domyślna to false.

Nagłówek żądania

Media Types: "audio/wav; codecs=audio/pcm"

Nazwa Wymagane Typ Opis
Ocp-Apim-Subscription-Key True

string

Treść żądania

Media Types: "audio/wav; codecs=audio/pcm"

Nazwa Typ Opis
audioData

object (file)

Binarny plik dźwiękowy. Obsługiwane formaty to audio/wav; codecs=audio/pcm. Obsługuje dźwięk do 5 MB.

Odpowiedzi

Nazwa Typ Opis
200 OK

IdentifiedSingleSpeakerInfo

OK

Other Status Codes

SpeakerErrorInfo

Niepowodzenie

Nagłówki

x-ms-error-code: string

Zabezpieczenia

Ocp-Apim-Subscription-Key

Typ: apiKey
W: header

Przykłady

Successful Query

Przykładowe żądanie

POST https://westus.api.cognitive.microsoft.com/speaker-recognition/identification/text-independent/profiles:identifySingleSpeaker?api-version=2021-09-05&profileIds=3669fa29-1bf3-45ad-beea-6b348d058d7e,111f427c-3791-468f-b709-fcef7660fff9,0e196cd9-32d5-4883-8631-54a0e7c7cb3d,0e196cd9-32d5-4883-8631-54a0e7c7cb3d,726e57d9-04e0-4214-b482-7f786fa83560,f95189fd-1bf5-4485-9c2e-e5897e0c98ca


"{binary file date}"

Przykładowa odpowiedź

Content-Type: application/json
{
  "identifiedProfile": {
    "profileId": "111f427c-3791-468f-b709-fcef7660fff9",
    "score": 0.63
  },
  "profilesRanking": [
    {
      "profileId": "111f427c-3791-468f-b709-fcef7660fff9",
      "score": 0.63
    },
    {
      "profileId": "3669fa29-1bf3-45ad-beea-6b348d058d7e",
      "score": 0.49
    },
    {
      "profileId": "0e196cd9-32d5-4883-8631-54a0e7c7cb3d",
      "score": 0.4
    },
    {
      "profileId": "726e57d9-04e0-4214-b482-7f786fa83560",
      "score": 0.1
    },
    {
      "profileId": "f95189fd-1bf5-4485-9c2e-e5897e0c98ca",
      "score": 0.03
    }
  ]
}
Content-Type: application/json
x-ms-error-code: Error Code
{
  "error": {
    "code": "Error Code",
    "message": "Erro Messae"
  }
}

Definicje

Nazwa Opis
Error
IdentifiedSingleSpeakerInfo
IdentifyInfo

Zidentyfikowane informacje o prelegentach

SpeakerErrorInfo

Komunikat o błędzie osoby mówiącej

Error

Nazwa Typ Opis
code

string

message

string

IdentifiedSingleSpeakerInfo

Nazwa Typ Opis
identifiedProfile

IdentifyInfo

Obiekt zawierający dane zidentyfikowanego profilu.

profilesRanking

IdentifyInfo[]

Obiekt zawierający dane z 5 pierwszych profilów (w tym zidentyfikowany profil) posortowany w kolejności malejącej według wyniku.

IdentifyInfo

Zidentyfikowane informacje o prelegentach

Nazwa Typ Opis
profileId

string (uuid)

Identyfikator zidentyfikowanego profilu. Jeśli żaden kandydat nie zostanie zidentyfikowany jako właściwy mówca, wartość zostanie ustawiona na pusty identyfikator GUID.

score

number

Liczba zmiennoprzecinkowa wskazująca podobieństwo między wejściowym dźwiękiem a docelowym drukowaniem głosowym. Ta liczba musi należeć do zakresu od 0 do 1. Większa liczba oznacza większą podobieństwo.

SpeakerErrorInfo

Komunikat o błędzie osoby mówiącej

Nazwa Typ Opis
error

Error