Text Dependent - Create Enrollment

Rejestrowanie profilu
Dodaje rejestrację do istniejącego profilu. Jeśli zostanie osiągnięta minimalna liczba żądanych dźwięków rejestracji, zostanie utworzony wydruk głosowy. Jeśli wcześniej utworzono wydruk głosowy, zostanie on utworzony ponownie ze wszystkich istniejących dźwięków rejestracji, w tym nowego.

Ograniczenia:

  • Minimalna długość danych wejściowych dźwięku na żądanie wynosi 1 sekundę
  • Maksymalna długość danych wejściowych dźwięku na żądanie wynosi 10 sekund
  • Minimalna liczba rejestracji do utworzenia odcisku głosu wynosi 3
  • Maksymalna liczba rejestracji do tworzenia odcisku głosu wynosi 50
  • Minimalny współczynnik sygnału audio do szumu (SNR) to 2dB

Ograniczenia:

  • Pierwsza rejestracja musi być zgodna z istniejącym hasłami.
  • Wszystkie rejestracje po pierwszym, muszą używać tego samego hasła użytego w pierwszej rejestracji.
POST {endpoint}/speaker-recognition/verification/text-dependent/profiles/{profileId}/enrollments?api-version=2021-09-05

Parametry identyfikatora URI

Nazwa W Wymagane Typ Opis
endpoint
path True

string

Obsługiwane punkty końcowe usług Cognitive Services (protokół i nazwa hosta, na przykład: https://westus.api.cognitive.microsoft.com).

profileId
path True

string

uuid

Unikatowy identyfikator identyfikatora profilu (guid).

api-version
query True

string

Określa wersję operacji do użycia dla tego żądania.

Nagłówek żądania

Media Types: "audio/wav; codecs=audio/pcm"

Nazwa Wymagane Typ Opis
Ocp-Apim-Subscription-Key True

string

Treść żądania

Media Types: "audio/wav; codecs=audio/pcm"

Nazwa Typ Opis
audioData

object

Binarny plik audio. Obsługiwane formaty to audio/wav; codecs=audio/pcm. Obsługuje dźwięk do 5 MB.

Odpowiedzi

Nazwa Typ Opis
201 Created

TdEnrollmentInfo

Utworzone

Other Status Codes

SpeakerErrorInfo

Niepowodzenie

Headers

x-ms-error-code: string

Zabezpieczenia

Ocp-Apim-Subscription-Key

Type: apiKey
In: header

Przykłady

Successful Query

Sample Request

POST https://westus.api.cognitive.microsoft.com/speaker-recognition/verification/text-dependent/profiles/49a36324-fc4b-4387-aa06-090cfbf0064f/enrollments?api-version=2021-09-05


"{binary file date}"

Sample Response

Content-Type: application/json
{
  "profileId": "49a36324-fc4b-4387-aa06-090cfbf0064f",
  "enrollmentStatus": "Enrolling",
  "enrollmentsCount": 1,
  "enrollmentsLengthInSec": 1.83,
  "enrollmentsSpeechLengthInSec": 1.35,
  "remainingEnrollmentsCount": 2,
  "passPhrase": "my voice is my passport verify me",
  "audioLengthInSec": 1.83,
  "audioSpeechLengthInSec": 1.35
}
Content-Type: application/json
x-ms-error-code: Error Code
{
  "error": {
    "code": "Error Code",
    "message": "Erro Messae"
  }
}

Definicje

Nazwa Opis
Error
SpeakerErrorInfo

Komunikat o błędzie osoby mówiącej

TdEnrollmentInfo

informacje o rejestracji profilu osoby mówiącej Text-Dependent

TrainingStatusType

Stan reprezentujący bieżący stan profilu. Dostępne wartości:

  • Rejestrowanie: profil nie ma wydruku głosowego i nie jest gotowy do obsługi żądań rozpoznawania.
  • Trenowanie: jest tworzony odcisk głosu profilu i nie można go używać do rozpoznawania w tej chwili.
  • Zarejestrowane: profil ma wydruk głosowy i jest gotowy do obsługi żądań rozpoznawania.

Error

Nazwa Typ Opis
code

string

message

string

SpeakerErrorInfo

Komunikat o błędzie osoby mówiącej

Nazwa Typ Opis
error

Error

TdEnrollmentInfo

informacje o rejestracji profilu osoby mówiącej Text-Dependent

Nazwa Typ Opis
audioLengthInSec

number

Ta długość dźwięku rejestracji w sekundach.

audioSpeechLengthInSec

number

Ta czysta mowa audio rejestracji (która jest ilością dźwięku po usunięciu segmentów ciszy i bez mowy) w sekundach.

enrollmentStatus

TrainingStatusType

Stan reprezentujący bieżący stan profilu. Dostępne wartości:

  • Rejestrowanie: profil nie ma wydruku głosowego i nie jest gotowy do obsługi żądań rozpoznawania.
  • Trenowanie: jest tworzony odcisk głosu profilu i nie można go używać do rozpoznawania w tej chwili.
  • Zarejestrowane: profil ma wydruk głosowy i jest gotowy do obsługi żądań rozpoznawania.
enrollmentsCount

integer

Liczba audio rejestracji zaakceptowanych dla tego profilu.

enrollmentsLengthInSec

number

Łączna długość dźwięków rejestracji akceptowanych dla tego profilu w sekundach.

enrollmentsSpeechLengthInSec

number

Sumowanie czystej mowy (czyli ilości dźwięku po usunięciu segmentów ciszy i innych niż mowa) we wszystkich rejestracjach profilu w sekundach.

passPhrase

string

Hasło skojarzone z tą rejestracją.

profileId

string

Unikatowy identyfikator identyfikatora profilu (guid).

remainingEnrollmentsCount

integer

Liczba audio rejestracji wymaganych do ukończenia rejestracji profilu.

TrainingStatusType

Stan reprezentujący bieżący stan profilu. Dostępne wartości:

  • Rejestrowanie: profil nie ma wydruku głosowego i nie jest gotowy do obsługi żądań rozpoznawania.
  • Trenowanie: jest tworzony odcisk głosu profilu i nie można go używać do rozpoznawania w tej chwili.
  • Zarejestrowane: profil ma wydruk głosowy i jest gotowy do obsługi żądań rozpoznawania.
Nazwa Typ Opis
Enrolled

string

Enrolling

string

Training

string