Text Independent - Create Enrollment

Rejestrowanie profilu
Dodaje rejestrację do istniejącego profilu. Pierwsza rejestracja musi być wstępnie zdefiniowaną frazą aktywacji, którą można wymienić przy użyciu interfejsu API /phrases/{locale}. Jeśli zostanie osiągnięta minimalna liczba żądanych audio rejestracji, zostanie utworzony wydruk głosowy. Każda dalsza rejestracja będzie służyć do ulepszania drukowania głosowego.

Ograniczenia:

  • Minimalna długość wejścia audio na żądanie wynosi 1 sekundę

  • Maksymalna długość wejścia audio na żądanie wynosi 120 sekund

  • Minimalna całkowita efektywna długość mowy (z wyłączeniem ciszy i innych ramek innych niż mowa) na potrzeby tworzenia odcisku głosu wynosi 20 sekund . To ograniczenie można wyłączyć, ustawiając wartość "ignoreMinLength" na true.

  • Maksymalna łączna długość danych wejściowych audio dozwolona do tworzenia odcisku głosu wynosi 300 sekund

  • Minimalny współczynnik sygnału dźwiękowego do szumu (SNR) to 2dB

POST {endpoint}/speaker-recognition/verification/text-independent/profiles/{profileId}/enrollments?api-version=2021-09-05
POST {endpoint}/speaker-recognition/verification/text-independent/profiles/{profileId}/enrollments?api-version=2021-09-05&ignoreMinLength={ignoreMinLength}

Parametry identyfikatora URI

Nazwa W Wymagane Typ Opis
endpoint
path True

string

Obsługiwane punkty końcowe usług Cognitive Services (protokół i nazwa hosta, na przykład: https://westus.api.cognitive.microsoft.com).

profileId
path True

string

uuid

Unikatowy identyfikator identyfikatora profilu (guid).

api-version
query True

string

Określa wersję operacji do użycia dla tego żądania.

ignoreMinLength
query

boolean

Jeśli to prawda, wydruk głosowy zostanie utworzony natychmiast dla tego profilu niezależnie od tego, ile mowy jest dostarczana lub przechowywana. Wartość domyślna to false.

Nagłówek żądania

Media Types: "audio/wav; codecs=audio/pcm"

Nazwa Wymagane Typ Opis
Ocp-Apim-Subscription-Key True

string

Treść żądania

Media Types: "audio/wav; codecs=audio/pcm"

Nazwa Typ Opis
audioData

object

Binarny plik dźwiękowy. Obsługiwane formaty to audio/wav; codecs=audio/pcm. Obsługuje dźwięk do 5 MB.

Odpowiedzi

Nazwa Typ Opis
201 Created

TiEnrollmentInfo

Utworzone

Other Status Codes

SpeakerErrorInfo

Niepowodzenie

Headers

x-ms-error-code: string

Zabezpieczenia

Ocp-Apim-Subscription-Key

Type: apiKey
In: header

Przykłady

Successful Query

Sample Request

POST https://westus.api.cognitive.microsoft.com/speaker-recognition/verification/text-independent/profiles/49a36324-fc4b-4387-aa06-090cfbf0064f/enrollments?api-version=2021-09-05


"{binary file date}"

Sample Response

Content-Type: application/json
{
  "profileId": "49a36324-fc4b-4387-aa06-090cfbf0064f",
  "enrollmentStatus": "Enrolling",
  "enrollmentsCount": 1,
  "enrollmentsLengthInSec": 1.83,
  "enrollmentsSpeechLengthInSec": 1.35,
  "remainingEnrollmentsSpeechLengthInSec": 18.65,
  "audioLengthInSec": 1.83,
  "audioSpeechLengthInSec": 1.35
}
Content-Type: application/json
x-ms-error-code: Error Code
{
  "error": {
    "code": "Error Code",
    "message": "Erro Messae"
  }
}

Definicje

Nazwa Opis
Error
SpeakerErrorInfo

Komunikat o błędzie osoby mówiącej

TiEnrollmentInfo

informacje o rejestracji profilu osoby mówiącej Text-Independent

TrainingStatusType

Stan reprezentujący bieżący stan profilu. Dostępne wartości:

  • Rejestrowanie: profil nie ma wydruku głosowego i nie jest gotowy do rozpoznawania żądań.
  • Trenowanie: tworzony jest odcisk głosu profilu i nie można go używać do rozpoznawania w tej chwili.
  • Zarejestrowane: profil ma wydruk głosowy i jest gotowy do rozpoznawania żądań.

Error

Nazwa Typ Opis
code

string

message

string

SpeakerErrorInfo

Komunikat o błędzie osoby mówiącej

Nazwa Typ Opis
error

Error

TiEnrollmentInfo

informacje o rejestracji profilu osoby mówiącej Text-Independent

Nazwa Typ Opis
audioLengthInSec

number

Ta długość dźwięku rejestracji w sekundach.

audioSpeechLengthInSec

number

Ta czysta mowa audio rejestracji (czyli ilość dźwięku po usunięciu segmentów ciszy i mowy) w sekundach.

enrollmentStatus

TrainingStatusType

Stan reprezentujący bieżący stan profilu. Dostępne wartości:

  • Rejestrowanie: profil nie ma wydruku głosowego i nie jest gotowy do rozpoznawania żądań.
  • Trenowanie: tworzony jest odcisk głosu profilu i nie można go używać do rozpoznawania w tej chwili.
  • Zarejestrowane: profil ma wydruk głosowy i jest gotowy do rozpoznawania żądań.
enrollmentsCount

integer

Liczba dźwięków rejestracji akceptowanych dla tego profilu.

enrollmentsLengthInSec

number

Łączna długość dźwięku rejestracji zaakceptowanego dla tego profilu w sekundach.

enrollmentsSpeechLengthInSec

number

Sumowanie czystej mowy (czyli ilości dźwięku po usunięciu segmentów ciszy i innych niż mowa) we wszystkich rejestracjach profilów w sekundach.

profileId

string

Unikatowy identyfikator identyfikatora profilu (guid).

remainingEnrollmentsSpeechLengthInSec

number

Ilość czystej mowy (czyli ilość dźwięku po usunięciu segmentów ciszy i innych niż mowa) potrzebnych do ukończenia rejestracji profilu w sekundach.

TrainingStatusType

Stan reprezentujący bieżący stan profilu. Dostępne wartości:

  • Rejestrowanie: profil nie ma wydruku głosowego i nie jest gotowy do rozpoznawania żądań.
  • Trenowanie: tworzony jest odcisk głosu profilu i nie można go używać do rozpoznawania w tej chwili.
  • Zarejestrowane: profil ma wydruk głosowy i jest gotowy do rozpoznawania żądań.
Nazwa Typ Opis
Enrolled

string

Enrolling

string

Training

string