Text Independent - Create Enrollment
Rejestrowanie profilu
Dodaje rejestrację do istniejącego profilu.
Pierwsza rejestracja musi być wstępnie zdefiniowaną frazą aktywacji, którą można wymienić przy użyciu interfejsu API /phrases/{locale}.
Jeśli zostanie osiągnięta minimalna liczba żądanych audio rejestracji, zostanie utworzony wydruk głosowy.
Każda dalsza rejestracja będzie służyć do ulepszania drukowania głosowego.
Ograniczenia:
Minimalna długość wejścia audio na żądanie wynosi 1 sekundę
Maksymalna długość wejścia audio na żądanie wynosi 120 sekund
Minimalna całkowita efektywna długość mowy (z wyłączeniem ciszy i innych ramek innych niż mowa) na potrzeby tworzenia odcisku głosu wynosi 20 sekund . To ograniczenie można wyłączyć, ustawiając wartość "ignoreMinLength" na true.
Maksymalna łączna długość danych wejściowych audio dozwolona do tworzenia odcisku głosu wynosi 300 sekund
Minimalny współczynnik sygnału dźwiękowego do szumu (SNR) to 2dB
POST {endpoint}/speaker-recognition/verification/text-independent/profiles/{profileId}/enrollments?api-version=2021-09-05
POST {endpoint}/speaker-recognition/verification/text-independent/profiles/{profileId}/enrollments?api-version=2021-09-05&ignoreMinLength={ignoreMinLength}
Parametry identyfikatora URI
Nazwa | W | Wymagane | Typ | Opis |
---|---|---|---|---|
endpoint
|
path | True |
string |
Obsługiwane punkty końcowe usług Cognitive Services (protokół i nazwa hosta, na przykład: https://westus.api.cognitive.microsoft.com). |
profile
|
path | True |
string uuid |
Unikatowy identyfikator identyfikatora profilu (guid). |
api-version
|
query | True |
string |
Określa wersję operacji do użycia dla tego żądania. |
ignore
|
query |
boolean |
Jeśli to prawda, wydruk głosowy zostanie utworzony natychmiast dla tego profilu niezależnie od tego, ile mowy jest dostarczana lub przechowywana. Wartość domyślna to false. |
Nagłówek żądania
Media Types: "audio/wav; codecs=audio/pcm"
Nazwa | Wymagane | Typ | Opis |
---|---|---|---|
Ocp-Apim-Subscription-Key | True |
string |
Treść żądania
Media Types: "audio/wav; codecs=audio/pcm"
Nazwa | Typ | Opis |
---|---|---|
audioData |
object |
Binarny plik dźwiękowy. Obsługiwane formaty to audio/wav; codecs=audio/pcm. Obsługuje dźwięk do 5 MB. |
Odpowiedzi
Nazwa | Typ | Opis |
---|---|---|
201 Created |
Utworzone |
|
Other Status Codes |
Niepowodzenie Headers x-ms-error-code: string |
Zabezpieczenia
Ocp-Apim-Subscription-Key
Type:
apiKey
In:
header
Przykłady
Successful Query
Sample Request
POST https://westus.api.cognitive.microsoft.com/speaker-recognition/verification/text-independent/profiles/49a36324-fc4b-4387-aa06-090cfbf0064f/enrollments?api-version=2021-09-05
"{binary file date}"
Sample Response
Content-Type: application/json
{
"profileId": "49a36324-fc4b-4387-aa06-090cfbf0064f",
"enrollmentStatus": "Enrolling",
"enrollmentsCount": 1,
"enrollmentsLengthInSec": 1.83,
"enrollmentsSpeechLengthInSec": 1.35,
"remainingEnrollmentsSpeechLengthInSec": 18.65,
"audioLengthInSec": 1.83,
"audioSpeechLengthInSec": 1.35
}
Content-Type: application/json
x-ms-error-code: Error Code
{
"error": {
"code": "Error Code",
"message": "Erro Messae"
}
}
Definicje
Nazwa | Opis |
---|---|
Error | |
Speaker |
Komunikat o błędzie osoby mówiącej |
Ti |
informacje o rejestracji profilu osoby mówiącej Text-Independent |
Training |
Stan reprezentujący bieżący stan profilu. Dostępne wartości:
|
Error
Nazwa | Typ | Opis |
---|---|---|
code |
string |
|
message |
string |
SpeakerErrorInfo
Komunikat o błędzie osoby mówiącej
Nazwa | Typ | Opis |
---|---|---|
error |
TiEnrollmentInfo
informacje o rejestracji profilu osoby mówiącej Text-Independent
Nazwa | Typ | Opis |
---|---|---|
audioLengthInSec |
number |
Ta długość dźwięku rejestracji w sekundach. |
audioSpeechLengthInSec |
number |
Ta czysta mowa audio rejestracji (czyli ilość dźwięku po usunięciu segmentów ciszy i mowy) w sekundach. |
enrollmentStatus |
Stan reprezentujący bieżący stan profilu. Dostępne wartości:
|
|
enrollmentsCount |
integer |
Liczba dźwięków rejestracji akceptowanych dla tego profilu. |
enrollmentsLengthInSec |
number |
Łączna długość dźwięku rejestracji zaakceptowanego dla tego profilu w sekundach. |
enrollmentsSpeechLengthInSec |
number |
Sumowanie czystej mowy (czyli ilości dźwięku po usunięciu segmentów ciszy i innych niż mowa) we wszystkich rejestracjach profilów w sekundach. |
profileId |
string |
Unikatowy identyfikator identyfikatora profilu (guid). |
remainingEnrollmentsSpeechLengthInSec |
number |
Ilość czystej mowy (czyli ilość dźwięku po usunięciu segmentów ciszy i innych niż mowa) potrzebnych do ukończenia rejestracji profilu w sekundach. |
TrainingStatusType
Stan reprezentujący bieżący stan profilu. Dostępne wartości:
- Rejestrowanie: profil nie ma wydruku głosowego i nie jest gotowy do rozpoznawania żądań.
- Trenowanie: tworzony jest odcisk głosu profilu i nie można go używać do rozpoznawania w tej chwili.
- Zarejestrowane: profil ma wydruk głosowy i jest gotowy do rozpoznawania żądań.
Nazwa | Typ | Opis |
---|---|---|
Enrolled |
string |
|
Enrolling |
string |
|
Training |
string |