Text Independent - Create Enrollment
Rejestrowanie profilu
Dodaje rejestrację do istniejącego profilu.
Pierwsza rejestracja musi być wstępnie zdefiniowaną frazą aktywacji, która może być wyświetlana przy użyciu interfejsu API /phrases/{locale}.
Jeśli zostanie osiągnięta minimalna liczba żądanych dźwięków rejestracji, zostanie utworzony wydruk głosowy.
Każda dalsza rejestracja będzie używana do ulepszania drukowania głosowego.
Ograniczenia:
Minimalna długość danych wejściowych dźwięku na żądanie wynosi 1 sekundę
Maksymalna długość danych wejściowych dźwięku na żądanie wynosi 120 sekund
Minimalna całkowita efektywna długość mowy (z wyłączeniem ciszy i innych ramek mowy) do tworzenia odcisku głosu wynosi 20 sekund To ograniczenie można wyłączyć, ustawiając wartość ignorujMinLength na true.
Maksymalna łączna długość danych wejściowych dźwięku dozwolona do tworzenia odcisku głosu wynosi 300 sekund
Minimalny współczynnik sygnału audio do szumu (SNR) to 2dB
POST {endpoint}/speaker-recognition/identification/text-independent/profiles/{profileId}/enrollments?api-version=2021-09-05
POST {endpoint}/speaker-recognition/identification/text-independent/profiles/{profileId}/enrollments?api-version=2021-09-05&ignoreMinLength={ignoreMinLength}
Parametry identyfikatora URI
Nazwa | W | Wymagane | Typ | Opis |
---|---|---|---|---|
endpoint
|
path | True |
string |
Obsługiwane punkty końcowe usług Cognitive Services (protokół i nazwa hosta, na przykład: https://westus.api.cognitive.microsoft.com). |
profile
|
path | True |
string uuid |
Unikatowy identyfikator identyfikatora profilu (guid). |
api-version
|
query | True |
string |
Określa wersję operacji do użycia dla tego żądania. |
ignore
|
query |
boolean |
W przypadku wartości true wydruk głosowy zostanie utworzony natychmiast dla tego profilu niezależnie od tego, ile mowy jest dostarczanych lub przechowywanych. Wartość domyślna to false. |
Nagłówek żądania
Media Types: "audio/wav; codecs=audio/pcm"
Nazwa | Wymagane | Typ | Opis |
---|---|---|---|
Ocp-Apim-Subscription-Key | True |
string |
Treść żądania
Media Types: "audio/wav; codecs=audio/pcm"
Nazwa | Typ | Opis |
---|---|---|
audioData |
object |
Binarny plik audio. Obsługiwane formaty to audio/wav; codecs=audio/pcm. Obsługuje dźwięk do 5 MB. |
Odpowiedzi
Nazwa | Typ | Opis |
---|---|---|
201 Created |
Utworzone |
|
Other Status Codes |
Niepowodzenie Headers x-ms-error-code: string |
Zabezpieczenia
Ocp-Apim-Subscription-Key
Type:
apiKey
In:
header
Przykłady
Successful Query
Sample Request
POST https://westus.api.cognitive.microsoft.com/speaker-recognition/identification/text-independent/profiles/49a36324-fc4b-4387-aa06-090cfbf0064f/enrollments?api-version=2021-09-05
"{binary file date}"
Sample Response
Content-Type: application/json
{
"profileId": "49a36324-fc4b-4387-aa06-090cfbf0064f",
"enrollmentStatus": "Enrolling",
"enrollmentsCount": 1,
"enrollmentsLengthInSec": 1.83,
"enrollmentsSpeechLengthInSec": 1.35,
"remainingEnrollmentsSpeechLengthInSec": 18.65,
"audioLengthInSec": 1.83,
"audioSpeechLengthInSec": 1.35
}
Content-Type: application/json
x-ms-error-code: Error Code
{
"error": {
"code": "Error Code",
"message": "Erro Messae"
}
}
Definicje
Nazwa | Opis |
---|---|
Error | |
Speaker |
Komunikat o błędzie osoby mówiącej |
Ti |
Informacje o rejestracji profilu osoby mówiącej |
Training |
Stan reprezentujący bieżący stan rejestracji profilu. Dostępne wartości:
|
Error
Nazwa | Typ | Opis |
---|---|---|
code |
string |
|
message |
string |
SpeakerErrorInfo
Komunikat o błędzie osoby mówiącej
Nazwa | Typ | Opis |
---|---|---|
error |
TiEnrollmentInfo
Informacje o rejestracji profilu osoby mówiącej
Nazwa | Typ | Opis |
---|---|---|
audioLengthInSec |
number |
Ta długość dźwięku rejestracji w sekundach. |
audioSpeechLengthInSec |
number |
Ta czysta mowa audio rejestracji (która jest ilością dźwięku po usunięciu segmentów ciszy i bez mowy) w sekundach. |
enrollmentStatus |
Stan reprezentujący bieżący stan rejestracji profilu. Dostępne wartości:
|
|
enrollmentsCount |
integer |
Liczba audio rejestracji zaakceptowanych dla tego profilu. |
enrollmentsLengthInSec |
number |
Łączna długość dźwięków rejestracji akceptowanych dla tego profilu w sekundach. |
enrollmentsSpeechLengthInSec |
number |
Sumowanie czystej mowy (czyli ilości dźwięku po usunięciu segmentów ciszy i innych niż mowa) we wszystkich rejestracjach profilu w sekundach. |
profileId |
string |
Unikatowy identyfikator identyfikatora profilu (guid). |
remainingEnrollmentsSpeechLengthInSec |
number |
Ilość czystej mowy (która jest ilością dźwięku po usunięciu segmentów ciszy i innych niż mowa) potrzebnych do ukończenia rejestracji profilu w sekundach. |
TrainingStatusType
Stan reprezentujący bieżący stan rejestracji profilu. Dostępne wartości:
- Rejestrowanie: profil nie ma wydruku głosowego i nie jest gotowy do obsługi żądań rozpoznawania.
- Trenowanie: jest tworzony odcisk głosu profilu i nie można go używać do rozpoznawania w tej chwili.
- Zarejestrowane: profil ma wydruk głosowy i jest gotowy do obsługi żądań rozpoznawania.
Nazwa | Typ | Opis |
---|---|---|
Enrolled |
string |
|
Enrolling |
string |
|
Training |
string |