Text Independent - Create Enrollment

Rejestrowanie profilu
Dodaje rejestrację do istniejącego profilu. Pierwsza rejestracja musi być wstępnie zdefiniowaną frazą aktywacji, która może być wyświetlana przy użyciu interfejsu API /phrases/{locale}. Jeśli zostanie osiągnięta minimalna liczba żądanych dźwięków rejestracji, zostanie utworzony wydruk głosowy. Każda dalsza rejestracja będzie używana do ulepszania drukowania głosowego.

Ograniczenia:

  • Minimalna długość danych wejściowych dźwięku na żądanie wynosi 1 sekundę

  • Maksymalna długość danych wejściowych dźwięku na żądanie wynosi 120 sekund

  • Minimalna całkowita efektywna długość mowy (z wyłączeniem ciszy i innych ramek mowy) do tworzenia odcisku głosu wynosi 20 sekund To ograniczenie można wyłączyć, ustawiając wartość ignorujMinLength na true.

  • Maksymalna łączna długość danych wejściowych dźwięku dozwolona do tworzenia odcisku głosu wynosi 300 sekund

  • Minimalny współczynnik sygnału audio do szumu (SNR) to 2dB

POST {endpoint}/speaker-recognition/identification/text-independent/profiles/{profileId}/enrollments?api-version=2021-09-05
POST {endpoint}/speaker-recognition/identification/text-independent/profiles/{profileId}/enrollments?api-version=2021-09-05&ignoreMinLength={ignoreMinLength}

Parametry identyfikatora URI

Nazwa W Wymagane Typ Opis
endpoint
path True

string

Obsługiwane punkty końcowe usług Cognitive Services (protokół i nazwa hosta, na przykład: https://westus.api.cognitive.microsoft.com).

profileId
path True

string

uuid

Unikatowy identyfikator identyfikatora profilu (guid).

api-version
query True

string

Określa wersję operacji do użycia dla tego żądania.

ignoreMinLength
query

boolean

W przypadku wartości true wydruk głosowy zostanie utworzony natychmiast dla tego profilu niezależnie od tego, ile mowy jest dostarczanych lub przechowywanych. Wartość domyślna to false.

Nagłówek żądania

Media Types: "audio/wav; codecs=audio/pcm"

Nazwa Wymagane Typ Opis
Ocp-Apim-Subscription-Key True

string

Treść żądania

Media Types: "audio/wav; codecs=audio/pcm"

Nazwa Typ Opis
audioData

object

Binarny plik audio. Obsługiwane formaty to audio/wav; codecs=audio/pcm. Obsługuje dźwięk do 5 MB.

Odpowiedzi

Nazwa Typ Opis
201 Created

TiEnrollmentInfo

Utworzone

Other Status Codes

SpeakerErrorInfo

Niepowodzenie

Headers

x-ms-error-code: string

Zabezpieczenia

Ocp-Apim-Subscription-Key

Type: apiKey
In: header

Przykłady

Successful Query

Sample Request

POST https://westus.api.cognitive.microsoft.com/speaker-recognition/identification/text-independent/profiles/49a36324-fc4b-4387-aa06-090cfbf0064f/enrollments?api-version=2021-09-05


"{binary file date}"

Sample Response

Content-Type: application/json
{
  "profileId": "49a36324-fc4b-4387-aa06-090cfbf0064f",
  "enrollmentStatus": "Enrolling",
  "enrollmentsCount": 1,
  "enrollmentsLengthInSec": 1.83,
  "enrollmentsSpeechLengthInSec": 1.35,
  "remainingEnrollmentsSpeechLengthInSec": 18.65,
  "audioLengthInSec": 1.83,
  "audioSpeechLengthInSec": 1.35
}
Content-Type: application/json
x-ms-error-code: Error Code
{
  "error": {
    "code": "Error Code",
    "message": "Erro Messae"
  }
}

Definicje

Nazwa Opis
Error
SpeakerErrorInfo

Komunikat o błędzie osoby mówiącej

TiEnrollmentInfo

Informacje o rejestracji profilu osoby mówiącej

TrainingStatusType

Stan reprezentujący bieżący stan rejestracji profilu. Dostępne wartości:

  • Rejestrowanie: profil nie ma wydruku głosowego i nie jest gotowy do obsługi żądań rozpoznawania.
  • Trenowanie: jest tworzony odcisk głosu profilu i nie można go używać do rozpoznawania w tej chwili.
  • Zarejestrowane: profil ma wydruk głosowy i jest gotowy do obsługi żądań rozpoznawania.

Error

Nazwa Typ Opis
code

string

message

string

SpeakerErrorInfo

Komunikat o błędzie osoby mówiącej

Nazwa Typ Opis
error

Error

TiEnrollmentInfo

Informacje o rejestracji profilu osoby mówiącej

Nazwa Typ Opis
audioLengthInSec

number

Ta długość dźwięku rejestracji w sekundach.

audioSpeechLengthInSec

number

Ta czysta mowa audio rejestracji (która jest ilością dźwięku po usunięciu segmentów ciszy i bez mowy) w sekundach.

enrollmentStatus

TrainingStatusType

Stan reprezentujący bieżący stan rejestracji profilu. Dostępne wartości:

  • Rejestrowanie: profil nie ma wydruku głosowego i nie jest gotowy do obsługi żądań rozpoznawania.
  • Trenowanie: jest tworzony odcisk głosu profilu i nie można go używać do rozpoznawania w tej chwili.
  • Zarejestrowane: profil ma wydruk głosowy i jest gotowy do obsługi żądań rozpoznawania.
enrollmentsCount

integer

Liczba audio rejestracji zaakceptowanych dla tego profilu.

enrollmentsLengthInSec

number

Łączna długość dźwięków rejestracji akceptowanych dla tego profilu w sekundach.

enrollmentsSpeechLengthInSec

number

Sumowanie czystej mowy (czyli ilości dźwięku po usunięciu segmentów ciszy i innych niż mowa) we wszystkich rejestracjach profilu w sekundach.

profileId

string

Unikatowy identyfikator identyfikatora profilu (guid).

remainingEnrollmentsSpeechLengthInSec

number

Ilość czystej mowy (która jest ilością dźwięku po usunięciu segmentów ciszy i innych niż mowa) potrzebnych do ukończenia rejestracji profilu w sekundach.

TrainingStatusType

Stan reprezentujący bieżący stan rejestracji profilu. Dostępne wartości:

  • Rejestrowanie: profil nie ma wydruku głosowego i nie jest gotowy do obsługi żądań rozpoznawania.
  • Trenowanie: jest tworzony odcisk głosu profilu i nie można go używać do rozpoznawania w tej chwili.
  • Zarejestrowane: profil ma wydruk głosowy i jest gotowy do obsługi żądań rozpoznawania.
Nazwa Typ Opis
Enrolled

string

Enrolling

string

Training

string