Text Independent - Create Enrollment
Профиль регистрации
Добавляет регистрацию в существующий профиль
Первая регистрация должна быть предопределенной фразой активации, которую можно перечислить с помощью API /phrases/{locale}.
Если достигнуто минимальное количество запрошенных аудиозаписей, создается голосовая печать.
Любая дальнейшая регистрация будет использоваться для улучшения голосовой печати.
Ограничения
Минимальная длина входных аудиоданных на запрос составляет 1 секунду
Максимальная длина входных аудиоданных на запрос составляет 120 секунд.
Минимальная общая эффективная длина речи (за исключением тишины и других кадров, не относящихся к речи) для создания голосового отпечатка составляет 20 секунд . Это ограничение можно отключить, присвоив параметру ignoreMinLength значение true.
Максимальная общая длина входных звуковых данных, разрешенная для создания голосового отпечатка, составляет 300 секунд.
Минимальное соотношение звуковых сигналов и шума (SNR) составляет 2dB
POST {endpoint}/speaker-recognition/identification/text-independent/profiles/{profileId}/enrollments?api-version=2021-09-05
POST {endpoint}/speaker-recognition/identification/text-independent/profiles/{profileId}/enrollments?api-version=2021-09-05&ignoreMinLength={ignoreMinLength}
Параметры URI
Имя | В | Обязательно | Тип | Описание |
---|---|---|---|---|
endpoint
|
path | True |
string |
Поддерживаемые конечные точки Cognitive Services (протокол и имя узла, например). https://westus.api.cognitive.microsoft.com |
profile
|
path | True |
string uuid |
Уникальный идентификатор для идентификатора профиля (GUID). |
api-version
|
query | True |
string |
Задает версию операции, используемой для этого запроса. |
ignore
|
query |
boolean |
Если значение равно true, для этого профиля будет немедленно создана голосовая печать независимо от объема передаваемых или сохраненных речи. Значение по умолчанию — false. |
Заголовок запроса
Media Types: "audio/wav; codecs=audio/pcm"
Имя | Обязательно | Тип | Описание |
---|---|---|---|
Ocp-Apim-Subscription-Key | True |
string |
Текст запроса
Media Types: "audio/wav; codecs=audio/pcm"
Имя | Тип | Описание |
---|---|---|
audioData |
object |
Двоичный звуковой файл. Поддерживаемые форматы: audio/wav; codecs=audio/pcm. Поддерживает звук до 5 МБ. |
Ответы
Имя | Тип | Описание |
---|---|---|
201 Created |
Создание |
|
Other Status Codes |
Failure Заголовки x-ms-error-code: string |
Безопасность
Ocp-Apim-Subscription-Key
Тип:
apiKey
В:
header
Примеры
Successful Query
Образец запроса
POST https://westus.api.cognitive.microsoft.com/speaker-recognition/identification/text-independent/profiles/49a36324-fc4b-4387-aa06-090cfbf0064f/enrollments?api-version=2021-09-05
"{binary file date}"
Пример ответа
Content-Type: application/json
{
"profileId": "49a36324-fc4b-4387-aa06-090cfbf0064f",
"enrollmentStatus": "Enrolling",
"enrollmentsCount": 1,
"enrollmentsLengthInSec": 1.83,
"enrollmentsSpeechLengthInSec": 1.35,
"remainingEnrollmentsSpeechLengthInSec": 18.65,
"audioLengthInSec": 1.83,
"audioSpeechLengthInSec": 1.35
}
Content-Type: application/json
x-ms-error-code: Error Code
{
"error": {
"code": "Error Code",
"message": "Erro Messae"
}
}
Определения
Имя | Описание |
---|---|
Error | |
Speaker |
Сообщение об ошибке говорящего |
Ti |
Сведения о регистрации профиля говорящего |
Training |
Состояние, представляющее текущее состояние регистрации профиля. Доступные значения:
|
Error
Имя | Тип | Описание |
---|---|---|
code |
string |
|
message |
string |
SpeakerErrorInfo
Сообщение об ошибке говорящего
Имя | Тип | Описание |
---|---|---|
error |
TiEnrollmentInfo
Сведения о регистрации профиля говорящего
Имя | Тип | Описание |
---|---|---|
audioLengthInSec |
number |
Длина звука регистрации в секундах. |
audioSpeechLengthInSec |
number |
Это регистрация аудио чистой речи (это количество звука после удаления тишины и не речевых сегментов) продолжительность в секундах. |
enrollmentStatus |
Состояние, представляющее текущее состояние регистрации профиля. Доступные значения:
|
|
enrollmentsCount |
integer |
Количество аудиозаписей, принятых для этого профиля. |
enrollmentsLengthInSec |
number |
Общая продолжительность аудиоданных регистрации, принятых для этого профиля, в секундах. |
enrollmentsSpeechLengthInSec |
number |
Суммирование чистой речи (это объем звука после удаления безмолвных и не речевых сегментов) во всех регистрациях профиля в секундах. |
profileId |
string |
Уникальный идентификатор для идентификатора профиля (GUID). |
remainingEnrollmentsSpeechLengthInSec |
number |
Объем чистой речи (это объем звука после удаления безмолвных и не речевых сегментов), необходимый для завершения регистрации профиля за считанные секунды. |
TrainingStatusType
Состояние, представляющее текущее состояние регистрации профиля. Доступные значения:
- Регистрация: профиль не имеет голосовой печати и не готов к запросам на распознавание.
- Обучение: создается голосовая печать профиля, которую нельзя использовать для распознавания в данный момент.
- Зарегистрировано: профиль имеет голосовую печать и готов к запросам распознавания.
Имя | Тип | Описание |
---|---|---|
Enrolled |
string |
|
Enrolling |
string |
|
Training |
string |