Text Independent - Create Enrollment

Профиль регистрации
Добавляет регистрацию в существующий профиль Первая регистрация должна быть предопределенной фразой активации, которую можно перечислить с помощью API /phrases/{locale}. Если достигнуто минимальное количество запрошенных аудиозаписей, создается голосовая печать. Любая дальнейшая регистрация будет использоваться для улучшения голосовой печати.

Ограничения

  • Минимальная длина входных аудиоданных на запрос составляет 1 секунда

  • Максимальная длина входных аудиоданных на запрос составляет 120 секунд.

  • Минимальная общая эффективная длина речи (за исключением тишины и других кадров, не относящихся к речи) для создания голосовой отпечатки составляет 20 секунд . Это ограничение можно отключить, задав для параметра ignoreMinLength значение true.

  • Максимальная общая длина входных аудиоданных для создания голосовой отпечатки составляет 300 секунд.

  • Минимальное соотношение сигналов и шума звука (SNR) составляет 2dB

POST {endpoint}/speaker-recognition/verification/text-independent/profiles/{profileId}/enrollments?api-version=2021-09-05
POST {endpoint}/speaker-recognition/verification/text-independent/profiles/{profileId}/enrollments?api-version=2021-09-05&ignoreMinLength={ignoreMinLength}

Параметры URI

Имя В Обязательно Тип Описание
endpoint
path True

string

Поддерживаемые конечные точки Cognitive Services (протокол и имя узла, например : https://westus.api.cognitive.microsoft.com).

profileId
path True

string

uuid

Уникальный идентификатор для идентификатора профиля (GUID).

api-version
query True

string

Задает версию операции, используемой для этого запроса.

ignoreMinLength
query

boolean

Если задано значение true, для этого профиля будет немедленно создана голосовая печать, независимо от того, какой объем речи предоставлен или сохранен. Значение по умолчанию — false.

Заголовок запроса

Media Types: "audio/wav; codecs=audio/pcm"

Имя Обязательно Тип Описание
Ocp-Apim-Subscription-Key True

string

Текст запроса

Media Types: "audio/wav; codecs=audio/pcm"

Имя Тип Описание
audioData

object

Двоичный звуковой файл. Поддерживаемые форматы: аудио/wav; codecs=audio/pcm. Поддерживает звук до 5 МБ.

Ответы

Имя Тип Описание
201 Created

TiEnrollmentInfo

Создание

Other Status Codes

SpeakerErrorInfo

Failure

Headers

x-ms-error-code: string

Безопасность

Ocp-Apim-Subscription-Key

Type: apiKey
In: header

Примеры

Successful Query

Sample Request

POST https://westus.api.cognitive.microsoft.com/speaker-recognition/verification/text-independent/profiles/49a36324-fc4b-4387-aa06-090cfbf0064f/enrollments?api-version=2021-09-05


"{binary file date}"

Sample Response

Content-Type: application/json
{
  "profileId": "49a36324-fc4b-4387-aa06-090cfbf0064f",
  "enrollmentStatus": "Enrolling",
  "enrollmentsCount": 1,
  "enrollmentsLengthInSec": 1.83,
  "enrollmentsSpeechLengthInSec": 1.35,
  "remainingEnrollmentsSpeechLengthInSec": 18.65,
  "audioLengthInSec": 1.83,
  "audioSpeechLengthInSec": 1.35
}
Content-Type: application/json
x-ms-error-code: Error Code
{
  "error": {
    "code": "Error Code",
    "message": "Erro Messae"
  }
}

Определения

Имя Описание
Error
SpeakerErrorInfo

Сообщение об ошибке говорящего

TiEnrollmentInfo

Сведения о регистрации профиля докладчика Text-Independent

TrainingStatusType

Состояние, представляющее текущее состояние профиля. Доступные значения:

  • Регистрация: профиль не имеет голосовой печати и не готов к запросам на распознавание.
  • Учебный курс: создается голосовая печать профиля и не может быть использована для распознавания на данный момент.
  • Зарегистрировано: профиль имеет голосовую печать и готов к запросам на распознавание.

Error

Имя Тип Описание
code

string

message

string

SpeakerErrorInfo

Сообщение об ошибке говорящего

Имя Тип Описание
error

Error

TiEnrollmentInfo

Сведения о регистрации профиля докладчика Text-Independent

Имя Тип Описание
audioLengthInSec

number

Длина звука регистрации в секундах.

audioSpeechLengthInSec

number

Эта регистрация аудио чистой речи (это объем звука после удаления тишины и не речевых сегментов) продолжительность в секундах.

enrollmentStatus

TrainingStatusType

Состояние, представляющее текущее состояние профиля. Доступные значения:

  • Регистрация: профиль не имеет голосовой печати и не готов к запросам на распознавание.
  • Учебный курс: создается голосовая печать профиля и не может быть использована для распознавания на данный момент.
  • Зарегистрировано: профиль имеет голосовую печать и готов к запросам на распознавание.
enrollmentsCount

integer

Количество аудиозаписей, принятых для этого профиля.

enrollmentsLengthInSec

number

Общая продолжительность аудиоданных регистрации, принятых для этого профиля, в секундах.

enrollmentsSpeechLengthInSec

number

Суммирование чистой речи (это объем звука после удаления безмолвных и не речевых сегментов) во всех регистрациях профиля в секундах.

profileId

string

Уникальный идентификатор для идентификатора профиля (GUID).

remainingEnrollmentsSpeechLengthInSec

number

Объем чистой речи (то есть объем звука после удаления безмолвных и не речевых сегментов), необходимый для завершения регистрации профиля в секундах.

TrainingStatusType

Состояние, представляющее текущее состояние профиля. Доступные значения:

  • Регистрация: профиль не имеет голосовой печати и не готов к запросам на распознавание.
  • Учебный курс: создается голосовая печать профиля и не может быть использована для распознавания на данный момент.
  • Зарегистрировано: профиль имеет голосовую печать и готов к запросам на распознавание.
Имя Тип Описание
Enrolled

string

Enrolling

string

Training

string