Поделиться через


Text Independent - Create Enrollment

Профиль регистрации
Добавляет регистрацию в существующий профиль Первая регистрация должна быть предопределенной фразой активации, которую можно перечислить с помощью API /phrases/{locale}. Если достигнуто минимальное количество запрошенных аудиозаписей, создается голосовая печать. Любая дальнейшая регистрация будет использоваться для улучшения голосовой печати.

Ограничения

  • Минимальная длина входных аудиоданных на запрос составляет 1 секунду

  • Максимальная длина входных аудиоданных на запрос составляет 120 секунд.

  • Минимальная общая эффективная длина речи (за исключением тишины и других кадров, не относящихся к речи) для создания голосового отпечатка составляет 20 секунд . Это ограничение можно отключить, присвоив параметру ignoreMinLength значение true.

  • Максимальная общая длина входных звуковых данных, разрешенная для создания голосового отпечатка, составляет 300 секунд.

  • Минимальное соотношение звуковых сигналов и шума (SNR) составляет 2dB

POST {endpoint}/speaker-recognition/identification/text-independent/profiles/{profileId}/enrollments?api-version=2021-09-05
POST {endpoint}/speaker-recognition/identification/text-independent/profiles/{profileId}/enrollments?api-version=2021-09-05&ignoreMinLength={ignoreMinLength}

Параметры URI

Имя В Обязательно Тип Описание
endpoint
path True

string

Поддерживаемые конечные точки Cognitive Services (протокол и имя узла, например). https://westus.api.cognitive.microsoft.com

profileId
path True

string

uuid

Уникальный идентификатор для идентификатора профиля (GUID).

api-version
query True

string

Задает версию операции, используемой для этого запроса.

ignoreMinLength
query

boolean

Если значение равно true, для этого профиля будет немедленно создана голосовая печать независимо от объема передаваемых или сохраненных речи. Значение по умолчанию — false.

Заголовок запроса

Media Types: "audio/wav; codecs=audio/pcm"

Имя Обязательно Тип Описание
Ocp-Apim-Subscription-Key True

string

Текст запроса

Media Types: "audio/wav; codecs=audio/pcm"

Имя Тип Описание
audioData

object

Двоичный звуковой файл. Поддерживаемые форматы: audio/wav; codecs=audio/pcm. Поддерживает звук до 5 МБ.

Ответы

Имя Тип Описание
201 Created

TiEnrollmentInfo

Создание

Other Status Codes

SpeakerErrorInfo

Failure

Заголовки

x-ms-error-code: string

Безопасность

Ocp-Apim-Subscription-Key

Тип: apiKey
В: header

Примеры

Successful Query

Образец запроса

POST https://westus.api.cognitive.microsoft.com/speaker-recognition/identification/text-independent/profiles/49a36324-fc4b-4387-aa06-090cfbf0064f/enrollments?api-version=2021-09-05


"{binary file date}"

Пример ответа

Content-Type: application/json
{
  "profileId": "49a36324-fc4b-4387-aa06-090cfbf0064f",
  "enrollmentStatus": "Enrolling",
  "enrollmentsCount": 1,
  "enrollmentsLengthInSec": 1.83,
  "enrollmentsSpeechLengthInSec": 1.35,
  "remainingEnrollmentsSpeechLengthInSec": 18.65,
  "audioLengthInSec": 1.83,
  "audioSpeechLengthInSec": 1.35
}
Content-Type: application/json
x-ms-error-code: Error Code
{
  "error": {
    "code": "Error Code",
    "message": "Erro Messae"
  }
}

Определения

Имя Описание
Error
SpeakerErrorInfo

Сообщение об ошибке говорящего

TiEnrollmentInfo

Сведения о регистрации профиля говорящего

TrainingStatusType

Состояние, представляющее текущее состояние регистрации профиля. Доступные значения:

  • Регистрация: профиль не имеет голосовой печати и не готов к запросам на распознавание.
  • Обучение: создается голосовая печать профиля, которую нельзя использовать для распознавания в данный момент.
  • Зарегистрировано: профиль имеет голосовую печать и готов к запросам распознавания.

Error

Имя Тип Описание
code

string

message

string

SpeakerErrorInfo

Сообщение об ошибке говорящего

Имя Тип Описание
error

Error

TiEnrollmentInfo

Сведения о регистрации профиля говорящего

Имя Тип Описание
audioLengthInSec

number

Длина звука регистрации в секундах.

audioSpeechLengthInSec

number

Это регистрация аудио чистой речи (это количество звука после удаления тишины и не речевых сегментов) продолжительность в секундах.

enrollmentStatus

TrainingStatusType

Состояние, представляющее текущее состояние регистрации профиля. Доступные значения:

  • Регистрация: профиль не имеет голосовой печати и не готов к запросам на распознавание.
  • Обучение: создается голосовая печать профиля, которую нельзя использовать для распознавания в данный момент.
  • Зарегистрировано: профиль имеет голосовую печать и готов к запросам распознавания.
enrollmentsCount

integer

Количество аудиозаписей, принятых для этого профиля.

enrollmentsLengthInSec

number

Общая продолжительность аудиоданных регистрации, принятых для этого профиля, в секундах.

enrollmentsSpeechLengthInSec

number

Суммирование чистой речи (это объем звука после удаления безмолвных и не речевых сегментов) во всех регистрациях профиля в секундах.

profileId

string

Уникальный идентификатор для идентификатора профиля (GUID).

remainingEnrollmentsSpeechLengthInSec

number

Объем чистой речи (это объем звука после удаления безмолвных и не речевых сегментов), необходимый для завершения регистрации профиля за считанные секунды.

TrainingStatusType

Состояние, представляющее текущее состояние регистрации профиля. Доступные значения:

  • Регистрация: профиль не имеет голосовой печати и не готов к запросам на распознавание.
  • Обучение: создается голосовая печать профиля, которую нельзя использовать для распознавания в данный момент.
  • Зарегистрировано: профиль имеет голосовую печать и готов к запросам распознавания.
Имя Тип Описание
Enrolled

string

Enrolling

string

Training

string