Text Independent - Create Enrollment

プロファイルの登録
既存のプロファイルに登録を追加します。 最初の登録は、/phrases/{locale} API を使用して一覧表示できる定義済みのアクティブ化フレーズである必要があります。 要求された登録オーディオの最小数に達すると、音声印刷が作成されます。 それ以上の登録は、音声印刷を改善するために使用されます。

制限事項:

  • 要求あたりのオーディオ入力の最小長は 1 秒です

  • 要求あたりのオーディオ入力の最大長は 120 秒です

  • ボイスプリントを作成するための最小有効音声長 (無音やその他の音声以外のフレームを除く) は 20 秒 です。この制限は、ignoreMinLength を true に設定することで無効にすることができます。

  • ボイスプリントの作成に使用できるオーディオ入力の最大長は 300 秒です

  • 最小オーディオ信号対ノイズ比 (SNR) は 2dB です

POST {endpoint}/speaker-recognition/identification/text-independent/profiles/{profileId}/enrollments?api-version=2021-09-05
POST {endpoint}/speaker-recognition/identification/text-independent/profiles/{profileId}/enrollments?api-version=2021-09-05&ignoreMinLength={ignoreMinLength}

URI パラメーター

名前 / 必須 説明
endpoint
path True

string

サポートされている Cognitive Services エンドポイント (プロトコルとホスト名など)。 https://westus.api.cognitive.microsoft.com

profileId
path True

string

uuid

プロファイル ID (guid) の一意識別子。

api-version
query True

string

この要求に使用する操作のバージョンを指定します。

ignoreMinLength
query

boolean

true の場合、指定または保存される音声の量に関係なく、このプロファイルに対して音声印刷がすぐに作成されます。 既定値は false です。

要求ヘッダー

Media Types: "audio/wav; codecs=audio/pcm"

名前 必須 説明
Ocp-Apim-Subscription-Key True

string

要求本文

Media Types: "audio/wav; codecs=audio/pcm"

名前 説明
audioData

object

バイナリ オーディオ ファイル。 サポートされている形式はオーディオ/wav です。codecs=audio/pcm。 最大 5 MB のオーディオをサポートします。

応答

名前 説明
201 Created

TiEnrollmentInfo

作成済み

Other Status Codes

SpeakerErrorInfo

障害

Headers

x-ms-error-code: string

セキュリティ

Ocp-Apim-Subscription-Key

Type: apiKey
In: header

Successful Query

Sample Request

POST https://westus.api.cognitive.microsoft.com/speaker-recognition/identification/text-independent/profiles/49a36324-fc4b-4387-aa06-090cfbf0064f/enrollments?api-version=2021-09-05


"{binary file date}"

Sample Response

Content-Type: application/json
{
  "profileId": "49a36324-fc4b-4387-aa06-090cfbf0064f",
  "enrollmentStatus": "Enrolling",
  "enrollmentsCount": 1,
  "enrollmentsLengthInSec": 1.83,
  "enrollmentsSpeechLengthInSec": 1.35,
  "remainingEnrollmentsSpeechLengthInSec": 18.65,
  "audioLengthInSec": 1.83,
  "audioSpeechLengthInSec": 1.35
}
Content-Type: application/json
x-ms-error-code: Error Code
{
  "error": {
    "code": "Error Code",
    "message": "Erro Messae"
  }
}

定義

名前 説明
Error
SpeakerErrorInfo

話者のエラー メッセージ

TiEnrollmentInfo

話者プロファイルの登録情報

TrainingStatusType

プロファイル登録の現在の状態を表す状態。 使用可能な値は次のとおりです。

  • 登録中: プロファイルには音声印刷がなく、認識要求の準備ができていません。
  • トレーニング: プロファイルの音声印刷が作成されており、現時点では認識に使用できません。
  • 登録済み: プロファイルには音声印刷があり、認識要求の準備ができています。

Error

名前 説明
code

string

message

string

SpeakerErrorInfo

話者のエラー メッセージ

名前 説明
error

Error

TiEnrollmentInfo

話者プロファイルの登録情報

名前 説明
audioLengthInSec

number

この登録オーディオの長さ (秒単位)。

audioSpeechLengthInSec

number

この登録オーディオの純粋な音声 (無音セグメントと非音声セグメントを削除した後のオーディオの量) の長さ (秒)。

enrollmentStatus

TrainingStatusType

プロファイル登録の現在の状態を表す状態。 使用可能な値は次のとおりです。

  • 登録中: プロファイルには音声印刷がなく、認識要求の準備ができていません。
  • トレーニング: プロファイルの音声印刷が作成されており、現時点では認識に使用できません。
  • 登録済み: プロファイルには音声印刷があり、認識要求の準備ができています。
enrollmentsCount

integer

このプロファイルで受け入れられる登録オーディオの数。

enrollmentsLengthInSec

number

このプロファイルで受け入れられる登録オーディオの合計長 (秒単位)。

enrollmentsSpeechLengthInSec

number

すべてのプロファイル登録で、純粋な音声 (無音セグメントと非音声セグメントを削除した後のオーディオの量) を秒単位で合計します。

profileId

string

プロファイル ID (guid) の一意識別子。

remainingEnrollmentsSpeechLengthInSec

number

プロファイル登録を数秒で完了するために必要な純粋な音声の量 (無音セグメントと非音声セグメントを削除した後のオーディオの量)。

TrainingStatusType

プロファイル登録の現在の状態を表す状態。 使用可能な値は次のとおりです。

  • 登録中: プロファイルには音声印刷がなく、認識要求の準備ができていません。
  • トレーニング: プロファイルの音声印刷が作成されており、現時点では認識に使用できません。
  • 登録済み: プロファイルには音声印刷があり、認識要求の準備ができています。
名前 説明
Enrolled

string

Enrolling

string

Training

string