Text Independent - Create Enrollment

プロファイルの登録
既存のプロファイルに登録を追加します。 最初の登録は、/phrases/{locale} API を使用して一覧表示できる定義済みのアクティブ化フレーズである必要があります。 要求された登録オーディオの最小数に達すると、音声印刷が作成されます。 それ以上の登録は、音声印刷を改善するために使用されます。

制限事項:

  • 要求あたりのオーディオ入力の最小長は 1 秒です

  • 要求あたりのオーディオ入力の最大長は 120 秒です

  • ボイスプリントを作成するための最小有効音声長 (無音やその他の音声以外のフレームを除く) は 20 秒 です。この制限は、"ignoreMinLength" を true に設定することで無効にすることができます。

  • ボイスプリントの作成に使用できるオーディオ入力の最大長は 300 秒です

  • 最小オーディオ信号対ノイズ比 (SNR) は 2dB です

POST {endpoint}/speaker-recognition/verification/text-independent/profiles/{profileId}/enrollments?api-version=2021-09-05
POST {endpoint}/speaker-recognition/verification/text-independent/profiles/{profileId}/enrollments?api-version=2021-09-05&ignoreMinLength={ignoreMinLength}

URI パラメーター

名前 / 必須 説明
endpoint
path True

string

サポートされている Cognitive Services エンドポイント (プロトコルとホスト名など)。 https://westus.api.cognitive.microsoft.com

profileId
path True

string

uuid

プロファイル ID (guid) の一意識別子。

api-version
query True

string

この要求に使用する操作のバージョンを指定します。

ignoreMinLength
query

boolean

true の場合、指定または保存される音声の量に関係なく、このプロファイルに対して音声印刷がすぐに作成されます。 既定値は false です。

要求ヘッダー

Media Types: "audio/wav; codecs=audio/pcm"

名前 必須 説明
Ocp-Apim-Subscription-Key True

string

要求本文

Media Types: "audio/wav; codecs=audio/pcm"

名前 説明
audioData

object

バイナリ オーディオ ファイル。 サポートされている形式はオーディオ/wav です。codecs=audio/pcm。 最大 5 MB のオーディオをサポートします。

応答

名前 説明
201 Created

TiEnrollmentInfo

作成済み

Other Status Codes

SpeakerErrorInfo

障害

Headers

x-ms-error-code: string

セキュリティ

Ocp-Apim-Subscription-Key

Type: apiKey
In: header

Successful Query

Sample Request

POST https://westus.api.cognitive.microsoft.com/speaker-recognition/verification/text-independent/profiles/49a36324-fc4b-4387-aa06-090cfbf0064f/enrollments?api-version=2021-09-05


"{binary file date}"

Sample Response

Content-Type: application/json
{
  "profileId": "49a36324-fc4b-4387-aa06-090cfbf0064f",
  "enrollmentStatus": "Enrolling",
  "enrollmentsCount": 1,
  "enrollmentsLengthInSec": 1.83,
  "enrollmentsSpeechLengthInSec": 1.35,
  "remainingEnrollmentsSpeechLengthInSec": 18.65,
  "audioLengthInSec": 1.83,
  "audioSpeechLengthInSec": 1.35
}
Content-Type: application/json
x-ms-error-code: Error Code
{
  "error": {
    "code": "Error Code",
    "message": "Erro Messae"
  }
}

定義

名前 説明
Error
SpeakerErrorInfo

話者のエラー メッセージ

TiEnrollmentInfo

Text-Independent Speaker プロファイルの登録情報

TrainingStatusType

プロファイルの現在の状態を表す状態。 使用可能な値は次のとおりです。

  • 登録中: プロファイルには音声印刷がなく、認識要求の準備ができていません。
  • トレーニング: プロファイルの音声印刷が作成されており、現時点では認識に使用できません。
  • 登録済み: プロファイルには音声印刷があり、認識要求の準備ができています。

Error

名前 説明
code

string

message

string

SpeakerErrorInfo

話者のエラー メッセージ

名前 説明
error

Error

TiEnrollmentInfo

Text-Independent Speaker プロファイルの登録情報

名前 説明
audioLengthInSec

number

この登録オーディオの長さ (秒単位)。

audioSpeechLengthInSec

number

この登録オーディオの純粋な音声 (無音セグメントと非音声セグメントを削除した後のオーディオの量) の長さ (秒)。

enrollmentStatus

TrainingStatusType

プロファイルの現在の状態を表す状態。 使用可能な値は次のとおりです。

  • 登録中: プロファイルには音声印刷がなく、認識要求の準備ができていません。
  • トレーニング: プロファイルの音声印刷が作成されており、現時点では認識に使用できません。
  • 登録済み: プロファイルには音声印刷があり、認識要求の準備ができています。
enrollmentsCount

integer

このプロファイルで受け入れられる登録オーディオの数。

enrollmentsLengthInSec

number

このプロファイルで受け入れられる登録オーディオの合計長 (秒単位)。

enrollmentsSpeechLengthInSec

number

すべてのプロファイル登録で、純粋な音声 (無音セグメントと非音声セグメントを削除した後のオーディオの量) を秒単位で合計します。

profileId

string

プロファイル ID (guid) の一意識別子。

remainingEnrollmentsSpeechLengthInSec

number

プロファイル登録を数秒で完了するために必要な純粋な音声の量 (無音セグメントと非音声セグメントを削除した後のオーディオの量)。

TrainingStatusType

プロファイルの現在の状態を表す状態。 使用可能な値は次のとおりです。

  • 登録中: プロファイルには音声印刷がなく、認識要求の準備ができていません。
  • トレーニング: プロファイルの音声印刷が作成されており、現時点では認識に使用できません。
  • 登録済み: プロファイルには音声印刷があり、認識要求の準備ができています。
名前 説明
Enrolled

string

Enrolling

string

Training

string