プロフェッショナル音声モデルをトレーニングする

[アーティクル]
02/26/2024

この記事では、Speech Studio ポータルを使用してカスタムニューラル音声をトレーニングする方法について説明します。

重要

カスタムニューラル音声トレーニングは、現在一部のリージョンでのみ使用できます。サポートされているリージョンでトレーニングが完了した音声モデルは、必要に応じて別のリージョンの Speech リソースにコピーできます。詳細については、Speech Service テーブルの脚注を参照してください。

トレーニング期間は、使用するデータ量によって異なります。カスタムニューラル音声をトレーニングするには、平均で約 40 コンピューティング時間かかります。 Standard サブスクリプション (S0) ユーザーは、4 つの音声を同時にトレーニングできます。制限に達した場合は、少なくとも 1 つのデータファイルのインポートが終わるまで待機します。その後、やり直してください。

Note

トレーニング方法ごとに必要な合計時間数は異なりますが、それぞれに同じ単価が適用されます。詳細については、カスタムニューラルトレーニングの価格の詳細に関するページを参照してください。

トレーニング方法を選択する

データファイルを検証したら、それを使用してカスタムニューラル音声モデルを作成できます。カスタムニューラル音声を作成するときに、次のいずれかの方法でトレーニングすることを選択できます。

ニューラル: トレーニングデータと同じ言語で音声を作成します。
ニューラル - 言語間: トレーニングデータとは異なる言語を話す音声を作成します。たとえば、zh-CNトレーニングデータを使用して、en-US を話す音声を作成できます。

トレーニングデータの言語とターゲット言語の両方が、クロス言語音声トレーニングでサポートされている言語のいずれかである必要があります。ターゲット言語でトレーニングデータを準備する必要はありませんが、テストスクリプトはターゲット言語である必要があります。
ニューラル - マルチスタイル: 新しいトレーニングデータを追加せずに、複数のスタイルと感情で話すカスタムニューラル音声を作成します。複数のスタイルの音声は、ビデオゲームのキャラクター、会話チャットボット、オーディオブック、コンテンツリーダーなどに役立ちます。

複数のスタイルの音声を作成するには、一連の汎用トレーニングデータ (少なくとも 300 個の発話) を準備する必要があります。 1 つ以上のプリセットターゲットの話し方を選択します。同じ音声の追加トレーニングデータとしてスタイルサンプル (スタイルごとに少なくとも 100 個の発話) を提供することで、複数のカスタムスタイルを作成することもできます。サポートされているプリセットスタイルは言語によって異なります。「さまざまな言語で利用可能なプリセットスタイル」をご覧ください。

トレーニングデータの言語は、カスタムニューラル音声、クロス言語、または複数のスタイルトレーニング用にサポートされている言語のいずれかである必要があります。

カスタムニューラル音声モデルをトレーニングする

Speech Studio でカスタムニューラル音声を作成するには、次のいずれかの方法の次の手順に従います。

Speech Studio にサインインします。
[Custom Voice]><自分のプロジェクトの名前>>[モデルのトレーニング]>[新しいモデルのトレーニング] を選びます。
モデルのトレーニング方法として [ニューラル] を選択し、[次へ] を選択します。別のトレーニング方法を使用するには、「ニューラル - クロス言語」または「ニューラル - マルチスタイル」を参照してください。
モデルのトレーニングレシピのバージョンを選択します。既定では最新バージョンが選択されています。サポートされている機能とトレーニング時間は、バージョンによって異なる場合があります。通常は、最新のバージョンをお勧めします。場合によっては、以前のバージョンを選択してトレーニング時間を短縮できます。バイリンガルトレーニングとロケール間の違いについて詳しくは、「バイリンガルトレーニング」をご覧ください。
トレーニングに使用するデータを選択します。重複するオーディオ名はトレーニングから削除されます。選択したデータ内の複数の .zip ファイルに同じオーディオ名が含まれていないことを確認してください。

トレーニングには、正常に処理されたデータセットのみを選択できます。一覧にトレーニングセットが表示されない場合は、データ処理の状態を確認してください。
トレーニングデータのスピーカーに対応するボイスタレントステートメントを含むスピーカーファイルを選択します。
[次へ] をクリックします。
トレーニングごとに、既定のスクリプトによるモデルのテストに役立つ 100 個のサンプルオーディオファイルが自動的に生成されます。

必要に応じて、[独自のテストスクリプトを追加] を選択し、最大 100 個の発話を含む独自のテストスクリプトを提供して、追加コストなしでモデルをテストすることもできます。生成されたオーディオファイルは、自動テストスクリプトとカスタムテストスクリプトの組み合わせです。詳細については、「テストスクリプトの要件」を参照してください。
モデルを識別しやすい [名前] を入力します。名前は慎重に選択します。モデル名は、SDK と SSML 入力を使用した音声合成要求の音声名として使用されます。文字、数字、およびいくつかの区切り文字だけを使用できます。ニューラル音声モデルごとに、異なる名前を使用します。
必要に応じて、モデルの識別に役立つ [説明] を入力します。説明の一般的な用途は、モデルの作成に使用したデータの名前を記録することです。
[次へ] をクリックします。
設定を確認し、チェックボックスをオンにして利用規約に同意します。
[送信] を選択してモデルのトレーニングを開始します。

Speech Studio にサインインします。
[Custom Voice]><自分のプロジェクトの名前>>[モデルのトレーニング]>[新しいモデルのトレーニング] を選びます。
モデルのトレーニング方法として [ニューラル -クロス言語] を選択します。別のトレーニング方法を使用するには、「ニューラル」または「ニューラル - - クロス言語」を参照してください。
トレーニングする 1 つ以上のプリセットの話し方を選択します。
トレーニングに使用するデータを選択します。重複するオーディオ名はトレーニングから削除されます。選択したデータ内の複数の .zip ファイルに同じオーディオ名が含まれていないことを確認してください。

トレーニングには、正常に処理されたデータセットのみを選択できます。一覧にトレーニングセットが表示されない場合は、データ処理の状態を確認してください。
[次へ] をクリックします。
必要に応じて、他のカスタムの話し方を追加できます。カスタムスタイルの最大数は言語によって異なります。English (United States) では最大 10 個のカスタムスタイル、Chinese (Mandarin, Simplified) では最大 4 個のカスタムスタイル、Japanese (Japan) では最大 5 個のカスタムスタイルが許可されます。
1. [Add a custom style]\(カスタムスタイルの追加\) を選択し、任意のカスタムスタイル名を入力します。この名前は、音声合成マークアップ言語 (SSML) の style 要素内でアプリケーションによって使用されます。 Speech Studio の Audio Content Creation ツールを使用して、カスタムスタイル名を SSML として使用することもできます。
2. トレーニングデータとしてスタイルサンプルを選択します。カスタムスピーキングスタイルのトレーニングデータが、既定のスタイルの作成に使用されるデータと同じ話者から取得されていることを確認します。
[次へ] をクリックします。
トレーニングデータのスピーカーに対応するボイスタレントステートメントを含むスピーカーファイルを選択します。
[次へ] をクリックします。
各トレーニングでは、既定のスタイルに対して 100 個のサンプルオーディオファイルが自動的に生成され、既定のスクリプトを使用してモデルをテストするのに役立つ既定のスタイルごとに 20 個が生成されます。

必要に応じて、[独自のテストスクリプトを追加] を選択し、最大 100 個の発話を含む独自のテストスクリプトを提供して、追加コストなしで既定のスタイルをテストすることもできます。生成されたオーディオファイルは、自動テストスクリプトとカスタムテストスクリプトの組み合わせです。詳細については、「テストスクリプトの要件」を参照してください。

モデルを識別しやすい [名前] を入力します。名前は慎重に選択します。モデル名は、SDK と SSML 入力を使用した音声合成要求の音声名として使用されます。文字、数字、およびいくつかの区切り文字だけを使用できます。ニューラル音声モデルごとに、異なる名前を使用します。
必要に応じて、モデルの識別に役立つ [説明] を入力します。説明の一般的な用途は、モデルの作成に使用したデータの名前を記録することです。
[次へ] をクリックします。
設定を確認し、チェックボックスをオンにして利用規約に同意します。
[送信] を選択してモデルのトレーニングを開始します。

バイリンガルトレーニング

ニューラルトレーニングの種類を選んだ場合は、複数の言語で話すように音声をトレーニングできます。 zh-CN と zh-TW ロケールはどちらも、中国語と英語の両方を話す音声のためのバイリンガルトレーニングをサポートしています。ある程度までトレーニングデータ次第で、合成された音声は、英語のネイティブアクセントを持つ英語またはトレーニングデータと同じアクセントを持つ英語を話すことができます。

Note

zh-CN ロケールの音声がサンプルデータと同じアクセントで英語を話せるようにするには、プロジェクトの作成時に Chinese (Mandarin, Simplified), English bilingual を選ぶか、REST API でトレーニングセットデータに対して zh-CN (English bilingual) ロケールを指定する必要があります。

次の表は、2 つのロケールの違いを示したものです。

Speech Studio のロケール	REST API のロケール	バイリンガルのサポート
`Chinese (Mandarin, Simplified)`	`zh-CN`	サンプルデータに英語が含まれている場合、合成された音声は、英語データの量に関係なく、サンプルデータと同じアクセントではなく、英語のネイティブアクセントで英語を話します。
`Chinese (Mandarin, Simplified), English bilingual`	`zh-CN (English bilingual)`	合成された音声がサンプルデータと同じアクセントで英語を話すようにしたい場合は、トレーニングセットに 10% を超える英語データを含めることをお勧めします。そうしないと、英語を話すアクセントが理想的ではない可能性があります。
`Chinese (Taiwanese Mandarin, Traditional)`	`zh-TW`	サンプルデータと同じアクセントで英語を話せる合成音声をトレーニングしたい場合は、トレーニングセットで 10% より多くの英語データを提供するようにします。そうしないと、既定で英語のネイティブアクセントになります。 10% のしきい値は、アップロード前のデータではなく、アップロードが成功した後で受け入れられたデータに基づいて計算されます。アップロードされた英語データの一部が欠陥のために拒否され、10% のしきい値を満たさなくなった場合、合成される音声は既定で英語のネイティブアクセントになります。

さまざまな言語で利用可能なプリセットスタイル

次の表は、さまざまな言語に応じたさまざまなプリセットスタイルをまとめたものです。

話し方	言語 (ロケール)
怒り	英語 (米国) (`en-US`) 日本語 (日本) (`ja-JP`) ¹ 中国語 (標準、簡体字) (`zh-CN`) ¹
穏やか	中国語 (標準、簡体字) (`zh-CN`) ¹
chat	中国語 (標準、簡体字) (`zh-CN`) ¹
陽気	英語 (米国) (`en-US`) 日本語 (日本) (`ja-JP`) ¹ 中国語 (標準、簡体字) (`zh-CN`) ¹
不満	中国語 (標準、簡体字) (`zh-CN`) ¹
興奮	英語 (米国) (`en-US`)
怖い	中国語 (標準、簡体字) (`zh-CN`) ¹
優しい	英語 (米国) (`en-US`)
希望に満ちた	英語 (米国) (`en-US`)
悲しい	英語 (米国) (`en-US`) 日本語 (日本) (`ja-JP`) ¹ 中国語 (標準、簡体字) (`zh-CN`) ¹
叫ぶ	英語 (米国) (`en-US`)
深刻	中国語 (標準、簡体字) (`zh-CN`) ¹
恐怖	英語 (米国) (`en-US`)
unfriendly	英語 (米国) (`en-US`)
ささやく	英語 (米国) (`en-US`)

¹ ニューラル音声スタイルはパブリックプレビューで利用できます。パブリックプレビューでのスタイルは、米国東部、西ヨーロッパ、東南アジアのサービスリージョンでのみ使用できます。

[モデルのトレーニング] の表に、この新しく作成されたモデルに対応する新しいエントリが表示されます。この状態は、次の表で説明するように、データから音声モデルへの変換プロセスを反映しています。

State	意味
処理中	実際の音声モデルを作成中です。
成功	実際の音声モデルは作成が済み、デプロイ可能です。
失敗	音声モデルがトレーニング中に失敗しました。失敗の原因としては、たとえば、見えないデータの問題やネットワークの問題などが考えられます。
Canceled	音声モデルのトレーニングが取り消されました。

モデルの状態が [処理中] になっているときに、[トレーニングの取り消し] を選択して音声モデルを取り消すことができます。この取り消されたトレーニングに対しては課金されません。

Screenshot that shows how to cancel training for a model.

モデルのトレーニングが正常に完了したら、モデルの詳細を確認し、音声モデルをテストします。

Speech Studio の Audio Content Creation ツールを使用して、オーディオを作成し、デプロイされた音声を微調整できます。音声に該当する場合は、複数のスタイルのいずれかを選択できます。

モデルの名前を変更する

構築したモデルの名前を変更する場合は、[モデルの複製] を選択して、現在のプロジェクトに新しい名前のモデルの複製を作成します。
[音声モデルの複製] ウィンドウに新しい名前を入力し、[送信] を選択します。テキスト Neural は、新しいモデル名にサフィックスとして自動的に追加されます。

実際の音声モデルをテストする

音声モデルが正常に作成されたら、デプロイする前に、生成されたサンプルオーディオファイルを使用してテストすることができます。

音声の品質は、次のような多くの要因によって異なります。

トレーニングデータのサイズ。
録音の品質。
トランスクリプトファイルの正確性。
トレーニングデータに録音された音声が、意図したユースケースに対して設計された音声のパーソナリティとどの程度一致しているか。

[テスト] の下にある [DefaultTests] を選択して、サンプルオーディオファイルを聴きます。既定のテストサンプルには、モデルのテストに役立つトレーニング中に自動的に生成される 100 個のサンプルオーディオファイルが含まれています。既定で提供されるこれらの 100 個のオーディオファイルに加え、自分のテストスクリプトの発話も DefaultTests セットに追加されます。この追加は、最大 100 個の発話です。 DefaultTests でのテストに対しては課金されません。

Screenshot of selecting DefaultTests under Testing.

自分のテストスクリプトをアップロードしてモデルをさらにテストする場合は、[テストスクリプトの追加] を選択して自分のテストスクリプトをアップロードします。

Screenshot of adding model test scripts.

テストスクリプトをアップロードする前に、テストスクリプトの要件を確認します。課金対象の文字数に基づいて、バッチ合成による追加テストに対して課金されます。「Azure AI Speech の価格」を参照してください。

[テストスクリプトの追加] の [ファイルの参照] を選択して自分のスクリプトを選び、[追加] を選択してアップロードします。

Screenshot of uploading model test scripts.

テストスクリプトの要件

テストスクリプトは、1 MB 未満の.txt ファイルである必要があります。サポートされているエンコード形式は、ANSI/ASCII、UTF-8、UTF-8-BOM、UTF-16-LE、UTF-16-BE です。

トレーニング文字起こしファイルとは異なり、テストスクリプトでは各発話のファイル名である発話 ID を除外する必要があります。そうしないと、これらの ID が発話されてしまいます。

以下に 1 つの .txt ファイル内の一連の発話の例を示します。

This is the waistline, and it's falling.
We have trouble scoring.
It was Janet Maslin.

発話の段落ごとに、個別の音声になります。すべての文を 1 つの音声に結合したい場合は、1 つの段落にします。

注意

生成されたオーディオファイルは、自動テストスクリプトとカスタムテストスクリプトの組み合わせです。

音声モデルのエンジンバージョンを更新する

Azure Text to Speech エンジンは、言語の発音を定義する最新の言語モデルを取り込むために随時更新されます。音声をトレーニングした後、最新のエンジンバージョンに更新することで、音声を新しい言語モデルに適用できます。

新しいエンジンが使用可能になると、ニューラル音声モデルを更新するように求められます。
モデルの詳細ページに移動し、画面の指示に従って最新のエンジンをインストールします。

または、後で [最新のエンジンのインストール] を選択して、モデルを最新のエンジンバージョンに更新します。

エンジンの更新に対しては課金されません。以前のバージョンが引き続き保持されます。
このモデルのすべてのエンジンバージョンを [エンジンのバージョン] リストから確認するか、不要な場合は削除できます。

更新されたバージョンは自動的に既定に設定されます。しかし、ドロップダウンリストからバージョンを選択し、[既定に設定] を選択することで、既定のバージョンを変更できます。

音声モデルの各エンジンバージョンをテストする場合は、リストからバージョンを選び、[テスト] の下の [DefaultTests] を選択してサンプルオーディオファイルを聴くことができます。独自のテストスクリプトをアップロードして現在のエンジンバージョンをさらにテストする場合は、まずそのバージョンが既定に設定されていることを確認してから、[実際の音声モデルをテストする] に従います。

エンジンを更新すると、追加コストなしで新しいバージョンのモデルが作成されます。音声モデルのエンジンバージョンを更新したら、新しいバージョンをデプロイして新しいエンドポイントを作成する必要があります。既定のバージョンのみをデプロイできます。

Screenshot that shows how to redeploy a new version of your voice model.

新しいエンドポイントを作成したら、トラフィックをご使用の製品の新しいエンドポイントに転送する必要があります。

この機能の詳細と制限、およびモデルの品質を向上させるためのベストプラクティスの詳細については、「カスタムニューラル音声を使用する場合の特性と制限」を参照してください。

音声モデルを別のプロジェクトにコピーする

音声モデルは、同じリージョンまたは別のリージョンの別のプロジェクトにコピーできます。たとえば、あるリージョンでトレーニングされたニューラル音声モデルを、別のリージョンのプロジェクトにコピーできます。

注意

カスタムニューラル音声トレーニングは、現在一部のリージョンでのみ使用できます。ニューラル音声モデルは、それらのリージョンから他のリージョンにコピーできます。詳細については、「カスタムニューラル音声のリージョン」を参照してください。

カスタムニューラル音声モデルを別のプロジェクトにコピーするには、次の手順に従います。

[モデルのトレーニング] タブで、コピーする音声モデルを選択し、[プロジェクトにコピー] を選択します。
モデルをコピーする [リージョン]、[Speech リソース]、および [プロジェクト] を選択します。ターゲットリージョンに Speech リソースとプロジェクトが存在する必要があります。存在しない場合は、先に作成する必要があります。
[送信] を選択してモデルをコピーします。
成功したコピーの通知メッセージの下にある [モデルの表示] を選択します。

モデルのコピーをデプロイするためにモデルをコピーしたプロジェクトに移動します。

次のステップ

プロフェッショナル音声エンドポイントをデプロイする

この記事では、Custom Voice API を使ってカスタムニューラル音声をトレーニングする方法について説明します。

重要

Note

トレーニング方法を選択する

ニューラル: トレーニングデータと同じ言語で音声を作成します。
ニューラル - 言語間: トレーニングデータとは異なる言語を話す音声を作成します。たとえば、fr-FRトレーニングデータを使用して、en-US を話す音声を作成できます。

トレーニングデータの言語とターゲット言語の両方が、クロス言語音声トレーニングでサポートされている言語のいずれかである必要があります。ターゲット言語でトレーニングデータを準備する必要はありませんが、テストスクリプトはターゲット言語である必要があります。
ニューラル - マルチスタイル: 新しいトレーニングデータを追加せずに、複数のスタイルと感情で話すカスタムニューラル音声を作成します。複数のスタイルの音声は、ビデオゲームのキャラクター、会話チャットボット、オーディオブック、コンテンツリーダーなどに役立ちます。

複数のスタイルの音声を作成するには、一連の汎用トレーニングデータ (少なくとも 300 個の発話) を準備する必要があります。 1 つ以上のプリセットターゲットの話し方を選択します。同じ音声の追加トレーニングデータとしてスタイルサンプル (スタイルごとに少なくとも 100 個の発話) を提供することで、複数のカスタムスタイルを作成することもできます。サポートされているプリセットスタイルは言語によって異なります。「さまざまな言語で利用可能なプリセットスタイル」をご覧ください。

トレーニングデータの言語は、カスタムニューラル音声、言語間、または複数スタイルのトレーニング用にサポートされている言語のいずれかである必要があります。

音声モデルを作成する

ニューラル音声を作成するには、Custom Voice API の Models_Create 操作を使用します。次の手順に従って要求本文を作成します。

必須の projectId プロパティを設定します。プロジェクトの作成に関する記事を参照してください。
必須の consentId プロパティを設定します。ボイスタレントの同意の追加に関する記事をご覧ください。
必須の trainingSetId プロパティを設定します。トレーニングセットの作成に関する記事をご覧ください。
ニューラル音声トレーニングの場合、必須のレシピ kind プロパティを Default に設定します。レシピの種類はトレーニング方法を示し、後で変更することはできません。別のトレーニング方法を使用するには、「ニューラル - クロス言語」または「ニューラル - マルチスタイル」を参照してください。バイリンガルトレーニングとロケール間の違いについて詳しくは、「バイリンガルトレーニング」をご覧ください。
必須の voiceName プロパティを設定します。音声名は末尾を "Neural" にする必要があり、後で変更することはできません。名前は慎重に選択します。音声名は、SDK と SSML 入力による音声合成要求で使われます。文字、数字、およびいくつかの区切り文字だけを使用できます。ニューラル音声モデルごとに、異なる名前を使用します。
必要に応じて、description プロパティに音声の説明を設定します。音声の説明は後で変更できます。

HTTP PUT 要求は、以下の Models_Create の例に示すように URI を使用して行います。

YourResourceKey をSpeech リソースキーに置き換えます。
YourResourceRegion を Azure Cognitive Service for Speech リソースのリージョンに置き換えます。
JessicaModelId を任意のモデル ID に置き換えます。大文字と小文字が区別される ID はモデルの URI で使われ、後で変更することはできません。

curl -v -X PUT -H "Ocp-Apim-Subscription-Key: YourResourceKey" -H "Content-Type: application/json" -d '{
  "voiceName": "JessicaNeural",
  "description": "Jessica voice",
  "recipe": {
    "kind": "Default"
  },
  "projectId": "ProjectId",
  "consentId": "JessicaConsentId",
  "trainingSetId": "JessicaTrainingSetId"
} '  "https://YourResourceRegion.api.cognitive.microsoft.com/customvoice/models/JessicaModelId?api-version=2023-12-01-preview"

次の形式で応答本文を受け取る必要があります。

{
  "id": "JessicaModelId",
  "voiceName": "JessicaNeural",
  "description": "Jessica voice",
  "recipe": {
    "kind": "Default",
    "version": "V7.2023.03"
  },
  "projectId": "ProjectId",
  "consentId": "JessicaConsentId",
  "trainingSetId": "JessicaTrainingSetId",
  "locale": "en-US",
  "engineVersion": "2023.07.04.0",
  "status": "NotStarted",
  "createdDateTime": "2023-04-01T05:30:00.000Z",
  "lastActionDateTime": "2023-04-02T10:15:30.000Z"
}

言語間ニューラル音声を作るには、Custom Voice API の Models_Create 操作を使用します。次の手順に従って要求本文を作成します。

必須の projectId プロパティを設定します。プロジェクトの作成に関する記事を参照してください。
必須の consentId プロパティを設定します。ボイスタレントの同意の追加に関する記事をご覧ください。
必須の trainingSetId プロパティを設定します。トレーニングセットの作成に関する記事をご覧ください。
言語間音声トレーニングの場合、必須のレシピ kind プロパティを CrossLingual に設定します。レシピの種類はトレーニング方法を示し、後で変更することはできません。別のトレーニング方法を使用するには、「ニューラル」または「ニューラル - マルチスタイル」を参照してください。
必須の voiceName プロパティを設定します。音声名は末尾を "Neural" にする必要があり、後で変更することはできません。名前は慎重に選択します。音声名は、SDK と SSML 入力による音声合成要求で使われます。文字、数字、およびいくつかの区切り文字だけを使用できます。ニューラル音声モデルごとに、異なる名前を使用します。
音声が話す言語に対する必須の locale プロパティを設定します。音声は、トレーニングデータとは異なる言語を話します。音声モデルに対して指定できるターゲット言語は 1 つだけです。
必要に応じて、description プロパティに音声の説明を設定します。音声の説明は後で変更できます。

HTTP PUT 要求は、以下の Models_Create の例に示すように URI を使用して行います。

YourResourceKey をSpeech リソースキーに置き換えます。
YourResourceRegion を Azure Cognitive Service for Speech リソースのリージョンに置き換えます。
JessicaModelId を任意のモデル ID に置き換えます。大文字と小文字が区別される ID はモデルの URI で使われ、後で変更することはできません。

curl -v -X PUT -H "Ocp-Apim-Subscription-Key: YourResourceKey" -H "Content-Type: application/json" -d '{
  "voiceName": "JessicaCrossLingualNeural",
  "description": "Jessica cross lingual voice",
  "recipe": {
    "kind": "CrossLingual"
  },
  "projectId": "ProjectId",
  "consentId": "JessicaConsentId",
  "trainingSetId": "Jessica-en-US-TrainingSetId",
  "locale": "fr-FR"
} '  "https://YourResourceRegion.api.cognitive.microsoft.com/customvoice/models/JessicaModelId?api-version=2023-12-01-preview"

次の形式で応答本文を受け取る必要があります。

{
  "id": "JessicaModelId",
  "voiceName": "JessicaNeuralCrossLingual",
  "description": "Jessica cross lingual voice",
  "recipe": {
    "kind": "CrossLingual",
    "version": "V5.2023.07"
  },
  "projectId": "ProjectId",
  "consentId": "JessicaConsentId",
  "trainingSetId": "Jessica-en-US-TrainingSetId",
  "locale": "fr-FR",
  "engineVersion": "2023.11.14.0",
  "status": "NotStarted",
  "createdDateTime": "2023-04-01T05:30:00.000Z",
  "lastActionDateTime": "2023-04-02T10:15:30.000Z"
}

マルチスタイルのニューラル音声を作成するには、Custom Voice API の Models_Create 操作を使用します。次の手順に従って要求本文を作成します。

必須の projectId プロパティを設定します。プロジェクトの作成に関する記事を参照してください。
必須の consentId プロパティを設定します。ボイスタレントの同意の追加に関する記事をご覧ください。
必須の trainingSetId プロパティを設定します。トレーニングセットの作成に関する記事をご覧ください。
複数スタイル音声トレーニングの場合、必須のレシピ kind プロパティを MultiStyle に設定します。レシピの種類はトレーニング方法を示し、後で変更することはできません。別のトレーニング方法を使用するには、「ニューラル」または「ニューラル - - クロス言語」を参照してください。
必須の voiceName プロパティを設定します。音声名は末尾を "Neural" にする必要があり、後で変更することはできません。名前は慎重に選択します。音声名は、SDK と SSML 入力による音声合成要求で使われます。文字、数字、およびいくつかの区切り文字だけを使用できます。ニューラル音声モデルごとに、異なる名前を使用します。
音声モデルの言語に対する必須の locale プロパティを設定します。
必須の presetStyles プロパティは、ターゲット言語で利用できるプリセットスタイルの 1 つ以上に設定します。
必要に応じて、styleTrainingSetIds プロパティを設定し、カスタムの話し方のトレーニングデータを提供します。カスタムスタイルの最大数は言語によって異なり、英語 (米国) では最大 10 個のカスタムスタイル、中国語 (標準、簡体字) では最大 4 個のカスタムスタイル、日本語 (日本) では最大 5 個のカスタムスタイルを使用できます。 styleTrainingSetIds プロパティは、スタイル名とトレーニングセット ID の辞書です。
- 辞書キーごとに、任意のカスタムスタイル名を指定します。この名前は、音声合成マークアップ言語 (SSML) の style 要素内でアプリケーションによって使用されます。
- 辞書の値ごとに、同じ音声モデルに対して既に作成したトレーニングセットの ID を指定します。トレーニングセットには、スタイルごとに少なくとも 100 個の発話が含まれている必要があります。
必要に応じて、description プロパティに音声の説明を設定します。音声の説明は後で変更できます。

HTTP PUT 要求は、以下の Models_Create の例に示すように URI を使用して行います。

YourResourceKey をSpeech リソースキーに置き換えます。
YourResourceRegion を Azure Cognitive Service for Speech リソースのリージョンに置き換えます。
JessicaModelId を任意のモデル ID に置き換えます。大文字と小文字が区別される ID はモデルの URI で使われ、後で変更することはできません。

curl -v -X PUT -H "Ocp-Apim-Subscription-Key: YourResourceKey" -H "Content-Type: application/json" -d '{
  "voiceName": "JessicaNeuralMultiStyle",
  "description": "Jessica multi-style voice",
  "recipe": {
    "kind": "MultiStyle"
  },
  "projectId": "ProjectId",
  "consentId": "JessicaConsentId",
  "trainingSetId": "JessicaTrainingSetId",
  "locale": "en-US",
  "properties": {
    "presetStyles": [
      "cheerful",
      "sad"
    ],
    "styleTrainingSetIds": {
      "happyJessica": "JessicaHappyTrainingSetId",
      "myStyle2": "JessicaStyle2TrainingSetId"
    }
  }
} '  "https://YourResourceRegion.api.cognitive.microsoft.com/customvoice/models/JessicaModelId?api-version=2023-12-01-preview"

次の形式で応答本文を受け取る必要があります。

{
  "id": "JessicaModelId",
  "voiceName": "JessicaNeuralMultiStyle",
  "description": "Jessica multi-style voice",
  "recipe": {
    "kind": "MultiStyle",
    "version": "V7.2023.03"
  },
  "projectId": "ProjectId",
  "consentId": "JessicaConsentId",
  "trainingSetId": "JessicaTrainingSetId",
  "locale": "en-US",
  "engineVersion": "2023.07.04.0","properties": {
    "presetStyles": [
      "cheerful",
      "sad"
    ],
    "styleTrainingSetIds": {
      "happyJessica": "JessicaHappyTrainingSetId",
      "myStyle2": "JessicaStyle2TrainingSetId"
    },
    "voiceStyles": [
      "cheerful",
      "sad",
      "happyJessica",
      "myStyle2"
    ]
  }
  "status": "NotStarted",
  "createdDateTime": "2023-04-01T05:30:00.000Z",
  "lastActionDateTime": "2023-04-02T10:15:30.000Z"
}

バイリンガルトレーニング

Note

次の表は、2 つのロケールの違いを示したものです。

Speech Studio のロケール	REST API のロケール	バイリンガルのサポート
`Chinese (Mandarin, Simplified)`	`zh-CN`	サンプルデータに英語が含まれている場合、合成された音声は、英語データの量に関係なく、サンプルデータと同じアクセントではなく、英語のネイティブアクセントで英語を話します。
`Chinese (Mandarin, Simplified), English bilingual`	`zh-CN (English bilingual)`	合成された音声がサンプルデータと同じアクセントで英語を話すようにしたい場合は、トレーニングセットに 10% を超える英語データを含めることをお勧めします。そうしないと、英語を話すアクセントが理想的ではない可能性があります。
`Chinese (Taiwanese Mandarin, Traditional)`	`zh-TW`	サンプルデータと同じアクセントで英語を話せる合成音声をトレーニングしたい場合は、トレーニングセットで 10% より多くの英語データを提供するようにします。そうしないと、既定で英語のネイティブアクセントになります。 10% のしきい値は、アップロード前のデータではなく、アップロードが成功した後で受け入れられたデータに基づいて計算されます。アップロードされた英語データの一部が欠陥のために拒否され、10% のしきい値を満たさなくなった場合、合成される音声は既定で英語のネイティブアクセントになります。

さまざまな言語で利用可能なプリセットスタイル

次の表は、さまざまな言語に応じたさまざまなプリセットスタイルをまとめたものです。

話し方	言語 (ロケール)
怒り	英語 (米国) (`en-US`) 日本語 (日本) (`ja-JP`) ¹ 中国語 (標準、簡体字) (`zh-CN`) ¹
穏やか	中国語 (標準、簡体字) (`zh-CN`) ¹
chat	中国語 (標準、簡体字) (`zh-CN`) ¹
陽気	英語 (米国) (`en-US`) 日本語 (日本) (`ja-JP`) ¹ 中国語 (標準、簡体字) (`zh-CN`) ¹
不満	中国語 (標準、簡体字) (`zh-CN`) ¹
興奮	英語 (米国) (`en-US`)
怖い	中国語 (標準、簡体字) (`zh-CN`) ¹
優しい	英語 (米国) (`en-US`)
希望に満ちた	英語 (米国) (`en-US`)
悲しい	英語 (米国) (`en-US`) 日本語 (日本) (`ja-JP`) ¹ 中国語 (標準、簡体字) (`zh-CN`) ¹
叫ぶ	英語 (米国) (`en-US`)
深刻	中国語 (標準、簡体字) (`zh-CN`) ¹
恐怖	英語 (米国) (`en-US`)
unfriendly	英語 (米国) (`en-US`)
ささやく	英語 (米国) (`en-US`)

トレーニング状態の取得

音声モデルのトレーニング状態を取得するには、Custom Voice API の Models_Get 操作を使用します。次の手順のようにして、要求 URI を作成します。

次の Models_Get の例に示すように、URI を使用して HTTP GET 要求を行います。

YourResourceKey をSpeech リソースキーに置き換えます。
YourResourceRegion を Azure Cognitive Service for Speech リソースのリージョンに置き換えます。
前のステップで異なるモデル ID を指定した場合は、JessicaModelId を置き換えます。

curl -v -X GET "https://YourResourceRegion.api.cognitive.microsoft.com/customvoice/models/JessicaModelId?api-version=2023-12-01-preview" -H "Ocp-Apim-Subscription-Key: YourResourceKey"

次の形式で応答本文を受け取るはずです。

Note

レシピの kind と他のプロパティは、音声をトレーニングした方法によって異なります。この例のレシピの種類は、ニューラル音声トレーニング用の Default です。

{
  "id": "JessicaModelId",
  "voiceName": "JessicaNeural",
  "description": "Jessica voice",
  "recipe": {
    "kind": "Default",
    "version": "V7.2023.03"
  },
  "projectId": "ProjectId",
  "consentId": "JessicaConsentId",
  "trainingSetId": "JessicaTrainingSetId",
  "locale": "en-US",
  "engineVersion": "2023.07.04.0",
  "status": "Succeeded",
  "createdDateTime": "2023-04-01T05:30:00.000Z",
  "lastActionDateTime": "2023-04-02T10:15:30.000Z"
}

トレーニングが完了するまで数分待つ必要がある場合があります。最終的に、状態は Succeeded または Failed に変わります。

次のステップ

プロフェッショナル音声エンドポイントをデプロイする

プロフェッショナル音声モデルをトレーニングする

トレーニング方法を選択する

カスタム ニューラル音声モデルをトレーニングする

バイリンガル トレーニング

さまざまな言語で利用可能なプリセット スタイル

モデルの名前を変更する

実際の音声モデルをテストする

テスト スクリプトの要件

音声モデルのエンジン バージョンを更新する

音声モデルを別のプロジェクトにコピーする

次のステップ

トレーニング方法を選択する

音声モデルを作成する

バイリンガル トレーニング

さまざまな言語で利用可能なプリセット スタイル

トレーニング状態の取得

次のステップ

その他のリソース

カスタムニューラル音声モデルをトレーニングする

バイリンガルトレーニング

さまざまな言語で利用可能なプリセットスタイル

テストスクリプトの要件

音声モデルのエンジンバージョンを更新する

バイリンガルトレーニング

さまざまな言語で利用可能なプリセットスタイル