音声モデルをトレーニングする

この記事では、Speech Studio ポータルを使用してカスタム ニューラル音声をトレーニングする方法について説明します。

重要

カスタム ニューラル音声トレーニングは、現在一部のリージョンでのみ使用できます。 サポートされているリージョンでトレーニングが完了した音声モデルは、必要に応じて別のリージョンの Speech リソースにコピーできます。 詳細については、リージョン テーブルの脚注を参照してください。

トレーニング期間は、トレーニングするデータ量によって異なります。 カスタム ニューラル音声をトレーニングするには、平均で約 40 コンピューティング時間かかります。 Standard サブスクリプション (S0) ユーザーは、4 つの音声を同時にトレーニングできます。 制限に達した場合は、少なくとも 1 つのデータ ファイルのインポートが終わるまで待機します。 その後、やり直してください。

Note

トレーニング方法ごとに必要な合計時間数は異なりますが、それぞれに同じ単価が適用されます。 詳細については、カスタム ニューラル トレーニングの価格の詳細に関するページを参照してください。

トレーニング方法を選択する

データ ファイルを検証したら、それを使用してカスタム ニューラル音声モデルを作成できます。 カスタム ニューラル音声を作成するときに、次のいずれかの方法でトレーニングすることを選択できます。

  • ニューラル: トレーニング データと同じ言語で音声を作成するには、[ニューラル] 方法を選択します。

  • ニューラル - クロス言語 (プレビュー): 音声モデル用の 2 番目の言語を作成して、トレーニング データとは異なる言語を話します。 たとえば、zh-CNトレーニング データを使用して、en-US を話す音声を作成できます。 トレーニング データの言語とターゲット言語の両方が、クロス言語音声トレーニングでサポートされている言語のいずれかである必要があります。 ターゲット言語でトレーニング データを準備する必要はありませんが、テスト スクリプトはターゲット言語である必要があります。

  • ニューラル - マルチ スタイル (プレビュー): 新しいトレーニング データを追加せずに、複数のスタイルと感情で話すカスタム ニューラル音声を作成します。 マルチスタイルの音声は、ビデオ ゲームのキャラクター、会話チャットボット、オーディオブック、コンテンツ リーダーなどに特に役立ちます。 マルチスタイルの音声を作成するには、一連の一般的なトレーニング データ (少なくとも 300 個の発話) を準備し、1 つ以上のプリセットのターゲット話し方を選択する必要があります。 同じ音声の追加トレーニング データとしてスタイル サンプル (スタイルごとに少なくとも 100 個の発話) を提供することで、最大 10 個のカスタム スタイルを作成することもできます。

トレーニング データの言語は、カスタム ニューラル音声、クロス言語、またはマルチスタイル トレーニング用にサポートされている言語のいずれかである必要があります。

カスタム ニューラル音声モデルをトレーニングする

Speech Studio でカスタム ニューラル音声を作成するには、次のいずれかの方法の次の手順に従います。

  1. Speech Studio にサインインします。
  2. [Custom Voice]>[プロジェクト名]>[モデルのトレーニング]>[新しいモデルのトレーニング] を選択します。
  3. モデルのトレーニング方法として [ニューラル] を選択し、[次へ] を選択します。 別のトレーニング方法を使用するには、「ニューラル - クロス言語」または「ニューラル - マルチ スタイル」を参照してください。 ニューラル トレーニングを選択する方法を示すスクリーンショット。
  4. モデルのトレーニング レシピのバージョンを選択します。 既定では最新バージョンが選択されています。 サポートされている機能とトレーニング時間は、バージョンによって異なる場合があります。 通常、最良の結果を得るためには、最新バージョンが推奨されます。 場合によっては、古いバージョンを選択してトレーニング時間を短縮できます。
  5. トレーニングに使用するデータを選択します。 重複したオーディオ名はトレーニングから削除されます。 選択したデータ内の複数の .zip ファイルに同じオーディオ名が含まれていないことを確認してください。 トレーニングには、正常に処理されたデータセットのみを選択できます。 一覧にトレーニング セットが表示されない場合は、データ処理の状態を確認してください。
  6. トレーニング データのスピーカーに対応するボイス タレント ステートメントを含むスピーカー ファイルを選択します。
  7. [次へ] を選択します。
  8. 必要に応じて、[Add my own test script](独自のテスト スクリプトの追加) の横にあるチェック ボックスをオンにして、アップロードするテスト スクリプトを選択できます。 トレーニングごとに、既定のスクリプトによるモデルのテストに役立つ 100 個のサンプル オーディオ ファイルが自動的に生成されます。 また、既定のスタイルに対し、最大 100 個の発話を含む独自のテスト スクリプトを提供することもできます。 生成されたオーディオ ファイルは、自動テスト スクリプトとカスタム テスト スクリプトの組み合わせです。 詳細については、「テスト スクリプトの要件」を参照してください。
  9. このモデルを識別しやすい [名前][説明] を入力します。 名前は慎重に選択します。 モデル名は、SDK と SSML 入力を使用した音声合成要求の音声名として使用されます。 文字、数字、およびいくつかの区切り文字だけを使用できます。 ニューラル音声モデルごとに、異なる名前を使用します。
  10. 必要に応じて、モデルの識別に役立つ [説明] を入力します。 説明の一般的な用途は、モデルの作成に使用したデータの名前を記録することです。
  11. [次へ] を選択します。
  12. 設定を確認し、チェックボックスをオンにして利用規約に同意します。
  13. [送信] を選択してモデルのトレーニングを開始します。

[モデルのトレーニング] の表に、この新しく作成されたモデルに対応する新しいエントリが表示されます。 この状態は、次の表で説明するように、データから音声モデルへの変換プロセスを反映しています。

State 意味
処理中 実際の音声モデルを作成中です。
成功 実際の音声モデルは作成が済み、デプロイ可能です。
失敗 音声モデルがトレーニング中に失敗しました。 失敗の原因としては、たとえば、見えないデータの問題やネットワークの問題などが考えられます。
Canceled 音声モデルのトレーニングが取り消されました。

モデルの状態が [処理中] になっているときに、[トレーニングの取り消し] を選択して音声モデルを取り消すことができます。 この取り消されたトレーニングに対しては課金されません。

モデルのトレーニングをキャンセルする方法を示すスクリーン ショット。

モデルのトレーニングが正常に完了したら、モデルの詳細を確認し、モデルをテストします

Speech StudioAudio Content Creation ツールを使用して、オーディオを作成し、デプロイされた音声を微調整できます。 音声に該当する場合は、複数のスタイルのいずれかを選択することもできます。

モデルの名前を変更する

構築したモデルの名前を変更する場合は、[モデルの複製] を選択して、現在のプロジェクトに新しい名前のモデルの複製を作成できます。

[モデルの複製] ボタンを選択しているスクリーン ショット。

[音声モデルの複製] ウィンドウに新しい名前を入力し、[送信] を選択します。 テキスト 'Neural' は、新しいモデル名にサフィックスとして自動的に追加されます。

新しい名前でモデルを複製しているスクリーン ショット。

実際の音声モデルをテストする

音声モデルが正常に作成されたら、デプロイして使用する前に、生成されたサンプル オーディオ ファイルを使用してテストすることができます。

音声の品質は、次のような多くの要因によって異なります。

  • トレーニング データのサイズ。
  • 録音の品質。
  • トランスクリプト ファイルの正確性。
  • トレーニング データに録音された音声が、意図したユース ケースに対して設計された音声のパーソナリティとどの程度一致しているか。

[テスト] の下にある DefaultTests を選択して、サンプル オーディオを聴きます。 既定のテスト サンプルには、モデルのテストに役立つトレーニング中に自動的に生成される 100 個のサンプル オーディオが含まれています。 既定で提供されるこれらの 100 個のオーディオに加え、トレーニング中に提供される自分のテスト スクリプト (最大 100 個の発話) も DefaultTests セットに追加されます。 DefaultTests でのテストに対しては課金されません。

[テスト] の下にある [DefaultTests] を選択しているスクリーン ショット。

自分のテスト スクリプトをアップロードしてモデルをさらにテストする場合は、[テスト スクリプトの追加] を選択して自分のテスト スクリプトをアップロードします。

モデル テスト スクリプトを追加しているスクリーン ショット。

テスト スクリプトをアップロードする前に、テスト スクリプトの要件を確認します。 課金対象の文字数に基づいて、バッチ合成による追加テストに対して課金されます。 価格に関するページを参照してください。

[テスト スクリプトの追加] ウィンドウで、[ファイルの参照] を選択して自分のスクリプトを選び、[追加] を選択してアップロードします。

モデル テスト スクリプトをアップロードしているスクリーン ショット。

テスト スクリプトの要件

テスト スクリプトは、1 MB 未満の .txt ファイルである必要があります。 サポートされているエンコード形式は、ANSI/ASCII、UTF-8、UTF-8-BOM、UTF-16-LE、UTF-16-BE です。

トレーニング文字起こしファイルとは異なり、テスト スクリプトでは発話 ID (各発話のファイル名) を除外する必要があります。 そうしないと、これらの ID が発話されてしまいます。

以下に 1 つの .txt ファイル内の一連の発話の例を示します。

This is the waistline, and it's falling.
We have trouble scoring.
It was Janet Maslin.

発話の段落ごとに、個別の音声になります。 すべての文を 1 つの音声に結合したい場合は、1 つの段落にします。

注意

生成されたオーディオ ファイルは、自動テスト スクリプトとカスタム テスト スクリプトの組み合わせです。

音声モデルのエンジン バージョンを更新する

Azure Text to Speech エンジンは、言語の発音を定義する最新の言語モデルを取り込むために随時更新されます。 音声をトレーニングした後、最新のエンジン バージョンに更新することで、音声を新しい言語モデルに適用できます。

新しいエンジンが使用可能になると、ニューラル音声モデルを更新するように求められます。

エンジン更新メッセージを表示しているスクリーンショット。

モデルの詳細ページに移動し、画面の指示に従って最新のエンジンをインストールします。

画面の指示に従って新しいエンジンをインストールするスクリーンショット。

または、後で [最新のエンジンのインストール] を選択して、モデルを最新のエンジン バージョンに更新します。

[最新のエンジンのインストール] ボタンを選択してエンジンを更新するスクリーンショット。

エンジンの更新に対しては課金されません。 以前のバージョンが引き続き保持されます。 このモデルのすべてのエンジン バージョンを [エンジンのバージョン] ドロップダウン リストから確認するか、不要な場合は削除できます。

[エンジンのバージョン] ドロップダウン リストを表示しているスクリーンショット。

更新されたバージョンは自動的に既定に設定されます。 しかし、ドロップダウン リストからバージョンを選択し、[既定に設定] を選択することで、既定のバージョンを変更できます。

既定値としてバージョンを設定する方法を示しているスクリーンショット。

音声モデルの各エンジン バージョンをテストする場合は、ドロップダウン リストからバージョンを選び、[テスト] の下の DefaultTests を選択してサンプル オーディオを聴くことができます。 独自のテスト スクリプトをアップロードして現在のエンジン バージョンをさらにテストする場合は、まずそのバージョンが既定に設定されていることを確認してから、上記のテスト手順に従います。

エンジンを更新すると、追加コストなしで新しいバージョンのモデルが作成されます。 音声モデルのエンジン バージョンを更新したら、新しいバージョンをデプロイして新しいエンドポイントを作成する必要があります。 既定のバージョンのみをデプロイできます。

音声モデルの新しいバージョンを再デプロイする方法を示すスクリーンショット。

新しいエンドポイントを作成したら、トラフィックをご使用の製品の新しいエンドポイントに転送する必要があります

詳細については、この機能の詳細と制限、およびモデルの品質を向上させるためのベスト プラクティスに関する記事を参照してください。

音声モデルを別のプロジェクトにコピーする

音声モデルは、同じリージョンまたは別のリージョンの別のプロジェクトにコピーできます。 たとえば、あるリージョンでトレーニングされたニューラル音声モデルを、別のリージョンのプロジェクトにコピーできます。

注意

カスタム ニューラル音声トレーニングは、現在一部のリージョンでのみ使用できます。 しかし、これらのリージョンのニューラル音声モデルは、他のリージョンに簡単にコピーできます。 詳細については、カスタム ニューラル音声のリージョンに関するセクションを参照してください。

カスタム ニューラル音声モデルを別のプロジェクトにコピーするには、次の手順に従います。

  1. [モデルのトレーニング] タブで、コピーする音声モデルを選択し、[プロジェクトにコピー] を選択します。

    プロジェクトへのコピー オプションのスクリーンショット。

  2. モデルをコピーする [リージョン][Speech リソース]、および [プロジェクト] を選択します。 ターゲット リージョンに Speech リソースとプロジェクトが存在する必要があります。存在しない場合は、先に作成する必要があります。

    [copy voice model]\(音声モデルのコピー\) ダイアログのスクリーンショット。

  3. [送信] を選択してモデルをコピーします。

  4. コピー成功の通知メッセージの下にある [モデルの表示] を選択します。

モデルのコピーをデプロイするためにモデルをコピーしたプロジェクトに移動します。

次のステップ