プロフェッショナル音声用のプロジェクトを作成する

少数のオーディオ ファイルと関連する文字起こしさえあれば、作業を開始できます。 カスタム音声が 言語地域をサポートしているかどうかを確認します。

微調整を開始する

新しい Microsoft Foundry ポータルでプロフェッショナルな音声モデルを微調整するには、次の手順に従います。

  1. Microsoft Foundry にサインインします。 「New Foundry」トグルがオンになっていることを確認してください。 これらの手順は Foundry (新規) を参照します。

  2. 右上のメニューから[ ビルド]を選択します。

  3. 左側のウィンドウで、[ モデル] を選択します。

  4. AI Services タブで、Azure Speech - テキスト読み上げ を選択します。

  5. テキスト読み上げプレイグラウンドの右上にある [微調整] を選択して、[モデルを微調整する] ペインを開きます。

  6. [ 基本の詳細 ] ウィンドウで、次の設定を入力します。

    • モデルの選択: Azure Speech - テキスト読み上げ が選択されていることを確認します。 この値は、ウィザードの入力元のプレイグラウンドに基づいて事前に入力されます。
    • 種類: [Professional voice ]\(プロフェッショナル音声\) が選択されていることを確認します。
    • 音声性別: 音声タレントの性別を選択します。
    • トレーニング データの言語: トレーニング データの言語を選択します。
    • 音声名: 音声モデルの名前を入力します。
    • 説明: 必要に応じて説明を入力します。
  7. [次へ] を選択します。

[モデルの微調整] ウィンドウを開いたままにして、[音声タレントの同意の追加] に進み、音声タレントを登録します。

微調整を続行する

Foundry Tools の Azure Speech ドキュメントに移動して、プロフェッショナルな音声モデルの微調整を続行する方法を学習します。

微調整されたモデルを表示する

微調整した後は、[ 微調整 ] ページからカスタム音声モデルとデプロイにアクセスできます。

  1. Microsoft Foundry にサインインします。 「New Foundry」トグルがオンになっていることを確認してください。 これらの手順は Foundry (新規) を参照します。
  2. 右上のメニューから[ ビルド]を選択します。
  3. 左側のウィンドウで、[ 微調整] を選択します。
  4. [ AI サービス ] タブを選択して、微調整タスクの状態と作成されたモデルを表示します。 モデル名を選択してモデルの詳細ページを開きます。このページでは、トレーニングの状態の表示、テストの実行、デプロイの管理を行うことができます。

次のステップ

データ、モデル、テスト、エンドポイントなどの カスタム音声 のコンテンツは、Speech Studio のプロジェクトに編成されます。 各プロジェクトは、国またはリージョンと言語、および作成したい音声の性別に固有です。 たとえば、米国の英語を使用するコール センターのチャット ボット用に、女性の音声のプロジェクトを作成できます。

少数のオーディオ ファイルと関連する文字起こしさえあれば、作業を開始できます。 カスタム音声が 言語地域をサポートしているかどうかを確認します。

微調整を開始する

プロフェッショナルな音声モデルを微調整するには、次の手順に従います。

  1. Speech Studio にサインインします。

  2. 使用するサブスクリプションと Speech リソースを選択します。

    重要

    カスタム音声トレーニングは現在、一部のリージョンでのみ利用できます。 サポートされているリージョンでトレーニングが完了した音声モデルは、必要に応じて別のリージョンの Speech リソースにコピーできます。 詳細については、リージョン テーブルの脚注を参照してください。

  3. [Custom Voice] > [プロジェクトの作成] の順に選択します。

  4. [カスタム ニューラル音声 Pro]>[次へ] を選択します。

  5. ウィザードの手順に従ってプロジェクトを作成します。

新しいプロジェクトの名前を選択するか、[プロジェクトに移動] を選択します。 左側のパネルには、[ボイス タレントの設定][トレーニング データの準備][モデルのトレーニング][モデルのデプロイ] というメニュー項目が表示されます。

次のステップ

プロフェッショナル音声プロジェクトには、ボイス タレントの同意ステートメント、トレーニング データセット、音声モデル、エンドポイントが含まれています。

各プロジェクトは、国またはリージョンと言語、および作成したい音声の性別に固有です。 たとえば、米国の英語を使用するコール センターのチャット ボット用に、女性の音声のプロジェクトを作成できます。

プロジェクトの作成

プロフェッショナル音声プロジェクトを作成するには、Custom Voice API の Projects_Create 操作を使います。 次の手順に従って要求本文を作成します。

  • 必須の kind プロパティを ProfessionalVoice に設定します。 種類を後から変更することはできません。
  • 必要に応じて、locale プロパティを設定します。 このプロジェクトのロケール。 ロケール コードは BCP-47 に従います。 text to speechロケールの一覧はこちらで確認できます。 ロケールを指定した場合、 プロジェクトは Speech Studio で使用できます。
  • 必要に応じて、description プロパティにプロジェクトの説明を設定します。 プロジェクトの説明は後で変更できます。

HTTP PUT 要求は、以下の Projects_Create の例に示したように URI を使用して行います。

  • YourResourceKey をSpeech リソース キーに置き換えます。
  • YourResourceNameを音声リソース名に置き換えます。
  • ProjectId を任意のプロジェクト ID に置き換えます。 大文字と小文字が区別される ID は、スピーチリソース内で一意である必要があります。 ID はプロジェクトの URI で使われ、後で変更することはできません。
curl -v -X PUT -H "Ocp-Apim-Subscription-Key: YourResourceKey" -H "Content-Type: application/json" -d '{
  "description": "Project description",
  "kind": "ProfessionalVoice",
  "locale": "en-US"
} '  "https://YourResourceName.cognitiveservices.azure.com/customvoice/projects/ProjectId?api-version=2026-01-01"

次の形式で応答本文を受け取る必要があります。

{
  "id": "ProjectId",
  "description": "Project description",
  "kind": "ProfessionalVoice",
  "locale": "en-US",
  "createdDateTime": "2023-04-01T05:30:00.000Z"
}

プロジェクトの id は、後でボイス タレントの同意の追加およびトレーニング セットの作成のための API 要求で使います。

次のステップ