次の方法で共有


カスタム テキスト読み上げアバターを作成する方法

カスタム テキスト読み上げアバターの使用開始は簡単なプロセスです。 必要なものは、アクターのいくつかのビデオ クリップのみです。 同じアクターに対してカスタム音声をトレーニングする場合、別々にそれを行うことができます。

カスタム アバターのアクセスは、資格と使用条件に基づいて制限されます。 取り込みフォームでアクセス権を要求します。

前提条件

カスタム アバター トレーニングをサポートするリージョンの 1 つに Azure AI Foundry リソースが必要です。 カスタム アバターは、標準 (S0) AI Foundry または Speech リソースのみをサポートします。

タレントが、自身の画像と音声の使用を認める同意ステートメントを読んでいるビデオ録画が必要です。 このビデオは、アバター タレントを設定するときにアップロードします。 詳細については、「アバター タレントの同意を追加する」を参照してください。

トレーニング データとしてアバター タレントのビデオ録画が必要です。 これらのビデオは、トレーニング データを準備するときにアップロードします。 詳細については、「トレーニング データを追加する」を参照してください。

手順 1: 微調整を開始する

ヒント

1 つの微調整ワークスペースに異なるアバターのデータを混在させないでください。 各アバターには、独自の微調整ワークスペースが必要です。

カスタム アバターを微調整するには、次の手順に従います。

  1. Azure AI Foundry ポータルで Azure AI Foundry プロジェクトに移動します。 プロジェクトを作成する必要がある場合は、「Azure AI Foundry プロジェクトの作成」を参照してください。

  2. 左側のペインから [微調整] を選択します。

  3. [AI サービスの微調整]>[+ 微調整] を選択します。

    Azure AI サービス モデルの微調整を選択するページのスクリーンショット。

  4. ウィザードで、[ カスタム アバター] (テキスト読み上げアバターの微調整) を選択します。

  5. [次へ]を選択します。

  6. ウィザードの指示に従って、微調整ワークスペースを作成します。

アバター タレントは、スピーキング ビデオがレコーディングされている個人またはターゲット アクターであり、ニューラル アバター モデルの作成に使用されます。 関連するあらゆる法律と規制の下、カスタム テキスト読み上げアバターの作成に動画を使用するための十分な同意をアバター タレントから取得する必要があります。

動画ファイルは、イメージと声の使用を認めるアバター タレントからの声明動画付きで提供する必要があります。 Microsoft は、Microsoft が提供する事前定義済みのスクリプトと記録内のコンテンツが一致することを確認します。 Microsoft は、声明動画ファイルに記録されているアバター タレントの顔と、トレーニング データセットから無作為に選択された動画を比較し、動画のアバター タレントと声明動画ファイルのアバター タレントが同じ人物であることを確認します。

  • アバタートレーニング中にアバターの音声同期を作成する場合は、自分のアバターに似たカスタム音声がカスタムアバターと共に作成されます。 音声は、指定されたアバターでのみ使用されます。 同意文には、カスタム アバターとアバターの音声同期の両方が含まれている必要があります。 音声同期を使用したカスタム アバターの同意ステートメントの例については、Azure-Samples/cognitive-services-speech-sdk GitHub リポジトリの verbal-statement-voice-sync-for-avatar-all-locales.txt ファイルを参照してください。
  • アバターの音声同期を作成しない場合は、カスタム アバターのみがトレーニングされ、同意ステートメントにこのスコープを反映する必要があります。 カスタム アバターのみの同意ステートメントの例については、Azure-Samples/cognitive-services-speech-sdk GitHub リポジトリの verbal-statement-all-locales.txt ファイルを参照してください。

同意ビデオの記録の詳細については、「 ビデオサンプルを録画する方法 」および 「アバタータレントの開示」を参照してください。

アバター タレント プロファイルを追加し、同意ステートメントをプロジェクトにアップロードするには、次の手順に従います。

  1. Azure AI Foundry ポータルにサインインします。

  2. 左側のウィンドウから [微調整 ] を選択し、[ AI サービスの微調整] を選択します。

  3. 前のセクションで説明したように、開始したカスタム アバターの微調整タスク (モデル名別) を選択します。

  4. [アバター タレントの設定] を選択>同意ビデオをアップロードします。

  5. [同意ビデオのアップロード] ページで、指示に従って、事前にレコーディングしたアバター タレントの同意ビデオをアップロードします。

    • 作成するアバターの種類を選択します。 アバター モデルと一緒にアバター タレントのように聞こえるアバターの音声同期を構築するか、アバターの音声同期なしでアバターを構築します。 アバターの音声同期を作成するオプションは、東南アジア、西ヨーロッパ、および米国西部 2 リージョンでのみ使用できます。
    • アバター タレントによってレコーディングされた口述の同意ステートメントの会話の言語を選択します。
    • アバター タレント名と会社名を、レコーディングされたステートメントと同じ言語で入力します。
      • アバター タレント名は、同意ステートメントをレコーディングした人の名前であることが必要です。
      • 会社名は、録音されたステートメントで読み上げられた会社名と一致する必要があります。
    • データのアップロードを、ローカル ファイルから行うか、または Azure BLOB を使用して共有ストレージから行うかを選択できます。
  6. コンピューターからローカル ファイルを選択するか、データが格納されている Azure BLOB ストレージの URL を入力します。

  7. [次へ]を選択します。

  8. アップロードの詳細を確認し、[ アップロード] を選択します。

アバター タレントの同意を問題なくアップロードできたら、カスタム アバター モデルのトレーニングに進むことができます。

手順 3: トレーニング データを追加する

Speech サービスでは、トレーニング データを使用して、レコーディング内の人物の外観に合わせて調整された固有のアバターを作成します。 アバター モデルをトレーニングしたら、アバター ビデオの合成を開始したり、アプリケーション内のライブ チャットに使用したりできます。

アップロードするすべてのデータは、選択したデータの種類の要件を満たしている必要があります。 Speech サービスによってデータが正確に処理されるようにするためには、データをアップロードする前に適切にフォーマットすることが重要です。 データが正しくフォーマットされていることを確認するには、「データの要件」を参照してください。

データをアップロードする

データをアップロードする準備ができたら、[トレーニング データの準備] タブに移動して、データを追加します。

トレーニング データをアップロードするには、次の手順に従います。

  1. Azure AI Foundry ポータルにサインインします。
  2. 左側のウィンドウから [微調整 ] を選択し、[ AI サービスの微調整] を選択します。
  3. 前のセクションで説明したように、開始したカスタム アバターの微調整タスク (モデル名別) を選択します。
  4. [>] を選択します。
  5. [データのアップロード] ウィザードで、データ型を選択し、[次へ] を選択します。 データ型 ([自然読み上げ][無音状態][ジェスチャ][状態 0 の発話] など) の詳細については、「レコーディングするビデオ クリップ」を参照してください。
  6. コンピューターからローカル ファイルを選択するか、データが格納されている Azure BLOB ストレージの URL を入力します。
  7. [次へ]を選択します。
  8. アップロードの詳細を確認し、[ アップロード] を選択します。

[ アップロード] を選択すると、データ ファイルが自動的に検証されます。 データ検証には、ファイル形式、サイズ、合計ボリュームを確認する、ビデオ ファイルの一連のチェックが含まれます。 エラーが見つかった場合は、修正して再度送信します。

データをアップロードしたら、トレーニングを開始するのに十分なデータを提供したかどうかを示すデータの概要を確認できます。

手順 4: アバター モデルをトレーニングする

重要

プロジェクト内のすべてのトレーニング データがトレーニングに含まれます。 モデルの品質は、提供したデータに大きく依存しており、ビデオ品質に関する責任はデータの提供者にあります。 「ビデオ サンプル ガイドをレコーディングする方法」に従ってトレーニング ビデオをレコーディングしてください。

Azure AI Foundry ポータルでカスタム アバターを作成するには、次のいずれかの方法で次の手順に従います。

  1. Azure AI Foundry ポータルにサインインします。

  2. 左側のウィンドウから [微調整 ] を選択し、[ AI サービスの微調整] を選択します。

  3. 前のセクションで説明したように、開始したカスタム アバターの微調整タスク (モデル名別) を選択します。

  4. [モデルのトレーニング]>[+ モデルのトレーニング] の順に選択します。

  5. モデルを識別しやすい [名前] を入力します。 名前は慎重に選択します。 モデル名は、SDK と SSML 入力を使用した合成要求のアバター名として使用されます。 使用できるのは英字、数字、ハイフン、アンダースコアのみです。 各モデルに一意の名前を使用します。

    重要

    アバター モデル名は、同一の Speech または AI Services リソース内で一意である必要があります。

  6. モデルのトレーニングを開始するには、トレーニングを選択します。

トレーニング期間は、使用するデータ量によって異なります。 カスタム アバターをトレーニングするには、通常は平均 20 から 40 コンピューティング時間がかかります。 トレーニングの課金のしくみについては、「価格に関する注意」を確認してください。

カスタム アバター モデルを別のプロジェクトにコピーする (省略可能)

カスタム アバターのトレーニングは、現在一部のリージョンでのみ使用できます。 サポートされているリージョンでトレーニングが完了したアバター モデルは、必要に応じて別のリージョンの Speech 用の AI サービス リソースにコピーできます。 詳細については、リージョン テーブルの脚注を参照してください。

アバター モデルの音声同期は、個人の音声をサポートする同じリージョンであるアバター機能の音声同期をサポートするリージョンにのみコピーできます。

カスタム アバター モデルを別のプロジェクトにコピーするには、次のようにします。

  1. [モデルのトレーニング] タブで、コピーするアバター モデルを選択し、[プロジェクトにコピー] を選択します。
  2. モデルのコピー先となるサブスクリプション、リージョン、音声用の AI Services リソース、プロジェクトを選択します。 ターゲット リージョンに Speech とプロジェクト用の AI Services リソースが必要です。それ以外の場合は、最初に作成する必要があります。
  3. [送信] を選択してモデルをコピーします。

モデルがコピーされると、Azure AI Foundry ポータルに通知が表示されます。

モデルのコピーをデプロイするためにモデルをコピーしたプロジェクトに移動します。

手順 5: アバター モデルをデプロイして使用する

アバター モデルを正常に作成してトレーニングしたら、それをエンドポイントにデプロイします。

アバターをデプロイするには次のようにします。

  1. Azure AI Foundry ポータルにサインインします。

  2. 左側のウィンドウから [微調整 ] を選択し、[ AI サービスの微調整] を選択します。

  3. 前のセクションで説明したように、開始したカスタム アバターの微調整タスク (モデル名別) を選択します。

  4. Deploy model>モデルのデプロイ を選択します。

  5. デプロイするモデルを選択します。

  6. [デプロイ] を選んで、デプロイを始めます。

    重要

    モデルがデプロイされると、当該エンドポイントとのやり取りの有無に関わらず、エンドポイントの継続的なアップタイムに対して料金が発生します。 モデルのデプロイの課金のしくみについては、価格に関する注意を確認してください。 モデルが使用されていないときにはデプロイを削除することで、支出を削減し、リソースを節約できます。

カスタム アバターをデプロイすると、Azure AI Foundry ポータルまたは API を使用して使用できるようになります。

デプロイの削除

デプロイを削除するには、次の手順に従います。

  1. Azure AI Foundry ポータルにサインインします。
  2. 左側のウィンドウから [微調整 ] を選択し、[ AI サービスの微調整] を選択します。
  3. 前のセクションで説明したように、開始したカスタム アバターの微調整タスク (モデル名別) を選択します。
  4. [モデルのデプロイ] ページでデプロイを選択します。 ステータスが "Succeeded" の場合、モデルはアクティブにホストされています。
  5. [デプロイの削除] ボタンを選択し、削除を確認してホスティングを削除できます。

ヒント

デプロイが削除されると、そのホスティングに対する支払いはなくなります。 デプロイを削除しても、モデルが削除されることはありません。 モデルを再度使用する場合は、新しいデプロイを作成します。

カスタム テキスト読み上げアバターの使用開始は簡単なプロセスです。 必要なものは、アクターのいくつかのビデオ クリップのみです。 同じアクターに対してカスタム音声をトレーニングする場合、別々にそれを行うことができます。

カスタム アバターのアクセスは、資格と使用条件に基づいて制限されます。 取り込みフォームでアクセス権を要求します。

前提条件

カスタム アバター トレーニングをサポートするリージョンの 1 つに Azure AI Foundry リソースが必要です。 カスタム アバターは、標準 (S0) AI Foundry または Speech リソースのみをサポートします。

タレントが、自身の画像と音声の使用を認める同意ステートメントを読んでいるビデオ録画が必要です。 このビデオは、アバター タレントを設定するときにアップロードします。 詳細については、「アバター タレントの同意を追加する」を参照してください。

トレーニング データとしてアバター タレントのビデオ録画が必要です。 これらのビデオは、トレーニング データを準備するときにアップロードします。 詳細については、「トレーニング データを追加する」を参照してください。

手順 1: カスタム アバター プロジェクトを作成する

カスタム アバター プロジェクトを作成するには、次の手順に従います。

  1. Speech Studio にサインインし、サブスクリプションと Speech リソースを選択します。

  2. [カスタム アバター] (プレビュー) を選択します。

    他のタイルの中からカスタム アバターを選択するタイルのスクリーンショット。

  3. [+ プロジェクトの作成] を選択します。

  4. ウィザードの手順に従ってプロジェクトを作成します。

    ヒント

    1 つのプロジェクトで異なるアバターのデータを混在させないでください。 新しいアバターに対しては、常に新しいプロジェクトを作成します。

  5. 新しいプロジェクトを名前で選択します すると、左側のパネルには、[アバター タレントの設定][トレーニング データの準備][モデルのトレーニング][モデルのデプロイ] というメニュー項目が表示されます。

    新しい空のカスタム アバター プロジェクトのスクリーンショット。

アバター タレントは、スピーキング ビデオがレコーディングされている個人またはターゲット アクターであり、ニューラル アバター モデルの作成に使用されます。 関連するあらゆる法律と規制の下、カスタム テキスト読み上げアバターの作成に動画を使用するための十分な同意をアバター タレントから取得する必要があります。

動画ファイルは、イメージと声の使用を認めるアバター タレントからの声明動画付きで提供する必要があります。 Microsoft は、Microsoft が提供する事前定義済みのスクリプトと記録内のコンテンツが一致することを確認します。 Microsoft は、声明動画ファイルに記録されているアバター タレントの顔と、トレーニング データセットから無作為に選択された動画を比較し、動画のアバター タレントと声明動画ファイルのアバター タレントが同じ人物であることを確認します。

  • アバタートレーニング中にアバターの音声同期を作成する場合は、自分のアバターに似たカスタム音声がカスタムアバターと共に作成されます。 音声は、指定されたアバターでのみ使用されます。 同意文には、カスタム アバターとアバターの音声同期の両方が含まれている必要があります。
  • アバターの音声同期を作成しない場合は、カスタム アバターのみがトレーニングされ、同意ステートメントにこのスコープを反映する必要があります。

Azure-Samples/cognitive-services-speech-sdk GitHub リポジトリを使用して、複数の言語で音声による同意ステートメントを見つけることができます。 ボイス タレント ステートメントの言語は、録音の言語と同じである必要があります。 「ボイス タレント向けの開示」も参照してください。

同意ビデオのレコーディングに関する詳細については、「ビデオ サンプルをレコーディングする方法」を参照してください。

アバター タレント プロファイルを追加し、同意ステートメントをプロジェクトにアップロードするには、次の手順に従います。

  1. Speech Studio にサインインします。

  2. [カスタム アバター]><プロジェクト名>>[アバター タレントの設定]>[同意ビデオのアップロード] の順に選択します。

  3. [同意ビデオのアップロード] ページで、指示に従って、事前にレコーディングしたアバター タレントの同意ビデオをアップロードします。

    • 作成するアバターの種類を選択します。 アバター モデルと一緒にアバター タレントのように聞こえるアバターの音声同期を構築するか、アバターの音声同期なしでアバターを構築します。 アバターの音声同期を作成するオプションは、東南アジア、西ヨーロッパ、および米国西部 2 リージョンでのみ使用できます。
    • アバター タレントによってレコーディングされた口述の同意ステートメントの会話の言語を選択します。
    • アバター タレント名と会社名を、レコーディングされたステートメントと同じ言語で入力します。
      • アバター タレント名は、同意ステートメントをレコーディングした人の名前であることが必要です。
      • 会社名は、録音されたステートメントで読み上げられた会社名と一致する必要があります。
    • データのアップロードを、ローカル ファイルから行うか、または Azure BLOB を使用して共有ストレージから行うかを選択できます。

    アップロードするタレントの同意ビデオを選択するダイアログのスクリーンショット。

  4. [アップロード]を選択します。

アバター タレントの同意を問題なくアップロードできたら、カスタム アバター モデルのトレーニングに進むことができます。

手順 3: トレーニング データを追加する

Speech サービスでは、トレーニング データを使用して、レコーディング内の人物の外観に合わせて調整された固有のアバターを作成します。 アバター モデルをトレーニングしたら、アバター ビデオの合成を開始したり、アプリケーション内のライブ チャットに使用したりできます。

アップロードするすべてのデータは、選択したデータの種類の要件を満たしている必要があります。 Speech サービスによってデータが正確に処理されるようにするためには、データをアップロードする前に適切にフォーマットすることが重要です。 データが正しくフォーマットされていることを確認するには、「データの要件」を参照してください。

データをアップロードする

データをアップロードする準備ができたら、[トレーニング データの準備] タブに移動して、データを追加します。

トレーニング データをアップロードするには、次の手順に従います。

  1. Speech Studio にサインインします。

  2. [カスタム アバター]><プロジェクト名>>[トレーニング データの準備]>[データのアップロード] の順に選択します。

    トレーニング データをアップロードするためのボタンがある [トレーニング データの準備] ページのスクリーンショット。

  3. [データのアップロード] ウィザードで、データ型を選択し、[次へ] を選択します。 データ型 ([自然読み上げ][サイレント][ジェスチャ][状態 0 の発話] など) の詳細については、「レコーディングするビデオ クリップ」を参照してください。

  4. コンピューターからローカル ファイルを選択するか、データが格納されている Azure BLOB ストレージの URL を入力します。

  5. [次へ]を選択します。

  6. アップロードの詳細を確認し、[送信] を選択します。

[送信] を選択すると、データ ファイルが自動的に検証されます。 データ検証には、ファイル形式、サイズ、合計ボリュームを確認する、ビデオ ファイルの一連のチェックが含まれます。 エラーが見つかった場合は、修正して再度送信します。

データをアップロードしたら、トレーニングを開始するのに十分なデータを提供したかどうかを示すデータの概要を確認できます。 このスクリーンショットは、他のジェスチャなしでアバターをトレーニングするために追加された十分なデータの例を示しています。

他のジェスチャなしでアバターをトレーニングするために追加された十分なデータのスクリーンショット。

手順 4: アバター モデルをトレーニングする

重要

プロジェクト内のすべてのトレーニング データがトレーニングに含まれます。 モデルの品質は、提供したデータに大きく依存しており、ビデオ品質に関する責任はデータの提供者にあります。 「ビデオ サンプル ガイドをレコーディングする方法」に従ってトレーニング ビデオをレコーディングしてください。

Speech Studio でカスタム アバターを作成するには、次のいずれかの方法の手順に従います。

  1. Speech Studio にサインインします。

  2. [カスタム アバター]><プロジェクト名>>[モデルのトレーニング]>[モデルのトレーニング] の順に選択します。

  3. モデルを識別しやすい [名前] を入力します。 名前は慎重に選択します。 モデル名は、SDK と SSML 入力を使用した合成要求のアバター名として使用されます。 使用できるのは英字、数字、ハイフン、アンダースコアのみです。 各モデルに一意の名前を使用します。

    重要

    アバター モデル名は、同一の Speech または AI Services リソース内で一意である必要があります。

  4. モデルのトレーニングを開始するには、トレーニングを選択します。

トレーニング期間は、使用するデータ量によって異なります。 カスタム アバターをトレーニングするには、通常は平均 20 から 40 コンピューティング時間がかかります。 トレーニングの課金のしくみについては、「価格に関する注意」を確認してください。

カスタム アバター モデルを別のプロジェクトにコピーする (省略可能)

カスタム アバターのトレーニングは、現在一部のリージョンでのみ使用できます。 サポートされているリージョンでトレーニングが完了したアバター モデルは、必要に応じて別のリージョンの Speech 用の AI サービス リソースにコピーできます。 詳細については、リージョン テーブルの脚注を参照してください。

アバター モデルの音声同期は、個人の音声をサポートする同じリージョンであるアバター機能の音声同期をサポートするリージョンにのみコピーできます。

カスタム アバター モデルを別のプロジェクトにコピーするには、次のようにします。

  1. [モデルのトレーニング] タブで、コピーするアバター モデルを選択し、[プロジェクトにコピー] を選択します。
  2. モデルのコピー先となるサブスクリプション、リージョン、音声用の AI Services リソース、プロジェクトを選択します。 ターゲット リージョンに Speech とプロジェクト用の AI Services リソースが必要です。それ以外の場合は、最初に作成する必要があります。
  3. [送信] を選択してモデルをコピーします。

モデルのコピーが完了すると、Speech Studio に通知が表示されます。

モデルのコピーをデプロイするためにモデルをコピーしたプロジェクトに移動します。

手順 5: アバター モデルをデプロイして使用する

アバター モデルを正常に作成してトレーニングしたら、それをエンドポイントにデプロイします。

アバターをデプロイするには次のようにします。

  1. Speech Studio にサインインします。
  2. [カスタム アバター]><プロジェクト名>>[モデルのデプロイ] の順に選択します。
  3. [モデルのデプロイ] を選択し、デプロイするモデルを選択します。
  4. [デプロイ] を選んで、デプロイを始めます。

    重要

    モデルがデプロイされると、当該エンドポイントとのやり取りの有無に関わらず、エンドポイントの継続的なアップタイムに対して料金が発生します。 モデルのデプロイの課金のしくみについては、価格に関する注意を確認してください。 モデルが使用されていないときにはデプロイを削除することで、支出を削減し、リソースを節約できます。

カスタム アバターをデプロイすると、Speech Studio または API で使用できるようになります。

デプロイの削除

デプロイを削除するには、次の手順に従います。

  1. Speech Studio にサインインします。
  2. [カスタム アバター]><プロジェクト名>>[モデルのデプロイ] の順に移動します。
  3. [モデルのデプロイ] ページでデプロイを選択します。 ステータスが "Succeeded" の場合、モデルはアクティブにホストされています。
  4. [デプロイの削除] ボタンを選択し、削除を確認してホスティングを削除できます。

ヒント

デプロイが削除されると、そのホスティングに対する支払いはなくなります。 デプロイを削除しても、モデルが削除されることはありません。 モデルを再度使用する場合は、新しいデプロイを作成します。

次のステップ