カスタムテキスト読み上げアバターとは?

2025-06-02

カスタムテキスト読み上げアバターを使用すると、アプリケーション用にカスタマイズされた世界にひとつの合成会話アバターを作成できます。カスタムテキスト読み上げアバターを使用すると、選択したアクターのビデオ録画データを提供することで、製品やブランドに固有の自然な見た目のアバターを作成できます。また、同じアクターのアバターにプロの音声または音声同期を使用する場合、アバターはさらに現実的です。

重要

カスタムテキスト読み上げアバターアクセスは、資格と使用条件に基づいて制限されます。入力フォームでアクセスを要求します。

それはどのように機能しますか?

カスタムテキスト読み上げアバターを作成するには、トレーニングデータとしてアバタータレントのビデオ記録が少なくとも 10 分必要です。最初に、アクタータレントから同意を得る必要があります。

カスタムアバターモデルでは、次の機能をサポートできます。

バッチ合成 API を使用したビデオ生成。
ストリーミング合成 API を使用したライブチャット。

作業を開始する前に、いくつかの考慮事項を次に示します:

ユースケース: アバターを使用して、トレーニング資料、製品の紹介などのビデオコンテンツを作成しますか、それとも顧客とのリアルタイムの会話で仮想営業担当者としてアバターを使用しますか? さまざまなユースケースに対していくつかの録画要件があります。

アバターの外観: カスタムテキスト読み上げアバターは、トレーニングデータのアバタータレントと同じように見えます。また、服、ヘアスタイルなど、アバターモデルの外観のカスタマイズはサポートされていません。そのため、アプリケーションで同じアバターの複数のスタイルが必要な場合は、それぞれのスタイル用のトレーニングデータを準備する必要があります。アバターの各スタイルが 1 つのアバターモデルと見なされるためです。

アバターの声: カスタムテキスト読み上げアバターは、アバターの標準音声、プロの音声、音声同期で動作できます。

アバターの音声同期: アバタータレントの声に似た合成音声が、トレーニングビデオのオーディオを利用するカスタムアバターと共にトレーニングされます。
プロの声: より多くのトレーニングデータを使用してプロの声を微調整し、自然な会話、マルチスタイル、多言語サポートなど、アバターにプレミアムな音声エクスペリエンスを提供します。

カスタムテキスト読み上げアバターを作成する手順の概要を次に示します:

同意のビデオを取得します。 同意書を読むタレントのビデオ録画を取得します。カスタムテキストの音声アバターモデルと合成バージョンの音声をトレーニングするには、画像と音声データの使用に同意する必要があります。
トレーニングデータを準備します。 ビデオレコーディングが適切なフォーマットであることを確認します。きれいな背景画像を得るために、プロ品質のビデオ撮影スタジオでビデオ録画を撮影することをお勧めします。結果として得られるアバターの品質は、トレーニングに使用される録画ビデオによって大きく異なります。話す速度、体の姿勢、顔の表情、手のジェスチャー、アクターの位置の一貫性、ビデオ録画の照明などの要因は、魅力的なカスタムテキスト読み上げアバターに作成するために不可欠です。詳細については「トレーニングデータを準備する方法」を参照してください。
アバターモデルをトレーニングします。 データの準備ができたら、[カスタムアバターポータル] にデータをアップロードし、モデルのトレーニングを開始します。同意の検証はトレーニング中に行われます。プロジェクトを作成する前に、カスタムテキスト読み上げアバター機能にアクセスできることを確認してください。
アバターモデルをアプリケーションにデプロイして使用します。

コンポーネントシーケンス

カスタムテキスト読み上げアバターモデルには、テキストアナライザー、テキスト読み上げオーディオシンセサイザー、テキスト読み上げアバタービデオレンダラーの 3 つのコンポーネントが含まれています。

アバターモデルを使用してアバタービデオファイルまたはストリームを生成するには、テキストが最初にテキストアナライザーに入力され、音素シーケンスの形式で出力が提供されます。
オーディオシンセサイザーは、入力テキストの音声オーディオを合成し、これら 2 つの部分は、標準または custonm 音声モデルによって提供されます。
最後に、テキスト読み上げアバターモデルは、音声に合わせてリップシンクする画像を予測し、合成ビデオを生成します。

テキスト読み上げアバターモデルは、さまざまな言語の人間のビデオの記録サンプルに基づいてディープニューラルネットワークを使用してトレーニングされます。標準音声とカスタム音声のすべての言語をサポートできます。

利用可能な場所

カスタムアバターの トレーニングは、次のサービス地域でのみ使用できます: 東南アジア、西ヨーロッパ、米国西部 2。カスタムアバターモデルは、次のサービス地域で使用できます: 東南アジア、北ヨーロッパ、西ヨーロッパ、スウェーデン中部、米国中南部、米国東部 2、米国西部 2。

カスタム音声とカスタムテキスト読み上げアバター

カスタム音声とカスタムテキスト読み上げアバターは別の機能です。これらを個別に使用することも、一緒に使用することもできます。俳優のプロフェッショナルな声を生成している場合、アバターは非常にリアルになります。

カスタムテキスト読み上げアバターは、標準音声またはカスタム音声をアバターの音声として使用できます。詳細については、「アバターの音声と言語」を参照してください。

カスタムアバターには、次の 2 種類のカスタム音声があります。

アバターの音声同期: カスタムアバタートレーニング中にアバターオプションの音声同期を有効にすると、アバタータレントの同性を使用した合成音声モデルがアバターと同時にトレーニングされます。この音声はカスタムアバターにのみ関連付けられているので、個別に使用することはできません。アバターの音声同期は現在、東南アジア、西ヨーロッパ、米国西部 2 リージョンでサポートされています。
プロの声: プロの声を微調整できます。プロの音声微調整とカスタムテキスト読み上げアバターは別々の機能です。これらを個別に使用することも、一緒に使用することもできます。これらを組み合わせて使用する場合は、プロの音声微調整とカスタムテキスト読み上げアバターに個別に申請する必要があります。また、プロの音声微調整とカスタムテキスト読み上げアバターに対して個別に課金されます。詳細については、価格に関するページを参照してください。さらに、テキスト読み上げアバターでプロの音声微調整を使用する場合は、カスタム音声モデルをアバターでサポートされているリージョンのいずれかにデプロイまたはコピーする必要があります。

プロの声を微調整し、カスタムアバターと一緒に使用する場合は、次の点に注意してください。

カスタム音声エンドポイントが、カスタムアバターエンドポイントと同じ Azure AI Foundry リソースに作成されていることを確認します。必要に応じて、カスタム音声モデルをカスタムアバターエンドポイントと同じ Azure AI Foundry リソースにコピーするように、プロフェッショナルな音声モデルをトレーニングすることを参照してください。
カスタム音声オプションは、[アバターコンテンツ生成ページ] と、[ライブチャットの音声設定] の音声一覧に表示されます。
アバター API のバッチ合成を使用している場合は、"customVoices" プロパティを追加して、カスタム音声モデルのデプロイ ID を要求の音声名に関連付けます。詳細については、「テキスト読み上げプロパティ」を参照してください。
アバター API にリアルタイム合成を使用している場合は、GitHub のサンプルコードを参照して、カスタム音声を設定してください。

次の方法で共有

カスタム テキスト読み上げアバターとは?

それはどのように機能しますか?

コンポーネント シーケンス

利用可能な場所

カスタム音声とカスタム テキスト読み上げアバター

関連するコンテンツ

フィードバック

その他のリソース

カスタムテキスト読み上げアバターとは?

コンポーネントシーケンス

カスタム音声とカスタムテキスト読み上げアバター