カスタム テキスト読み上げアバターを使用すると、アプリケーション用にカスタマイズされた世界にひとつの合成会話アバターを作成できます。 カスタムテキスト読み上げアバターを使用すると、選択したアクターのビデオ録画データを提供することで、製品やブランドに固有の自然な見た目のアバターを作成できます。 また、同じアクターのアバターに プロの音声または音声同期 を使用する場合、アバターはさらに現実的です。
重要
カスタム テキスト読み上げアバター アクセスは、 資格と使用条件に基づいて制限されます。 入力フォームで アクセスを要求します。
それはどのように機能しますか?
カスタム テキスト読み上げアバターを作成するには、トレーニング データとしてアバター タレントのビデオ記録が少なくとも 10 分必要です。最初に、アクター タレントから同意を得る必要があります。
カスタム アバター モデルでは、次の機能をサポートできます。
- バッチ合成 API を使用したビデオ生成。
- ストリーミング合成 API を使用したライブ チャット。
作業を開始する前に、いくつかの考慮事項を次に示します:
ユース ケース: アバターを使用して、トレーニング 資料、製品の紹介などのビデオ コンテンツを作成しますか、それとも顧客とのリアルタイムの会話で仮想営業担当者としてアバターを使用しますか? さまざまなユース ケースに対していくつかの録画要件があります。
アバターの外観: カスタム テキスト読み上げアバターは、トレーニング データのアバター タレントと同じように見えます。また、服、ヘアスタイルなど、アバター モデルの外観のカスタマイズはサポートされていません。そのため、アプリケーションで同じアバターの複数のスタイルが必要な場合は、それぞれのスタイル用のトレーニング データを準備する必要があります。アバターの各スタイルが 1 つのアバター モデルと見なされるためです。
アバターの声: カスタム テキスト読み上げアバターは、アバターの標準音声、プロの音声、音声同期で動作できます。
- アバターの音声同期: アバタータレントの声に似た合成音声が、トレーニングビデオのオーディオを利用するカスタムアバターと共にトレーニングされます。
- プロの声: より多くのトレーニング データを使用してプロの声を微調整し、自然な会話、マルチスタイル、多言語サポートなど、アバターにプレミアムな音声エクスペリエンスを提供します。
カスタム テキスト読み上げアバターを作成する手順の概要を次に示します:
同意のビデオを取得します。 同意書を読むタレントのビデオ録画を取得します。 カスタム テキストの音声アバター モデルと合成バージョンの音声をトレーニングするには、画像と音声データの使用に同意する必要があります。
トレーニング データを準備します。 ビデオ レコーディングが適切なフォーマットであることを確認します。 きれいな背景画像を得るために、プロ品質のビデオ撮影スタジオでビデオ録画を撮影することをお勧めします。 結果として得られるアバターの品質は、トレーニングに使用される録画ビデオによって大きく異なります。 話す速度、体の姿勢、顔の表情、手のジェスチャー、アクターの位置の一貫性、ビデオ録画の照明などの要因は、魅力的なカスタム テキスト読み上げアバターに作成するために不可欠です。 詳細については「トレーニング データを準備する方法」を参照してください。
アバター モデルをトレーニングします。 データの準備ができたら、[カスタム アバター ポータル] にデータをアップロードし、モデルのトレーニングを開始します。 同意の検証はトレーニング中に行われます。 プロジェクトを作成する前に、カスタム テキスト読み上げアバター機能にアクセスできることを確認してください。
アバター モデルをアプリケーションにデプロイして使用します。
コンポーネント シーケンス
カスタム テキスト読み上げアバター モデルには、テキスト アナライザー、テキスト読み上げオーディオ シンセサイザー、テキスト読み上げアバター ビデオ レンダラーの 3 つのコンポーネントが含まれています。
- アバター モデルを使用してアバター ビデオ ファイルまたはストリームを生成するには、テキストが最初にテキスト アナライザーに入力され、音素シーケンスの形式で出力が提供されます。
- オーディオ シンセサイザーは、入力テキストの音声オーディオを合成し、これら 2 つの部分は、標準または custonm 音声モデルによって提供されます。
- 最後に、テキスト読み上げアバターモデルは、音声に合わせてリップシンクする画像を予測し、合成ビデオを生成します。
テキスト読み上げアバター モデルは、さまざまな言語の人間のビデオの記録サンプルに基づいてディープ ニューラル ネットワークを使用してトレーニングされます。 標準音声とカスタム音声のすべての言語をサポートできます。
利用可能な場所
カスタム アバターの トレーニングは、次のサービス地域でのみ使用できます: 東南アジア、西ヨーロッパ、米国西部 2。 カスタム アバター モデルは、次のサービス地域で使用できます: 東南アジア、北ヨーロッパ、西ヨーロッパ、スウェーデン中部、米国中南部、米国東部 2、米国西部 2。
カスタム音声とカスタム テキスト読み上げアバター
カスタム音声 とカスタム テキスト読み上げアバターは別の機能です。 これらを個別に使用することも、一緒に使用することもできます。 俳優のプロフェッショナルな声を生成している場合、アバターは非常にリアルになります。
カスタム テキスト読み上げアバターは、標準音声またはカスタム音声をアバターの音声として使用できます。 詳細については、「アバターの音声と言語」を参照してください。
カスタム アバターには、次の 2 種類のカスタム音声があります。
- アバターの音声同期: カスタムアバタートレーニング中にアバターオプションの音声同期を有効にすると、アバタータレントの同性を使用した合成音声モデルがアバターと同時にトレーニングされます。 この音声はカスタム アバターにのみ関連付けられているので、個別に使用することはできません。 アバターの音声同期は現在、東南アジア、西ヨーロッパ、米国西部 2 リージョンでサポートされています。
- プロの声: プロの声を微調整できます。 プロの音声微調整 とカスタムテキスト読み上げアバターは別々の機能です。 これらを個別に使用することも、一緒に使用することもできます。 これらを組み合わせて使用する場合は、 プロの音声微調整 と カスタム テキスト読み上げアバター に個別に申請する必要があります。また、プロの音声微調整とカスタム テキスト読み上げアバターに対して個別に課金されます。 詳細については、 価格に関するページを参照してください。 さらに、テキスト読み上げアバターでプロの音声微調整を使用する場合は、カスタム音声モデルをアバターでサポートされているリージョンのいずれかにデプロイまたはコピーする必要があります。
プロの声を微調整し、カスタムアバターと一緒に使用する場合は、次の点に注意してください。
- カスタム音声エンドポイントが、カスタム アバター エンドポイントと同じ Azure AI Foundry リソースに作成されていることを確認します。 必要に応じて、 カスタム音声モデルを カスタムアバターエンドポイントと同じ Azure AI Foundry リソースにコピーするように、プロフェッショナルな音声モデルをトレーニングすることを参照してください。
- カスタム音声オプションは、[アバター コンテンツ生成ページ] と、[ライブ チャットの音声設定] の音声一覧に表示されます。
- アバター API のバッチ合成を使用している場合は、
"customVoices"
プロパティを追加して、カスタム音声モデルのデプロイ ID を要求の音声名に関連付けます。 詳細については、「テキスト読み上げプロパティ」を参照してください。 - アバター API にリアルタイム合成を使用している場合は、GitHub のサンプル コードを参照して、カスタム音声を設定してください。