Share via


カスタム テキスト読み上げアバターとは? (プレビュー)

Note

現在のところ、テキスト読み上げアバターはパブリック プレビュー段階にあります。 このプレビュー版はサービス レベル アグリーメントなしで提供されています。運用環境のワークロードに使用することはお勧めできません。 特定の機能はサポート対象ではなく、機能が制限されることがあります。 詳しくは、Microsoft Azure プレビューの追加使用条件に関するページをご覧ください。

カスタム テキスト読み上げアバターを使用すると、アプリケーション用にカスタマイズされた世界にひとつの合成会話アバターを作成できます。 カスタムテキスト読み上げアバターを使用すると、選択したアクターのビデオ録画データを提供することで、製品やブランドに固有の自然な見た目のアバターを作成できます。 同じアクターのカスタム ニューラル音声も作成し、それをアバターの声として使用すると、アバターはさらに現実的になります。

重要

カスタム テキスト読み上げアバター アクセスは、 資格と使用条件に基づいて制限されます。 入力フォームで アクセスを要求します。

それはどのように機能しますか?

カスタム テキスト読み上げアバターを作成するには、トレーニング データとしてアバター タレントのビデオ記録が少なくとも 10 分必要です。最初に、アクター タレントから同意を得る必要があります。

重要

現在、カスタムテキスト読み上げアバターの場合、データ処理とモデルトレーニングは手動で行われます。

作業を開始する前に、いくつかの考慮事項を次に示します:

ユース ケース: アバターを使用して、トレーニング 資料、製品の紹介などのビデオ コンテンツを作成しますか、それとも顧客とのリアルタイムの会話で仮想営業担当者としてアバターを使用しますか? さまざまなユース ケースに対していくつかの録画要件があります。

アバターの外観: カスタム テキスト読み上げアバターは、トレーニング データのアバター タレントと同じように見えます。また、服、ヘアスタイルなど、アバター モデルの外観のカスタマイズはサポートされていません。そのため、アプリケーションで同じアバターの複数のスタイルが必要な場合は、各スタイルのトレーニング データを準備する必要があります。アバターの各スタイルが 1 つのアバター モデルと見なされるためです。

アバターの音声: カスタム テキスト読み上げアバターは、事前構築済みのニューラル音声とカスタム ニューラル音声の両方で機能します。 アバター タレント用にカスタムニューラル音声を作成し、そのアバターと一緒に使用すると、アバター エクスペリエンスの自然性が大幅に向上します。

カスタム テキスト読み上げアバターを作成する手順の概要を次に示します:

  1. 同意のビデオを取得する: 同意ステートメントのビデオ録画を取得します。 同意ステートメントは、アバター タレントがステートメントを読み上げるもので、画像と音声データを使用してカスタム テキスト読み上げアバター モデルにトレーニングすることに同意するビデオ記録です。

  2. トレーニング データを準備する: ビデオ記録が適切な形式であることを確認します。 きれいな背景画像を得るために、プロ品質のビデオ撮影スタジオでビデオ録画を撮影することをお勧めします。 結果として得られるアバターの品質は、トレーニングに使用される録画ビデオによって大きく異なります。 話す速度、体の姿勢、顔の表情、手のジェスチャー、アクターの位置の一貫性、ビデオ録画の照明などの要因は、魅力的なカスタム テキスト読み上げアバターに作成するために不可欠です。

  3. アバター モデルのトレーニング: アバター タレントの同意ステートメントを確認した後、カスタム テキスト読み上げモデルのトレーニングを開始します。 このサービスのプレビュー 段階では、この手順は Microsoft によって手動で行われます。 モデルが正常にトレーニングされると、通知が表示されます。

  4. 音声モデルをアプリにデプロイして使用します

コンポーネント シーケンス

カスタム テキスト読み上げアバター モデルには、テキスト アナライザー、テキスト読み上げオーディオ シンセサイザー、テキスト読み上げアバター ビデオ レンダラーの 3 つのコンポーネントが含まれています。

  • アバター モデルを使用してアバター ビデオ ファイルまたはストリームを生成するには、テキストが最初にテキスト アナライザーに入力され、音素シーケンスの形式で出力が提供されます。
  • オーディオ シンセサイザーは、入力テキストの音声オーディオを合成し、これら 2 つの部分は、テキスト読み上げまたはカスタム ニューラル音声モデルによって提供されます。
  • 最後に、ニューラル テキスト読み上げアバター モデルは、合成ビデオが生成されるように、音声オーディオとのリップ シンクの画像を予測します。

Screenshot of displaying an overview of the custom text to speech avatar workflow.

ニューラル テキスト読み上げモデルは、さまざまな言語の人間のビデオの記録サンプルに基づいて、ディープ ニューラル ネットワークを使用してトレーニングされます。 事前構築済みの音声とカスタム ニューラル音声のすべての言語をサポートできます。

カスタム音声とカスタム テキスト読み上げアバター

カスタム テキスト読み上げアバターは、事前構築済みのニューラル音声またはカスタム ニューラル音声をアバターの音声として使用できます。 詳細については、「アバターの音声と言語」を参照してください。

カスタム ニューラル音声とカスタム テキスト読み上げアバターは、個別の機能です。 これらを個別に使用することも、一緒に使用することもできます。 テキスト読み上げアバターでカスタム ニューラル音声も使用する予定の場合は、カスタム ニューラル音声モデルをアバターがサポートされているリージョンのいずれかにデプロイまたはコピーする必要があります。

次のステップ