次の方法で共有


テキスト読み上げアバターとは?

テキスト読み上げアバターは、テキストを自然な音声で話すフォトリアリスティックな人間のデジタルビデオに変換します (標準のアバターまたはカスタムのテキスト読み上げアバター)。 テキスト読み上げアバターのビデオは、非同期またはリアルタイムで合成できます。 開発者は、API を介してテキスト読み上げアバターと統合されたアプリケーションを構築したり、Foundry で Text to Speech アバターを使用して、コーディングなしでビデオ コンテンツを作成したりできます。

テキスト読み上げアバターの高度なモデルにより、この機能により、ユーザーは 責任ある AI プラクティスに従いながら、さまざまなアプリケーションに対して、生き生きとした高品質の合成会話アバター ビデオを配信できます。

ヒント

コードを使用しない方法でテキスト読み上げを音声に変換するには、Speech Studio のテキスト読み上げアバター ツールを試してください。

アバター機能

テキスト読み上げアバター機能には、次のようなものが含まれます。

  • Azure AI テキスト読み上げを活用して、テキストを自然な音声で話すフォトリアリスティックな人間のデジタル ビデオに変換します。
  • 標準アバターのコレクションを提供します。サポートされている 標準アバター の完全な一覧については、「標準アバター」を参照してください。
  • Azure AI テキスト読み上げでは、アバターの音声が生成されます。 詳細については、「アバターの音声と言語」を参照してください。
  • バッチ合成 API またはリアルタイムで、テキスト読み上げアバタービデオを非同期に合成します。
  • コーディングせずにビデオ コンテンツを作成するには、 Microsoft Foundry または Speech Studio でテキスト読み上げアバター ツールを使用します。
  • Speech Studio のライブ チャット アバター ツールを使用して、リアルタイムのアバターの会話を有効にします。
  • Voice Live でアバターを含む音声エージェントを作成する

テキスト読み上げアバターの高度なニューラル ネットワーク モデルと写真アバターの VASA-1 モデルにより、この機能を使用すると、責任ある AI プラクティスに従いながら、さまざまなアプリケーションに対してリアルで高品質な合成会話アバター ビデオを配信できます。

アバターの音声と言語

アバターの標準音声の範囲から選択できます。 テキスト読み上げアバターの言語サポートは、テキスト読み上げの言語サポートと同じです。 詳細については、「音声サービスの言語と音声のサポート」を参照してください。 標準テキスト読み上げアバターには、 Speech Studio ポータル または API を使用してアクセスできます。

合成ビデオの音声は、Foundry Tools の標準音声の Azure Speech、またはユーザーが選択した音声タレントの カスタム音声 です。

アバターの種類

  • ビデオアバター: アバターは、ビデオ録画を利用して微調整されたモデルを用いて生成されます。 半身と全身の表現をサポートしています。
  • 写真アバター (プレビュー): アバターはプロンプトとして 1 つの入力画像から作成され、ヘッドのみの表現に制限されます。

アバター ビデオ出力

ビデオ アバターの場合、バッチ合成とリアルタイム合成の両方の解像度は既定で 1920 x 1080 ですが、ユーザーは 4K 解像度のカスタム アバターをトレーニングすることを選択でき、1 秒あたりのフレーム数 (FPS) レートは 25 です。 バッチ合成の場合、形式が mp4 で、形式が webmの場合は vp9 または av1 の場合、コーデックは h264、hevc、または av1 にすることができます。アルファ チャネルを含めることができるのは vp9 だけです。 リアルタイム合成の場合、コーデックは h264 です。 ビデオ ビットレートは、バッチ合成とリアルタイム合成の両方の要求で構成できます。既定値は 2,000,000 です。より詳細な構成については、サンプル コードを参照してください。 写真アバターの解像度は、バッチ合成とリアルタイム合成の両方で 512 x 512 です。

ビデオ アバター

バッチ合成 リアルタイム合成
解像度 1920 x 1080/3840 x 2160 1920 x 1080/3840 x 2160
FPS 二十五 二十五
コーデック h264/hevc/vp9/av1 h264

写真アバター (プレビュー)

バッチ合成 リアルタイム合成
解像度 512 x 512 512 x 512
FPS 二十五 二十五
コーデック h264/hevc/vp9 h264

カスタム音声読み上げアバター

独自の製品やブランド独自のカスタム テキスト読み上げアバターを作成できます。 カスタムビデオアバターの場合、始めるのに必要なのは10分のビデオ録画です。カスタム写真アバターの場合は、1つの写真のみが必要です。 俳優の声をプロフェッショナルに微調整する場合、アバターは非常にリアルになります。

アバターの音声同期は、トレーニング ビデオからのオーディオを利用するカスタム アバターと共にトレーニングされます。 音声はカスタム アバターに排他的に関連付けられているので、個別に使用することはできません。

プロの音声微調整カスタムテキスト読み上げアバター は別々の機能です。 これらを個別に使用することも、一緒に使用することもできます。 テキスト読み上げアバターでプロの音声微調整も使用する場合は、微調整されたプロの音声モデルを、アバターでサポートされているリージョンのいずれかにデプロイまたはコピーする必要があります。

詳細については、「カスタム テキスト読み上げアバターとは」を参照してください。

サンプル コード

テキスト読み上げアバターのサンプル コードは、GitHub で入手できます。 次のサンプルは、最も一般的なシナリオをカバーしています。

価格

  • アバターのリアルタイム セッションまたはバッチ コンテンツ作成全体を通じて、テキスト読み上げ、音声テキスト変換、Azure OpenAI、またはその他の Azure サービスは個別に課金されます。
  • (カスタム アバター トレーニングを介した) アバターの音声同期は、音声の作成と合成の観点から個人の音声と同じように課金されます。 音声の保存は無料です。
  • テキスト読み上げアバター機能の課金のしくみについては、テキスト読み上げアバターの価格に関するメモを参照してください。
  • 価格の詳細については、音声サービスの価格に関するページを参照してください。 アバターの価格は、機能が利用可能なサービス リージョンでのみ表示されます。 サポートされているリージョンの現在の一覧については、 Speech Service リージョンの表を参照してください。

利用可能な場所

テキスト読み上げアバターをサポートするリージョンの現在の一覧については、 Speech Service リージョンの表を参照してください。

責任ある AI

Microsoft は、テクノロジへの関心と同じくらい、AI のユーザーや AI の影響を受けるユーザーにも関心があります。 詳細については、責任ある AI の透明性に関するメモと、音声とアバターのタレントの開示に関するページを参照してください。

次のステップ