テキスト読み上げアバターの概要

2025-05-22

テキスト読み上げアバターは、テキストを自然な音声で話すフォトリアリスティックな人間のデジタルビデオに変換します (標準のアバターまたはカスタムのテキスト読み上げアバター)。テキスト読み上げアバターのビデオは、非同期またはリアルタイムで合成できます。開発者は、API 経由でのテキスト読み上げアバターと統合されたアプリケーションのビルドや、Speech Studio のコンテンツ作成ツールを使用したコーディングなしでのビデオコンテンツの作成ができます。

テキスト読み上げアバターの高度なニューラルネットワークモデルを使用して、ユーザーは責任ある AI の実践を順守しながら、さまざまなアプリケーション向けにリアルで高品質な合成音声アバタービデオを提供できます。

ヒント

コードを使用しない方法でテキスト読み上げを音声に変換するには、Speech Studio のテキスト読み上げアバターツールを試してください。

アバター機能

テキスト読み上げアバター機能には、次のようなものが含まれます。

Azure AI テキスト読み上げを活用して、テキストを自然な音声で話すフォトリアリスティックな人間のデジタルビデオに変換します。
標準アバターのコレクションを提供します。
Azure AI テキスト読み上げでは、アバターの音声が生成されます。詳細については、「アバターの音声と言語」を参照してください。
バッチ合成 API またはリアルタイムで非同期にテキスト読み上げアバタービデオを合成します。
コーディングなしでビデオコンテンツを作成するためのコンテンツ作成ツールを Speech Studio で提供します。
Speech Studio のライブチャットアバターツールを使用して、リアルタイムのアバターの会話を有効にします。

テキスト読み上げアバターの高度なニューラルネットワークモデルを使用して、責任ある AI の実践を順守しながら、さまざまなアプリケーション向けにリアルで高品質な合成音声アバタービデオを提供できます。

アバターの音声と言語

アバターの標準音声の範囲から選択できます。テキスト読み上げアバターの言語サポートは、テキスト読み上げの言語サポートと同じです。詳細については、「音声サービスの言語と音声のサポート」を参照してください。標準テキスト読み上げアバターには、 Speech Studio ポータルまたは API を使用してアクセスできます。

合成ビデオの音声には、Azure AI Speech 標準音声や、ユーザーが選択した音声タレントのカスタム音声が含まれます。

アバタービデオ出力

バッチ合成、リアルタイム合成のいずれも、解像度は 1920 x 1080、フレーム/秒 (FPS) は 25 です。形式が mp4 で、形式が webmの場合は vp9 または av1 としてコーデックを設定できる場合、バッチ合成コーデックは h264、hevc、または av1 にすることができます。アルファチャネルを含めることができるのは vp9 だけです。リアルタイム合成コーデックは h264 です。ビデオビットレートは、バッチ合成とリアルタイム合成の両方の要求で構成できます。既定値は 2000000 です。構成の詳細については、サンプルコードをご覧ください。

	バッチ合成	リアルタイム合成
解像度	1920 x 1080	1920 x 1080
FPS	二十五	二十五
コーデック	h264/hevc/vp9/av1	h264

カスタムテキスト読み上げアバター

独自の製品やブランド独自のカスタムテキスト読み上げアバターを作成できます。 10 分間のビデオ録画を行うだけで開始できます。俳優の声をプロフェッショナルに微調整する場合、アバターは非常にリアルになります。

アバターの音声同期は、トレーニングビデオからのオーディオを利用するカスタムアバターと共にトレーニングされます。音声はカスタムアバターにのみ関連付けられているので、個別に使用することはできません。

プロの音声微調整とカスタムテキスト読み上げアバターは別々の機能です。これらを個別に使用することも、一緒に使用することもできます。テキスト読み上げアバターでプロの音声微調整も使用する場合は、微調整されたプロの音声モデルを、アバターでサポートされているリージョンのいずれかにデプロイまたはコピーする必要があります。

詳細については、「カスタムテキスト読み上げアバターとは」を参照してください。

サンプルコード

テキスト読み上げアバターのサンプルコードは、GitHub で入手できます。次のサンプルは、最も一般的なシナリオをカバーしています。

バッチ合成 (REST)
リアルタイム合成 (SDK)
バックグラウンドでの Azure OpenAI とのライブチャット (SDK)
Azure OpenAI On Your Data を使用してライブチャットアプリを作成するには、こちらのサンプルコードを参照してください ("On Your Data" を検索します)

価格

アバターのリアルタイムセッション中またはバッチコンテンツの作成中、テキスト読み上げ、音声変換、Azure OpenAI、またはその他の Azure サービスは個別に課金されます。
(カスタムアバタートレーニングを介した) アバターの音声同期は、音声の作成と合成の観点から個人の音声と同じように課金されます。音声の保存は無料です。
テキスト読み上げアバター機能の課金のしくみについては、テキスト読み上げアバターの価格に関するメモを参照してください。
価格の詳細については、音声サービスの価格に関するページを参照してください。アバターの価格は、東南アジア、北ヨーロッパ、西ヨーロッパ、スウェーデン中部、米国中南部、米国東部 2、米国西部 2 など、この機能が利用可能なサービス地域でのみ表示されます。

利用可能な場所

テキスト読み上げアバター機能は、次のサービス地域でのみ利用できます: 東南アジア、北ヨーロッパ、西ヨーロッパ、スウェーデン中部、米国中南部、米国東部 2、米国西部 2。

責任ある AI

Microsoft は、テクノロジへの関心と同じくらい、AI のユーザーや AI の影響を受けるユーザーにも関心があります。詳細については、責任ある AI の透明性に関するメモと、音声とアバターのタレントの開示に関するページを参照してください。

次の方法で共有

テキスト読み上げアバターの概要

アバター機能

アバターの音声と言語

アバター ビデオ出力

カスタム テキスト読み上げアバター

サンプル コード

価格

利用可能な場所

責任ある AI

次のステップ

フィードバック

その他のリソース

アバタービデオ出力

カスタムテキスト読み上げアバター

サンプルコード