テキスト読み上げアバターは、テキストを自然な音声で話すフォトリアリスティックな人間のデジタルビデオに変換します (標準のアバターまたはカスタムのテキスト読み上げアバター)。 テキスト読み上げアバターのビデオは、非同期またはリアルタイムで合成できます。 開発者は、API 経由でのテキスト読み上げアバターと統合されたアプリケーションのビルドや、Speech Studio のコンテンツ作成ツールを使用したコーディングなしでのビデオ コンテンツの作成ができます。
テキスト読み上げアバターの高度なニューラル ネットワーク モデルを使用して、ユーザーは責任ある AI の実践を順守しながら、さまざまなアプリケーション向けにリアルで高品質な合成音声アバター ビデオを提供できます。
ヒント
コードを使用しない方法でテキスト読み上げを音声に変換するには、Speech Studio のテキスト読み上げアバター ツールを試してください。
アバター機能
テキスト読み上げアバター機能には、次のようなものが含まれます。
- Azure AI テキスト読み上げを活用して、テキストを自然な音声で話すフォトリアリスティックな人間のデジタル ビデオに変換します。
- 標準アバターのコレクションを提供します。
- Azure AI テキスト読み上げでは、アバターの音声が生成されます。 詳細については、「アバターの音声と言語」を参照してください。
- バッチ合成 API またはリアルタイムで非同期にテキスト読み上げアバター ビデオを合成します。
- コーディングなしでビデオ コンテンツを作成するためのコンテンツ作成ツールを Speech Studio で提供します。
- Speech Studio のライブ チャット アバター ツールを使用して、リアルタイムのアバターの会話を有効にします。
テキスト読み上げアバターの高度なニューラル ネットワーク モデルを使用して、責任ある AI の実践を順守しながら、さまざまなアプリケーション向けにリアルで高品質な合成音声アバター ビデオを提供できます。
アバターの音声と言語
アバターの標準音声の範囲から選択できます。 テキスト読み上げアバターの言語サポートは、テキスト読み上げの言語サポートと同じです。 詳細については、「音声サービスの言語と音声のサポート」を参照してください。 標準テキスト読み上げアバターには、 Speech Studio ポータル または API を使用してアクセスできます。
合成ビデオの音声には、Azure AI Speech 標準音声や、ユーザーが選択した音声タレントの カスタム音声 が含まれます。
アバター ビデオ出力
バッチ合成、リアルタイム合成のいずれも、解像度は 1920 x 1080、フレーム/秒 (FPS) は 25 です。 形式が mp4
で、形式が webm
の場合は vp9 または av1 としてコーデックを設定できる場合、バッチ合成コーデックは h264、hevc、または av1 にすることができます。アルファ チャネルを含めることができるのは vp9
だけです。 リアルタイム合成コーデックは h264 です。 ビデオ ビットレートは、バッチ合成とリアルタイム合成の両方の要求で構成できます。既定値は 2000000 です。構成の詳細については、サンプル コードをご覧ください。
バッチ合成 | リアルタイム合成 | |
---|---|---|
解像度 | 1920 x 1080 | 1920 x 1080 |
FPS | 二十五 | 二十五 |
コーデック | h264/hevc/vp9/av1 | h264 |
カスタム テキスト読み上げアバター
独自の製品やブランド独自のカスタム テキスト読み上げアバターを作成できます。 10 分間のビデオ録画を行うだけで開始できます。 俳優の声をプロフェッショナルに微調整する場合、アバターは非常にリアルになります。
アバターの音声同期は、トレーニング ビデオからのオーディオを利用するカスタム アバターと共にトレーニングされます。 音声はカスタム アバターにのみ関連付けられているので、個別に使用することはできません。
プロの音声微調整 と カスタムテキスト読み上げアバター は別々の機能です。 これらを個別に使用することも、一緒に使用することもできます。 テキスト読み上げアバターでプロの音声微調整も使用する場合は、微調整されたプロの音声モデルを、アバターでサポートされているリージョンのいずれかにデプロイまたはコピーする必要があります。
詳細については、「カスタム テキスト読み上げアバターとは」を参照してください。
サンプル コード
テキスト読み上げアバターのサンプル コードは、GitHub で入手できます。 次のサンプルは、最も一般的なシナリオをカバーしています。
- バッチ合成 (REST)
- リアルタイム合成 (SDK)
- バックグラウンドでの Azure OpenAI とのライブ チャット (SDK)
- Azure OpenAI On Your Data を使用してライブ チャット アプリを作成するには、こちらのサンプル コードを参照してください ("On Your Data" を検索します)
価格
- アバターのリアルタイム セッション中またはバッチ コンテンツの作成中、テキスト読み上げ、音声変換、Azure OpenAI、またはその他の Azure サービスは個別に課金されます。
- (カスタム アバター トレーニングを介した) アバターの音声同期は、音声の作成と合成の観点から個人の音声と同じように課金されます。 音声の保存は無料です。
- テキスト読み上げアバター機能の課金のしくみについては、テキスト読み上げアバターの価格に関するメモを参照してください。
- 価格の詳細については、音声サービスの価格に関するページを参照してください。 アバターの価格は、東南アジア、北ヨーロッパ、西ヨーロッパ、スウェーデン中部、米国中南部、米国東部 2、米国西部 2 など、この機能が利用可能なサービス地域でのみ表示されます。
利用可能な場所
テキスト読み上げアバター機能は、次のサービス地域でのみ利用できます: 東南アジア、北ヨーロッパ、西ヨーロッパ、スウェーデン中部、米国中南部、米国東部 2、米国西部 2。
責任ある AI
Microsoft は、テクノロジへの関心と同じくらい、AI のユーザーや AI の影響を受けるユーザーにも関心があります。 詳細については、責任ある AI の透明性に関するメモと、音声とアバターのタレントの開示に関するページを参照してください。