テキスト読み上げアバターの概要 (プレビュー)

Note

現在のところ、テキスト読み上げアバターはパブリック プレビュー段階にあります。 このプレビュー版はサービス レベル アグリーメントなしで提供されています。運用環境のワークロードに使用することはお勧めできません。 特定の機能はサポート対象ではなく、機能が制限されることがあります。 詳しくは、Microsoft Azure プレビューの追加使用条件に関するページをご覧ください。

テキスト読み上げアバターは、テキストをフォトリアリスティックな人間 (事前ビルド済みのアバターまたはカスタム テキスト読み上げアバター) が自然な音声で話すデジタル ビデオに変換します。 テキスト読み上げアバターのビデオは、非同期またはリアルタイムで合成できます。 開発者は、API 経由でのテキスト読み上げアバターと統合されたアプリケーションのビルドや、Speech Studio のコンテンツ作成ツールを使用したコーディングなしでのビデオ コンテンツの作成ができます。

テキスト読み上げアバターの高度なニューラル ネットワーク モデルを使用して、ユーザーは責任ある AI の実践を順守しながら、さまざまなアプリケーション向けにリアルで高品質な合成音声アバター ビデオを提供できます。

Note

テキスト読み上げアバター機能は、次のサービス地域でのみ利用できます: 米国西部 2、西ヨーロッパ、東南アジア。

Azure AI テキスト読み上げアバター機能には、次のようなものがあります。

  • Azure AI テキスト読み上げを活用して、テキストを自然な音声で話すフォトリアリスティックな人間のデジタル ビデオに変換します。
  • 事前ビルド済みのアバターのコレクションを提供します。
  • アバターの音声は、Azure AI テキスト読み上げによって生成されます。 詳細については、「アバターの音声と言語」を参照してください。
  • バッチ合成 API またはリアルタイムで非同期にテキスト読み上げアバター ビデオを合成します。
  • コーディングなしでビデオ コンテンツを作成するためのコンテンツ作成ツールを Speech Studio で提供します。
  • Speech Studio のライブ チャット アバター ツールを使用して、リアルタイムのアバターの会話を有効にします。

テキスト読み上げアバターの高度なニューラル ネットワーク モデルを使用して、責任ある AI の実践を順守しながら、さまざまなアプリケーション向けにリアルで高品質な合成音声アバター ビデオを提供できます。

ヒント

コードを使用しない方法でテキスト読み上げを音声に変換するには、Speech Studio のテキスト読み上げアバター ツールを試してください。

アバターの音声と言語

アバターの音声は、事前ビルド済みのものから選択できます。 テキスト読み上げアバターの言語サポートは、テキスト読み上げの言語サポートと同じです。 詳細については、「音声サービスの言語と音声のサポート」を参照してください。 事前ビルド済みのテキスト読み上げアバターは、Speech Studio ポータルまたは API を介してアクセスできます。

合成ビデオの音声は、Azure AI Speech で利用可能な事前ビルド済みのニューラル音声、またはユーザーが選択したボイス タレントのカスタム ニューラル音声を使用できます。

アバター ビデオ出力

バッチ合成、リアルタイム合成のいずれも、解像度は 1920 x 1080、フレーム/秒 (FPS) は 25 です。 バッチ合成コーデックは、形式が mp4 の場合は h264 または h265、形式が webm の場合は vp9 に設定できます。webm の場合のみ、アルファ チャネルを含めることができます。 リアルタイム合成コーデックは h264 です。 ビデオ ビットレートは、バッチ合成とリアルタイム合成の両方の要求で構成できます。既定値は 2000000 です。構成の詳細については、サンプル コードをご覧ください。

バッチ合成 リアルタイム合成
解像度 1920 x 1080 1920 x 1080
FPS 25 25
Codec h264/h265/vp9 h264

カスタム テキスト読み上げアバター

独自の製品やブランド独自のカスタム テキスト読み上げアバターを作成できます。 10 分間のビデオ録画を行うだけで開始できます。 アクター用にカスタム ニューラル音声も作成することで、アバターは非常に写実的になります。 詳細については、「カスタム テキスト読み上げアバターとは」を参照してください。

カスタム ニューラル音声カスタム テキスト読み上げアバターは、個別の機能です。 これらを個別に使用することも、一緒に使用することもできます。 テキスト読み上げアバターでカスタム ニューラル音声も使用する予定の場合は、カスタム ニューラル音声モデルをアバターがサポートされているリージョンのいずれかにデプロイまたはコピーする必要があります。

サンプル コード

テキスト読み上げアバターのサンプル コードは、GitHub で入手できます。 次のサンプルは、最も一般的なシナリオをカバーしています。

価格

  • テキスト読み上げアバター機能を利用すると、ビデオ出力の長さ (分) に基づいて料金が発生します。 ただし、リアルタイムのアバターの料金は、アバターが積極的に話しているかサイレント状態かに関係なく、アバターがアクティブ化されている長さ (分) に基づきます。 リアルタイムのアバターの使用コストを最適化するには、サンプル コードで提供されているヒントを参照してください ("Use Local Video for Idle" を検索します)。
  • アバターのリアルタイム セッション中またはバッチ コンテンツの作成中、テキスト読み上げ、音声変換、Azure OpenAI、またはその他の Azure サービスは個別に課金されます。
  • 詳細については、「Speech Services の価格」を参照してください。 アバターの価格は、米国西部 2、西ヨーロッパ、東南アジアなど、この機能が利用可能なサービス地域でのみ表示されます。

利用可能な場所

テキスト読み上げアバター機能は、次のサービス地域でのみ利用できます: 米国西部 2、西ヨーロッパ、東南アジア。

責任ある AI

Microsoft は、テクノロジへの関心と同じくらい、AI のユーザーや AI の影響を受けるユーザーにも関心があります。 詳細については、責任ある AI の透明性に関するメモと、音声とアバターのタレントの開示に関するページを参照してください。

次のステップ