次の方法で共有


通話で音声を再生する

Azure Communication Services Call Automation SDK で提供されている再生アクションを使用すると、通話の参加者にオーディオ プロンプトを再生できます。 このアクションには、アプリケーションのサーバー側実装を通じてアクセスできます。 通話の参加者に、次の 2 つのメソッドのいずれかを使用してオーディオを再生できます。

  • 事前に記録されたオーディオ ファイルへの Azure Communication Services アクセスを WAV 形式で提供します。このオーディオ ファイルは、Azure Communication Services が認証をサポートしてアクセスできます。
  • Azure AI サービスとの統合を通じて音声出力に変換できる通常のテキスト。

新たに発表された Azure Communication Services と Azure AI サービス間の統合を使用して、Azure テキスト読み上げが使用されたパーソナライズされた応答を再生できます。 すぐに使用できる事前構築済みの人間のようなニューラル音声を使用することも、ご自分の製品やブランドに固有のカスタム ニューラル音声を作成することもできます。 サポートされている音声、言語、ロケールについては、「音声サービスの言語と音声のサポート」を参照してください。

Azure Communication Services では現在、16 KHz で録音された 16 ビットパルス コード変調 (PCM) モノラル チャネル オーディオとしてフォーマットされた ID3V2TAG ファイルと WAV ファイルを含む MP3 ファイルの 2 つのファイル形式がサポートされています。 「Audio Content Creation ツールを使用する音声合成」を使用して、独自の音声ファイルを作成できます。

事前構築されているニューラル テキスト読み上げ音声

Microsoft では、高度な機械学習を使用して、音声言語でのストレスとイントネーションの処理における従来の音声合成の制限を克服しています。 韻律予測と音声合成が同時に行われるため、より滑らかで自然な音声出力が得られます。 これらのニューラル音声を使用し、チャットボットや音声アシスタントでの対話をより自然で魅力的なものにできます。 100 を超える事前構築済みの音声から選択できます。 詳細については、Azure のテキスト読み上げの音声に関する説明を参照してください。

一般的なユース ケース

再生アクションはさまざまな方法で使用できます。開発者が意図する、アプリケーションでの再生アクションの使用方法の例をいくつか以下に示します。

お知らせ

アプリケーションでは、参加者が通話に参加または終了したときに何らかのお知らせを再生し、他のユーザーに通知できます。

顧客へのセルフサービスの提供

対話型音声応答 (IVR) システムと仮想アシスタントを使用するシナリオでは、アプリケーションまたはボットを使用して呼び出し元に音声プロンプトを再生できます。このプロンプトはメニューの形式で呼び出し元の操作を案内できます。

保留音

再生アクションは、発信者に対して保留音を再生するためにも使用できます。 このアクションは、エージェントが発信者に対応できるようになるまで音楽が再生され続けるよう、ループするように設定できます。

コンプライアンス メッセージの再生

さまざまな業界のコンプライアンス要件の一部として、ベンダーは、発信者に対して法的またはコンプライアンス メッセージを再生することが求められます。たとえば、"この呼び出しは品質目的で記録されます"。

テキスト読み上げを使用した通話でのオーディオ再生のためのサンプル アーキテクチャ

「AI を活用したプレイ」のアーキテクチャの例を示す図。

通話で音声を再生するためのサンプル アーキテクチャ

再生アクションのフローのスクリーンショット。

既知の制限事項

  • テキスト読み上げプロンプトでは、最大 4,000 文字がサポートされます。 プロンプトがこの制限を超える場合は、テキスト読み上げベースの再生アクションに音声合成マークアップ言語 (SSML) を使用することをお勧めします。
  • Azure AI Foundry からの HD 音声は公式にはサポートされていません。 これらの音声を使用すると、タイムアウトになります。
  • Speech サービスのクォータ制限を超過したシナリオの場合、こちらに記載されている手順に従って、この制限の引き上げを要求できます。

次のステップ