注
現在、この機能はパブリック プレビュー段階にあります。 このプレビュー版はサービス レベル アグリーメントなしで提供されています。運用環境のワークロードに使用することはお勧めできません。 特定の機能はサポート対象ではなく、機能が制限されることがあります。 詳細については、「 Microsoft Azure プレビューの追加使用条件」を参照してください。
Voice Live API とは
Voice Live API は、音声エージェントの低待機時間で高品質の音声間対話を可能にするソリューションです。 この API は、複数のコンポーネントを手動で調整する必要がなくなり、スケーラブルで効率的な音声駆動型エクスペリエンスを求める開発者向けに設計されています。 音声認識、生成 AI、テキスト読み上げ機能を 1 つの統合インターフェイスに統合することで、シームレスなエクスペリエンスを作成するためのエンド ツー エンドのソリューションを提供します。
音声読み上げエクスペリエンスについて
音声読み上げテクノロジは、人間がシステムと対話する方法に革命を起こし、直感的な音声ベースのソリューションを提供しています。 従来の実装では、音声テキスト変換、意図認識、ダイアログ管理、テキスト読み上げなど、さまざまなモジュールを組み合わせることが含まれています。 このようなチェーンにより、エンジニアリングの複雑さが増し、エンド ユーザーが認識する待機時間が長くなる可能性があります。
大規模言語モデル (LLM) とマルチモーダル AI の進歩により、Voice Live API はこれらの機能を統合し、開発者向けのワークフローを簡素化します。 このアプローチにより、リアルタイムの対話が強化され、高品質で自然なコミュニケーションが保証され、即時の音声対応ソリューションを必要とする業界に適しています。
Voice Live API の主なシナリオ
Azure AI Voice Live API は、音声駆動型の対話によってユーザー エクスペリエンスが向上するシナリオに最適です。 たとえば、次のようになります。
- コンタクト センター: カスタマー サポート、製品カタログ ナビゲーション、セルフサービス ソリューション用の対話型音声ボットを開発します。
- 自動車アシスタント: コマンド実行、ナビゲーション、一般的な問い合わせにハンズフリーの車内音声アシスタントを有効にします。
- 教育: 対話型のトレーニングと教育のために、音声対応の学習コンパニオンと仮想家庭教師を作成します。
- パブリック サービス: 管理クエリとパブリック サービス情報を市民に支援する音声エージェントを構築します。
- 人事: 従業員のサポート、キャリア開発、トレーニングのための音声対応ツールを使用して人事プロセスを強化します。
Voice Live API の機能
Voice Live API には、多様なユース ケースをサポートし、優れた音声対話を実現するための包括的な機能セットが含まれています。
- 広範なロケールカバレッジ:音声テキスト変換では 15 ロケール以上をサポートし、140 以上のロケールで 600 を超える標準音声をテキスト読み上げに提供し、グローバルなアクセシビリティを確保します。
- カスタマイズ可能な入力と出力: 音声入力で軽量の Just-In-Time カスタマイズにフレーズ リストを使用します。 カスタム音声を使用して、音声出力用の一意のブランドに合わせた音声を作成します。
- 柔軟な生成 AI モデル オプション: 会話の要件に合わせて調整された GPT-4o、GPT-4o-mini、Phi などの 複数のモデルから選択できます。
- 高度な会話機能:
- ノイズ対策:環境ノイズを低減し、より明確な通信を実現します。
- エコー キャンセル: エージェントが独自の応答を取得できないようにします。
- 堅牢な中断検出: 会話中の中断を正確に認識します。
- 高度なターン終了検出: 途中でやり取りを終了することなく自然な一時停止を可能にします。
- アバターの統合: 音声出力と同期された標準またはカスタマイズ可能なアバターを提供し、音声エージェントの視覚的な ID を提供します。
- 関数呼び出し: VoiceRAG パターンを使用して、外部アクション、ツールの使用、およびグラウンド応答を有効にします。
動作方法
Voice Live API は完全に管理されているため、お客様がバックエンド オーケストレーションやコンポーネント統合を処理する必要がなくなります。 開発者はオーディオ入力を提供し、オーディオ出力、アバター ビジュアル、アクション トリガーを受け取ります。すべて待機時間を最小限に抑えます。 API が基になるすべてのインフラストラクチャを処理するため、生成 AI モデルをデプロイまたは管理する必要はありません。
API の設計と互換性
Azure AI Voice Live API は、Azure OpenAI Realtime API との互換性を確保するために設計されています。 サポートされているリアルタイム イベントは、ほとんどの場合 、Azure OpenAI Realtime API イベントと同等であり、一部の例外があります。 詳細については、 Voice Live API のガイドを 参照してください。
Voice Live API に固有の機能は、省略可能で追加的に設計されています。 既存のアーキテクチャを変更しなくても、ノイズ抑制、エコー キャンセル、高度なターン終了検出などの Azure AI Speech 機能を既存のアプリケーションに追加できます。
この API は WebSocket イベントを通じてサポートされるため、サーバー間の統合が容易になります。 バックエンドまたは中間層サービスは、WebSocket 経由で Voice Live API に接続します。 WebSocket メッセージを直接使用して API を操作できます。
サポートされているモデルとリージョン
音声エージェントのインテリジェンスを高めるために、GPT-4o、GPT-4o-mini、Phi の間の生成 AI モデルに柔軟性と選択肢があります。 生成 AI モデルによって、さまざまな種類の機能、インテリジェンス のレベル、推論の速度/待機時間、コストが提供されます。 ビジネスとユース ケースにとって最も重要なものに応じて、ニーズに最も適したモデルを選択できます。
ネイティブでサポートされているすべてのモデル (GPT-4o、GPT-4o-mini、Phi) はフル マネージドです。つまり、モデルのデプロイ、容量計画の心配、スループットのプロビジョニングを行う必要はありません。 必要なモデルを使用するだけで、残りの部分は Voice Live API によって処理されます。
Voice Live API では、次のモデルとリージョンがサポートされています。
モデル | 説明 | サポートされているリージョン |
---|---|---|
gpt-4o-realtime-preview |
GPT-4o realtime と、オーディオ用のカスタム音声を含む Azure テキスト読み上げ音声を使用するオプション。 | eastus2 swedencentral |
gpt-4o-mini-realtime-preview |
GPT-4o mini realtime と、オーディオ用のカスタム音声を含む Azure テキスト読み上げ音声を使用するオプション。 | eastus2 swedencentral |
gpt-4o |
GPT-4o + Azure 音声からテキストへのオーディオ入力 + Azure テキストから音声への出力 (カスタム音声を含む) | eastus2 swedencentral |
gpt-4o-mini |
GPT-4o ミニ + Azure 音声からテキストへのオーディオ入力 + Azure テキストから音声への出力 (カスタム音声を含む) | eastus2 swedencentral |
phi4-mm-realtime |
Phi4-mm と、カスタム音声を含む Azure テキスト読み上げ音声によるオーディオ出力。 | eastus2 swedencentral |
phi4-mini |
Phi4-mm + Azure の音声認識によるオーディオ入力 + カスタム音声を含む Azure の音声合成によるオーディオ出力。 | eastus2 swedencentral |
Voice Live API と他の音声対音声ソリューションの比較
Voice Live API は、音声認識、生成 AI、テキスト読み上げなど、複数のコンポーネントを調整する代わりに使用できます。 このオーケストレーションは複雑で時間がかかる場合があり、統合と保守に多大なエンジニアリング作業が必要です。 Voice Live API は、これらすべてのコンポーネントに 1 つのインターフェイスを提供することで、このプロセスを簡略化します。これにより、開発者は基になるインフラストラクチャを管理するのではなく、アプリケーションの構築に集中できます。
要件を満たすために、独自のソリューションを構築するか、Voice Live API を使用できます。 次の表は、2 つの方法を比較しています。
アプリケーションの要件 | お客様自身による導入 | ボイスライブAPI |
---|---|---|
高い正確性で幅広いロケール カバレッジ (オーディオ入力) | ✅ | ✅ |
ブランドとキャラクターの個性を維持する (オーディオ出力) | ✅ | ✅ |
会話の改善 | ❌ | ✅ |
生成 AI モデルの選択 | ✅ | ✅ |
テキスト読み上げアバターを使用したビジュアル出力 | ✅ | ✅ |
低いエンジニアリング コスト | ❌ | ✅ |
エンド ユーザーが認識する待機時間が短い | ❌ | ✅ |