音声とオーディオ用の GPT-4o Realtime API (プレビュー)
音声とオーディオ用 Azure OpenAI GPT-4o Realtime API は、GPT-4o モデル ファミリの一部であり、低待機時間の "音声入力、音声出力" の会話をサポートします。 GPT-4o オーディオ realtime
API は、リアルタイムで低遅延の会話操作を処理するように設計されており、カスタマー サポート エージェント、音声アシスタント、リアルタイム翻訳ツールなど、ユーザーとモデルの間のライブ対話を含むユース ケースに最適です。
Realtime API のほとんどのユーザーは、WebRTC またはテレフォニー システムを使用するアプリケーションを含め、エンドユーザーからリアルタイムでオーディオを配信して受信する必要があります。 Realtime API はエンド ユーザー デバイスに直接接続するようには設計されておらず、クライアント統合に依存してエンド ユーザーのオーディオ ストリームを終了します。
サポートされているモデル
現在 gpt-4o-realtime-preview
バージョン: 2024-10-01-preview
のみでリアルタイム オーディオがサポートされています。
gpt-4o-realtime-preview
モデルは、米国東部 2 リージョンとスウェーデン中部リージョンのグローバル デプロイで使用できます。
重要
制限付き例外が適用されない場合を除き、システムは、Azure OpenAI Service のサービス固有な製品条件の「不正使用監視のためのデータの使用とアクセス」セクションの説明に従って、プロンプトと入力候補を格納します。 gpt-4o-realtime-preview
API の使用については、修正された不正使用監視では承認されるお客様に対しても、不正使用監視が有効になります。
API のサポート
Realtime API のサポートは、API バージョン 2024-10-01-preview
で最初に追加されました。
Note
API とアーキテクチャの詳細については、GitHub の Azure OpenAI GPT-4o リアルタイム オーディオ リポジトリを参照してください。
前提条件
- Azure サブスクリプション。無料で作成できます。
- サポートされるリージョンに作成された Azure OpenAI リソース。 詳細については、「Azure OpenAI を使用してリソースを作成し、モデルをデプロイする」を参照してください。
リアルタイム オーディオ向けモデルのデプロイ
GPT-4o リアルタイム オーディオを使用するには、「サポートされているモデル」セクションで説明されているように、サポートされているリージョンに gpt-4o-realtime-preview
モデルをデプロイする必要があります。
モデルは、Azure AI Studio モデル カタログまたは、AI Studio のプロジェクトからデプロイできます。 モデル カタログから gpt-4o-realtime-preview
モデルをデプロイするには、次の手順に従います。
- AI Studio にサインインし、[ホーム] ページに移動します。
- 左側のサイドバーから [モデルカタログ] を選択します。
- Azure OpenAI コレクションから
gpt-4o-realtime-preview
モデルを検索し選択します。 - [デプロイ] を選択してデプロイ ウィンドウを開きます。
- デプロイ名を入力し、Azure OpenAI リソースを選択します。
- [モデル バージョン] ドロップダウンから
2024-10-01
を選択します。 - 要件に応じて他の既定の設定を変更します。
- 展開 を選択します。 デプロイの詳細ページが表示されます。
gpt-4o-realtime-preview
モデルのデプロイができたので、AI Studio のリアルタイム オーディオ プレイグラウンドまたは Realtime API を使って、リアルタイムでそれを操作できます。
GPT-4o リアルタイム オーディオを使用する
ヒント
現在、GPT-4o Realtime API を使って開発を始める最も速い方法は、GitHub の Azure OpenAI GPT-4o リアルタイム オーディオ リポジトリからサンプル コードをダウンロードすることです。
デプロイされた gpt-4o-realtime-preview
モデルと Azure AI Studio のリアルタイム オーディオ プレイグラウンドでチャットするには、次の手順のようにします。
Azure AI Studio でプロジェクトに移動します。
左側のペインで [プレイグラウンド]>[リアルタイム オーディオ] を選びます。
[デプロイメント] ドロップダウンから、デプロイした
gpt-4o-realtime-preview
モデルを選びます。[マイクを有効にする] を選んで、ブラウザーがマイクにアクセスできるようにします。 既にアクセス許可を付与している場合は、このステップをスキップできます。
必要に応じて、[モデルに指示とコンテキストを与える] テキスト ボックスの内容を編集できます。 ふるまいに関する指示と、応答の生成時に参照する必要があるコンテキストをモデルに与えます。 アシスタントのパーソナリティを記述したり、答えるべきことと答えるべきでないことを指示したり、応答のフォーマットを指示したりすることができます。
必要に応じて、しきい値、プレフィックスの埋め込み、無音時間などの設定を変更します。
[聞き取りを開始] を選んでセッションを始めます。 マイクに向かって話してチャットを開始できます。
話すことで、いつでもチャットを中断できます。 [聞き取りを停止する] ボタンを選ぶと、チャットを終了できます。
JavaScript Web サンプルでは、GPT-4o Realtime API を使用してモデルをリアルタイムで操作する方法を示します。 サンプル コードには、ユーザーのマイクからオーディオをキャプチャし、処理のためにモデルに送信する単純な Web インターフェイスが含まれています。 モデルはテキストとオーディオで応答し、サンプル コードは Web インターフェイスでレンダリングされます。
次の手順に従って、サンプル コードをコンピューター上でローカルに実行できます。 最新の手順については、GitHub の リポジトリを参照してください。
Node.js がインストールされていない場合は、Node.js の LTS バージョンをダウンロードしてインストールします。
ローカル コンピューターにリポジトリを複製します。
git clone https://github.com/Azure-Samples/aoai-realtime-audio-sdk.git
お使いのコード エディターで
javascript/samples/web
フォルダ―を開きます。cd ./javascript/samples
download-pkg.ps1
またはdownload-pkg.sh
を実行して、必要なパッケージをダウンロードします。./javascript/samples
フォルダーからweb
フォルダーに移動します。cd ./web
npm install
を実行して、パッケージの依存関係をインストールします。npm run dev
を実行して Web サーバーを起動し、必要に応じてファイアウォールのアクセス許可プロンプトに移動します。ブラウザーのコンソール出力 (
http://localhost:5173/
など) から、指定されたいずれかの URI に移動します。Web インターフェイスで次の情報を入力します。
- エンドポイント: Azure OpenAI リソースのリソース エンドポイント。
/realtime
パスを追加する必要はありません。 構造の一例としては、https://my-azure-openai-resource-from-portal.openai.azure.com
が挙げられます。 - API キー: Azure OpenAI リソースに対応する API キー。
- デプロイ: 前のセクションでデプロイした
gpt-4o-realtime-preview
モデルの名前。 - システム メッセージ: 必要に応じて、"You always talk like a friendly pirate." などのシステム メッセージを提供できます。
- 温度: 必要に応じて、カスタム温度を指定できます。
- 音声: 必要に応じて、音声を選択できます。
- エンドポイント: Azure OpenAI リソースのリソース エンドポイント。
[記録] ボタンを選択してセッションを開始します。 マイクの使用許可を求められた場合は許可します。
メイン出力に
<< Session Started >>
メッセージが表示されます。 その後、マイクに向かって話すとチャットを開始できます。話すことで、いつでもチャットを中断できます。 [停止] ボタンを選択すると、チャットを終了できます。