次の方法で共有


音声とオーディオ用の GPT-4o Realtime API (プレビュー)

音声とオーディオ用 Azure OpenAI GPT-4o Realtime API は、GPT-4o モデル ファミリの一部であり、低待機時間の "音声入力、音声出力" の会話をサポートします。 GPT-4o オーディオ realtime API は、リアルタイムで低遅延の会話操作を処理するように設計されており、カスタマー サポート エージェント、音声アシスタント、リアルタイム翻訳ツールなど、ユーザーとモデルの間のライブ対話を含むユース ケースに最適です。

Realtime API のほとんどのユーザーは、WebRTC またはテレフォニー システムを使用するアプリケーションを含め、エンドユーザーからリアルタイムでオーディオを配信して受信する必要があります。 Realtime API はエンド ユーザー デバイスに直接接続するようには設計されておらず、クライアント統合に依存してエンド ユーザーのオーディオ ストリームを終了します。

サポートされているモデル

現在 gpt-4o-realtime-preview バージョン: 2024-10-01-preview のみでリアルタイム オーディオがサポートされています。

gpt-4o-realtime-preview モデルは、米国東部 2 リージョンとスウェーデン中部リージョンのグローバル デプロイで使用できます。

重要

制限付き例外が適用されない場合を除き、システムは、Azure OpenAI Service のサービス固有な製品条件の「不正使用監視のためのデータの使用とアクセス」セクションの説明に従って、プロンプトと入力候補を格納します。 gpt-4o-realtime-preview API の使用については、修正された不正使用監視では承認されるお客様に対しても、不正使用監視が有効になります。

API のサポート

Realtime API のサポートは、API バージョン 2024-10-01-preview で最初に追加されました。

Note

API とアーキテクチャの詳細については、GitHub の Azure OpenAI GPT-4o リアルタイム オーディオ リポジトリを参照してください。

前提条件

リアルタイム オーディオ向けモデルのデプロイ

GPT-4o リアルタイム オーディオを使用するには、「サポートされているモデル」セクションで説明されているように、サポートされているリージョンに gpt-4o-realtime-preview モデルをデプロイする必要があります。

モデルは、Azure AI Studio モデル カタログまたは、AI Studio のプロジェクトからデプロイできます。 モデル カタログから gpt-4o-realtime-preview モデルをデプロイするには、次の手順に従います。

  1. AI Studio にサインインし、[ホーム] ページに移動します。
  2. 左側のサイドバーから [モデルカタログ] を選択します。
  3. Azure OpenAI コレクションから gpt-4o-realtime-preview モデルを検索し選択します。
  4. [デプロイ] を選択してデプロイ ウィンドウを開きます。
  5. デプロイ名を入力し、Azure OpenAI リソースを選択します。
  6. [モデル バージョン] ドロップダウンから 2024-10-01 を選択します。
  7. 要件に応じて他の既定の設定を変更します。
  8. 展開 を選択します。 デプロイの詳細ページが表示されます。

gpt-4o-realtime-preview モデルのデプロイができたので、AI Studio のリアルタイム オーディオ プレイグラウンドまたは Realtime API を使って、リアルタイムでそれを操作できます。

GPT-4o リアルタイム オーディオを使用する

ヒント

現在、GPT-4o Realtime API を使って開発を始める最も速い方法は、GitHub の Azure OpenAI GPT-4o リアルタイム オーディオ リポジトリからサンプル コードをダウンロードすることです。

デプロイされた gpt-4o-realtime-preview モデルと Azure AI Studioリアルタイム オーディオ プレイグラウンドでチャットするには、次の手順のようにします。

  1. Azure AI Studio でプロジェクトに移動します。

  2. 左側のペインで [プレイグラウンド]>[リアルタイム オーディオ] を選びます。

  3. [デプロイメント] ドロップダウンから、デプロイした gpt-4o-realtime-preview モデルを選びます。

  4. [マイクを有効にする] を選んで、ブラウザーがマイクにアクセスできるようにします。 既にアクセス許可を付与している場合は、このステップをスキップできます。

    デプロイされたモデルが選ばているリアルタイム オーディオ プレイグラウンドのスクリーンショット。

  5. 必要に応じて、[モデルに指示とコンテキストを与える] テキスト ボックスの内容を編集できます。 ふるまいに関する指示と、応答の生成時に参照する必要があるコンテキストをモデルに与えます。 アシスタントのパーソナリティを記述したり、答えるべきことと答えるべきでないことを指示したり、応答のフォーマットを指示したりすることができます。

  6. 必要に応じて、しきい値、プレフィックスの埋め込み、無音時間などの設定を変更します。

  7. [聞き取りを開始] を選んでセッションを始めます。 マイクに向かって話してチャットを開始できます。

    [聞き取りを開始] ボタンとマイク アクセスが有効になっているリアルタイム オーディオ プレイグラウンドのスクリーンショット。

  8. 話すことで、いつでもチャットを中断できます。 [聞き取りを停止する] ボタンを選ぶと、チャットを終了できます。

JavaScript Web サンプルでは、GPT-4o Realtime API を使用してモデルをリアルタイムで操作する方法を示します。 サンプル コードには、ユーザーのマイクからオーディオをキャプチャし、処理のためにモデルに送信する単純な Web インターフェイスが含まれています。 モデルはテキストとオーディオで応答し、サンプル コードは Web インターフェイスでレンダリングされます。

次の手順に従って、サンプル コードをコンピューター上でローカルに実行できます。 最新の手順については、GitHub の リポジトリを参照してください。

  1. Node.js がインストールされていない場合は、Node.js の LTS バージョンをダウンロードしてインストールします。

  2. ローカル コンピューターにリポジトリを複製します。

    git clone https://github.com/Azure-Samples/aoai-realtime-audio-sdk.git
    
  3. お使いのコード エディターで javascript/samples/web フォルダ―を開きます。

    cd ./javascript/samples
    
  4. download-pkg.ps1 または download-pkg.sh を実行して、必要なパッケージをダウンロードします。

  5. ./javascript/samples フォルダーからweb フォルダーに移動します。

    cd ./web
    
  6. npm install を実行して、パッケージの依存関係をインストールします。

  7. npm run dev を実行して Web サーバーを起動し、必要に応じてファイアウォールのアクセス許可プロンプトに移動します。

  8. ブラウザーのコンソール出力 (http://localhost:5173/ など) から、指定されたいずれかの URI に移動します。

  9. Web インターフェイスで次の情報を入力します。

    • エンドポイント: Azure OpenAI リソースのリソース エンドポイント。 /realtime パスを追加する必要はありません。 構造の一例としては、https://my-azure-openai-resource-from-portal.openai.azure.com が挙げられます。
    • API キー: Azure OpenAI リソースに対応する API キー。
    • デプロイ: 前のセクションでデプロイした gpt-4o-realtime-preview モデルの名前。
    • システム メッセージ: 必要に応じて、"You always talk like a friendly pirate." などのシステム メッセージを提供できます。
    • 温度: 必要に応じて、カスタム温度を指定できます。
    • 音声: 必要に応じて、音声を選択できます。
  10. [記録] ボタンを選択してセッションを開始します。 マイクの使用許可を求められた場合は許可します。

  11. メイン出力に << Session Started >> メッセージが表示されます。 その後、マイクに向かって話すとチャットを開始できます。

  12. 話すことで、いつでもチャットを中断できます。 [停止] ボタンを選択すると、チャットを終了できます。