次の方法で共有


Azure AI Foundry モデル (クラシック) の Azure OpenAI の新機能

このドキュメントでは、 Microsoft Foundry (クラシック) ポータルを参照します。

🔍 新しいポータルの詳細については、Microsoft Foundry (新しい) ドキュメント を参照してください。

この記事では、Azure OpenAI の最新リリースと主要なドキュメント更新プログラムの概要について説明します。

2026 年 2 月

GPT-Realtime-1.5 および GPT-Audio-1.5 モデルがリリースされました

gpt-realtime-1.5モデルとgpt-audio-1.5 モデルを使用できるようになりました。

  • これらのモデルは、昨年の GPT-Realtime と GPT-Audio に基づいて構築され、開発者が音声優先アプリケーションに必要とする待機時間の短いリアルタイムの対話を維持しながら、指示のフォロー、多言語サポート、ツール呼び出しが重点的に改善されました。
  • 開発者は、Microsoft Foundry の既存のチャット完了 API を使用して試すことができます。

2025 年 12 月

GPT-image-1.5 モデルが利用可能になりました

GPT-image-1.5は、OpenAIの最新の最先端画像生成モデルです。 パフォーマンス、品質、編集コントロール、顔の保持が向上しています。 編集モードでは、モデルは高い input_fidelity をサポートし、入力画像のある特定の側面を追加または削除し、他の要素を保持します。

アクセスを要求: 限定アクセスモデルアプリケーション

主要なモデル機能:

  • GPT-image-1 のすべての機能が含まれています。
    • テキストから画像への生成
    • イメージからイメージへの生成 (編集)
  • Inpainting
  • 最大 1024 x 1536 および 1536 x 1024 ピクセルの高品質の画像生成
  • 顔の保存

イメージ生成の手順ガイドに従って、このモデルを使って始めてください。

自動音声認識 (ASR) モデルの更新

gpt-4o-mini-transcribe-2025-12-15

  • リアルタイム シナリオの文字起こしの精度と堅牢性が向上しました。 以前の gpt-4o-transcribe-mini よりも英語ベンチマークでの単語エラー率 (WER) が最大50%低下しています。
  • 日本語、インド語、その他の言語で多言語のパフォーマンスが向上します。
  • 無音時の幻覚を最大 4 ×減らし、ノイズの多い環境や実際のオーディオ ストリームに対してより信頼性の高い選択肢になります。
  • 入力はオーディオのままで、テキストは出力として残り、デプロイは API 専用です。

リアルタイムミニ (音声対音声) モデルの更新

gpt-realtime-mini-2025-12-15

  • 命令のフォローと関数呼び出しにおける完全な gpt リアルタイム モデルとの同等性を備えた機能。
  • 入力と出力は両方ともオーディオであり、API 専用です。

Text to speech モデルの更新

gpt-4o-mini-tts-2025-12-15

  • 多言語音声合成の新しいベンチマーク、
  • より自然で人間らしい音声で、アーティファクトが少なく、話者の類似性が向上しました。
  • 入力はテキスト、出力はオーディオ、デプロイは API 専用です。

2025 年 10 月

SIP のリアルタイム API サポート

Realtime API は SIP をサポートし、realtimeapi へのテレフォニー接続を有効にします。 詳細については、 リアルタイム SIP ドキュメントを参照してください

GPT-4o オーディオ モデルがリリースされました

  • gpt-4o-transcribe-diarize音声テキスト変換モデルがリリースされました。 これは、音声言語をリアルタイムでテキストに変換する自動音声認識 (ASR) モデルです。 これにより、組織は、100 以上の言語にわたる超低待機時間と高い精度で、会話からの分析情報を即座にロック解除できます。 この機能は、音声データがカスタマー サポート、仮想会議、ライブ イベントなどの意思決定を推進するワークフローに不可欠です。

Diarization は、オーディオ ストリームでいつ話したかを識別するプロセスです。 会話が話者属性のトランスクリプトに変換され、企業は会議、顧客の通話、ライブ イベントから実用的な分析情報を抽出できます。 gpt-4o-transcribe-diarize などの高度なモデルを使用すると、組織はリアルタイムのclarityとコンテキストを取得し、音声を構造化されたデータに変換して、よりスマートな意思決定を促進し、生産性を向上させ、自動音声認識をサポートします。

このモデルは、 /audio および /realtime API を使用して使用します。

GPT-image-1-mini

gpt-image-1-mini モデルがグローバル デプロイで使用できるようになりました。 これは、パフォーマンスとコストのバランスを取る gpt-image-1 モデルの小さなバージョンです。 現在、イメージの編集と入力の忠実性を除き、すべてのユース ケースがサポートされています。

要求アクセス: 限定アクセスモデル アプリケーション

イメージ生成の手順ガイドに従って、このモデルを使って始めてください。

PII検出コンテンツフィルター

個人を特定できる情報 (PII) の検出が、組み込みのコンテンツ フィルターとして利用できるようになりました。 この機能を使用すると、LLM 出力の機密情報を識別してブロックし、データのプライバシーを強化できます。 詳細については、 PII 検出 のドキュメントを参照してください。

2025 年 9 月

GPT-5-codex が利用可能になりました

  • の詳細については、「推論モデルの入門ページ」を参照してください。

  • gpt-5-codex は、Codex CLI と Visual Studio Codex 拡張機能で使用するように設計されています。

  • gpt-5-codex モデルへのaccessに登録する必要があります。 gpt-5 などの他の制限付きaccess モデルに対するaccessを既に登録して取得している場合は、再適用する必要はなく、access自動的に付与されます。

Sora 動画から動画の生成をサポート

OpenAI のソラ モデルでは、ビデオからビデオへの生成がサポートされるようになりました。 短いビデオを入力として提供して、入力ビデオを組み込んだ新しい長いビデオを生成できます。 Quickstartを見て始めてください。

2025 年 8 月

Sora 画像から動画の生成をサポート

OpenAI の Sora モデルで、画像から動画の生成がサポートされるようになりました。 画像をモデルへの入力として提供して、画像のコンテンツを組み込んだ動画を生成できます。 また、画像を表示する動画のフレームを指定することもできます。最初に指定する必要はありません。 Quickstartを見て始めてください。

このソラモデルは、スウェーデン中部リージョンと米国東部2で利用可能になりました。

リアルタイム API オーディオ モデル GA

OpenAI の GPT RealTime および Audio モデルは、Azure AI Foundry Direct モデルで一般提供されるようになりました。

モデルの機能強化:

  • 改善された指示: トーン、ペース、エスカレーションの指示により正確かつ確実に従うように機能が強化されました。 言語を切り替えることもできます。
  • 自然さと明瞭さを音声合成で向上させる新しい標準ボイス、マリンとシーダー。
  • オーディオ品質の向上: グリッチフリー出力、英数字の再生の改善、モダリティ制御。

リアルタイム API サービスの機能強化:

  • 画像入力: 動画を必要とせずに音声で画像を追加し、話し合います。
  • 関数呼び出しの機能強化: 開発者が定義したカスタム コードを呼び出す機能が強化されました。 非同期関数呼び出しがサポートされ、関数呼び出しの保留中にセッションを続行できるようになりました。
  • 会話モード: 自然な対話のための実際の順序交代ビヘイビアー動作。 会話モードでは VAD を使用して、応答が検出されない場合にユーザーにプロンプトを表示し、電話のような対話の場合の実際の使いやすさが改善されています。

最新の機能を最大限に活用するために、すべてのお客様が新しく発売された GA モデルに移行することを強くお勧めします。 Azure OpenAI のドキュメントおよび Azure AI Foundry Playground を参照して、機能を調べ、アプリケーションに統合します。

プロビジョニングされたスピルオーバーの一般提供 (GA)

スピルオーバーが一般提供されました。 スピルオーバーは、指定された標準デプロイに超過分をルーティングすることで、プロビジョニングされたデプロイでのトラフィックの変動を管理します。 スピルオーバーを使用してプロビジョニングされたデプロイの使用率を最大化する方法の詳細については、「プロビジョニング済みデプロイのスピルオーバーを使用してトラフィックを管理する」を参照してください。

使用可能な GPT-5 モデル

モデル ルーターの新しいバージョン

  • モデル ルーターで GPT-5 シリーズ モデルがサポートされるようになりました。

  • Azure AI Foundryのモデル ルーターは、デプロイ可能な AI チャット モデルであり、特定のプロンプトに応答するために最適な基になるチャット モデルを自動的に選択します。 モデル ルーターのしくみとその利点と制限事項の詳細については、 モデル ルーターの概念ガイドを参照してください。 Completions API でモデル ルーターを使用するには、 ハウツー ガイドに従います。

2025 年 7 月

GPT-image-1 更新プログラム (プレビュー)

  • 入力忠実度パラメーター: 画像編集 API の input_fidelity パラメーターを使用すると、モデルが元の (入力) 画像の件名のスタイルと特徴をどれだけ近く伝えるかを制御できます。 これは次の場合に役立ちます。

    • 顔の特徴を維持しながら写真を編集する。異なるスタイルの元の人のように見えるアバターを作成する。複数の人の顔を 1 つの画像にまとめる。
    • マーケティング資産、モックアップ、製品写真用に生成された画像のブランド ID を維持する。
    • Eコマースやファッションでは、リアリズムを損なうことなく衣装や製品の詳細画像を編集することが求められています。
  • 部分イメージ ストリーミング: イメージ生成 API とイメージ編集 API は、部分的なイメージ ストリーミングをサポートし、画像生成プロセス全体で部分的にレンダリングされたコンテンツを含むイメージを返します。 これらの画像をユーザーに表示して、以前の視覚的フィードバックを提供し、画像生成操作の進行状況を表示します。

2025 年 6 月

新モデル codex-mini & o3-pro リリース

2025 年 5 月

Soraビデオ生成機能がリリースされました(プレビュー)

ソラ (2025-05-02) モデルは、テキスト命令から現実的で想像力豊かなビデオ シーンを作成できる OpenAI のビデオ生成モデルです。

Video 生成のクイックスタートに従って始めてください。 詳細については、 ビデオ生成の概念ガイドを 参照してください。

プロンプト シールドのスポットライト (プレビュー)

スポットライトは、特殊な書式設定を使用して入力ドキュメントにタグを付けてモデルに対する信頼度を低くすることで、間接 (埋め込みドキュメント) 攻撃に対する保護を強化するプロンプト シールドのサブ機能です。 詳細については、 プロンプト シールド フィルター のドキュメントを参照してください。

モデル ルーター (プレビュー)

Azure AI Foundryのモデル ルーターは、デプロイ可能な AI チャット モデルであり、特定のプロンプトに応答するために最適な基になるチャット モデルを自動的に選択します。 モデル ルーターのしくみとその利点と制限事項の詳細については、 モデル ルーターの概念ガイドを参照してください。 Completions API でモデル ルーターを使用するには、 ハウツー ガイドに従います。

2025 年 4 月

WebRTC のリアルタイム API (プレビュー) のサポート

Realtime API (プレビュー) で WebRTC がサポートされるようになりました。これにより、リアルタイムのオーディオ ストリーミングと待機時間の短い対話が可能になります。 この機能は、ライブ カスタマー サポートや対話型音声アシスタントなど、すぐにフィードバックを必要とするアプリケーションに最適です。 詳細については、 Realtime API (プレビュー) のドキュメントを参照してください

GPT-image-1 公開 (プレビュー、制限付きアクセス)

GPT-image-1 (2025-04-15) は、Azure OpenAI からの最新のイメージ生成モデルです。 次のような DALL-E に対する大幅な改善が特徴です。

  • 正確な指示に対応する方が優れています。
  • テキストを確実にレンダリングします。
  • 画像を入力として受け入れ、画像の編集と描画の新機能を有効にします。

要求アクセス: 限定アクセスモデル アプリケーション

画像生成のガイドに従って、新しいモデルを始めてください。

o4-miniおよびo3モデルがリリースされました

o4-mini および o3 モデルが利用可能になりました。 これらは、強化された推論、品質、およびパフォーマンスを提供Azure OpenAI の最新の推論モデルです。 詳細については、「推論モデルを使用したgetting started」ページを参照してください。

GPT-4.1 リリース

GPT 4.1 と GPT 4.1-nano が利用可能になりました。 これらは、Azure OpenAI の最新モデルです。 GPT 4.1 には、100 万個のトークン コンテキスト制限があります。 詳細については、models のページを参照してください。

gpt-4o オーディオ モデルがリリースされました

GPT-4oを搭載した新しいオーディオモデルが利用可能になりました。

  • gpt-4o-transcribeおよびgpt-4o-mini-transcribe音声テキスト変換モデルがリリースされます。 これらのモデルは、 /audio API と /realtime API を使用して使用します。

  • gpt-4o-mini-tts text to speech モデルがリリースされました。 gpt-4o-mini-tts API を使用したtext to speech生成には、/audio モデルを使用します。

使用可能なモデルの詳細については、モデルとバージョンのドキュメントを参照してください。

2025 年 3 月

レスポンスAPIとコンピューター使用プレビューモデル

Responses API は、Azure OpenAI からの新しいステートフル API です。 チャットの完了とアシスタント API の最高の機能を 1 つの統合されたエクスペリエンスにまとめます。 また、Responses API は、computer-use-preview 機能を強化する新しい モデルのサポートを追加します。

computer-use-preview アクセスするには登録が必要であり、Microsoft の適格性基準に基づいてアクセスが付与されます。 他の限られたaccess モデルにaccessしているお客様は、引き続きこのモデルのaccessを要求する必要があります。

アクセスを要求する: computer-use-preview 限られたアクセスのモデルアプリケーション

モデル機能とリージョンの可用性の詳細については、models のドキュメントを参照してください。

Playwrightと統合されたコンピュータ使用プレビューモデルのアニメーションGIF。

Playwright 統合デモ コード

プロビジョニングされたスピルオーバー (プレビュー)

スピルオーバーは、指定された標準デプロイに超過分をルーティングすることで、プロビジョニングされたデプロイでのトラフィックの変動を管理します。 スピルオーバーを使用してプロビジョニングされたデプロイの使用率を最大化する方法の詳細については、「 プロビジョニングされたデプロイのスピルオーバーによるトラフィックの管理 (プレビュー)」を参照してください。

コンテンツ フィルター構成を指定する

デプロイ レベルのコンテンツ フィルター構成に加えて、API 呼び出しごとに要求時にカスタム構成を指定できる要求ヘッダーも提供されるようになりました。 詳細については、「 コンテンツ フィルターの使用 (プレビュー)」を参照してください。

2025 年 2 月

GPT-4.5 プレビュー

多様なテキストと画像のタスクに優れた最新の GPT モデルが、Azure OpenAI で利用できるようになりました。

モデル機能とリージョンの可用性の詳細については、models のドキュメントを参照してください。

格納済み入力候補 API

保存された入力候補 を使用すると、チャットの完了セッションから会話履歴をキャプチャして、評価と微調整のデータセットとして使用できます。

o3-mini データゾーンの標準デプロイメント

o3-mini は、グローバル標準およびデータゾーン標準のデプロイメントで、登録済みの制限付きアクセス顧客向けに使用できるようになりました。

詳細については、当社の推論モデル ガイドを参照してください。

gpt-4o mini audio がリリース

gpt-4o-mini-audio-preview (2024-12-17) モデルは、最新のオーディオ補完モデルです。 詳細については、オーディオ生成のクイックスタートを参照してください。

gpt-4o-mini-realtime-preview (2024-12-17) モデルは、最新のリアルタイム オーディオ モデルです。 リアルタイム モデルは、入力候補 API と同じ基本 GPT-4o オーディオ モデルを使用しますが、低遅延でリアルタイムのオーディオ操作用に最適化されています。 詳細については、リアルタイム オーディオのクイックスタートに関する記事を参照してください。

使用可能なモデルの詳細については、モデルとバージョンのドキュメントを参照してください。

2025 年 1 月

o3-mini リリース済み

o3-mini (2025-01-31) は最新の推論モデルであり、推論能力が強化されています。 詳細については、当社の推論モデル ガイドを参照してください。

GPT-4o オーディオ入力候補

gpt-4o-audio-preview モデルは、米国 2 およびスウェーデン中部リージョンでのグローバルデプロイで使用できるようになりました。 オーディオ生成には gpt-4o-audio-preview モデルを使用します。

gpt-4o-audio-preview モデルでは、既存の /chat/completions API にオーディオ モダリティが導入されます。 オーディオ モデルは、テキストおよび音声ベースの対話とオーディオ分析における AI アプリケーションの可能性を広げます。 gpt-4o-audio-preview モデルでサポートされるモダリティには、テキスト、オーディオ、テキスト + オーディオが含まれます。 詳細については、オーディオ生成のクイックスタートを参照してください。

Realtime API は、完成 API と同じ基盤である GPT-4o オーディオモデルを使用していますが、低遅延でリアルタイムの音声インタラクションに最適化されています。

GPT Realtime API 2024-12-17

gpt-4o-realtime-preview モデル バージョン 2024-12-17 は、米国 2 およびスウェーデン中部リージョン でのグローバルデプロイに使用できます。 リアルタイムのオーディオ操作には、gpt-4o-realtime-preview バージョン 2024-10-01-preview モデルではなく、gpt-4o-realtime-preview バージョン 2024-12-17 モデルを使用します。

  • モデルを使用したgpt-4o-realtime-previewのサポートが追加されました。
  • 新しい音声のサポートが追加されました。 gpt-4o-realtime-preview モデルでは、alloyashballadcoralechosageshimmerverseの音声がサポートされるようになりました。
  • 転送率の制限は、1 分あたりの接続数に基づくものではなくなりました。 転送率の制限は現在、gpt-4o-realtime-preview モデルの RPM (1 分あたりの要求数) と TPM (1 分あたりのトークン数) に基づいています。 各 gpt-4o-realtime-preview モデルデプロイのレート制限は、100 K TPM と 1 K RPM です。 プレビュー期間中、Azure AI Foundry ポータル API では、異なるレート制限が不正確に表示される可能性があります。 別のレート制限を設定しようとしても、実際のレート制限は 100 K TPM と 1 K RPM です。

詳細については、「GPT リアルタイム オーディオのクイック スタート」と「攻略ガイド」を参照してください。

2024 年 12 月

限定アクセス用にリリースされた o1 推論モデル

最新の o1 モデルは、API accessおよびモデルのデプロイで使用できるようになりました。 登録が必要であり、microsoft の適格性基準に基づいてaccessが付与されます。 以前に o1-preview にアクセスを申請して受け取った顧客は、最新のモデルのウェイトリストに自動的に入れられるため、再度の申請は必要ありません。

アクセスを要求: 限定アクセスモデルアプリケーション

高度な o1 シリーズの詳細については、o1 シリーズ推論モデルを始めるを参照してください。

リージョンの可用性

モデル リージョン
o1
(バージョン: 2024-12-17)
米国東部 2 (グローバル標準)
スウェーデン中部 (グローバル標準)

基本設定の微調整 (プレビュー)

直接的な基本設定の最適化 (DPO) は、大規模な言語モデル用の新しい調整手法であり、人間の好みに基づいてモデルの重みを調整するように設計されています。 人間のフィードバック (RLHF) からの強化学習とは異なり、DPO では報酬モデルを適合する必要はありません。トレーニングにはより単純なデータ (バイナリ設定) が使用されます。 この方法は、計算の負荷がより軽く高速であるため、より効率的でありながら、調整時には同等の効果を発揮します。 DPO は、トーン、スタイル、特定のコンテンツ設定といった主観的な要素が重要であるシナリオで、特に有用です。 gpt-4o-2024-08-06 モデルから始まる、Azure OpenAI での DPO のパブリック プレビューをお知らせします。

モデルリージョンの可用性の微調整については、models のページを参照してください。

保存済み完了および蒸留

保存済み完了を利用すると、チャット完了セッションから会話履歴をキャプチャして、評価微調整のためのデータセットとして使用できます。

GPT-4o 2024-11-20

gpt-4o-2024-11-20 は、次の グローバル標準デプロイ で使用できるようになりました。

  • 米国東部
  • 米国東部 2
  • 米国中北部
  • 米国中南部
  • 米国西部
  • 米国西部 3
  • スウェーデン中部

新しいデータゾーンプロビジョニングデプロイメントタイプ

データ ゾーンのプロビジョニングされたデプロイは、他のすべての Azure OpenAI デプロイの種類と同じAzure OpenAI リソースで使用できますが、Azureグローバル インフラストラクチャを使用して、要求ごとに最適な可用性を持つ Microsoft 定義データ ゾーン内のデータ センターにトラフィックを動的にルーティングできます。 データ ゾーンにプロビジョニングされたデプロイでは、Microsoftが指定したデータ ゾーン内でAzureインフラストラクチャを使用し、予測可能な高スループットのために予約されたモデル処理能力を提供します。 データ ゾーン プロビジョニング済みデプロイは、gpt-4o-2024-08-06gpt-4o-2024-05-13gpt-4o-mini-2024-07-18 のモデルでサポートされます。

詳細については、「展開の種類 ガイド」を参照してください。

次のステップ

Azure OpenAI を支える基盤となるモデルの詳細を学ぶ。