この記事では、Azure OpenAI の最新リリースと主要なドキュメント更新の概要を示します。
2025 年 12 月
GPT-image-1.5 モデルが利用可能になりました
GPT-image-1.5は、OpenAIの最新の最先端画像生成モデルです。 パフォーマンス、品質、編集コントロール、顔の保持が向上しています。 編集モードでは、モデルは高い input_fidelity をサポートし、入力画像のある特定の側面を追加または削除し、他の要素を保持します。
アクセスの要求: 制限付きアクセス モデル アプリケーション
主要なモデル機能:
- GPT-image-1 のすべての機能が含まれています。
- テキストから画像への生成
- イメージからイメージへの生成 (編集)
- Inpainting
- 最大 1024 x 1536 および 1536 x 1024 ピクセルの高品質の画像生成
- 顔の保存
イメージ生成のハウツー ガイドに従って、このモデルの使用を開始します。
自動音声認識 (ASR) モデルの更新
gpt-4o-mini-transcribe-2025-12-15
- リアルタイム シナリオの文字起こしの精度と堅牢性が向上しました。 以前の gpt-4o-transcribe-mini よりも英語ベンチマークでの単語エラー率 (WER) が最大50%低下しています。
- 日本語、インド語、その他の言語で多言語のパフォーマンスが向上します。
- 無音時の幻覚を最大 4 ×減らし、ノイズの多い環境や実際のオーディオ ストリームに対してより信頼性の高い選択肢になります。
- 入力はオーディオのままで、テキストは出力として残り、デプロイは API 専用です。
リアルタイムミニ (音声対音声) モデルの更新
gpt-realtime-mini-2025-12-15
- 命令のフォローと関数呼び出しにおける完全な gpt リアルタイム モデルとの同等性を備えた機能。
- 入力と出力は両方ともオーディオであり、API 専用です。
テキスト読み上げモデルの更新
gpt-4o-mini-tts-2025-12-15
- 多言語音声合成の新しいベンチマーク、
- アーティファクトが少なく、話者の類似性が向上した、人間のような自然な音声。
- 入力はテキスト、出力はオーディオ、デプロイは API 専用です。
2025 年 10 月
SIP のリアルタイム API サポート
Realtime API は SIP をサポートし、realtimeapi へのテレフォニー接続を有効にします。 詳細については、 リアルタイム SIP ドキュメントを参照してください。
GPT-4o オーディオ モデルがリリースされました
-
gpt-4o-transcribe-diarize音声テキスト変換モデルがリリースされました。 これは、音声言語をリアルタイムでテキストに変換する自動音声認識 (ASR) モデルです。 これにより、組織は、100 以上の言語にわたる超低待機時間と高い精度で、会話からの分析情報を即座にロック解除できます。 この機能は、音声データがカスタマー サポート、仮想会議、ライブ イベントなどの意思決定を推進するワークフローに不可欠です。
Diarization は、オーディオ ストリームでいつ話したかを識別するプロセスです。 会話が話者属性のトランスクリプトに変換され、企業は会議、顧客の通話、ライブ イベントから実用的な分析情報を抽出できます。
gpt-4o-transcribe-diarizeなどの高度なモデルを使用すると、組織はリアルタイムの明確さとコンテキストを獲得し、音声を構造化されたデータに変換し、よりスマートな意思決定を推進し、生産性を向上させ、自動音声認識をサポートします。
このモデルは、 /audio および /realtime API を使用して使用します。
GPT-image-1-mini
gpt-image-1-mini モデルがグローバル デプロイで使用できるようになりました。 これは、パフォーマンスとコストのバランスを取る gpt-image-1 モデルの小さなバージョンです。 現在、イメージの編集と入力の忠実性を除き、すべてのユース ケースがサポートされています。
アクセスの要求: 制限付きアクセス モデル アプリケーション
イメージ生成のハウツー ガイドに従って、このモデルの使用を開始します。
PII検出コンテンツフィルター
個人を特定できる情報 (PII) の検出が、組み込みのコンテンツ フィルターとして利用できるようになりました。 この機能を使用すると、LLM 出力の機密情報を識別してブロックし、データのプライバシーを強化できます。 詳細については、 PII 検出 のドキュメントを参照してください。
2025 年 9 月
GPT-5-codex が利用可能になりました
gpt-5-codexの詳細については、「推論モデルの概要」ページを参照してください。gpt-5-codexは、 Codex CLI と Visual Studio Codex 拡張機能で使用するように設計されています。gpt-5-codex モデルへのアクセスには登録が必要です。 以前に登録し、
gpt-5などの他の制限付きアクセス モデルへのアクセスを取得した場合は、再適用する必要はありません。自動的にアクセスが許可されます。
Sora 動画から動画の生成をサポート
OpenAI のソラ モデルでは、ビデオからビデオへの生成がサポートされるようになりました。 短いビデオを入力として提供して、入力ビデオを組み込んだ新しい長いビデオを生成できます。 使用を開始するには、 クイック スタート を参照してください。
2025 年 8 月
Sora 画像から動画の生成をサポート
OpenAI の Sora モデルで、画像から動画の生成がサポートされるようになりました。 画像をモデルへの入力として提供して、画像のコンテンツを組み込んだ動画を生成できます。 また、画像を表示する動画のフレームを指定することもできます。最初に指定する必要はありません。 使用を開始するには、 クイック スタート を参照してください。
このソラモデルは、スウェーデン中部リージョンと米国東部2で利用可能になりました。
リアルタイム API オーディオ モデル GA
OpenAI の GPT RealTime モデルと Audio モデルは、Azure AI Foundry ダイレクト モデルで一般提供されるようになりました。
モデルの機能強化:
- 改善された指示: トーン、ペース、エスカレーションの指示により正確かつ確実に従うように機能が強化されました。 言語を切り替えることもできます。
- 新しい標準音声、Marin と Cedar は、音声合成に改善された自然らしさと明瞭さをもたらします。
- オーディオ品質の向上: グリッチフリー出力、英数字の再生の改善、モダリティ制御。
リアルタイム API サービスの機能強化:
- 画像入力: 動画を必要とせずに音声で画像を追加し、話し合います。
- 関数呼び出しの機能強化: 開発者が定義したカスタム コードを呼び出す機能が強化されました。 非同期関数呼び出しがサポートされ、関数呼び出しの保留中にセッションを続行できるようになりました。
- 会話モード: 自然な対話のための実際の順序交代ビヘイビアー動作。 会話モードでは VAD を使用して、応答が検出されない場合にユーザーにプロンプトを表示し、電話のような対話の場合の実際の使いやすさが改善されています。
最新の機能を最大限に活用するために、すべてのお客様が新しく発売された GA モデルに移行することを強くお勧めします。 Azure OpenAI のドキュメントと Azure AI Foundry プレイグラウンドにアクセスして、機能を探して、アプリケーションに統合します。
プロビジョニングされたスピルオーバーの一般提供 (GA)
スピルオーバーが一般提供されました。 スピルオーバーは、指定された標準デプロイに超過分をルーティングすることで、プロビジョニングされたデプロイでのトラフィックの変動を管理します。 スピルオーバーを使用してプロビジョニングされたデプロイの使用率を最大化する方法の詳細については、「プロビジョニング済みデプロイのスピルオーバーを使用してトラフィックを管理する」を参照してください。
使用可能な GPT-5 モデル
gpt-5、gpt-5-mini、gpt-5-nano詳細については、推論モデルの概要に関するページを参照してください。gpt-5-chatが使用可能になりました。 詳細については、モデルに関するページを参照してくださいgpt-5は、プロビジョニングされたスループット ユニット (PTU) で使用できるようになりました。gpt-5-mini、gpt-5-nano、およびgpt-5-chatでは登録は必要ありません。
モデル ルーターの新しいバージョン
モデル ルーターで GPT-5 シリーズ モデルがサポートされるようになりました。
Azure AI Foundry のモデル ルーターは、デプロイ可能な AI チャット モデルであり、特定のプロンプトに応答するために最適な基になるチャット モデルを自動的に選択します。 モデル ルーターのしくみとその利点と制限事項の詳細については、 モデル ルーターの概念ガイドを参照してください。 Completions API でモデル ルーターを使用するには、 ハウツー ガイドに従います。
2025 年 7 月
GPT-image-1 更新プログラム (プレビュー)
入力忠実度パラメーター: 画像編集 API の
input_fidelityパラメーターを使用すると、モデルが元の (入力) 画像の件名のスタイルと特徴をどれだけ近く伝えるかを制御できます。 これは次の場合に役立ちます。- 顔の特徴を維持しながら写真を編集する。異なるスタイルの元の人のように見えるアバターを作成する。複数の人の顔を 1 つの画像にまとめる。
- マーケティング資産、モックアップ、製品写真用に生成された画像のブランド ID を維持する。
- Eコマースとファッション、あなたはリアリズムを損なうことなく衣装や製品の詳細の画像を編集する必要があります。
部分イメージ ストリーミング: イメージ生成 API とイメージ編集 API は、部分的なイメージ ストリーミングをサポートし、画像生成プロセス全体で部分的にレンダリングされたコンテンツを含むイメージを返します。 これらの画像をユーザーに表示して、以前の視覚的フィードバックを提供し、画像生成操作の進行状況を表示します。
2025 年 6 月
新モデル codex-mini & o3-pro リリース
-
codex-miniとo3-proが利用可能になりました。 詳細については、「推論モデルの概要」ページを参照してください
2025 年 5 月
Soraビデオ生成機能がリリースされました(プレビュー)
ソラ (2025-05-02) モデルは、テキスト命令から現実的で想像力豊かなビデオ シーンを作成できる OpenAI のビデオ生成モデルです。
ビデオ生成のクイックスタートに従って作業を開始します。 詳細については、 ビデオ生成の概念ガイドを 参照してください。
プロンプト シールドのスポットライト (プレビュー)
スポットライトは、特殊な書式設定を使用して入力ドキュメントにタグを付けてモデルに対する信頼度を低くすることで、間接 (埋め込みドキュメント) 攻撃に対する保護を強化するプロンプト シールドのサブ機能です。 詳細については、 プロンプト シールド フィルター のドキュメントを参照してください。
モデル ルーター (プレビュー)
Azure AI Foundry のモデル ルーターは、デプロイ可能な AI チャット モデルであり、特定のプロンプトに応答するために最適な基になるチャット モデルを自動的に選択します。 モデル ルーターのしくみとその利点と制限事項の詳細については、 モデル ルーターの概念ガイドを参照してください。 Completions API でモデル ルーターを使用するには、 ハウツー ガイドに従います。
2025 年 4 月
WebRTC のリアルタイム API (プレビュー) のサポート
Realtime API (プレビュー) で WebRTC がサポートされるようになりました。これにより、リアルタイムのオーディオ ストリーミングと待機時間の短い対話が可能になります。 この機能は、ライブ カスタマー サポートや対話型音声アシスタントなど、すぐにフィードバックを必要とするアプリケーションに最適です。 詳細については、 Realtime API (プレビュー) のドキュメントを参照してください。
GPT-image-1 リリース (プレビュー、制限付きアクセス)
GPT-image-1 (2025-04-15) は、Azure OpenAI からの最新のイメージ生成モデルです。 次のような DALL-E に対する大幅な改善が特徴です。
- 正確な指示に対応する方が優れています。
- テキストを確実にレンダリングします。
- 画像を入力として受け入れ、画像の編集と描画の新機能を有効にします。
アクセスの要求: 制限付きアクセス モデル アプリケーション
イメージ生成のハウツー ガイドに従って、新しいモデルの使用を開始します。
o4-miniおよびo3モデルがリリースされました
o4-mini および o3 モデルが利用可能になりました。 これらは、強化された推論、品質、パフォーマンスを提供する Azure OpenAI の最新の推論モデルです。 詳細については、「 推論モデルの概要」ページを参照してください。
GPT-4.1 リリース
GPT 4.1 と GPT 4.1-nano が利用可能になりました。 これらは、Azure OpenAI の最新モデルです。 GPT 4.1 には、100 万個のトークン コンテキスト制限があります。 詳細については、「 モデル」ページを参照してください。
gpt-4o オーディオ モデルがリリースされました
GPT-4oを搭載した新しいオーディオモデルが利用可能になりました。
gpt-4o-transcribeおよびgpt-4o-mini-transcribe音声テキスト変換モデルがリリースされます。 これらのモデルは、/audioAPI と/realtimeAPI を使用して使用します。gpt-4o-mini-ttsテキスト読み上げモデルがリリースされました。gpt-4o-mini-ttsAPI を使用してテキスト読み上げを生成するには、/audioモデルを使用します。
利用できるモデルについて詳しくは、モデルとバージョンに関するドキュメントを参照してください。
2025 年 3 月
レスポンスAPIとコンピューター使用プレビューモデル
Responses API は、Azure OpenAI からの新しいステートフル API です。 チャットの完了とアシスタント API の最高の機能を 1 つの統合されたエクスペリエンスにまとめます。 また、Responses API は、computer-use-preview 機能を強化する新しい モデルのサポートを追加します。
computer-use-preview登録へのアクセスが必要であり、Microsoft の資格条件に基づいてアクセス権が付与されます。 他の制限付きアクセス モデルにアクセスできるお客様は、引き続きこのモデルへのアクセスを要求する必要があります。
アクセスの要求: 制限付きアクセス モデル アプリケーションcomputer-use-preview
モデルの機能とリージョンの可用性の詳細については、 モデルのドキュメントを参照してください。
プロビジョニングされたスピルオーバー (プレビュー)
スピルオーバーは、指定された標準デプロイに超過分をルーティングすることで、プロビジョニングされたデプロイでのトラフィックの変動を管理します。 スピルオーバーを使用してプロビジョニングされたデプロイの使用率を最大化する方法の詳細については、「 プロビジョニングされたデプロイのスピルオーバーによるトラフィックの管理 (プレビュー)」を参照してください。
コンテンツ フィルター構成を指定する
デプロイ レベルのコンテンツ フィルター構成に加えて、API 呼び出しごとに要求時にカスタム構成を指定できる要求ヘッダーも提供されるようになりました。 詳細については、「 コンテンツ フィルターの使用 (プレビュー)」を参照してください。
2025 年 2 月
GPT-4.5 プレビュー
さまざまなテキストタスクと画像タスクに優れた最新の GPT モデルが、Azure OpenAI で利用できるようになりました。
モデルの機能とリージョンの可用性の詳細については、 モデルのドキュメントを参照してください。
格納済み入力候補 API
保存された入力候補 を使用すると、チャットの完了セッションから会話履歴をキャプチャして、評価と微調整のデータセットとして使用できます。
o3-mini データゾーンの標準デプロイメント
グローバル標準、および登録済みの制限付きアクセスのお客様のデータゾーン標準のデプロイで o3-mini を使用できるようになりました。
詳細については、当社の推論モデル ガイドを参照してください。
gpt-4o mini audio がリリース
gpt-4o-mini-audio-preview (2024-12-17) モデルは、最新のオーディオ補完モデルです。 詳細については、オーディオ生成のクイックスタートを参照してください。
gpt-4o-mini-realtime-preview (2024-12-17) モデルは、最新のリアルタイム オーディオ モデルです。 リアルタイム モデルは、入力候補 API と同じ基本 GPT-4o オーディオ モデルを使用しますが、低遅延でリアルタイムのオーディオ操作用に最適化されています。 詳細については、リアルタイム オーディオのクイックスタートに関する記事を参照してください。
利用できるモデルについて詳しくは、モデルとバージョンに関するドキュメントを参照してください。
2025 年 1 月
o3-mini リリース済み
o3-mini (2025-01-31) は最新の推論モデルであり、推論能力が強化されています。 詳細については、当社の推論モデル ガイドを参照してください。
GPT-4o オーディオ入力候補
gpt-4o-audio-preview モデルは、米国東部 2 およびスウェーデン中部リージョンのグローバル デプロイで使用できるようになりました。 オーディオ生成には gpt-4o-audio-preview モデルを使用します。
gpt-4o-audio-preview モデルでは、既存の /chat/completions API にオーディオ モダリティが導入されます。 オーディオ モデルは、テキストおよび音声ベースの対話とオーディオ分析における AI アプリケーションの可能性を広げます。
gpt-4o-audio-preview モデルでサポートされるモダリティには、テキスト、オーディオ、テキスト + オーディオが含まれます。 詳細については、オーディオ生成のクイックスタートを参照してください。
Note
Realtime API は、完成 API と同じ基盤である GPT-4o オーディオモデルを使用していますが、低遅延でリアルタイムの音声インタラクションに最適化されています。
GPT Realtime API 2024-12-17
gpt-4o-realtime-preview モデル バージョン 2024-12-17 は、米国東部 2 リージョンとスウェーデン中部リージョンのグローバル デプロイで使用できます。 リアルタイムのオーディオ操作には、gpt-4o-realtime-preview バージョン 2024-10-01-preview モデルではなく、gpt-4o-realtime-preview バージョン 2024-12-17 モデルを使用します。
-
モデルを使用した
gpt-4o-realtime-previewのサポートが追加されました。 - 新しい音声のサポートが追加されました。
gpt-4o-realtime-previewモデルでは、alloy、ash、ballad、coral、echo、sage、shimmer、verseの音声がサポートされるようになりました。 - 転送率の制限は、1 分あたりの接続数に基づくものではなくなりました。 転送率の制限は現在、
gpt-4o-realtime-previewモデルの RPM (1 分あたりの要求数) と TPM (1 分あたりのトークン数) に基づいています。 各gpt-4o-realtime-previewモデルデプロイのレート制限は、100 K TPM と 1 K RPM です。 プレビュー期間中、 Azure AI Foundry ポータル と API では、異なるレート制限が不正確に表示される可能性があります。 別のレート制限を設定しようとしても、実際のレート制限は 100 K TPM と 1 K RPM です。
詳細については、「GPT リアルタイム オーディオのクイック スタート」と「攻略ガイド」を参照してください。
2024 年 12 月
制限付きアクセス用に o1 推論モデルがリリース
最新の o1 モデルを API アクセスとモデル デプロイで使用できるようになりました。
登録が必要であり、Microsoft の適格性条件に基づいてアクセスが許可されます。 以前に o1-previewへのアクセスを適用して受け取った顧客は、最新のモデルの待機リストに自動的に表示されるため、再適用する必要はありません。
アクセスの要求: 制限付きアクセス モデル アプリケーション
高度な o1 シリーズ モデルの詳細については、o1 シリーズ推論モデルの概要に関する記事を参照してください。
リージョンの可用性
| Model | Region |
|---|---|
o1 (バージョン: 2024-12-17) |
米国東部 2 (グローバル標準) スウェーデン中部 (グローバル標準) |
基本設定の微調整 (プレビュー)
直接的な基本設定の最適化 (DPO) は、大規模な言語モデル用の新しい調整手法であり、人間の好みに基づいてモデルの重みを調整するように設計されています。 人間のフィードバック (RLHF) からの強化学習とは異なり、DPO では報酬モデルを適合する必要はありません。トレーニングにはより単純なデータ (バイナリ設定) が使用されます。 この方法は、計算の負荷がより軽く高速であるため、より効率的でありながら、調整時には同等の効果を発揮します。 DPO は、トーン、スタイル、特定のコンテンツ設定といった主観的な要素が重要であるシナリオで、特に有用です。
gpt-4o-2024-08-06 モデルから始まる Azure OpenAI での DPO のパブリック プレビューをお知らせします。
モデル リージョンの可用性を微調整する方法については、 モデルのページを参照してください。
保存済み完了および蒸留
保存済み完了を利用すると、チャット完了セッションから会話履歴をキャプチャして、評価と微調整のためのデータセットとして使用できます。
GPT-4o 2024-11-20
gpt-4o-2024-11-20 は、次の グローバル標準デプロイ で使用できるようになりました。
- 米国東部
- 米国東部 2
- 米国中北部
- 米国中南部
- 米国西部
- 米国西部 3
- スウェーデン中部
新しいデータゾーンプロビジョニングデプロイメントタイプ
データ ゾーン プロビジョニング済みデプロイは、Azure OpenAI のその他すべての種類のデプロイと同じ Azure OpenAI リソースで利用できますが、Azure のグローバル インフラストラクチャを使用して、要求ごとに最適な可用性の Microsoft によって定義されたデータ ゾーン内のデータ センターに、トラフィックを動的にルーティングできます。 データ ゾーン プロビジョニング済みデプロイでは、Microsoft が指定したデータ ゾーン内の Azure インフラストラクチャを使用して、高くて予測可能なスループットを実現するための予約されたモデル処理容量を提供します。 データ ゾーン プロビジョニング済みデプロイは、gpt-4o-2024-08-06、gpt-4o-2024-05-13、gpt-4o-mini-2024-07-18 のモデルでサポートされます。
詳細については、「展開の種類 ガイド」を参照してください。
次のステップ
Azure OpenAI をサポートする基になるモデルの詳細について説明します。