Azure OpenAI Service とは
Azure OpenAI Service は、o1-preview、o1-mini、GPT-4o、GPT-4o mini、GPT-4 Turbo with Vision、GPT-4、GPT-3.5-Turbo、Embeddings モデル シリーズなど、OpenAI の強力な言語モデルへの REST API アクセスを提供します。 これらのモデルは、特定のタスクに合わせて簡単に調整できます。たとえば、コンテンツの生成、要約、画像の解釈、セマンティック検索、自然言語からコードへの翻訳などです。 ユーザーは、このサービスに REST API や Python SDK を通して、または Azure AI Studio でアクセスできます。
機能の概要
機能 | Azure OpenAI |
---|---|
使用できるモデル | o1-preview と o1-mini - (制限付きアクセス - アクセス要求) GPT-4o と GPT-4o mini GPT-4 シリーズ (GPT-4 Turbo with Vision を含む) GPT-3.5-Turbo シリーズ 埋め込みシリーズ 詳細については、モデルに関するページを参照してください。 |
微調整 | GPT-4o-mini (プレビュー)GPT-4 (プレビュー)GPT-3.5-Turbo (0613) babbage-002 davinci-002 |
Price | こちらで入手可能 GPT-4 Turbo with Vision について詳しくは、特別価格情報を参照してください。 |
仮想ネットワークのサポートとプライベート リンクのサポート | はい。 |
マネージド ID | はい。Microsoft Entra ID を使用 |
UI エクスペリエンス | Azure portal (アカウントとリソースの管理)、 Azure AI Studio (モデルの探索と微調整) |
FPGA のリージョン別の提供状況 | モデルの可用性 |
コンテンツのフィルター処理 | プロンプトと入力候補は、自動システムを使ってコンテンツ ポリシーに対して評価されます。 重大度の高いコンテンツがフィルター処理されます。 |
責任ある AI
Microsoft は、人を第一に考える原則に基づいて、AI の発展に取り組んでいます。 Azure OpenAI で使用できる生成モデルには、かなりの潜在的利益がありますが、慎重な設計と熟考した軽減策がない場合、そのようなモデルによって、正しくない、または有害なコンテンツが生成される可能性があります。 Microsoft は、不正使用や意図しない損害から保護するために多大な投資を行っています。 たとえば、Microsoft の責任ある AI の使用に関する原則の組み込み、サービスを使用するための倫理規定の導入、お客様をサポートするためのコンテンツ フィルターの構築、お客様が Azure OpenAI を使用する際に考慮すべき責任ある AI の情報とガイダンスの提供などが含まれます。
Azure OpenAI Service で作業を開始する
Azure OpenAI Service の使用を開始するには、Azure サブスクリプションに Azure OpenAI Service リソースを作成する必要があります。
「Azure OpenAI Service リソースを作成してデプロイする」ガイドから始めます。
リソースは、Azure portal、Azure CLI、または Azure PowerShell を使用して作成できます。
Azure OpenAI Service リソースがある場合は、GPT-4o などのモデルをデプロイできます。
デプロイされたモデルがある場合は、次のことができます。
- Azure AI Studio プレイグラウンドを実験的に使用して、モデルの機能を調べます。
- REST API または SDK を使用して、サービスへの API 呼び出しを開始することもできます。
たとえば、プレイグラウンド内やコードを介して、リアルタイム オーディオやアシスタントを試すことができます。
Note
Azure OpenAI Service の一部のモデルまたは機能には、アクセスするために制限付きアクセス登録フォームが必要なものがあります。 詳細については、Azure OpenAI の制限付きアクセスに関するページを参照してください。
Azure OpenAI と OpenAI の比較
Azure OpenAI Service では、OpenAI GPT-4、GPT-3、Codex、DALL-E、Whisper、テキスト読み上げの各モデルを使用した高度な言語 AI を、Azure のセキュリティとエンタープライズの約束と共にお客様に提供します。 Azure OpenAI は OpenAI と共に API を共同開発し、互換性を確保し、一方から他方へのスムーズな移行を保証します。
Azure OpenAI を使用すると、顧客は OpenAI と同じモデルを実行しながら、Microsoft Azure のセキュリティ機能を使用できます。 Azure OpenAI では、プライベート ネットワーク、リージョンの可用性、責任ある AI コンテンツのフィルター処理が提供されます。
重要な概念
プロンプトと入力候補
入力候補エンドポイントは、API サービスのコア コンポーネントです。 この API は、モデルのテキストイン、テキストアウト インターフェイスへのアクセスを提供します。 英語のテキスト コマンドを含む入力プロンプトをユーザーが指定するだけで、モデルによってテキスト入力候補が生成されます。
単純なプロンプトと入力候補の例を次に示します。
プロンプト:
""" count to 5 in a for loop """
入力候補:
for i in range(1, 6): print(i)
トークン
テキスト トークン
Azure OpenAI では、テキストをトークンに分割して処理します。 トークンには、単語または文字のチャンクのみを指定できます。 たとえば、"hamburger" という単語はトークン "ham"、"bur"、"ger" に分割されますが、"pear" のような短くて一般的な単語は 1 つのトークンです。 多くのトークンは、"hello" や "bye" などの空白で始まります。
所与の要求で処理されるトークンの合計数は、入力、出力、要求パラメーターの長さによって異なります。 処理されるトークンの量は、モデルの応答待機時間とスループットにも影響します。
画像トークン
Azure OpenAI の GPT-4o、GPT-4o mini、GPT-4 Turbo with Vision モデルの画像処理機能では、画像トークン化を使用して、画像入力によって消費されるトークンの合計数が決定されます。 使用されるトークンの数は、画像の詳細レベル (低または高) と画像のサイズという 2 つの主な要因に基づいて計算されます。 トークン コストの計算方法を次に示します。
- 低解像度モード
- 詳細度を低くすると、高い画像解像度の分析を必要としないシナリオの場合、より高速に API で応答を返すことができます。 詳細度の低い画像に消費されるトークンは次のとおりです。
- GPT-4o と GPT-4 Turbo with Vision: サイズに関係なく、画像あたり 85 トークンの定額。
- GPT-4o mini: サイズに関係なく、画像あたり 2833 トークンの定額。
- 例: 4096 x 8192 の画像 (低詳細度): GPT-4o では、コストは固定の 85 トークンです。これは低詳細度の画像であり、このモードではサイズがコストに影響しないためです。
- 詳細度を低くすると、高い画像解像度の分析を必要としないシナリオの場合、より高速に API で応答を返すことができます。 詳細度の低い画像に消費されるトークンは次のとおりです。
- 高解像度モード
- 詳細度が高い場合、API で画像をより詳細に分析できます。 画像トークン数は、画像のサイズに基づいて計算されます。 この計算には次の手順が含まれます。
- 画像のサイズ変更: 画像のサイズは、2048 x 2048 ピクセルの正方形内に収まるようにサイズ変更されます。 最短辺が 768 ピクセルを超える場合は、最短辺の長さが 768 ピクセルになるように画像がさらにサイズ変更されます。 縦横比はサイズ変更中も維持されます。
- タイルの計算: サイズが変更されると、画像は 512 x 512 ピクセルのタイルに分割されます。 部分的なタイルは、完全なタイルになるように切り上げられます。 タイルの数によって、トークンの合計コストが決まります。
- トークンの計算:
- GPT-4o および GPT-4 Turbo with Vision: 512 x 512 ピクセルの各タイルのコストは、170 トークンです。 85 個の基本トークンが合計に追加されます。
- GPT-4o mini: 512 x 512 ピクセルの各タイルのコストは、5667 トークンです。 合計には、2833 個の基本トークンが追加されます。
- 例: 2048 x 4096 の画像 (高詳細度):
- 画像は、最初は 2048 x 2048 ピクセルの正方形内に収まるように、1024 x 2048 ピクセルにサイズ変更されます。
- 画像はさらに、最短辺の長さが最大 768 ピクセルになるように、768 x 1536 ピクセルにサイズ変更されます。
- 画像は 2 x 3 タイル (それぞれ 512 x 512 ピクセル) に分割されます。
- 最終的な計算:
- GPT-4o および GPT-4 Turbo with Vision の場合、合計トークン コストは、6 タイル x タイルあたり 170 トークン + 85 基本トークン = 1105 トークンです。
- GPT-4o mini の場合、トークンの合計コストは、6 タイル x タイルあたり 5667 トークン + 2833 基本トークン = 36835 トークンです。
- 詳細度が高い場合、API で画像をより詳細に分析できます。 画像トークン数は、画像のサイズに基づいて計算されます。 この計算には次の手順が含まれます。
リソース
Azure OpenAI は、Azure の新しい製品オファリングです。 Azure OpenAI は、他の Azure 製品と同じように、Azure サブスクリプションにこのサービス用のリソースまたはインスタンスを作成して使用を開始できます。 Azure のリソース管理設計について詳しくご覧いただけます。
デプロイメント
Azure OpenAI リソースを作成したら、API 呼び出しを開始してテキストを生成する前に、モデルをデプロイする必要があります。 このアクションは、Deployment API を使用して実行できます。 これらの API を使用すると、使用するモデルを指定できます。
プロンプト エンジニアリング
OpenAI の GPT-3、GPT-3.5、GPT-4 モデルは、プロンプト ベースです。 プロンプト ベースのモデルでは、ユーザーはテキスト プロンプトを入力してモデルと対話し、モデルはテキスト入力候補でそれに応答します。 この入力候補は、入力テキストに対してモデルが続けたものです。
これらのモデルは強力ですが、その動作はプロンプトに対しても敏感です。 このため、プロンプトエンジニアリングが開発のための重要なスキルになります。
プロンプトの構築は難しい場合があります。 実際には、プロンプトは目的のタスクを完了するためにモデルの重みを構成するように機能しますが、これは科学というより芸術であり、多くの場合、成功するプロンプトを作成するには経験と直感が必要になります。
モデル
このサービスでは、ユーザーはいくつかのモデルにアクセスできます。 各モデルには、異なる機能と価格ポイントが用意されています。
DALL-E モデル (一部プレビュー、モデルを参照) は、ユーザーが提供するテキスト プロンプトから画像を生成します。
Whisper モデルは、音声からテキストへの文字起こしと翻訳を行うために使用できます。
現在プレビュー段階にあるテキスト読み上げモデルを使って、テキストを音声に合成できます。
各モデルの詳細については、モデルの概念に関するページを参照してください。
次の手順
Azure OpenAI をサポートする基となるモデルに関する記事を確認します。