次の方法で共有


Azure AI Foundry ポータルでモデル ランキングを使用してモデルを比較して選択する (プレビュー)

重要

この記事で "(プレビュー)" と付記されている項目は、現在、パブリック プレビュー段階です。 このプレビューはサービス レベル アグリーメントなしで提供されており、運用環境ではお勧めしません。 特定の機能はサポート対象ではなく、機能が制限されることがあります。 詳細については、「 Microsoft Azure プレビューの追加使用条件」を参照してください。

この記事では、Azure AI Foundry ポータルで使用できるモデル ランキング (プレビュー) のモデルを比較することで、Azure AI Foundry モデル カタログ のモデル選択プロセスを効率化する方法について説明します。 この比較は、特定のユース ケースまたはアプリケーションの要件を満たすモデルに関する情報に基づいた意思決定を行う際に役立ちます。 次のランキングを表示することで、モデルを比較できます。

  • 1 つの基準 (品質、コスト、スループット) に沿ってモデル リーダーをすばやく識別するための品質、安全性、コスト、パフォーマンスのランキング。
  • 異なる選択基準の中で、品質とコストなど、1 つのメトリックと別のメトリックでモデルがどのように動作するかを確認するためのトレードオフグラフ
  • シナリオに 合った最適なランキングを見つけるためのシナリオ別のランキング。

前提条件

モデル のランキングにアクセスする

  1. Azure AI Foundry にサインインします。
  2. プロジェクトに入っていない場合は、プロジェクトを選択してください。
  3. 左側のウィンドウから [モデル カタログ ] を選択します。
  1. モデル カタログの [モデル ランキング ] セクションに移動します。 このセクションでは、 品質コストパフォーマンスに沿ってランク付けされた上位 3 人のモデル リーダーを表示します。 これらのモデルのいずれかを選択して、詳細を確認できます。

    モデル カタログホームページのランキングのエントリ ポイントから選択したモデルを示すスクリーンショット。

  2. モデル カタログの [ モデル ランキング ] セクションで、[ランキングの 参照 ] を選択して モデル ランキングのランディング ページ に移動し、使用可能なランキングの完全なスイートを表示します。

    モデル カタログからモデル ランキングへのエントリ ポイントを示すスクリーンショット。

    ホームページには、モデル選択基準のランキングの強調表示が表示されます。 品質は、モデル選択の最も一般的な基準であり、その後に安全性、コスト、パフォーマンスが続きます。

    品質、コスト、パフォーマンスで強調表示されたランキングを示すスクリーンショット。

トレードオフグラフのモデルを比較する

トレードオフグラフを使用すると、関心のある条件に基づいてモデルを比較できます。 品質よりもコストに関心があり、最高品質のモデルが最も安いモデルではないことが判明した場合、品質、コスト、パフォーマンスの基準の間でトレードオフを行う必要があるとします。 トレードオフのグラフでは、2 つのメトリックに沿ったモデルのパフォーマンスを一目で比較できます。

  1. [ 選択したモデル ] ドロップダウン メニューを選択して、トレードオフグラフからモデルを追加または削除します。
  2. 選択したモデルのグラフを表示するには、[ 品質とコスト ] タブと [ 品質とスループット] タブを選択します。
  3. [ メトリック間で比較 ] を選択して、各モデルのより詳細な結果にアクセスします。

品質、コスト、パフォーマンスのトレードオフのグラフを示すスクリーンショット。

シナリオ別にランキングを表示する

特定のモデル機能を必要とするシナリオがあるとします。 たとえば、適切な質問と回答と推論の機能を必要とする質問と回答のチャットボットを構築しているとします。 機能固有のベンチマークによってサポートされているこれらのランキングのモデルを比較すると便利な場合があります。

シナリオ別の品質ランキングを示すスクリーンショット。

ランキングを調べ終えたら、使用するモデルを決定できます。

モデル カードからベンチマークを表示する

  1. 好みに合わせてモデルを選択し、[ モデルの詳細] を選択します。 モデル ランキングホームページの上部にある品質ランキングなど、表示されているランキングの 1 つからモデルを選択できます。 この例では、 gpt-4o を選択します。 この操作でモデルの概要ページが開きます。

  2. [ ベンチマーク ] タブに移動して、モデルのベンチマーク結果を確認します。

    gpt-4o のベンチマーク タブを示すスクリーンショット。

  3. [ 他のモデルと比較する] を選択します。

  4. リスト ビュー に切り替えて、各モデルのより詳細な結果にアクセスします。

    ベンチマーク比較ビューの例を示すスクリーンショット。

ベンチマーク結果の分析

特定のモデルの [ベンチマーク] タブを開いているとき、ベンチマーク結果をより良く理解し、解釈できるよう、広範囲の情報を収集できます。

  • 高レベルの集計スコア: AI の品質、コスト、待機時間、スループットに関するこれらのスコアは、モデルのパフォーマンスの概要を簡単に示します。

  • 比較グラフ: これらのグラフには、関連するモデルと比較したモデルの相対位置が表示されます。

  • メトリック比較表: 次の表は、各メトリックの詳細な結果を示しています。

    gpt-4o のベンチマーク タブを示すスクリーンショット。

既定では、Azure AI Foundry では、さまざまなメトリックとデータセットの平均インデックスが表示され、モデル パフォーマンスの概要が提供されます。

特定のメトリックとデータセットのベンチマーク結果にアクセスするには:

  1. グラフ上の展開ボタンを選択します。 ポップアップ比較グラフには詳細情報が表示され、さらに柔軟な比較が可能になります。

    詳細な比較グラフを選択する展開ボタンを示すスクリーンショット。

  2. 目的のメトリックを選択し、特定のシナリオに基づいてさまざまなデータセットを選択します。 結果の計算に使用されるパブリック データセットのメトリックと説明の詳細な定義については、[ 詳細を読む] を選択します。

    特定のメトリックとデータセットを含む比較グラフを示すスクリーンショット。

データを使用してベンチマーク結果を評価する

前のセクションでは、パブリック データセットを使用して Microsoft によって計算されたベンチマーク結果を示しました。 ただし、データと同じメトリック セットを再生成してみることができます。

  1. モデル カードの [ ベンチマーク ] タブに戻ります。

  2. [ 独自のデータで試す ] を選択して 、データでモデルを評価します。 自分のデータで評価すると、特定のシナリオにおけるモデルのパフォーマンスがわかります。

    独自のデータを使用して評価するために選択するボタンを示すスクリーンショット。