次の方法で共有


AI ゲートウェイ エンドポイントの使用状況を監視する

Important

この機能は ベータ版です。 アカウント管理者は、[ プレビュー] ページからこの機能へのアクセスを制御できます。

このページでは、使用状況追跡システム テーブルを使用して 、AI ゲートウェイ (ベータ) エンドポイントの使用状況を監視する方法について説明します。

使用状況追跡テーブルでは、エンドポイントの要求と応答の詳細が自動的にキャプチャされ、トークンの使用状況や待機時間などの重要なメトリックがログに記録されます。 この表のデータを使用して、使用状況を監視し、コストを追跡し、エンドポイントのパフォーマンスと使用量に関する分析情報を得ることができます。

Requirements

使用状況テーブルのクエリを実行する

AI Gateway は、使用状況データを system.ai_gateway.usage システム テーブルに記録します。 UI でテーブルを表示したり、Databricks SQL またはノートブックからテーブルにクエリを実行したりすることもできます。

system.ai_gateway.usage テーブルを表示または照会するアクセス許可を持つのは、アカウント管理者だけです。

UI でテーブルを表示するには、エンドポイント ページの [使用状況追跡テーブル] リンクをクリックして、カタログ エクスプローラーでテーブルを開きます。

Databricks SQL またはノートブックからテーブルにクエリを実行するには:

SELECT * FROM system.ai_gateway.usage;

組み込みの使用状況ダッシュボード

組み込みの使用状況ダッシュボードをインポートする

アカウント管理者は、[AI Gateway] ページの [ ダッシュボードの作成 ] をクリックして、組み込みの AI Gateway 使用状況ダッシュボードをインポートして使用状況を監視し、コストを追跡し、エンドポイントのパフォーマンスと使用量に関する分析情報を得ることができます。 ダッシュボードはアカウント管理者のアクセス許可で公開され、閲覧者は発行元のアクセス許可を使用してクエリを実行できます。 詳細については、「 ダッシュボードを発行する 」を参照してください。 アカウント管理者は、ダッシュボード クエリの実行に使用されるウェアハウスを更新することもできます。これは、後続のすべてのクエリに適用されます。

[ダッシュボードの作成] ボタン

ダッシュボードのインポートは、SELECT テーブルに対するsystem.ai_gateway.usageアクセス許可を必要とするため、アカウント管理者に制限されます。 ダッシュボードのデータは、 usage テーブルのアイテム保持ポリシーの対象となります。 「使用できるシステム テーブルはどれですか?」を参照してください。

最新のテンプレートからダッシュボードを再読み込みするには、アカウント管理者が [AI ゲートウェイ] ページで [ダッシュボードの再インポート ] をクリックします。 これにより、ウェアハウスの構成を維持しながら、テンプレートからの新しい視覚化や改善によってダッシュボードが更新されます。

使用状況ダッシュボードを表示する

ダッシュボードを表示するには、[AI ゲートウェイ] ページで [ ダッシュボードの表示 ] をクリックします。 組み込みのダッシュボードでは、AI Gateway エンドポイントの使用状況とパフォーマンスを包括的に把握できます。 これには、要求の追跡、トークンの使用量、待機時間のメトリック、エラー率、およびコーディング エージェント アクティビティを追跡する複数のページが含まれます。

[ダッシュボードの表示] ボタン

AI ゲートウェイの使用状況ダッシュボード

ダッシュボードでは、既定でクロスワークスペース分析が提供されます。 すべてのダッシュボード ページは、日付範囲とワークスペース ID でフィルター処理できます。

  • [概要] タブ: 毎日の要求量、時間の経過に伴うトークン使用量の傾向、トークン消費量別の上位ユーザー数、一意のユーザー数の合計など、高レベルの使用状況メトリックが表示されます。 このタブを使用して、AI Gateway の全体的なアクティビティのクイック スナップショットを取得し、最もアクティブなユーザーとモデルを特定します。
  • [パフォーマンス] タブ: 待機時間のパーセンタイル (P50、P90、P95、P99)、最初のバイトまでの時間、エラー率、HTTP 状態コードの分布など、主要なパフォーマンス メトリックを追跡します。 このタブを使用して、エンドポイントの正常性を監視し、パフォーマンスのボトルネックや信頼性の問題を特定します。
  • [使用状況] タブ: エンドポイント、ワークスペース、リクエスターごとの詳細な消費量の内訳が表示されます。 このタブには、トークンの使用パターン、要求の分散、キャッシュ ヒット率が表示され、コストの分析と最適化に役立ちます。
  • [コーディング エージェント] タブ: Cursor、Claude Code、Gemini CLI、Codex CLI などの統合コーディング エージェントからのアクティビティを追跡します。 このタブには、アクティブな日、コーディング セッション、コミット、開発者ツールの使用状況を監視するために追加または削除されたコード行などのメトリックが表示されます。 詳細については、 コーディング エージェント ダッシュボード を参照してください。

使用状況テーブルスキーマ

system.ai_gateway.usage テーブルには、次のスキーマがあります。

列名 タイプ Description
account_id STRING アカウント ID。 11d77e21-5e05-4196-af72-423257f74974
workspace_id STRING ワークスペース ID。 1653573648247579
request_id STRING 要求の一意の識別子。 b4a47a30-0e18-4ae3-9a7f-29bcb07e0f00
schema_version INTEGER 使用レコードのスキーマ バージョン。 1
endpoint_id STRING AI ゲートウェイ エンドポイントの一意の ID。 43addf89-d802-3ca2-bd54-fe4d2a60d58a
endpoint_name STRING AI ゲートウェイ エンドポイントの名前。 databricks-gpt-5-2
endpoint_tags MAP エンドポイントに関連付けられているタグ。 {"team": "engineering"}
endpoint_metadata STRUCT creatorcreation_timelast_updated_timedestinationsinference_tablefallbacksなどのエンドポイント メタデータ。 {"creator": "user.name@email.com", "creation_time": "2026-01-06T12:00:00.000Z", ...}
event_time TIMESTAMP 要求が受信されたときのタイムスタンプ。 2026-01-20T19:48:08.000+00:00
latency_ms LONG 合計待機時間 (ミリ秒)。 300
time_to_first_byte_ms LONG 最初のバイトまでの時間 (ミリ秒)。 300
destination_type STRING 変換先の種類 (外部モデルや基礎モデルなど)。 PAY_PER_TOKEN_FOUNDATION_MODEL
destination_name STRING 変換先モデルまたはプロバイダーの名前。 databricks-gpt-5-2
destination_id STRING 宛先の一意の ID。 507e7456151b3cc89e05ff48161efb87
destination_model STRING 要求に使用される特定のモデル。 GPT-5.2
requester STRING 要求を行ったユーザーまたはサービス プリンシパルの ID。 user.name@email.com
requester_type STRING 要求元の種類 (ユーザー、サービス プリンシパル、またはユーザー グループ)。 USER
ip_address STRING 要求元の IP アドレス。 1.2.3.4
url STRING 要求の URL。 https://<ai-gateway-url>/mlflow/v1/chat/completions
user_agent STRING 要求元のユーザー エージェント。 OpenAI/Python 2.13.0
api_type STRING API 呼び出しの種類 (チャット、完了、埋め込みなど)。 mlflow/v1/chat/completions
request_tags MAP 要求に関連付けられているタグ。 {"team": "engineering"}
input_tokens LONG 入力トークンの数。 100
output_tokens LONG 出力トークンの数。 100
total_tokens LONG トークンの合計数 (入力 + 出力)。 200
token_details STRUCT cache_read_input_tokenscache_creation_input_tokensoutput_reasoning_tokensなどの詳細なトークンの内訳。 {"cache_read_input_tokens": 100, ...}
response_content_type STRING 応答のコンテンツ タイプ。 application/json
status_code INT レスポンスのHTTPステータスコード。 200
routing_information STRUCT フォールバック試行のルーティングの詳細。 要求中に試行された各モデルのattemptspriorityactiondestinationdestination_idstatus_codeerror_codelatency_ms、およびstart_timeを含むend_time配列が含まれます。 {"attempts": [{"priority": "1", ...}]}

次のステップ