AI ゲートウェイエンドポイントの使用状況を監視する

Important

この機能はベータ版です。アカウント管理者は、[ プレビュー] ページからこの機能へのアクセスを制御できます。

このページでは、使用状況追跡システムテーブルを使用して、AI ゲートウェイ (ベータ) エンドポイントの使用状況を監視する方法について説明します。

使用状況追跡テーブルでは、エンドポイントの要求と応答の詳細が自動的にキャプチャされ、トークンの使用状況や待機時間などの重要なメトリックがログに記録されます。この表のデータを使用して、使用状況を監視し、コストを追跡し、エンドポイントのパフォーマンスと使用量に関する分析情報を得ることができます。

Requirements

アカウントに対して有効になっている AI ゲートウェイ (ベータ) プレビュー。
AI ゲートウェイ (ベータ) でサポートされているリージョン内の Azure Databricks ワークスペース。
ワークスペースに対して有効になっている Unity カタログ。「Unity Catalog のワークスペースを有効にする」を参照してください。

使用状況テーブルのクエリを実行する

AI Gateway は、使用状況データを system.ai_gateway.usage システムテーブルに記録します。 UI でテーブルを表示したり、Databricks SQL またはノートブックからテーブルにクエリを実行したりすることもできます。

注

system.ai_gateway.usage テーブルを表示または照会するアクセス許可を持つのは、アカウント管理者だけです。

UI でテーブルを表示するには、エンドポイントページの [使用状況追跡テーブル] リンクをクリックして、カタログエクスプローラーでテーブルを開きます。

Databricks SQL またはノートブックからテーブルにクエリを実行するには:

SELECT * FROM system.ai_gateway.usage;

組み込みの使用状況ダッシュボード

組み込みの使用状況ダッシュボードをインポートする

アカウント管理者は、[AI Gateway] ページの [ ダッシュボードの作成 ] をクリックして、組み込みの AI Gateway 使用状況ダッシュボードをインポートして使用状況を監視し、コストを追跡し、エンドポイントのパフォーマンスと使用量に関する分析情報を得ることができます。ダッシュボードはアカウント管理者のアクセス許可で公開され、閲覧者は発行元のアクセス許可を使用してクエリを実行できます。詳細については、「ダッシュボードを発行する」を参照してください。アカウント管理者は、ダッシュボードクエリの実行に使用されるウェアハウスを更新することもできます。これは、後続のすべてのクエリに適用されます。

[ダッシュボードの作成] ボタン

注

ダッシュボードのインポートは、SELECT テーブルに対するsystem.ai_gateway.usageアクセス許可を必要とするため、アカウント管理者に制限されます。ダッシュボードのデータは、 usage テーブルのアイテム保持ポリシーの対象となります。「使用できるシステムテーブルはどれですか?」を参照してください。

最新のテンプレートからダッシュボードを再読み込みするには、アカウント管理者が [AI ゲートウェイ] ページで [ダッシュボードの再インポート ] をクリックします。これにより、ウェアハウスの構成を維持しながら、テンプレートからの新しい視覚化や改善によってダッシュボードが更新されます。

使用状況ダッシュボードを表示する

ダッシュボードを表示するには、[AI ゲートウェイ] ページで [ ダッシュボードの表示 ] をクリックします。組み込みのダッシュボードでは、AI Gateway エンドポイントの使用状況とパフォーマンスを包括的に把握できます。これには、要求の追跡、トークンの使用量、待機時間のメトリック、エラー率、およびコーディングエージェントアクティビティを追跡する複数のページが含まれます。

[ダッシュボードの表示] ボタン

AI ゲートウェイの使用状況ダッシュボード

ダッシュボードでは、既定でクロスワークスペース分析が提供されます。すべてのダッシュボードページは、日付範囲とワークスペース ID でフィルター処理できます。

[概要] タブ: 毎日の要求量、時間の経過に伴うトークン使用量の傾向、トークン消費量別の上位ユーザー数、一意のユーザー数の合計など、高レベルの使用状況メトリックが表示されます。このタブを使用して、AI Gateway の全体的なアクティビティのクイックスナップショットを取得し、最もアクティブなユーザーとモデルを特定します。
[パフォーマンス] タブ: 待機時間のパーセンタイル (P50、P90、P95、P99)、最初のバイトまでの時間、エラー率、HTTP 状態コードの分布など、主要なパフォーマンスメトリックを追跡します。このタブを使用して、エンドポイントの正常性を監視し、パフォーマンスのボトルネックや信頼性の問題を特定します。
[使用状況] タブ: エンドポイント、ワークスペース、リクエスターごとの詳細な消費量の内訳が表示されます。このタブには、トークンの使用パターン、要求の分散、キャッシュヒット率が表示され、コストの分析と最適化に役立ちます。
[コーディングエージェント] タブ: Cursor、Claude Code、Gemini CLI、Codex CLI などの統合コーディングエージェントからのアクティビティを追跡します。このタブには、アクティブな日、コーディングセッション、コミット、開発者ツールの使用状況を監視するために追加または削除されたコード行などのメトリックが表示されます。詳細については、コーディングエージェントダッシュボードを参照してください。

使用状況テーブルスキーマ

system.ai_gateway.usage テーブルには、次のスキーマがあります。

列名	タイプ	Description	例
`account_id`	STRING	アカウント ID。	`11d77e21-5e05-4196-af72-423257f74974`
`workspace_id`	STRING	ワークスペース ID。	`1653573648247579`
`request_id`	STRING	要求の一意の識別子。	`b4a47a30-0e18-4ae3-9a7f-29bcb07e0f00`
`schema_version`	INTEGER	使用レコードのスキーマバージョン。	`1`
`endpoint_id`	STRING	AI ゲートウェイエンドポイントの一意の ID。	`43addf89-d802-3ca2-bd54-fe4d2a60d58a`
`endpoint_name`	STRING	AI ゲートウェイエンドポイントの名前。	`databricks-gpt-5-2`
`endpoint_tags`	MAP	エンドポイントに関連付けられているタグ。	`{"team": "engineering"}`
`endpoint_metadata`	STRUCT	`creator`、`creation_time`、`last_updated_time`、`destinations`、`inference_table`、`fallbacks`などのエンドポイントメタデータ。	`{"creator": "user.name@email.com", "creation_time": "2026-01-06T12:00:00.000Z", ...}`
`event_time`	TIMESTAMP	要求が受信されたときのタイムスタンプ。	`2026-01-20T19:48:08.000+00:00`
`latency_ms`	LONG	合計待機時間 (ミリ秒)。	`300`
`time_to_first_byte_ms`	LONG	最初のバイトまでの時間 (ミリ秒)。	`300`
`destination_type`	STRING	変換先の種類 (外部モデルや基礎モデルなど)。	`PAY_PER_TOKEN_FOUNDATION_MODEL`
`destination_name`	STRING	変換先モデルまたはプロバイダーの名前。	`databricks-gpt-5-2`
`destination_id`	STRING	宛先の一意の ID。	`507e7456151b3cc89e05ff48161efb87`
`destination_model`	STRING	要求に使用される特定のモデル。	`GPT-5.2`
`requester`	STRING	要求を行ったユーザーまたはサービスプリンシパルの ID。	`user.name@email.com`
`requester_type`	STRING	要求元の種類 (ユーザー、サービスプリンシパル、またはユーザーグループ)。	`USER`
`ip_address`	STRING	要求元の IP アドレス。	`1.2.3.4`
`url`	STRING	要求の URL。	`https://<ai-gateway-url>/mlflow/v1/chat/completions`
`user_agent`	STRING	要求元のユーザーエージェント。	`OpenAI/Python 2.13.0`
`api_type`	STRING	API 呼び出しの種類 (チャット、完了、埋め込みなど)。	`mlflow/v1/chat/completions`
`request_tags`	MAP	要求に関連付けられているタグ。	`{"team": "engineering"}`
`input_tokens`	LONG	入力トークンの数。	`100`
`output_tokens`	LONG	出力トークンの数。	`100`
`total_tokens`	LONG	トークンの合計数 (入力 + 出力)。	`200`
`token_details`	STRUCT	`cache_read_input_tokens`、`cache_creation_input_tokens`、`output_reasoning_tokens`などの詳細なトークンの内訳。	`{"cache_read_input_tokens": 100, ...}`
`response_content_type`	STRING	応答のコンテンツタイプ。	`application/json`
`status_code`	INT	レスポンスのHTTPステータスコード。	`200`
`routing_information`	STRUCT	フォールバック試行のルーティングの詳細。要求中に試行された各モデルの`attempts`、`priority`、`action`、`destination`、`destination_id`、`status_code`、`error_code`、`latency_ms`、および`start_time`を含む`end_time`配列が含まれます。	`{"attempts": [{"priority": "1", ...}]}`

次のステップ

フィードバック

このページはお役に立ちましたか?

Last updated on 2026-02-14