Monitorování využití koncových bodů služby AI Gateway

Důležité

Tato funkce je v beta verzi. Správci účtu můžou řídit přístup k této funkci ze stránky Previews .

Tato stránka popisuje, jak monitorovat využití koncových bodů služby AI Gateway (Beta) pomocí systémové tabulky sledování využití.

Tabulka sledování využití automaticky zaznamenává podrobnosti požadavků a odpovědí pro koncový bod, protokolování základních metrik, jako je využití tokenu a latence. Data v této tabulce můžete použít k monitorování využití, sledování nákladů a získání přehledu o výkonu a spotřebě koncových bodů.

Požadavky

Pro váš účet je povolená verze Preview služby AI Gateway (beta verze).
Pracovní prostor Azure Databricks v regionu podporovaném funkcí AI Gateway (Beta).
Služba Unity Catalog je pro váš pracovní prostor povolená. Podívejte se na Povolení pracovního prostoru pro Unity Catalog.

Proveďte dotaz na tabulku využití

AI Gateway protokoluje data o využití do system.ai_gateway.usage systémové tabulky. Tabulku můžete zobrazit v uživatelském rozhraní nebo ji dotazovat z Databricks SQL nebo poznámkového bloku.

Poznámka:

K zobrazení nebo dotazování system.ai_gateway.usage tabulky mají oprávnění jenom správci účtu.

Pokud chcete zobrazit tabulku v uživatelském rozhraní, kliknutím na odkaz na tabulku sledování využití na stránce koncového bodu otevřete tabulku v Průzkumníku katalogu.

Dotazování tabulky z Databricks SQL nebo poznámkového bloku:

SELECT * FROM system.ai_gateway.usage;

Vestavěný řídicí panel využití

Import integrovaného řídicího panelu využití

Správci účtů můžou importovat integrovaný řídicí panel využití brány AI kliknutím na vytvořit řídicí panel na stránce AI Gateway a monitorovat využití, sledovat náklady a získat přehled o výkonu a spotřebě koncových bodů. Řídicí panel se publikuje s oprávněními správce účtu, což umožňuje uživatelům spouštět dotazy pomocí oprávnění vydavatele. Další podrobnosti najdete v tématu Publikování řídicího panelu . Správci účtů mohou také aktualizovat datový sklad použitý ke spouštění dotazů na řídicích panelech, což se vztahuje na všechny následující dotazy.

Tlačítko Vytvořit řídicí panel

Poznámka:

Import řídicího panelu je omezený na správce účtu, protože vyžaduje SELECT oprávnění k system.ai_gateway.usage tabulce. Data řídicího panelu podléhají usage zásadám uchovávání informací v tabulce. Viz Které systémové tabulky jsou k dispozici?.

Pokud chcete řídicí panel znovu načíst z nejnovější šablony, můžou správci účtu na stránce AI Gateway kliknout na Znovu importovat řídicí panel. Tím se řídicí panel aktualizuje o všechny nové vizualizace nebo vylepšení šablony při zachování konfigurace skladu.

Zobrazit řídicí panel využití

Pokud chcete řídicí panel zobrazit, klikněte na zobrazit řídicí panel ze stránky brány AI. Integrovaný řídicí panel poskytuje komplexní přehled o využití a výkonu koncového bodu služby AI Gateway. Zahrnuje více stránek sledujících požadavky, spotřebu tokenů, metriky latence, chybovost a aktivitu agenta kódování.

Tlačítko Zobrazit řídicí panel

Řídicí panel využití AI Gateway

Řídicí panel ve výchozím nastavení poskytuje analýzy napříč pracovními prostory. Všechny stránky řídicího panelu je možné filtrovat podle rozsahu dat a ID pracovního prostoru.

Karta Přehled: Zobrazuje metriky využití vysoké úrovně, včetně denního objemu požadavků, trendů využití tokenů v průběhu času, nejčastějších uživatelů podle spotřeby tokenů a celkového počtu jedinečných uživatelů. Na této kartě můžete získat rychlý snímek celkové aktivity brány AI a identifikovat nejaktivnější uživatele a modely.
Karta Výkon: Sleduje klíčové metriky výkonu, včetně percentilů latence (P50, P90, P95, P99), čas na první bajt, chybovost a distribuce stavových kódů HTTP. Na této kartě můžete monitorovat stav koncového bodu a identifikovat kritické body výkonu nebo problémy se spolehlivostí.
Karta Využití: Zobrazuje podrobné rozpisy spotřeby podle koncového bodu, pracovního prostoru a žadatele. Tato karta zobrazuje vzorce využití tokenů, distribuce požadavků a poměry přístupů do mezipaměti, které vám pomůžou analyzovat a optimalizovat náklady.
Záložka Programovací agenti: Sleduje aktivitu od integrovaných programovacích agentů, včetně Kurzor, Claude Code, Gemini CLI a Codex CLI. Tato karta zobrazuje metriky, jako jsou aktivní dny, programovací relace, potvrzení a řádky přidaného nebo odebraného kódu pro monitorování využití vývojářských nástrojů. Další podrobnosti najdete na řídicím panelu agenta kódování .

Schéma tabulky využití

Tabulka system.ai_gateway.usage má následující schéma:

Název sloupce	Typ	Description	Example
`account_id`	STRING	ID účtu.	`11d77e21-5e05-4196-af72-423257f74974`
`workspace_id`	STRING	Identifikátor pracovního prostoru.	`1653573648247579`
`request_id`	STRING	Jedinečný identifikátor požadavku.	`b4a47a30-0e18-4ae3-9a7f-29bcb07e0f00`
`schema_version`	INTEGER	Verze schématu záznamu využití.	`1`
`endpoint_id`	STRING	Jedinečné ID koncového bodu brány AI.	`43addf89-d802-3ca2-bd54-fe4d2a60d58a`
`endpoint_name`	STRING	Název koncového bodu brány AI.	`databricks-gpt-5-2`
`endpoint_tags`	MAP	Značky přidružené ke koncovému bodu	`{"team": "engineering"}`
`endpoint_metadata`	STRUCT	Metadata koncových bodů, včetně `creator`, `creation_time`, `last_updated_time`, `destinations`, `inference_table`, a `fallbacks`.	`{"creator": "user.name@email.com", "creation_time": "2026-01-06T12:00:00.000Z", ...}`
`event_time`	ČASOVÁ ZNAČKA	Časové razítko, kdy byl požadavek přijat.	`2026-01-20T19:48:08.000+00:00`
`latency_ms`	LONG	Celková latence v milisekundách.	`300`
`time_to_first_byte_ms`	LONG	Čas na první bajt v milisekundách.	`300`
`destination_type`	STRING	Typ cíle (například externí model nebo základní model).	`PAY_PER_TOKEN_FOUNDATION_MODEL`
`destination_name`	STRING	Název cílového modelu nebo zprostředkovatele.	`databricks-gpt-5-2`
`destination_id`	STRING	Jedinečné ID cíle.	`507e7456151b3cc89e05ff48161efb87`
`destination_model`	STRING	Konkrétní model použitý pro požadavek.	`GPT-5.2`
`requester`	STRING	ID uživatele nebo služebního objektu, který požadavek provedl.	`user.name@email.com`
`requester_type`	STRING	Typ žadatele (uživatel, instanční objekt nebo skupina uživatelů).	`USER`
`ip_address`	STRING	IP adresa žadatele.	`1.2.3.4`
`url`	STRING	Adresa URL požadavku.	`https://<ai-gateway-url>/mlflow/v1/chat/completions`
`user_agent`	STRING	Uživatelský agent žadatele.	`OpenAI/Python 2.13.0`
`api_type`	STRING	Typ volání rozhraní API (například chat, dokončování nebo vkládání).	`mlflow/v1/chat/completions`
`request_tags`	MAP	Značky přidružené k požadavku.	`{"team": "engineering"}`
`input_tokens`	LONG	Počet vstupních tokenů.	`100`
`output_tokens`	LONG	Počet výstupních tokenů	`100`
`total_tokens`	LONG	Celkový počet tokenů (vstup + výstup).	`200`
`token_details`	STRUCT	Podrobný rozpis tokenů včetně `cache_read_input_tokens`, `cache_creation_input_tokens`a `output_reasoning_tokens`.	`{"cache_read_input_tokens": 100, ...}`
`response_content_type`	STRING	Typ obsahu odpovědi.	`application/json`
`status_code`	INT	HTTP stavový kód odpovědi.	`200`
`routing_information`	STRUCT	Detaily směrování pro záložní pokusy. `attempts` Obsahuje pole s `priority`, `action`, `destination`, `destination_id`, `status_code`, `error_code`, `latency_ms`, `start_time` a `end_time` pro každý model zkoušený během požadavku.	`{"attempts": [{"priority": "1", ...}]}`

Další kroky

Váš názor

Byla tato stránka užitečná?

Last updated on 2026-02-14