Sdílet prostřednictvím


Monitorování využití koncových bodů služby AI Gateway

Důležité

Tato funkce je v beta verzi. Správci účtu můžou řídit přístup k této funkci ze stránky Previews .

Tato stránka popisuje, jak monitorovat využití koncových bodů služby AI Gateway (Beta) pomocí systémové tabulky sledování využití.

Tabulka sledování využití automaticky zaznamenává podrobnosti požadavků a odpovědí pro koncový bod, protokolování základních metrik, jako je využití tokenu a latence. Data v této tabulce můžete použít k monitorování využití, sledování nákladů a získání přehledu o výkonu a spotřebě koncových bodů.

Požadavky

  • Pro váš účet je povolená verze Preview služby AI Gateway (beta verze).
  • Pracovní prostor Azure Databricks v regionu podporovaném funkcí AI Gateway (Beta).
  • Služba Unity Catalog je pro váš pracovní prostor povolená. Podívejte se na Povolení pracovního prostoru pro Unity Catalog.

Proveďte dotaz na tabulku využití

AI Gateway protokoluje data o využití do system.ai_gateway.usage systémové tabulky. Tabulku můžete zobrazit v uživatelském rozhraní nebo ji dotazovat z Databricks SQL nebo poznámkového bloku.

Poznámka:

K zobrazení nebo dotazování system.ai_gateway.usage tabulky mají oprávnění jenom správci účtu.

Pokud chcete zobrazit tabulku v uživatelském rozhraní, kliknutím na odkaz na tabulku sledování využití na stránce koncového bodu otevřete tabulku v Průzkumníku katalogu.

Dotazování tabulky z Databricks SQL nebo poznámkového bloku:

SELECT * FROM system.ai_gateway.usage;

Vestavěný řídicí panel využití

Import integrovaného řídicího panelu využití

Správci účtů můžou importovat integrovaný řídicí panel využití brány AI kliknutím na vytvořit řídicí panel na stránce AI Gateway a monitorovat využití, sledovat náklady a získat přehled o výkonu a spotřebě koncových bodů. Řídicí panel se publikuje s oprávněními správce účtu, což umožňuje uživatelům spouštět dotazy pomocí oprávnění vydavatele. Další podrobnosti najdete v tématu Publikování řídicího panelu . Správci účtů mohou také aktualizovat datový sklad použitý ke spouštění dotazů na řídicích panelech, což se vztahuje na všechny následující dotazy.

Tlačítko Vytvořit řídicí panel

Poznámka:

Import řídicího panelu je omezený na správce účtu, protože vyžaduje SELECT oprávnění k system.ai_gateway.usage tabulce. Data řídicího panelu podléhají usage zásadám uchovávání informací v tabulce. Viz Které systémové tabulky jsou k dispozici?.

Pokud chcete řídicí panel znovu načíst z nejnovější šablony, můžou správci účtu na stránce AI Gateway kliknout na Znovu importovat řídicí panel. Tím se řídicí panel aktualizuje o všechny nové vizualizace nebo vylepšení šablony při zachování konfigurace skladu.

Zobrazit řídicí panel využití

Pokud chcete řídicí panel zobrazit, klikněte na zobrazit řídicí panel ze stránky brány AI. Integrovaný řídicí panel poskytuje komplexní přehled o využití a výkonu koncového bodu služby AI Gateway. Zahrnuje více stránek sledujících požadavky, spotřebu tokenů, metriky latence, chybovost a aktivitu agenta kódování.

Tlačítko Zobrazit řídicí panel

Řídicí panel využití AI Gateway

Řídicí panel ve výchozím nastavení poskytuje analýzy napříč pracovními prostory. Všechny stránky řídicího panelu je možné filtrovat podle rozsahu dat a ID pracovního prostoru.

  • Karta Přehled: Zobrazuje metriky využití vysoké úrovně, včetně denního objemu požadavků, trendů využití tokenů v průběhu času, nejčastějších uživatelů podle spotřeby tokenů a celkového počtu jedinečných uživatelů. Na této kartě můžete získat rychlý snímek celkové aktivity brány AI a identifikovat nejaktivnější uživatele a modely.
  • Karta Výkon: Sleduje klíčové metriky výkonu, včetně percentilů latence (P50, P90, P95, P99), čas na první bajt, chybovost a distribuce stavových kódů HTTP. Na této kartě můžete monitorovat stav koncového bodu a identifikovat kritické body výkonu nebo problémy se spolehlivostí.
  • Karta Využití: Zobrazuje podrobné rozpisy spotřeby podle koncového bodu, pracovního prostoru a žadatele. Tato karta zobrazuje vzorce využití tokenů, distribuce požadavků a poměry přístupů do mezipaměti, které vám pomůžou analyzovat a optimalizovat náklady.
  • Záložka Programovací agenti: Sleduje aktivitu od integrovaných programovacích agentů, včetně Kurzor, Claude Code, Gemini CLI a Codex CLI. Tato karta zobrazuje metriky, jako jsou aktivní dny, programovací relace, potvrzení a řádky přidaného nebo odebraného kódu pro monitorování využití vývojářských nástrojů. Další podrobnosti najdete na řídicím panelu agenta kódování .

Schéma tabulky využití

Tabulka system.ai_gateway.usage má následující schéma:

Název sloupce Typ Description Example
account_id STRING ID účtu. 11d77e21-5e05-4196-af72-423257f74974
workspace_id STRING Identifikátor pracovního prostoru. 1653573648247579
request_id STRING Jedinečný identifikátor požadavku. b4a47a30-0e18-4ae3-9a7f-29bcb07e0f00
schema_version INTEGER Verze schématu záznamu využití. 1
endpoint_id STRING Jedinečné ID koncového bodu brány AI. 43addf89-d802-3ca2-bd54-fe4d2a60d58a
endpoint_name STRING Název koncového bodu brány AI. databricks-gpt-5-2
endpoint_tags MAP Značky přidružené ke koncovému bodu {"team": "engineering"}
endpoint_metadata STRUCT Metadata koncových bodů, včetně creator, creation_time, last_updated_time, destinations, inference_table, a fallbacks. {"creator": "user.name@email.com", "creation_time": "2026-01-06T12:00:00.000Z", ...}
event_time ČASOVÁ ZNAČKA Časové razítko, kdy byl požadavek přijat. 2026-01-20T19:48:08.000+00:00
latency_ms LONG Celková latence v milisekundách. 300
time_to_first_byte_ms LONG Čas na první bajt v milisekundách. 300
destination_type STRING Typ cíle (například externí model nebo základní model). PAY_PER_TOKEN_FOUNDATION_MODEL
destination_name STRING Název cílového modelu nebo zprostředkovatele. databricks-gpt-5-2
destination_id STRING Jedinečné ID cíle. 507e7456151b3cc89e05ff48161efb87
destination_model STRING Konkrétní model použitý pro požadavek. GPT-5.2
requester STRING ID uživatele nebo služebního objektu, který požadavek provedl. user.name@email.com
requester_type STRING Typ žadatele (uživatel, instanční objekt nebo skupina uživatelů). USER
ip_address STRING IP adresa žadatele. 1.2.3.4
url STRING Adresa URL požadavku. https://<ai-gateway-url>/mlflow/v1/chat/completions
user_agent STRING Uživatelský agent žadatele. OpenAI/Python 2.13.0
api_type STRING Typ volání rozhraní API (například chat, dokončování nebo vkládání). mlflow/v1/chat/completions
request_tags MAP Značky přidružené k požadavku. {"team": "engineering"}
input_tokens LONG Počet vstupních tokenů. 100
output_tokens LONG Počet výstupních tokenů 100
total_tokens LONG Celkový počet tokenů (vstup + výstup). 200
token_details STRUCT Podrobný rozpis tokenů včetně cache_read_input_tokens, cache_creation_input_tokensa output_reasoning_tokens. {"cache_read_input_tokens": 100, ...}
response_content_type STRING Typ obsahu odpovědi. application/json
status_code INT HTTP stavový kód odpovědi. 200
routing_information STRUCT Detaily směrování pro záložní pokusy. attempts Obsahuje pole s priority, action, destination, destination_id, status_code, error_code, latency_ms, start_time a end_time pro každý model zkoušený během požadavku. {"attempts": [{"priority": "1", ...}]}

Další kroky