Monitorowanie użycia punktów końcowych AI Gateway

Ważne

Ta funkcja jest dostępna w wersji beta. Administratorzy kont mogą kontrolować dostęp do tej funkcji ze strony Podglądy .

Na tej stronie opisano sposób monitorowania użycia punktów końcowych bramy sztucznej inteligencji (beta) przy użyciu tabeli systemu śledzenia użycia.

Tabela śledzenia użycia automatycznie przechwytuje szczegóły żądania i odpowiedzi dla punktu końcowego, rejestruje podstawowe metryki, takie jak użycie tokenu i opóźnienie. Dane w tej tabeli umożliwiają monitorowanie użycia, śledzenie kosztów i uzyskiwanie szczegółowych informacji na temat wydajności i zużycia punktów końcowych.

Requirements

Usługa AI Gateway (wersja beta) w wersji zapoznawczej jest włączona dla Twojego konta.
Obszar roboczy usługi Azure Databricks w obsługiwanym regionie AI Gateway (beta).
Unity Catalog jest włączony dla obszaru roboczego. Zobacz Umożliwienie obszaru roboczego dla Unity Catalog.

Zapytanie do tabeli użycia

Gateway AI rejestruje dane dotyczące użycia w tabeli systemowej system.ai_gateway.usage. Tabelę można wyświetlić w interfejsie użytkownika lub wykonać zapytanie za pomocą Databricks SQL albo notebooka.

Uwaga / Notatka

Tylko administratorzy kont mają uprawnienia do wyświetlania lub wykonywania zapytań dotyczących system.ai_gateway.usage tabeli.

Aby wyświetlić tabelę w interfejsie użytkownika, kliknij link tabeli monitorowania użycia na stronie punktu końcowego, aby otworzyć tabelę w Eksploratorze Katalogu.

Aby wysłać zapytanie do tabeli z bazy danych Databricks SQL lub notesu:

SELECT * FROM system.ai_gateway.usage;

Wbudowany dashboard dla użycia

Importowanie wbudowanego pulpitu nawigacyjnego użycia

Administratorzy kont mogą importować wbudowany pulpit nawigacyjny bramy AI, klikając pozycję Utwórz pulpit nawigacyjny na stronie bramy AI, aby monitorować użycie, śledzić koszty i uzyskiwać wgląd w wydajność i zużycie punktów końcowych. Pulpit nawigacyjny jest publikowany z uprawnieniami administratora konta, co umożliwia osobom przeglądającym uruchamianie zapytań przy użyciu uprawnień wydawcy. Aby uzyskać więcej informacji, zobacz Opublikuj pulpit nawigacyjny. Administratorzy konta mogą również zaktualizować magazyn używany do uruchamiania zapytań pulpitu nawigacyjnego, które mają zastosowanie do wszystkich kolejnych zapytań.

Przycisk Utwórz pulpit nawigacyjny

Uwaga / Notatka

Importowanie panelu sterowania jest ograniczone do administratorów kont, ponieważ wymaga uprawnień SELECT dla tabeli system.ai_gateway.usage. Dane pulpitu nawigacyjnego usage podlegają zasadom przechowywania tabeli. Zobacz Które tabele systemowe są dostępne?.

Aby ponownie załadować pulpit nawigacyjny z najnowszego szablonu, administratorzy kont mogą kliknąć pozycję Ponownie zaimportuj pulpit nawigacyjny na stronie bramy AI. Spowoduje to zaktualizowanie pulpitu nawigacyjnego przy użyciu nowych wizualizacji lub ulepszeń szablonu przy jednoczesnym zachowaniu konfiguracji magazynu.

Zobacz panel użycia

Aby wyświetlić pulpit nawigacyjny, kliknij pozycję Wyświetl pulpit nawigacyjny na stronie bramy sztucznej inteligencji. Wbudowany pulpit nawigacyjny zapewnia pełny wgląd w użycie i wydajność punktu końcowego AI Gateway. Obejmuje ona wiele stron śledzących żądania, użycie tokenu, metryki opóźnień, współczynniki błędów i działanie agenta kodowania.

Przycisk Wyświetl pulpit nawigacyjny

Pulpit nawigacyjny użycia bramy sztucznej inteligencji

Pulpit nawigacyjny domyślnie udostępnia analizę między obszarami roboczymi. Wszystkie strony pulpitu nawigacyjnego można filtrować według zakresu dat i identyfikatora obszaru roboczego.

Karta Przegląd: pokazuje ogólne metryki użycia, w tym dzienny wolumen żądań, trendy użycia tokenów w czasie, najlepsi użytkownicy według zużycia tokenów oraz łączną liczbę unikatowych użytkowników. Użyj tej zakładki, aby uzyskać szybki przegląd ogólnej aktywności AI Gateway i zidentyfikować najbardziej aktywnych użytkowników oraz modele.
Karta Wydajność: śledzi kluczowe metryki wydajności, w tym percentyle opóźnienia (P50, P90, P95, P99), czas pierwszego bajtu, współczynniki błędów i dystrybucje kodu stanu HTTP. Użyj tej karty do monitorowania kondycji punktu końcowego i identyfikowania wąskich gardeł wydajności lub problemów z niezawodnością.
Karta Użycie: przedstawia szczegółowe podziały użycia według punktu końcowego, obszaru roboczego i obiektu żądającego. Na tej karcie przedstawiono wzorce użycia tokenów, dystrybucje żądań i współczynniki trafień pamięci podręcznej, aby ułatwić analizowanie i optymalizowanie kosztów.
Karta agentów kodowania: śledzi aktywność zintegrowanych agentów kodowania, w tym Cursor, Claude Code, interfejs wiersza polecenia (CLI) Gemini i CLI Codex. Na tej karcie są wyświetlane metryki, takie jak dni aktywne, sesje kodowania, zatwierdzenia i wiersze kodu dodane lub usunięte w celu monitorowania użycia narzędzi deweloperskich. Aby uzyskać więcej informacji, zobacz Pulpit nawigacyjny agenta kodowania .

Schemat tabeli użycia

Tabela system.ai_gateway.usage ma następujący schemat:

Nazwa kolumny	Typ	Opis	Example
`account_id`	STRING	Identyfikator konta.	`11d77e21-5e05-4196-af72-423257f74974`
`workspace_id`	STRING	Identyfikator przestrzeni roboczej.	`1653573648247579`
`request_id`	STRING	Unikatowy identyfikator żądania.	`b4a47a30-0e18-4ae3-9a7f-29bcb07e0f00`
`schema_version`	INTEGER	Wersja schematu rekordu użycia.	`1`
`endpoint_id`	STRING	Unikatowy identyfikator punktu końcowego bramy AI.	`43addf89-d802-3ca2-bd54-fe4d2a60d58a`
`endpoint_name`	STRING	Nazwa punktu końcowego bramy sztucznej inteligencji.	`databricks-gpt-5-2`
`endpoint_tags`	MAP	Tagi skojarzone z punktem końcowym.	`{"team": "engineering"}`
`endpoint_metadata`	STRUCT	Metadane punktu końcowego, w tym `creator`, `creation_time`, `last_updated_time`, `destinations`, `inference_table` i `fallbacks`.	`{"creator": "user.name@email.com", "creation_time": "2026-01-06T12:00:00.000Z", ...}`
`event_time`	TIMESTAMP	Sygnatura czasowa odebrania żądania.	`2026-01-20T19:48:08.000+00:00`
`latency_ms`	LONG	Łączne opóźnienie w milisekundach.	`300`
`time_to_first_byte_ms`	LONG	Czas do pierwszego bajtu w milisekundach.	`300`
`destination_type`	STRING	Typ miejsca docelowego (na przykład model zewnętrzny lub model podstawowy).	`PAY_PER_TOKEN_FOUNDATION_MODEL`
`destination_name`	STRING	Nazwa modelu docelowego lub dostawcy.	`databricks-gpt-5-2`
`destination_id`	STRING	Unikatowy identyfikator miejsca docelowego.	`507e7456151b3cc89e05ff48161efb87`
`destination_model`	STRING	Określony model używany w ramach żądania.	`GPT-5.2`
`requester`	STRING	Identyfikator użytkownika lub jednostki usługi, która złożyła żądanie.	`user.name@email.com`
`requester_type`	STRING	Typ obiektu żądającego (użytkownik, jednostka usługi lub grupa użytkowników).	`USER`
`ip_address`	STRING	Adres IP obiektu żądającego.	`1.2.3.4`
`url`	STRING	Adres URL żądania.	`https://<ai-gateway-url>/mlflow/v1/chat/completions`
`user_agent`	STRING	Agent użytkownika żądającego.	`OpenAI/Python 2.13.0`
`api_type`	STRING	Typ wywołania interfejsu API (na przykład czat, ukończenie lub osadzanie).	`mlflow/v1/chat/completions`
`request_tags`	MAP	Tagi skojarzone z żądaniem.	`{"team": "engineering"}`
`input_tokens`	LONG	Liczba tokenów wejściowych.	`100`
`output_tokens`	LONG	Liczba tokenów wyjściowych.	`100`
`total_tokens`	LONG	Całkowita liczba tokenów (dane wejściowe i wyjściowe).	`200`
`token_details`	STRUCT	Szczegółowy podział tokenów, w tym `cache_read_input_tokens`, `cache_creation_input_tokens`i `output_reasoning_tokens`.	`{"cache_read_input_tokens": 100, ...}`
`response_content_type`	STRING	Typ zawartości odpowiedzi.	`application/json`
`status_code`	INT	Kod statusu HTTP odpowiedzi.	`200`
`routing_information`	STRUCT	Szczegóły routingu dla prób powrotu . Zawiera tablicę z elementami `attempts`, `priority`, `action`, `destination`, `destination_id`, `status_code`, `error_code`, `latency_ms`, `start_time` i `end_time` dla każdego modelu wypróbowanego podczas żądania.	`{"attempts": [{"priority": "1", ...}]}`

Dalsze kroki

Sprzężenie zwrotne

Czy ta strona była pomocna?

Last updated on 2026-02-14