Bagikan melalui


Memantau penggunaan untuk titik akhir Gateway AI

Penting

Fitur ini ada di Beta. Admin akun dapat mengontrol akses ke fitur ini dari halaman Pratinjau .

Halaman ini menjelaskan cara memantau penggunaan untuk titik akhir Gateway AI (Beta) menggunakan tabel sistem pelacakan penggunaan.

Tabel pelacakan penggunaan secara otomatis menangkap detail permintaan dan respons untuk titik akhir, mencatat metrik penting seperti penggunaan token dan latensi. Anda dapat menggunakan data dalam tabel ini untuk memantau penggunaan, melacak biaya, dan mendapatkan wawasan tentang performa dan konsumsi titik akhir.

Persyaratan

Mengkueri tabel penggunaan

AI Gateway mencatat data penggunaan ke system.ai_gateway.usage tabel sistem. Anda bisa menampilkan tabel di UI, atau mengkueri tabel dari Databricks SQL atau buku catatan.

Nota

Hanya admin akun yang memiliki izin untuk menampilkan atau mengkueri system.ai_gateway.usage tabel.

Untuk menampilkan tabel di UI, klik tautan tabel pelacakan penggunaan di halaman titik akhir untuk membuka tabel di Catalog Explorer.

Untuk mengkueri tabel dari Databricks SQL atau buku catatan:

SELECT * FROM system.ai_gateway.usage;

Dasbor penggunaan terintegrasi

Mengimpor dasbor penggunaan bawaan

Admin akun dapat mengimpor dasbor penggunaan Gateway AI bawaan dengan mengklik Buat Dasbor di halaman Gateway AI untuk memantau penggunaan, melacak biaya, dan mendapatkan wawasan tentang performa dan konsumsi titik akhir. Dasbor diterbitkan dengan izin admin akun, memungkinkan penonton menjalankan kueri menggunakan izin penerbit. Lihat Terbitkan Dasbor untuk detail selengkapnya. Administrator akun juga dapat memperbarui gudang yang digunakan untuk menjalankan kueri dasbor, yang akan diterapkan pada semua kueri berikutnya.

Tombol Buat Dashboard

Nota

Impor dasbor dibatasi untuk administrator akun karena memerlukan izin SELECT pada tabel system.ai_gateway.usage. Data dasbor tunduk pada usage kebijakan retensi tabel. Lihat Tabel sistem apa yang tersedia?.

Untuk memuat ulang dasbor dari templat terbaru, admin akun bisa mengklik Impor Ulang Dasbor di halaman Gateway AI. Ini memperbarui dasbor dengan visualisasi atau peningkatan baru dari templat sambil mempertahankan konfigurasi gudang Anda.

Menampilkan dasbor penggunaan

Untuk menampilkan dasbor, klik Tampilkan Dasbor dari halaman Gateway AI. Dasbor bawaan memberikan visibilitas komprehensif ke dalam penggunaan dan performa titik akhir Gateway AI. Ini termasuk permintaan pelacakan beberapa halaman, konsumsi token, metrik latensi, tingkat kesalahan, dan aktivitas agen pengkodan.

Tombol Tampilkan dasbor

Dasbor penggunaan AI Gateway

Dasbor menyediakan analitik lintas ruang kerja secara default. Semua halaman dasbor dapat difilter menurut rentang tanggal dan ID ruang kerja.

  • Tab Gambaran Umum: Menampilkan metrik penggunaan tingkat tinggi termasuk volume permintaan harian, tren penggunaan token dari waktu ke waktu, pengguna teratas berdasarkan konsumsi token, dan jumlah pengguna unik total. Gunakan tab ini untuk mendapatkan rekam jepret cepat dari keseluruhan aktivitas Gateway AI dan identifikasi pengguna dan model yang paling aktif.
  • Tab Performa: Melacak metrik performa utama termasuk persentil latensi (P50, P90, P95, P99), waktu untuk byte pertama, tingkat kesalahan, dan distribusi kode status HTTP. Gunakan tab ini untuk memantau kesehatan titik akhir dan mengidentifikasi hambatan performa atau masalah keandalan.
  • Tab Penggunaan: Menampilkan perincian konsumsi terperinci berdasarkan titik akhir, ruang kerja, dan pemohon. Tab ini menunjukkan pola penggunaan token, distribusi permintaan, dan rasio hit cache untuk membantu menganalisis dan mengoptimalkan biaya.
  • Tab Agen Pengodean: Melacak aktivitas dari agen pengodean terintegrasi termasuk Kursor, Kode Claude, Gemini CLI, dan Codex CLI. Tab ini menunjukkan metrik seperti hari aktif, sesi pengodean, penerapan, dan baris kode yang ditambahkan atau dihapus untuk memantau penggunaan alat pengembang. Lihat Dasbor agen coding untuk detail lebih lengkap.

Skema tabel penggunaan

Tabel system.ai_gateway.usage memiliki skema berikut:

Nama kolom Tipe Deskripsi Contoh
account_id STRING ID akun. 11d77e21-5e05-4196-af72-423257f74974
workspace_id STRING ID ruangkerja. 1653573648247579
request_id STRING Pengidentifikasi unik untuk permintaan. b4a47a30-0e18-4ae3-9a7f-29bcb07e0f00
schema_version INTEGER Versi skema catatan pemakaian. 1
endpoint_id STRING ID unik titik akhir Gateway AI. 43addf89-d802-3ca2-bd54-fe4d2a60d58a
endpoint_name STRING Nama titik akhir Gateway AI. databricks-gpt-5-2
endpoint_tags MAP Tag yang terkait dengan titik akhir. {"team": "engineering"}
endpoint_metadata STRUCT Metadata titik akhir termasuk creator, , creation_time, last_updated_timedestinations, inference_table, dan fallbacks. {"creator": "user.name@email.com", "creation_time": "2026-01-06T12:00:00.000Z", ...}
event_time TIMESTAMP Tanda waktu saat permintaan diterima. 2026-01-20T19:48:08.000+00:00
latency_ms LONG Total latensi dalam milidetik. 300
time_to_first_byte_ms LONG Waktu respons byte pertama dalam milidetik. 300
destination_type STRING Jenis tujuan (misalnya, model eksternal atau model fondasi). PAY_PER_TOKEN_FOUNDATION_MODEL
destination_name STRING Nama model atau penyedia tujuan. databricks-gpt-5-2
destination_id STRING ID unik tujuan. 507e7456151b3cc89e05ff48161efb87
destination_model STRING Model tertentu yang digunakan dalam permintaan. GPT-5.2
requester STRING ID pengguna atau perwakilan layanan yang membuat permintaan. user.name@email.com
requester_type STRING Jenis pemohon (pengguna, perwakilan layanan, atau grup pengguna). USER
ip_address STRING Alamat IP pemohon. 1.2.3.4
url STRING URL permintaan. https://<ai-gateway-url>/mlflow/v1/chat/completions
user_agent STRING Agen pengguna dari pengirim permintaan. OpenAI/Python 2.13.0
api_type STRING Jenis panggilan API (misalnya, obrolan, penyelesaian, atau penyematan). mlflow/v1/chat/completions
request_tags MAP Tag yang terkait dengan permintaan. {"team": "engineering"}
input_tokens LONG Jumlah token input. 100
output_tokens LONG Jumlah token output. 100
total_tokens LONG Jumlah total token (input + output). 200
token_details STRUCT Perincian token terperinci termasuk cache_read_input_tokens, , cache_creation_input_tokensdan output_reasoning_tokens. {"cache_read_input_tokens": 100, ...}
response_content_type STRING Jenis konten respons. application/json
status_code INT Kode status HTTP dari respons. 200
routing_information STRUCT Rincian pengarahan untuk upaya fallback. attempts Berisi array dengan priority, action, destination, destination_id, status_code, error_code, latency_ms, start_time, dan end_time untuk setiap model yang dicoba selama permintaan. {"attempts": [{"priority": "1", ...}]}

Langkah selanjutnya