Memantau titik akhir online

Azure Pembelajaran Mesin menggunakan integrasi dengan Azure Monitor untuk melacak dan memantau metrik dan log untuk titik akhir online. Anda dapat melihat metrik dalam bagan, membandingkan antara titik akhir dan penyebaran, menyematkan ke dasbor portal Azure, mengonfigurasi pemberitahuan, kueri dari tabel log, dan mendorong log ke target yang didukung. Anda juga dapat menggunakan Application Insights untuk menganalisis peristiwa dari kontainer pengguna.

  • Metrik: Untuk metrik tingkat titik akhir seperti latensi permintaan, permintaan per menit, koneksi baru per detik, dan byte jaringan, Anda dapat menelusuri paling detail untuk melihat detail di tingkat penyebaran atau tingkat status. Metrik tingkat penyebaran seperti pemanfaatan CPU/GPU dan pemanfaatan memori atau disk juga dapat dibor ke tingkat instans. Azure Monitor memungkinkan pelacakan metrik ini dalam bagan dan menyiapkan dasbor dan pemberitahuan untuk analisis lebih lanjut.

  • Log: Anda dapat mengirim metrik ke ruang kerja Analitik Log tempat Anda dapat mengkueri log menggunakan sintaks kueri Kusto. Anda juga dapat mengirim metrik ke akun Azure Storage dan/atau Azure Event Hubs untuk pemrosesan lebih lanjut. Selain itu, Anda dapat menggunakan tabel log khusus untuk peristiwa terkait titik akhir online, lalu lintas, dan log konsol (kontainer). Kueri Kusto memungkinkan analisis kompleks dan gabungan beberapa tabel.

  • Application insights: Lingkungan yang dikumpulkan mencakup integrasi dengan Application Insights, dan Anda dapat mengaktifkan atau menonaktifkan integrasi ini saat Membuat penyebaran online. Metrik dan log bawaan dikirim ke Application Insights, dan Anda dapat menggunakan fitur bawaan Application Insights (seperti metrik Langsung, Pencarian transaksi, Kegagalan, dan Performa) untuk analisis lebih lanjut.

Di artikel ini, Anda akan mempelajari cara:

  • Pilih metode yang tepat untuk melihat dan melacak metrik dan log
  • Menampilkan metrik untuk titik akhir online terkelola Anda
  • Membuat dasbor untuk metrik Anda
  • Membuat peringatan metrik
  • Menampilkan log untuk titik akhir online Anda
  • Menggunakan Application Insights untuk melacak metrik dan log

Prasyarat

  • Sebarkan titik akhir online terkelola Azure Machine Learning.
  • Anda harus memiliki setidaknya Akses pembaca di titik akhir.

Metrik

Anda dapat melihat halaman metrik untuk titik akhir atau penyebaran online di portal Azure. Cara mudah untuk mengakses halaman metrik ini adalah melalui tautan yang tersedia di antarmuka pengguna studio Azure Pembelajaran Mesin—khususnya di tab Detail halaman titik akhir. Mengikuti tautan ini akan membawa Anda ke halaman metrik yang tepat di portal Azure untuk titik akhir atau penyebaran. Atau, Anda juga dapat masuk ke portal Azure untuk mencari halaman metrik untuk titik akhir atau penyebaran.

Untuk mengakses halaman metrik melalui tautan yang tersedia di studio:

  1. Buka studio Azure Machine Learning.

  2. Di bilah navigasi kiri, pilih halaman Titik Akhir.

  3. Pilih titik akhir dengan mengklik namanya.

  4. Pilih Tampilkan metrik di bagian Atribut titik akhir untuk membuka halaman metrik titik akhir di portal Azure.

  5. Pilih Tampilkan metrik di bagian untuk setiap penyebaran yang tersedia untuk membuka halaman metrik penyebaran di portal Azure.

    A screenshot showing how to access the metrics of an endpoint and deployment from the studio UI.

Untuk mengakses metrik langsung dari portal Azure:

  1. Masuk ke portal Azure.

  2. Buka titik akhir online terkelola atau sumber daya penyebaran.

    Titik akhir dan penyebaran online adalah sumber daya Azure Resource Manager (ARM) yang dapat ditemukan dengan membuka grup sumber daya mereka sendiri. Cari jenis sumber daya titik akhir online Azure Machine Learning dan penyebaran online Azure Machine Learning.

  3. Di kolom sebelah kiri, pilih Metrik.

Metrik yang tersedia

Bergantung pada sumber daya yang Anda pilih, metrik yang Anda lihat akan berbeda. Metrik dicakup secara berbeda untuk titik akhir online terkelola dan penyebaran online terkelola.

Metrik di cakupan titik akhir

  • Request Latency
  • Latensi Permintaan P50 (Latensi permintaan pada persentil ke-50)
  • Latensi Permintaan P90 (Latensi permintaan pada persentil ke-90)
  • Latensi Permintaan P95 (Latensi permintaan pada persentil ke-95)
  • Permintaan per menit
  • Koneksi baru per detik
  • Jumlah koneksi aktif
  • Byte jaringan

Pisahkan pada dimensi berikut:

  • Penyebaran
  • Kode status
  • Kelas Kode Status

Misalnya, Anda dapat membagi sepanjang dimensi penyebaran untuk membandingkan latensi permintaan penyebaran yang berbeda di bawah titik akhir.

Pembatasan bandwidth

Bandwidth akan dibatasi jika batas kuota terlampaui untuk titik akhir online terkelola. Untuk informasi selengkapnya tentang batasan, lihat artikel tentang batasan untuk titik akhir online. Untuk menentukan apakah permintaan dibatasi:

  • Pantau metrik "Byte jaringan"
  • Header tanggapan akan memiliki bidang: ms-azureml-bandwidth-request-delay-ms dan ms-azureml-bandwidth-response-delay-ms. Nilai bidang adalah penundaan pembatasan bandwidth, dalam milidetik. Untuk informasi selengkapnya, lihat Masalah batas bandwidth.

Metrik pada cakupan penyebaran

  • Persentase Pemanfaatan CPU
  • Kapasitas Penyebaran (jumlah instans dari jenis instans yang diminta)
  • Penggunaan Disk
  • Pemanfaatan Memori GPU (hanya berlaku untuk instans GPU)
  • Pemanfaatan GPU (hanya berlaku untuk instans GPU)
  • Persentase Pemanfaatan Memori

Pisahkan dimensi berikut:

  • Id Instans

Misalnya, Anda dapat membandingkan pemanfaatan CPU dan/atau memori antara instans perbedaan untuk penyebaran online.

Membuat dasbor dan pemberitahuan

Azure Monitor memungkinkan Anda membuat dasbor dan pemberitahuan, berdasarkan metrik.

Membuat dasbor dan memvisualisasikan kueri

Anda dapat membuat dasbor kustom dan memvisualisasikan metrik dari beberapa sumber di portal Azure, termasuk metrik untuk titik akhir online Anda. Untuk informasi selengkapnya tentang membuat dasbor dan memvisualisasikan kueri, lihat Dasbor menggunakan data log dan Dasbor menggunakan data aplikasi.

Membuat peringatan

Anda juga dapat membuat pemberitahuan kustom untuk mengetahui informasi tentang pembaruan status penting ke titik akhir online terkelola:

  1. Di kanan atas laman metrik, pilih Aturan pemberitahuan baru.

    Screenshot showing 'New alert rule' button surrounded by a red box.

  2. Pilih nama ketentuan untuk menentukan kapan pemberitahuan Anda harus dipicu.

    Screenshot showing 'Configure signal logic' button surrounded by a red box.

  3. Pilih Tambahkan grup tindakan>Buat grup tindakan untuk menentukan apa yang akan terjadi saat pemberitahuan Anda dipicu.

  4. Pilih Buat aturan lansiran untuk menyelesaikan pembuatan pemberitahuan Anda.

Untuk informasi selengkapnya, lihat Membuat aturan pemberitahuan Azure Monitor.

Log

Ada tiga log yang dapat diaktifkan untuk titik akhir online:

  • AmlOnlineEndpointTrafficLog: Anda dapat memilih untuk mengaktifkan log lalu lintas jika Anda ingin memeriksa informasi permintaan Anda. Berikut ini adalah beberapa kasus:

    • Jika responsnya bukan 200, periksa nilai kolom "ResponseCodeReason" untuk melihat apa yang terjadi. Periksa juga alasannya di bagian "Kode status HTTPS" dari artikel Memecahkan masalah titik akhir online.

    • Anda dapat memeriksa kode respons dan alasan respons model Anda dari kolom "ModelStatusCode" dan "ModelStatusReason".

    • Periksa durasi permintaan seperti total durasi, durasi permintaan/respons, dan penundaan yang disebabkan oleh pembatasan jaringan. Anda dapat memeriksanya dari log untuk melihat latensi kerusakan.

    • Jika ingin memeriksa berapa banyak permintaan atau permintaan yang gagal baru-baru ini. Anda juga dapat mengaktifkan log.

  • AmlOnlineEndpointConsoleLog: Berisi log yang dihasilkan kontainer ke konsol. Berikut ini adalah beberapa kasus:

    • Jika kontainer gagal dimulai, log konsol dapat berguna untuk penelusuran kesalahan.

    • Pantau perilaku kontainer dan pastikan bahwa semua permintaan ditangani dengan benar.

    • Tulis ID permintaan di log konsol. Bergabung dengan ID permintaan, AmlOnlineEndpointConsoleLog, dan AmlOnlineEndpointTrafficLog di ruang kerja Analitik Log, Anda dapat melacak permintaan dari titik masuk jaringan titik akhir online ke kontainer.

    • Anda juga dapat menggunakan log ini untuk analisis performa dalam menentukan waktu yang diperlukan oleh model untuk memproses setiap permintaan.

  • AmlOnlineEndpointEventLog: Berisi informasi peristiwa mengenai siklus hidup kontainer. Saat ini kami memberikan informasi tentang jenis peristiwa berikut:

    Nama Pesan
    BackOff Back-off memulai ulang kontainer yang gagal
    Ditarik Gambar kontainer "<IMAGE_NAME>" sudah ada di mesin
    Dimatikan Inferensi kontainer-pemeriksaan keaktifan server gagal, akan dimulai ulang
    Dibuat Gambar kontainer yang dibuat-pengambil
    Dibuat Inferensi kontainer yang dibuat-server
    Dibuat Model kontainer yang dibuat-pasang
    LivenessProbeFailed Pemeriksaan keaktifan gagal: <FAILURE_CONTENT>
    ReadinessProbeFailed Pemeriksaan kesiapan gagal: <FAILURE_CONTENT>
    Dimulai Gambar kontainer yang dimulai-pengambil
    Dimulai Inferensi kontainer yang dimulai-server
    Dimulai Model kontainer yang dimulai-pasang
    Dimatikan Menghentikan inferensi kontainer-server
    Dimatikan Menghentikan model kontainer-pasang

Bagaimana cara mengaktifkan/menonaktifkan log

Penting

Pengelogan menggunakan Azure Log Analytics. Jika saat ini Anda tidak memiliki ruang kerja Analitik Log, Anda dapat membuatnya menggunakan langkah-langkah di Membuat ruang kerja Analitik Log di portal Microsoft Azure.

  1. Di portal Microsoft Azure, buka grup sumber daya yang berisi titik akhir Anda lalu pilih titik akhir.

  2. Dari bagian Pemantauan di sebelah kiri halaman, pilih Pengaturan diagnostik, lalu Tambahkan pengaturan.

  3. Pilih kategori log untuk diaktifkan, pilih Kirim ke ruang kerja Analitik Log, lalu pilih ruang kerja Analitik Log yang akan digunakan. Terakhir, masukkan Nama pengaturan diagnostik dan pilih Simpan.

    Screenshot of the diagnostic settings dialog.

    Penting

    Mungkin perlu waktu hingga satu jam untuk koneksi ke ruang kerja Analitik Log diaktifkan. Tunggu satu jam sebelum melanjutkan ke langkah berikutnya.

  4. Kirim permintaan penilaian ke titik akhir. Aktivitas ini harus membuat entri di log.

  5. Dari properti titik akhir online atau ruang kerja Analitik Log, pilih Log di kiri layar.

  6. Tutup dialog Kueri yang terbuka secara otomatis, lalu klik dua kali di AmlOnlineEndpointConsoleLog. Jika Anda tidak melihatnya, gunakan kotak Pencarian.

    Screenshot showing the log queries.

  7. Pilih Jalankan.

    Screenshots of the results after running a query.

Contoh kueri

Anda dapat menemukan contoh kueri pada tab Kueri ketika melihat log. Cari Titik akhir online untuk menemukan contoh kueri.

Screenshot of the example queries.

Detail kolom log

Tabel berikut menyediakan detail tentang data yang disimpan di setiap log:

AmlOnlineEndpointTrafficLog

Properti Deskripsi
Metode Metode yang diminta dari klien.
Jalur Jalur yang diminta dari klien.
SubscriptionId ID langganan pembelajaran mesin dari titik akhir online.
AzureMLWorkspaceId ID ruang kerja pembelajaran mesin dari titik akhir online.
AzureMLWorkspaceName Nama ruang kerja pembelajaran mesin dari titik akhir online.
EndpointName Nama dari titik akhir online.
DeploymentName Nama dari penyebaran online.
Protokol Protokol permintaan.
ResponseCode Kode respons akhir dikembalikan kepada klien.
ResponseCodeReason Kode respons akhir dikembalikan kepada klien.
ModelStatusCode Kode status respons dari model.
ModelStatusReason Alasan kondisi respons dari model.
RequestPayloadSize Total byte yang diterima dari klien.
ResponsePayloadSize Total byte yang dikirim kembali kepada klien.
UserAgent Header agen pengguna dari permintaan, termasuk komentar tetapi dipotong menjadi maksimal 70 karakter.
XRequestId ID permintaan yang dihasilkan Azure Machine Learning untuk pelacakan internal.
XMSClientRequestId ID pelacakan yang dihasilkan oleh klien.
TotalDurationMs Durasi dalam milidetik dari waktu mulai permintaan ke byte respons terakhir yang dikirim kembali kepada klien. Jika klien terputus, ini mengukur dari waktu mulai hingga waktu pemutusan klien.
RequestDurationMs Durasi dalam milidetik dari waktu mulai permintaan hingga byte terakhir permintaan yang diterima dari klien.
ResponseDurationMs Durasi dalam milidetik dari waktu mulai permintaan hingga byte respons pertama yang dibaca dari model.
RequestThrottlingDelayMs Penundaan dalam milidetik dalam transfer data permintaan karena adanya pembatasan jaringan.
ResponseThrottlingDelayMs Penundaan dalam milidetik dalam transfer data permintaan karena adanya pembatasan jaringan.

AmlOnlineEndpointConsoleLog

Properti Deskripsi
TimeGenerated Tanda waktu (UTC) saat log dihasilkan.
OperationName Operasi yang terkait dengan rekaman log.
InstanceId ID instans yang menghasilkan baris log ini.
DeploymentName Nama penyebaran yang terkait dengan baris log.
ContainerName Nama kontainer tempat log dibuat.
Pesan Isi log.

AmlOnlineEndpointEventLog

Properti Deskripsi
TimeGenerated Tanda waktu (UTC) saat log dihasilkan.
OperationName Operasi yang terkait dengan rekaman log.
InstanceId ID instans yang menghasilkan baris log ini.
DeploymentName Nama penyebaran yang terkait dengan baris log.
Nama Nama peristiwa.
Pesan Isi peristiwa.

Menggunakan Application Insights

Lingkungan yang dikumpulkan mencakup integrasi dengan Application Insights, dan Anda dapat mengaktifkan atau menonaktifkan integrasi ini saat membuat penyebaran online. Metrik dan log bawaan dikirim ke Application Insights, dan Anda dapat menggunakan fitur bawaan Application Insights (seperti metrik Langsung, Pencarian transaksi, Kegagalan, dan Performa) untuk analisis lebih lanjut.

Lihat Gambaran umum Application Insights untuk informasi selengkapnya.

Di studio, Anda dapat menggunakan tab Pemantauan di halaman titik akhir online untuk melihat grafik monitor aktivitas tingkat tinggi untuk titik akhir online terkelola. Untuk menggunakan tab pemantauan, Anda harus memilih Aktifkan diagnostik Application Insight dan pengumpulan data saat membuat titik akhir.

A screenshot of monitoring endpoint-level metrics in the studio.