Bagikan melalui


Memantau titik akhir online

Azure Pembelajaran Mesin menggunakan integrasi dengan Azure Monitor untuk melacak dan memantau metrik dan log untuk titik akhir online. Anda dapat melihat metrik dalam bagan, membandingkan antara titik akhir dan penyebaran, menyematkan ke dasbor portal Azure, mengonfigurasi pemberitahuan, kueri dari tabel log, dan mendorong log ke target yang didukung. Anda juga dapat menggunakan Application Insights untuk menganalisis peristiwa dari kontainer pengguna.

  • Metrik: Untuk metrik tingkat titik akhir seperti latensi permintaan, permintaan per menit, koneksi baru per detik, dan byte jaringan, Anda dapat menelusuri paling detail untuk melihat detail di tingkat penyebaran atau tingkat status. Metrik tingkat penyebaran seperti pemanfaatan CPU/GPU dan pemanfaatan memori atau disk juga dapat dibor ke tingkat instans. Azure Monitor memungkinkan pelacakan metrik ini dalam bagan dan menyiapkan dasbor dan pemberitahuan untuk analisis lebih lanjut.

  • Log: Anda dapat mengirim metrik ke ruang kerja Analitik Log tempat Anda dapat mengkueri log menggunakan sintaks kueri Kusto. Anda juga dapat mengirim metrik ke akun Azure Storage dan/atau Azure Event Hubs untuk pemrosesan lebih lanjut. Selain itu, Anda dapat menggunakan tabel log khusus untuk peristiwa terkait titik akhir online, lalu lintas, dan log konsol (kontainer). Kueri Kusto memungkinkan analisis kompleks dan gabungan beberapa tabel.

  • Application insights: Lingkungan yang dikumpulkan mencakup integrasi dengan Application Insights, dan Anda dapat mengaktifkan atau menonaktifkan integrasi ini saat Membuat penyebaran online. Metrik dan log bawaan dikirim ke Application Insights, dan Anda dapat menggunakan fitur bawaan Application Insights (seperti metrik Langsung, Pencarian transaksi, Kegagalan, dan Performa) untuk analisis lebih lanjut.

Di artikel ini, Anda akan mempelajari cara:

  • Pilih metode yang tepat untuk melihat dan melacak metrik dan log
  • Menampilkan metrik untuk titik akhir online terkelola Anda
  • Membuat dasbor untuk metrik Anda
  • Membuat peringatan metrik
  • Menampilkan log untuk titik akhir online Anda
  • Menggunakan Application Insights untuk melacak metrik dan log

Prasyarat

  • Sebarkan titik akhir online terkelola Azure Machine Learning.
  • Anda harus memiliki setidaknya Akses pembaca di titik akhir.

Metrik

Anda dapat melihat halaman metrik untuk titik akhir atau penyebaran online di portal Azure. Cara mudah untuk mengakses halaman metrik ini adalah melalui tautan yang tersedia di antarmuka pengguna studio Azure Pembelajaran Mesin—khususnya di tab Detail halaman titik akhir. Mengikuti tautan ini akan membawa Anda ke halaman metrik yang tepat di portal Azure untuk titik akhir atau penyebaran. Atau, Anda juga dapat masuk ke portal Azure untuk mencari halaman metrik untuk titik akhir atau penyebaran.

Untuk mengakses halaman metrik melalui tautan yang tersedia di studio:

  1. Buka studio Azure Machine Learning.

  2. Di bilah navigasi kiri, pilih halaman Titik Akhir.

  3. Pilih titik akhir dengan mengklik namanya.

  4. Pilih Tampilkan metrik di bagian Atribut titik akhir untuk membuka halaman metrik titik akhir di portal Azure.

  5. Pilih Tampilkan metrik di bagian untuk setiap penyebaran yang tersedia untuk membuka halaman metrik penyebaran di portal Azure.

    Cuplikan layar yang menunjukkan cara mengakses metrik titik akhir dan penyebaran dari antarmuka pengguna studio.

Untuk mengakses metrik langsung dari portal Azure:

  1. Masuk ke portal Azure.

  2. Buka titik akhir online terkelola atau sumber daya penyebaran.

    Titik akhir dan penyebaran online adalah sumber daya Azure Resource Manager (ARM) yang dapat ditemukan dengan membuka grup sumber daya mereka sendiri. Cari jenis sumber daya titik akhir online Azure Machine Learning dan penyebaran online Azure Machine Learning.

  3. Di kolom sebelah kiri, pilih Metrik.

Metrik yang tersedia

Bergantung pada sumber daya yang Anda pilih, metrik yang Anda lihat akan berbeda. Metrik dicakup secara berbeda untuk titik akhir online terkelola dan penyebaran online terkelola.

Metrik di cakupan titik akhir

  • Lalu lintas
ID metrik Unit Deskripsi Metode Agregat Dapat Dipisahkan Menurut Contoh Pemberitahuan Metrik
RequestsPerMinute Hitung Jumlah permintaan yang dikirim ke Titik Akhir dalam satu menit Tengah Penyebaran, ModelStatusCode, StatusCode, StatusCodeClass Beri tahu saya ketika saya memiliki <= 0 transaksi dalam sistem
RequestLatency Milidetik Interval lengkap waktu yang diperlukan untuk permintaan yang akan direspons Tengah Penyebaran Beri tahu saya ketika latensi > rata-rata 2 detik
RequestLatency_P50 Milidetik Latensi permintaan pada persentil ke-50 yang dikumpulkan oleh semua nilai latensi permintaan yang dikumpulkan selama periode 60 detik Tengah Penyebaran Beri tahu saya ketika latensi > rata-rata 2 detik
RequestLatency_P90 Milidetik Latensi permintaan pada persentil ke-90 yang dikumpulkan oleh semua nilai latensi permintaan yang dikumpulkan selama periode 60 detik Tengah Penyebaran Beri tahu saya ketika latensi > rata-rata 2 detik
RequestLatency_P95 Milidetik Latensi permintaan pada persentil ke-95 yang dikumpulkan oleh semua nilai latensi permintaan yang dikumpulkan selama periode 60 detik Tengah Penyebaran Beri tahu saya ketika latensi > rata-rata 2 detik
RequestLatency_P99 Milidetik Latensi permintaan pada persentil ke-99 yang dikumpulkan oleh semua nilai latensi permintaan yang dikumpulkan selama periode 60 detik Tengah Penyebaran Beri tahu saya ketika latensi > rata-rata 2 detik
  • Jaringan
ID metrik Unit Deskripsi Metode Agregat Dapat Dipisahkan Menurut Contoh Pemberitahuan Metrik
NetworkBytes Byte per detik Byte per detik disajikan untuk titik akhir Tengah - -
KoneksiAktif Hitung Jumlah total koneksi TCP bersamaan yang aktif dari klien Tengah - -
NewConnectionsPerSecond Hitung Jumlah rata-rata koneksi TCP baru per detik yang dibuat dari klien Tengah - -
  • Pengumpulan Data Model
ID metrik Unit Deskripsi Metode Agregat Dapat Dipisahkan Menurut Contoh Pemberitahuan Metrik
DataCollectionEventsPerMinute Hitung Jumlah peristiwa pengumpulan data yang diproses per menit Tengah Penyebaran, Jenis -
DataCollectionErrorsPerMinute Hitung Jumlah peristiwa pengumpulan data yang dihilangkan per menit Tengah Penyebaran, Jenis, Alasan -

Misalnya, Anda dapat membagi sepanjang dimensi penyebaran untuk membandingkan latensi permintaan penyebaran yang berbeda di bawah titik akhir.

Pembatasan bandwidth

Bandwidth akan dibatasi jika batas kuota terlampaui untuk titik akhir online terkelola. Untuk informasi selengkapnya tentang batasan, lihat artikel tentang batasan untuk titik akhir online. Untuk menentukan apakah permintaan dibatasi:

  • Pantau metrik "Byte jaringan"
  • Header tanggapan akan memiliki bidang: ms-azureml-bandwidth-request-delay-ms dan ms-azureml-bandwidth-response-delay-ms. Nilai bidang adalah penundaan pembatasan bandwidth, dalam milidetik. Untuk informasi selengkapnya, lihat Masalah batas bandwidth.

Metrik pada cakupan penyebaran

  • Saturasi
ID metrik Unit Deskripsi Metode Agregat Dapat Dipisahkan Menurut Contoh Pemberitahuan Metrik
CpuUtilizationPercentage Persen Berapa banyak persentase CPU yang digunakan Minimun, Maksimum, Rata-rata InstanceId Beri tahu saya ketika % Kapasitas Digunakan > 75%
CpuMemoryUtilizationPercentage Persen Berapa persen Memori yang digunakan Minimun, Maksimum, Rata-rata InstanceId
DiskUtilisasi Persen Berapa banyak ruang disk yang digunakan Minimun, Maksimum, Rata-rata InstanceId, Disk
GpuUtilizationPercentage Persen Persentase pemanfaatan GPU pada instans - Pemanfaatan dilaporkan pada interval satu menit Minimun, Maksimum, Rata-rata InstanceId
GpuMemoryUtilizationPercentage Persen Persentase pemanfaatan memori GPU pada instans - Pemanfaatan dilaporkan pada interval satu menit Minimun, Maksimum, Rata-rata InstanceId
GpuEnergyJoules Joule Energi interval di Joules pada node GPU - Energi dilaporkan pada interval satu menit Minimun, Maksimum, Rata-rata InstanceId
  • Ketersediaan
ID metrik Unit Deskripsi Metode Agregat Dapat Dipisahkan Menurut Contoh Pemberitahuan Metrik
DeploymentCapacity Hitung Jumlah instans dalam penyebaran Minimum, Maksimum, Rata-rata InstanceId, State Beri tahu saya ketika % Ketersediaan layanan saya turun di bawah 100%
  • Lalu lintas
ID metrik Unit Deskripsi Metode Agregat Dapat Dipisahkan Menurut Contoh Pemberitahuan Metrik
RequestsPerMinute Hitung Jumlah permintaan yang dikirim ke penyebaran online dalam satu menit Tengah StatusCode Beri tahu saya ketika saya memiliki <= 0 transaksi dalam sistem
RequestLatency_P50 Milidetik Latensi permintaan P50 rata-rata dikumpulkan oleh semua nilai latensi permintaan yang dikumpulkan selama periode waktu yang dipilih Tengah - Beri tahu saya ketika latensi > rata-rata 2 detik
RequestLatency_P90 Milidetik Latensi permintaan P90 rata-rata dikumpulkan oleh semua nilai latensi permintaan yang dikumpulkan selama periode waktu yang dipilih Tengah - Beri tahu saya ketika latensi > rata-rata 2 detik
RequestLatency_P95 Milidetik Latensi permintaan P95 rata-rata dikumpulkan oleh semua nilai latensi permintaan yang dikumpulkan selama periode waktu yang dipilih Tengah - Beri tahu saya ketika latensi > rata-rata 2 detik
RequestLatency_P99 Milidetik Latensi permintaan P99 rata-rata dikumpulkan oleh semua nilai latensi permintaan yang dikumpulkan selama periode waktu yang dipilih Tengah - Beri tahu saya ketika latensi > rata-rata 2 detik
  • Pengumpulan Data Model
ID metrik Unit Deskripsi Metode Agregat Dapat Dipisahkan Menurut Contoh Pemberitahuan Metrik
DataCollectionEventsPerMinute Hitung Jumlah peristiwa pengumpulan data yang diproses per menit Tengah InstanceId, Jenis -
DataCollectionErrorsPerMinute Hitung Jumlah peristiwa pengumpulan data yang dihilangkan per menit Tengah InstanceId, Type, Reason -

Misalnya, Anda dapat membandingkan pemanfaatan CPU dan/atau memori antara instans perbedaan untuk penyebaran online.

Membuat dasbor dan pemberitahuan

Azure Monitor memungkinkan Anda membuat dasbor dan pemberitahuan, berdasarkan metrik.

Membuat dasbor dan memvisualisasikan kueri

Anda dapat membuat dasbor kustom dan memvisualisasikan metrik dari beberapa sumber di portal Azure, termasuk metrik untuk titik akhir online Anda. Untuk informasi selengkapnya tentang membuat dasbor dan memvisualisasikan kueri, lihat Dasbor menggunakan data log dan Dasbor menggunakan data aplikasi.

Membuat peringatan

Anda juga dapat membuat pemberitahuan kustom untuk mengetahui informasi tentang pembaruan status penting ke titik akhir online terkelola:

  1. Di kanan atas laman metrik, pilih Aturan pemberitahuan baru.

    Cuplikan layar memperlihatkan tombol 'Aturan pemberitahuan baru' yang dikelilingi oleh kotak merah.

  2. Pilih nama ketentuan untuk menentukan kapan pemberitahuan Anda harus dipicu.

    Cuplikan layar memperlihatkan tombol 'Konfigurasi logika sinyal' yang dikelilingi oleh kotak merah.

  3. Pilih Tambahkan grup tindakan>Buat grup tindakan untuk menentukan apa yang akan terjadi saat pemberitahuan Anda dipicu.

  4. Pilih Buat aturan lansiran untuk menyelesaikan pembuatan pemberitahuan Anda.

Untuk informasi selengkapnya, lihat Membuat aturan pemberitahuan Azure Monitor.

Mengaktifkan skala otomatis berdasarkan metrik

Anda dapat mengaktifkan skala otomatis penyebaran menggunakan metrik menggunakan UI atau kode. Saat Anda menggunakan kode (CLI atau SDK), Anda dapat menggunakan ID Metrik yang tercantum dalam tabel metrik yang tersedia dalam kondisi untuk memicu penskalaan otomatis. Untuk informasi selengkapnya, lihat Penskalaan otomatis titik akhir online.

Log

Ada tiga log yang dapat diaktifkan untuk titik akhir online:

  • AmlOnlineEndpointTrafficLog: Anda dapat memilih untuk mengaktifkan log lalu lintas jika Anda ingin memeriksa informasi permintaan Anda. Berikut ini adalah beberapa kasus:

    • Jika responsnya bukan 200, periksa nilai kolom "ResponseCodeReason" untuk melihat apa yang terjadi. Periksa juga alasannya di bagian "Kode status HTTPS" dari artikel Memecahkan masalah titik akhir online.

    • Anda dapat memeriksa kode respons dan alasan respons model Anda dari kolom "ModelStatusCode" dan "ModelStatusReason".

    • Periksa durasi permintaan seperti total durasi, durasi permintaan/respons, dan penundaan yang disebabkan oleh pembatasan jaringan. Anda dapat memeriksanya dari log untuk melihat latensi kerusakan.

    • Jika ingin memeriksa berapa banyak permintaan atau permintaan yang gagal baru-baru ini. Anda juga dapat mengaktifkan log.

  • AmlOnlineEndpointConsoleLog: Berisi log yang dihasilkan kontainer ke konsol. Berikut ini adalah beberapa kasus:

    • Jika kontainer gagal dimulai, log konsol dapat berguna untuk penelusuran kesalahan.

    • Pantau perilaku kontainer dan pastikan bahwa semua permintaan ditangani dengan benar.

    • Tulis ID permintaan di log konsol. Bergabung dengan ID permintaan, AmlOnlineEndpointConsoleLog, dan AmlOnlineEndpointTrafficLog di ruang kerja Analitik Log, Anda dapat melacak permintaan dari titik masuk jaringan titik akhir online ke kontainer.

    • Anda juga dapat menggunakan log ini untuk analisis performa dalam menentukan waktu yang diperlukan oleh model untuk memproses setiap permintaan.

  • AmlOnlineEndpointEventLog: Berisi informasi peristiwa mengenai siklus hidup kontainer. Saat ini kami memberikan informasi tentang jenis peristiwa berikut:

    Nama Pesan
    BackOff Back-off memulai ulang kontainer yang gagal
    Ditarik Gambar kontainer "<IMAGE_NAME>" sudah ada di mesin
    Dimatikan Inferensi kontainer-pemeriksaan keaktifan server gagal, akan dimulai ulang
    Dibuat Gambar kontainer yang dibuat-pengambil
    Dibuat Inferensi kontainer yang dibuat-server
    Dibuat Model kontainer yang dibuat-pasang
    LivenessProbeFailed Pemeriksaan keaktifan gagal: <FAILURE_CONTENT>
    ReadinessProbeFailed Pemeriksaan kesiapan gagal: <FAILURE_CONTENT>
    Dimulai Gambar kontainer yang dimulai-pengambil
    Dimulai Inferensi kontainer yang dimulai-server
    Dimulai Model kontainer yang dimulai-pasang
    Dimatikan Menghentikan inferensi kontainer-server
    Dimatikan Menghentikan model kontainer-pasang

Bagaimana cara mengaktifkan/menonaktifkan log

Penting

Pengelogan menggunakan Azure Log Analytics. Jika saat ini Anda tidak memiliki ruang kerja Analitik Log, Anda dapat membuatnya menggunakan langkah-langkah di Membuat ruang kerja Analitik Log di portal Microsoft Azure.

  1. Di portal Microsoft Azure, buka grup sumber daya yang berisi titik akhir Anda lalu pilih titik akhir.

  2. Dari bagian Pemantauan di sebelah kiri halaman, pilih Pengaturan diagnostik, lalu Tambahkan pengaturan.

  3. Pilih kategori log untuk diaktifkan, pilih Kirim ke ruang kerja Analitik Log, lalu pilih ruang kerja Analitik Log yang akan digunakan. Terakhir, masukkan Nama pengaturan diagnostik dan pilih Simpan.

    Cuplikan layar dialog pengaturan diagnostik.

    Penting

    Mungkin perlu waktu hingga satu jam untuk koneksi ke ruang kerja Analitik Log diaktifkan. Tunggu satu jam sebelum melanjutkan ke langkah berikutnya.

  4. Kirim permintaan penilaian ke titik akhir. Aktivitas ini harus membuat entri di log.

  5. Dari properti titik akhir online atau ruang kerja Analitik Log, pilih Log di kiri layar.

  6. Tutup dialog Kueri yang terbuka secara otomatis, lalu klik dua kali di AmlOnlineEndpointConsoleLog. Jika Anda tidak melihatnya, gunakan kotak Pencarian.

    Cuplikan layar menampilkan kueri log.

  7. Pilih Jalankan.

    Cuplikan layar hasil setelah menjalankan kueri.

Contoh kueri

Anda dapat menemukan contoh kueri pada tab Kueri ketika melihat log. Cari Titik akhir online untuk menemukan contoh kueri.

Cuplikan layar contoh kueri.

Detail kolom log

Tabel berikut menyediakan detail tentang data yang disimpan di setiap log:

AmlOnlineEndpointTrafficLog

Properti Deskripsi
Metode Metode yang diminta dari klien.
Jalur Jalur yang diminta dari klien.
SubscriptionId ID langganan pembelajaran mesin dari titik akhir online.
AzureMLWorkspaceId ID ruang kerja pembelajaran mesin dari titik akhir online.
AzureMLWorkspaceName Nama ruang kerja pembelajaran mesin dari titik akhir online.
EndpointName Nama dari titik akhir online.
DeploymentName Nama dari penyebaran online.
Protokol Protokol permintaan.
ResponseCode Kode respons akhir dikembalikan kepada klien.
ResponseCodeReason Kode respons akhir dikembalikan kepada klien.
ModelStatusCode Kode status respons dari model.
ModelStatusReason Alasan kondisi respons dari model.
RequestPayloadSize Total byte yang diterima dari klien.
ResponsePayloadSize Total byte yang dikirim kembali kepada klien.
UserAgent Header agen pengguna dari permintaan, termasuk komentar tetapi dipotong menjadi maksimal 70 karakter.
XRequestId ID permintaan yang dihasilkan Azure Machine Learning untuk pelacakan internal.
XMSClientRequestId ID pelacakan yang dihasilkan oleh klien.
TotalDurationMs Durasi dalam milidetik dari waktu mulai permintaan ke byte respons terakhir yang dikirim kembali kepada klien. Jika klien terputus, ini mengukur dari waktu mulai hingga waktu pemutusan klien.
RequestDurationMs Durasi dalam milidetik dari waktu mulai permintaan hingga byte terakhir permintaan yang diterima dari klien.
ResponseDurationMs Durasi dalam milidetik dari waktu mulai permintaan hingga byte respons pertama yang dibaca dari model.
RequestThrottlingDelayMs Penundaan dalam milidetik dalam transfer data permintaan karena adanya pembatasan jaringan.
ResponseThrottlingDelayMs Penundaan dalam milidetik dalam transfer data permintaan karena adanya pembatasan jaringan.

AmlOnlineEndpointConsoleLog

Properti Deskripsi
TimeGenerated Tanda waktu (UTC) saat log dihasilkan.
OperationName Operasi yang terkait dengan rekaman log.
InstanceId ID instans yang menghasilkan baris log ini.
DeploymentName Nama penyebaran yang terkait dengan baris log.
ContainerName Nama kontainer tempat log dibuat.
Pesan Isi log.

AmlOnlineEndpointEventLog

Properti Deskripsi
TimeGenerated Tanda waktu (UTC) saat log dihasilkan.
OperationName Operasi yang terkait dengan rekaman log.
InstanceId ID instans yang menghasilkan baris log ini.
DeploymentName Nama penyebaran yang terkait dengan baris log.
Nama Nama peristiwa.
Pesan Isi peristiwa.

Menggunakan Application Insights

Lingkungan yang dikumpulkan mencakup integrasi dengan Application Insights, dan Anda dapat mengaktifkan atau menonaktifkan integrasi ini saat membuat penyebaran online. Metrik dan log bawaan dikirim ke Application Insights, dan Anda dapat menggunakan fitur bawaan Application Insights (seperti metrik Langsung, Pencarian transaksi, Kegagalan, dan Performa) untuk analisis lebih lanjut.

Lihat Gambaran umum Application Insights untuk informasi selengkapnya.

Di studio, Anda dapat menggunakan tab Pemantauan di halaman titik akhir online untuk melihat grafik monitor aktivitas tingkat tinggi untuk titik akhir online terkelola. Untuk menggunakan tab pemantauan, Anda harus memilih Aktifkan diagnostik Application Insight dan pengumpulan data saat membuat titik akhir.

Cuplikan layar pemantauan metrik tingkat titik akhir di studio.