Bagikan melalui


Memantau titik akhir online

Azure Pembelajaran Mesin menggunakan integrasi dengan Azure Monitor untuk melacak dan memantau metrik dan log untuk titik akhir online. Anda dapat melihat metrik dalam bagan, membandingkan antara titik akhir dan penyebaran, menyematkan ke dasbor portal Azure, mengonfigurasi pemberitahuan, kueri dari tabel log, dan mendorong log ke target yang didukung. Anda juga dapat menggunakan Application Insights untuk menganalisis peristiwa dari kontainer pengguna.

  • Metrik: Untuk metrik tingkat titik akhir seperti latensi permintaan, permintaan per menit, koneksi baru per detik, dan byte jaringan, Anda dapat menelusuri paling detail untuk melihat detail di tingkat penyebaran atau tingkat status. Metrik tingkat penyebaran seperti pemanfaatan CPU/GPU dan pemanfaatan memori atau disk juga dapat dibor ke tingkat instans. Azure Monitor memungkinkan pelacakan metrik ini dalam bagan dan menyiapkan dasbor dan pemberitahuan untuk analisis lebih lanjut.

  • Log: Anda dapat mengirim metrik ke ruang kerja Analitik Log tempat Anda dapat mengkueri log menggunakan sintaks kueri Kusto. Anda juga dapat mengirim metrik ke akun Azure Storage dan/atau Azure Event Hubs untuk pemrosesan lebih lanjut. Selain itu, Anda dapat menggunakan tabel log khusus untuk peristiwa terkait titik akhir online, lalu lintas, dan log konsol (kontainer). Kueri Kusto memungkinkan analisis kompleks dan gabungan beberapa tabel.

  • Application insights: Lingkungan yang dikumpulkan mencakup integrasi dengan Application Insights, dan Anda dapat mengaktifkan atau menonaktifkan integrasi ini saat Membuat penyebaran online. Metrik dan log bawaan dikirim ke Application Insights, dan Anda dapat menggunakan fitur bawaan Application Insights (seperti metrik Langsung, Pencarian transaksi, Kegagalan, dan Performa) untuk analisis lebih lanjut.

Di artikel ini, Anda akan mempelajari cara:

  • Pilih metode yang tepat untuk melihat dan melacak metrik dan log
  • Menampilkan metrik untuk titik akhir online terkelola Anda
  • Membuat dasbor untuk metrik Anda
  • Membuat peringatan metrik
  • Menampilkan log untuk titik akhir online Anda
  • Menggunakan Application Insights untuk melacak metrik dan log

Prasyarat

  • Sebarkan titik akhir online terkelola Azure Machine Learning.
  • Anda harus memiliki setidaknya Akses pembaca di titik akhir.

Metrik

Anda dapat melihat halaman metrik untuk titik akhir atau penyebaran online di portal Azure. Cara mudah untuk mengakses halaman metrik ini adalah melalui tautan yang tersedia di antarmuka pengguna studio Azure Pembelajaran Mesin—khususnya di tab Detail halaman titik akhir. Mengikuti tautan ini akan membawa Anda ke halaman metrik yang tepat di portal Azure untuk titik akhir atau penyebaran. Atau, Anda juga dapat masuk ke portal Azure untuk mencari halaman metrik untuk titik akhir atau penyebaran.

Untuk mengakses halaman metrik melalui tautan yang tersedia di studio:

  1. Buka studio Azure Machine Learning.

  2. Di bilah navigasi kiri, pilih halaman Titik Akhir.

  3. Pilih titik akhir dengan mengklik namanya.

  4. Pilih Tampilkan metrik di bagian Atribut titik akhir untuk membuka halaman metrik titik akhir di portal Azure.

  5. Pilih Tampilkan metrik di bagian untuk setiap penyebaran yang tersedia untuk membuka halaman metrik penyebaran di portal Azure.

    Cuplikan layar yang menunjukkan cara mengakses metrik titik akhir dan penyebaran dari antarmuka pengguna studio.

Untuk mengakses metrik langsung dari portal Azure:

  1. Masuk ke portal Azure.

  2. Buka titik akhir online terkelola atau sumber daya penyebaran.

    Titik akhir dan penyebaran online adalah sumber daya Azure Resource Manager (ARM) yang dapat ditemukan dengan membuka grup sumber daya mereka sendiri. Cari jenis sumber daya titik akhir online Azure Machine Learning dan penyebaran online Azure Machine Learning.

  3. Di kolom sebelah kiri, pilih Metrik.

Metrik yang tersedia

Bergantung pada sumber daya yang Anda pilih, metrik yang Anda lihat akan berbeda. Metrik dicakup secara berbeda untuk titik akhir online terkelola dan penyebaran online terkelola.

Metrik di cakupan titik akhir

Kategori Metric Nama dalam REST API Unit Agregasi Dimensi Butir Waktu Ekspor DS
Lalu lintas Koneksi Aktif

Jumlah total koneksi TCP bersamaan yang aktif dari klien.
ConnectionsActive Hitung Tengah <Tidak ada> PT1M No
Lalu lintas Kesalahan Pengumpulan Data Per Menit

Jumlah peristiwa pengumpulan data yang turun per menit.
DataCollectionErrorsPerMinute Hitung Minimum, Maksimum, Rata-rata deployment, , reasontype PT1M No
Lalu lintas Peristiwa Pengumpulan Data Per Menit

Jumlah peristiwa pengumpulan data yang diproses per menit.
DataCollectionEventsPerMinute Hitung Minimum, Maksimum, Rata-rata deployment, type PT1M No
Lalu lintas Byte Jaringan

Byte per detik disajikan untuk titik akhir.
NetworkBytes BytesPerSecond Tengah <Tidak ada> PT1M No
Lalu lintas Koneksi Baru Per Detik

Jumlah rata-rata koneksi TCP baru per detik yang dibuat dari klien.
NewConnectionsPerSecond CountPerSecond Tengah <Tidak ada> PT1M No
Lalu lintas Latensi Permintaan

Interval lengkap rata-rata waktu yang diperlukan untuk permintaan yang akan direspons dalam milidetik
RequestLatency Milidetik Tengah deployment PT1M Ya
Lalu lintas Minta Latensi P50

Latensi permintaan P50 rata-rata dikumpulkan oleh semua nilai latensi permintaan yang dikumpulkan selama periode waktu yang dipilih
RequestLatency_P50 Milidetik Tengah deployment PT1M Ya
Lalu lintas Minta Latensi P90

Latensi permintaan P90 rata-rata dikumpulkan oleh semua nilai latensi permintaan yang dikumpulkan selama periode waktu yang dipilih
RequestLatency_P90 Milidetik Tengah deployment PT1M Ya
Lalu lintas Minta Latensi P95

Latensi permintaan P95 rata-rata dikumpulkan oleh semua nilai latensi permintaan yang dikumpulkan selama periode waktu yang dipilih
RequestLatency_P95 Milidetik Tengah deployment PT1M Ya
Lalu lintas Minta Latensi P99

Latensi permintaan P99 rata-rata dikumpulkan oleh semua nilai latensi permintaan yang dikumpulkan selama periode waktu yang dipilih
RequestLatency_P99 Milidetik Tengah deployment PT1M Ya
Lalu lintas Permintaan Per Menit

Jumlah permintaan yang dikirim ke titik akhir online dalam satu menit
RequestsPerMinute Hitung Tengah deployment, , statusCodestatusCodeClass,modelStatusCode PT1M No

Pembatasan bandwidth

Bandwidth akan dibatasi jika batas kuota terlampaui untuk titik akhir online terkelola. Untuk informasi selengkapnya tentang batasan, lihat artikel tentang batasan untuk titik akhir online. Untuk menentukan apakah permintaan dibatasi:

  • Pantau metrik "Byte jaringan"
  • Header tanggapan akan memiliki bidang: ms-azureml-bandwidth-request-delay-ms dan ms-azureml-bandwidth-response-delay-ms. Nilai bidang adalah penundaan pembatasan bandwidth, dalam milidetik.

Untuk informasi selengkapnya, lihat Masalah batas bandwidth.

Metrik pada cakupan penyebaran

Kategori Metric Nama dalam REST API Unit Agregasi Dimensi Butir Waktu Ekspor DS
Sumber daya Persentase Pemanfaatan Memori CPU

Persentase pemanfaatan memori pada instans. Pemanfaatan dilaporkan pada interval satu menit.
CpuMemoryUtilizationPercentage Persen Minimum, Maksimum, Rata-rata instanceId PT1M Ya
Sumber daya Persentase Pemanfaatan CPU

Persentase pemanfaatan CPU pada instans. Pemanfaatan dilaporkan pada interval satu menit.
CpuUtilizationPercentage Persen Minimum, Maksimum, Rata-rata instanceId PT1M Ya
Sumber daya Kesalahan Pengumpulan Data Per Menit

Jumlah peristiwa pengumpulan data yang turun per menit.
DataCollectionErrorsPerMinute Hitung Minimum, Maksimum, Rata-rata instanceId, , reasontype PT1M No
Sumber daya Peristiwa Pengumpulan Data Per Menit

Jumlah peristiwa pengumpulan data yang diproses per menit.
DataCollectionEventsPerMinute Hitung Minimum, Maksimum, Rata-rata instanceId, type PT1M No
Sumber daya Kapasitas Penyebaran

Jumlah instans dalam penyebaran.
DeploymentCapacity Hitung Minimum, Maksimum, Rata-rata instanceId, State PT1M No
Sumber daya Pemanfaatan Disk

Persentase pemanfaatan disk pada instans. Pemanfaatan dilaporkan pada interval satu menit.
DiskUtilization Persen Minimum, Maksimum, Rata-rata instanceId, disk PT1M Ya
Sumber daya GPU Energy di Joules

Interval energi dalam satuan Joule pada node GPU. Energi dilaporkan pada interval satu menit.
GpuEnergyJoules Hitung Minimum, Maksimum, Rata-rata instanceId PT1M No
Sumber daya Persentase Pemanfaatan Memori GPU

Persentase pemanfaatan memori GPU pada instans. Pemanfaatan dilaporkan pada interval satu menit.
GpuMemoryUtilizationPercentage Persen Minimum, Maksimum, Rata-rata instanceId PT1M Ya
Sumber daya Persentase Pemanfaatan GPU

Persentase pemanfaatan GPU pada instans. Pemanfaatan dilaporkan pada interval satu menit.
GpuUtilizationPercentage Persen Minimum, Maksimum, Rata-rata instanceId PT1M Ya
Lalu lintas Minta Latensi P50

Latensi permintaan P50 rata-rata dikumpulkan oleh semua nilai latensi permintaan yang dikumpulkan selama periode waktu yang dipilih
RequestLatency_P50 Milidetik Tengah <Tidak ada> PT1M Ya
Lalu lintas Minta Latensi P90

Latensi permintaan P90 rata-rata dikumpulkan oleh semua nilai latensi permintaan yang dikumpulkan selama periode waktu yang dipilih
RequestLatency_P90 Milidetik Tengah <Tidak ada> PT1M Ya
Lalu lintas Minta Latensi P95

Latensi permintaan P95 rata-rata dikumpulkan oleh semua nilai latensi permintaan yang dikumpulkan selama periode waktu yang dipilih
RequestLatency_P95 Milidetik Tengah <Tidak ada> PT1M Ya
Lalu lintas Minta Latensi P99

Latensi permintaan P99 rata-rata dikumpulkan oleh semua nilai latensi permintaan yang dikumpulkan selama periode waktu yang dipilih
RequestLatency_P99 Milidetik Tengah <Tidak ada> PT1M Ya
Lalu lintas Permintaan Per Menit

Jumlah permintaan yang dikirim ke penyebaran online dalam satu menit
RequestsPerMinute Hitung Tengah envoy_response_code PT1M No

Membuat dasbor dan pemberitahuan

Azure Monitor memungkinkan Anda membuat dasbor dan pemberitahuan, berdasarkan metrik.

Membuat dasbor dan memvisualisasikan kueri

Anda dapat membuat dasbor kustom dan memvisualisasikan metrik dari beberapa sumber di portal Azure, termasuk metrik untuk titik akhir online Anda. Untuk informasi selengkapnya tentang membuat dasbor dan memvisualisasikan kueri, lihat Dasbor menggunakan data log dan Dasbor menggunakan data aplikasi.

Membuat peringatan

Anda juga dapat membuat pemberitahuan kustom untuk mengetahui informasi tentang pembaruan status penting ke titik akhir online terkelola:

  1. Di kanan atas laman metrik, pilih Aturan pemberitahuan baru.

    Cuplikan layar memperlihatkan tombol 'Aturan pemberitahuan baru' yang dikelilingi oleh kotak merah.

  2. Pilih nama ketentuan untuk menentukan kapan pemberitahuan Anda harus dipicu.

    Cuplikan layar memperlihatkan tombol 'Konfigurasi logika sinyal' yang dikelilingi oleh kotak merah.

  3. Pilih Tambahkan grup tindakan>Buat grup tindakan untuk menentukan apa yang akan terjadi saat pemberitahuan Anda dipicu.

  4. Pilih Buat aturan lansiran untuk menyelesaikan pembuatan pemberitahuan Anda.

Untuk informasi selengkapnya, lihat Membuat aturan pemberitahuan Azure Monitor.

Mengaktifkan skala otomatis berdasarkan metrik

Anda dapat mengaktifkan skala otomatis penyebaran menggunakan metrik menggunakan UI atau kode. Saat Anda menggunakan kode (CLI atau SDK), Anda dapat menggunakan ID Metrik yang tercantum dalam tabel metrik yang tersedia dalam kondisi untuk memicu penskalaan otomatis. Untuk informasi selengkapnya, lihat Penskalaan otomatis titik akhir online.

Log

Ada tiga log yang dapat diaktifkan untuk titik akhir online:

  • AmlOnlineEndpointTrafficLog: Anda dapat memilih untuk mengaktifkan log lalu lintas jika Anda ingin memeriksa informasi permintaan Anda. Berikut ini adalah beberapa kasus:

    • Jika responsnya bukan 200, periksa nilai kolom "ResponseCodeReason" untuk melihat apa yang terjadi. Periksa juga alasannya di bagian "Kode status HTTPS" dari artikel Memecahkan masalah titik akhir online.

    • Anda dapat memeriksa kode respons dan alasan respons model Anda dari kolom "ModelStatusCode" dan "ModelStatusReason".

    • Periksa durasi permintaan seperti total durasi, durasi permintaan/respons, dan penundaan yang disebabkan oleh pembatasan jaringan. Anda dapat memeriksanya dari log untuk melihat latensi kerusakan.

    • Jika ingin memeriksa berapa banyak permintaan atau permintaan yang gagal baru-baru ini. Anda juga dapat mengaktifkan log.

  • AmlOnlineEndpointConsoleLog: Berisi log yang dihasilkan kontainer ke konsol. Berikut ini adalah beberapa kasus:

    • Jika kontainer gagal dimulai, log konsol dapat berguna untuk penelusuran kesalahan.

    • Pantau perilaku kontainer dan pastikan bahwa semua permintaan ditangani dengan benar.

    • Tulis ID permintaan di log konsol. Bergabung dengan ID permintaan, AmlOnlineEndpointConsoleLog, dan AmlOnlineEndpointTrafficLog di ruang kerja Analitik Log, Anda dapat melacak permintaan dari titik masuk jaringan titik akhir online ke kontainer.

    • Anda juga dapat menggunakan log ini untuk analisis performa dalam menentukan waktu yang diperlukan oleh model untuk memproses setiap permintaan.

  • AmlOnlineEndpointEventLog: Berisi informasi peristiwa mengenai siklus hidup kontainer. Saat ini kami memberikan informasi tentang jenis peristiwa berikut:

    Nama Pesan
    BackOff Back-off memulai ulang kontainer yang gagal
    Ditarik Gambar kontainer "<IMAGE_NAME>" sudah ada di mesin
    Dimatikan Inferensi kontainer-pemeriksaan keaktifan server gagal, akan dimulai ulang
    Dibuat Gambar kontainer yang dibuat-pengambil
    Dibuat Inferensi kontainer yang dibuat-server
    Dibuat Model kontainer yang dibuat-pasang
    LivenessProbeFailed Pemeriksaan keaktifan gagal: <FAILURE_CONTENT>
    ReadinessProbeFailed Pemeriksaan kesiapan gagal: <FAILURE_CONTENT>
    Dimulai Gambar kontainer yang dimulai-pengambil
    Dimulai Inferensi kontainer yang dimulai-server
    Dimulai Model kontainer yang dimulai-pasang
    Dimatikan Menghentikan inferensi kontainer-server
    Dimatikan Menghentikan model kontainer-pasang

Bagaimana cara mengaktifkan/menonaktifkan log

Penting

Pengelogan menggunakan Azure Log Analytics. Jika saat ini Anda tidak memiliki ruang kerja Analitik Log, Anda dapat membuatnya menggunakan langkah-langkah di Membuat ruang kerja Analitik Log di portal Microsoft Azure.

  1. Di portal Microsoft Azure, buka grup sumber daya yang berisi titik akhir Anda lalu pilih titik akhir.

  2. Dari bagian Pemantauan di sebelah kiri halaman, pilih Pengaturan diagnostik, lalu Tambahkan pengaturan.

  3. Pilih kategori log untuk diaktifkan, pilih Kirim ke ruang kerja Analitik Log, lalu pilih ruang kerja Analitik Log yang akan digunakan. Terakhir, masukkan Nama pengaturan diagnostik dan pilih Simpan.

    Cuplikan layar dialog pengaturan diagnostik.

    Penting

    Mungkin perlu waktu hingga satu jam untuk koneksi ke ruang kerja Analitik Log diaktifkan. Tunggu satu jam sebelum melanjutkan ke langkah berikutnya.

  4. Kirim permintaan penilaian ke titik akhir. Aktivitas ini harus membuat entri di log.

  5. Dari properti titik akhir online atau ruang kerja Analitik Log, pilih Log di kiri layar.

  6. Tutup dialog Kueri yang terbuka secara otomatis, lalu klik dua kali di AmlOnlineEndpointConsoleLog. Jika Anda tidak melihatnya, gunakan kotak Pencarian.

    Cuplikan layar menampilkan kueri log.

  7. Pilih Jalankan.

    Cuplikan layar hasil setelah menjalankan kueri.

Contoh kueri

Anda dapat menemukan contoh kueri pada tab Kueri ketika melihat log. Cari Titik akhir online untuk menemukan contoh kueri.

Cuplikan layar contoh kueri.

Detail kolom log

Tabel berikut menyediakan detail tentang data yang disimpan di setiap log:

AmlOnlineEndpointTrafficLog

Properti Deskripsi
Metode Metode yang diminta dari klien.
Jalur Jalur yang diminta dari klien.
SubscriptionId ID langganan pembelajaran mesin dari titik akhir online.
AzureMLWorkspaceId ID ruang kerja pembelajaran mesin dari titik akhir online.
AzureMLWorkspaceName Nama ruang kerja pembelajaran mesin dari titik akhir online.
EndpointName Nama dari titik akhir online.
DeploymentName Nama dari penyebaran online.
Protokol Protokol permintaan.
ResponseCode Kode respons akhir dikembalikan kepada klien.
ResponseCodeReason Kode respons akhir dikembalikan kepada klien.
ModelStatusCode Kode status respons dari model.
ModelStatusReason Alasan kondisi respons dari model.
RequestPayloadSize Total byte yang diterima dari klien.
ResponsePayloadSize Total byte yang dikirim kembali kepada klien.
UserAgent Header agen pengguna dari permintaan, termasuk komentar tetapi dipotong menjadi maksimal 70 karakter.
XRequestId ID permintaan yang dihasilkan Azure Machine Learning untuk pelacakan internal.
XMSClientRequestId ID pelacakan yang dihasilkan oleh klien.
TotalDurationMs Durasi dalam milidetik dari waktu mulai permintaan ke byte respons terakhir yang dikirim kembali kepada klien. Jika klien terputus, ini mengukur dari waktu mulai hingga waktu pemutusan klien.
RequestDurationMs Durasi dalam milidetik dari waktu mulai permintaan hingga byte terakhir permintaan yang diterima dari klien.
ResponseDurationMs Durasi dalam milidetik dari waktu mulai permintaan hingga byte respons pertama yang dibaca dari model.
RequestThrottlingDelayMs Penundaan dalam milidetik dalam transfer data permintaan karena adanya pembatasan jaringan.
ResponseThrottlingDelayMs Penundaan dalam milidetik dalam transfer data permintaan karena adanya pembatasan jaringan.

AmlOnlineEndpointConsoleLog

Properti Deskripsi
TimeGenerated Tanda waktu (UTC) saat log dihasilkan.
OperationName Operasi yang terkait dengan rekaman log.
InstanceId ID instans yang menghasilkan baris log ini.
DeploymentName Nama penyebaran yang terkait dengan baris log.
ContainerName Nama kontainer tempat log dibuat.
Pesan Isi log.

AmlOnlineEndpointEventLog

Properti Deskripsi
TimeGenerated Tanda waktu (UTC) saat log dihasilkan.
OperationName Operasi yang terkait dengan rekaman log.
InstanceId ID instans yang menghasilkan baris log ini.
DeploymentName Nama penyebaran yang terkait dengan baris log.
Nama Nama peristiwa.
Pesan Isi peristiwa.

Menggunakan Application Insights

Lingkungan yang dikumpulkan mencakup integrasi dengan Application Insights, dan Anda dapat mengaktifkan atau menonaktifkan integrasi ini saat membuat penyebaran online. Metrik dan log bawaan dikirim ke Application Insights, dan Anda dapat menggunakan fitur bawaan Application Insights (seperti metrik Langsung, Pencarian transaksi, Kegagalan, dan Performa) untuk analisis lebih lanjut.

Lihat Gambaran umum Application Insights untuk informasi selengkapnya.

Di studio, Anda dapat menggunakan tab Pemantauan di halaman titik akhir online untuk melihat grafik monitor aktivitas tingkat tinggi untuk titik akhir online terkelola. Untuk menggunakan tab pemantauan, Anda harus memilih Aktifkan diagnostik Application Insight dan pengumpulan data saat membuat titik akhir.

Cuplikan layar pemantauan metrik tingkat titik akhir di studio.