Pantau Azure Machine Learning

Bila Anda memiliki aplikasi dan proses bisnis yang penting dan mengandalkan sumber Azure, sebaiknya Anda memantau sumber tersebut untuk mengetahui ketersediaan, performa, dan operasinya. Artikel ini menjelaskan data pemantauan yang dihasilkan oleh Azure Machine Learning dan cara menganalisa serta pemberitahuan tentang data ini dengan Azure Monitor.

Tip

Informasi dalam dokumen ini adalah khusus untuk administrator, karena menjelaskan pemantauan untuk layanan Azure Machine Learning dan layanan Azure terkait. Jika Anda seorang ilmuwan data atau pengembang, dan ingin memantau informasi khusus untuk eksekusi pelatihan model Anda, lihat dokumen berikut:

Jika Anda ingin memantau informasi yang dihasilkan oleh model yang disebarkan ke titik akhir online, lihat Memantau titik akhir online.

Apa itu Azure Monitor?

Azure Machine Learning membuat data pemantauan dengan menggunakan Azure Monitor, yang merupakan layanan pemantauan stack penuh di Azure. Azure Monitor menyediakan set fitur lengkap untuk memantau sumber Azure. Azure Monitor juga dapat memantau sumber di cloud dan lokal lainnya.

Mulai dengan artikel Memantau sumber daya Azure dengan Azure Monitor, yang menjelaskan konsep berikut:

  • Apa itu Azure Monitor?
  • Biaya terkait dengan pemantauan
  • Memantau data yang dikumpulkan di Azure
  • Mengonfigurasi pengumpulan data
  • Alat standar di Azure untuk menganalisis dan memberi tahu tentang pemantauan data

Bagian berikut dibuat pada artikel ini dengan menjelaskan data tertentu yang dikumpulkan dari Azure Machine Learning. Bagian ini juga memberikan contoh untuk mengonfigurasi pengumpulan data serta menganalisis data ini dengan alat Azure.

Tip

Untuk memahami biaya yang terkait dengan Azure Monitor, lihat Penggunaan dan estimasi biaya. Untuk memahami waktu yang dibutuhkan data Anda untuk muncul di Azure Monitor, lihat Waktu penyerapan data log.

Memantau data dari Azure Machine Learning

Azure Machine Learning mengumpulkan jenis data pemantauan yang sama dengan sumber Azure lainnya, yang dijelaskan dalam Memantau data dari sumber Azure.

Lihat Referensi data pemantauan Azure Machine Learning untuk referensi mendetail tentang log dan metrik yang dibuat oleh Azure Machine Learning.

Pengumpulan dan perutean

Metrik platform dan Log aktivitas dikumpulkan secara otomatis, tetapi dapat dirutekan ke lokasi lain dengan menggunakan setelan diagnostik.

Log Sumber Daya tidak dikumpulkan dan disimpan sampai Anda membuat pengaturan diagnostik dan merutekannya ke satu atau beberapa lokasi. Saat Anda perlu mengelola beberapa ruang kerja Azure Machine Learning, Anda bisa merutekan log untuk semua ruang kerja ke tujuan pengelogan yang sama dan meminta semua log dari satu tempat.

Lihat Membuat pengaturan diagnostik untuk mengumpulkan log dan metrik platform di Microsoft Azure untuk proses mendetail guna membuat pengaturan diagnostik menggunakan portal Microsoft Azure, Azure CLI, atau PowerShell. Saat membuat setelan diagnostik, Anda menentukan kategori log mana yang akan dikumpulkan. Kategori untuk Azure Machine Learning tercantum dalam referensi data pemantauan Azure Machine Learning.

Penting

Mengaktifkan setelan ini memerlukan layanan Azure tambahan (akun penyimpanan, event hub, atau Analitik Log), yang dapat meningkatkan biaya. Untuk menghitung estimasi biaya, kunjungi kalkulator harga Azure.

Anda bisa mengonfigurasi log berikut untuk Azure Machine Learning:

Kategori Deskripsi
AmlComputeClusterEvent Event dari kluster komputasi Azure Machine Learning.
AmlComputeClusterNodeEvent (deprecated) Event dari simpul dalam kluster komputasi Azure Machine Learning.
AmlComputeJobEvent Event dari pekerjaan yang berjalan di komputasi Azure Machine Learning.
AmlComputeCpuGpuUtilization Layanan ML menghitung log penggunaan CPU dan GPU.
AmlRunStatusChangedEvent Perubahan status eksekusi ML.
ModelsChangeEvent Kejadian saat model ML diakses, dibuat, atau dihapus.
ModelsReadEvent Kejadian saat model ML dibaca.
ModelsActionEvent Kejadian saat model ML diakses.
DeploymentReadEvent Kejadian saat penyebaran model dibaca.
DeploymentEventACI Kejadian saat penyebaran model berlangsung pada ACI (sangat ramai).
DeploymentEventAKS Kejadian saat penyebaran model berlangsung pada AKS (sangat ramai).
InferencingOperationAKS Kejadian untuk inferensi atau operasi terkait pada jenis komputasi AKS.
InferencingOperationACI Kejadian untuk inferensi atau operasi terkait pada jenis komputasi ACI.
EnvironmentChangeEvent Kejadian saat konfigurasi lingkungan ML dibuat atau dihapus.
EnvironmentReadEvent Kejadian saat konfigurasi lingkungan ML dibaca (sangat ramai).
DataLabelChangeEvent Kejadian saat label data atau proyeknya dibuat atau dihapus.
DataLabelReadEvent Kejadian saat label data atau proyeknya dibaca.
ComputeInstanceEvent Kejadian saat Instans Komputasi ML diakses (sangat ramai).
DataStoreChangeEvent Kejadian saat datastore ML dibuat atau dihapus.
DataStoreReadEvent Kejadian saat datastore ML dibaca.
DataSetChangeEvent Kejadian saat datastore ML dibuat atau dihapus.
DataSetReadEvent Kejadian saat datastore ML dibaca.
PipelineChangeEvent Kejadian saat draf atau titik akhir atau modul alur ML dibuat atau dihapus.
PipelineReadEvent Kejadian saat draf atau titik akhir atau modul alur ML dibaca.
RunEvent Kejadian saat eksperimen ML dibuat atau dihapus.
RunReadEvent Kejadian saat eksperimen ML dibaca.

Catatan

Mulai bulan Februari tahun 2022, kategori AmlComputeClusterNodeEvent tidak akan digunakan lagi. Sebagai gantinya, kami sarankan agar Anda menggunakan kategori AmlComputeClusterEvent.

Catatan

Saat Anda mengaktifkan metrik dalam setelan diagnostik, informasi dimensi saat ini tidak termasuk sebagai bagian dari informasi yang dikirimkan ke akun penyimpanan, event hub, atau analitik log.

Metrik dan log yang dapat Anda kumpulkan dibahas di bagian berikut.

Menganalisis metrik

Anda dapat menganalisis metrik untuk Azure Machine Learning, bersama dengan metrik dari layanan Azure lainnya, dengan membuka Metrik dari menu Azure Monitor. Lihat Mulai menggunakan Azure Metrics Explorer untuk mengetahui detail tentang alat ini.

Untuk melihat daftar metrik platform yang dikumpulkan, lihat Memantau metrik referensi data Azure Machine Learning.

Semua metrik untuk Azure Machine Learning berada di namespace Ruang Kerja Layanan Pembelajaran Mesin.

Metrics Explorer dengan Ruang Kerja Layanan Pembelajaran Mesin terpilih

Sebagai referensi, Anda dapat melihat daftar semua metrik sumber yang didukung di Azure Monitor.

Tip

Data metrik Azure Monitor tersedia selama 90 hari. Namun, saat membuat bagan, hanya 30 hari yang dapat divisualisasikan. Contohnya, jika Anda ingin memvisualisasikan periode 90 hari, Anda harus membaginya ke dalam tiga bagan masing-masing 30 hari dalam periode 90 hari.

Pemfilteran dan pemisahan

Untuk metrik yang mendukung dimensi, Anda dapat menerapkan filter menggunakan nilai dimensi. Misalnya, memfilter Active Cores untuk Nama Kluster dari cpu-cluster.

Anda juga dapat membagi satu metrik berdasarkan dimensi untuk memvisualisasikan bagaimana berbagai segmen metrik tersebut saling berbanding. Misalnya, memisahkan Tipe Langkah Alur untuk melihat hitungan tipe langkah yang digunakan dalam alur.

Untuk informasi lebih lanjut mengenai pemfilteran dan pemisahan, lihat Fitur tingkat lanjut dari Azure Monitor.

Menganalisis log

Menggunakan Azure Monitor Log Analitics mengharuskan Anda membuat konfigurasi diagnostik dan mengaktifkan Kirimkan informasi ke Log Analytics. Untuk informasi lebih lanjut, lihat bagian Pengumpulan dan perutean.

Data pada Azure Monitor Logs disimpan pada tabel, dengan setiap tabel memiliki rangkaian properti uniknya masing-masing. Azure Machine Learning menyimpan data dalam tabel berikut:

Tabel Deskripsi
AmlComputeClusterEvent Event dari kluster komputasi Azure Machine Learning.
AmlComputeClusterNodeEvent (deprecated) Event dari simpul dalam kluster komputasi Azure Machine Learning.
AmlComputeJobEvent Event dari pekerjaan yang berjalan di komputasi Azure Machine Learning.
AmlComputeInstanceEvent Peristiwa saat Instans Komputasi ML diakses (baca/tulis). Kategori mencakup:ComputeInstanceEvent (sangat berisik).
AmlDataLabelEvent Peristiwa ketika label data atau proyeknya diakses (dibaca, dibuat, atau dihapus). Kategori mencakup:DataLabelReadEvent,DataLabelChangeEvent.
AmlDataSetEvent Peristiwa ketika himpunan data ML yang terdaftar atau tidak terdaftar diakses (dibaca, dibuat, atau dihapus). Kategori mencakup:DataSetReadEvent,DataSetChangeEvent.
AmlDataStoreEvent Peristiwa saat penyimpanan data ML diakses (dibaca, dibuat, atau dihapus). Kategori mencakup:DataStoreReadEvent,DataStoreChangeEvent.
AmlDeploymentEvent Peristiwa ketika penyebaran model terjadi pada ACI atau AKS. Kategori mencakup:DeploymentReadEvent,DeploymentEventACI,DeploymentEventAKS.
AmlInferencingEvent Peristiwa untuk inferensi atau operasi terkait pada tipe komputasi AKS atau ACI. Kategori mencakup:InferencingOperationACI (sangat berisik),InferencingOperationAKS (sangat berisik).
AmlModelsEvent Peristiwa saat model ML diakses (dibaca, dibuat, atau dihapus). Mencakup peristiwa saat pengemasan model dan aset menjadi paket siap pakai. Kategori mencakup:ModelsReadEvent,ModelsActionEvent .
AmlPipelineEvent Peristiwa ketika draf alur ML atau titik akhir atau modul diakses (dibaca, dibuat, atau dihapus). Kategori mencakup:PipelineReadEvent,PipelineChangeEvent.
AmlRunEvent Peristiwa ketika percobaan ML diakses (dibaca, dibuat, atau dihapus). Kategori mencakup:RunReadEvent,RunEvent.
AmlEnvironmentevent Peristiwa saat konfigurasi lingkungan ML (dibaca, dibuat, atau dihapus). Kategori mencakup:EnvironmentReadEvent (sangat berisik),EnvironmentChangeEvent.

Catatan

Mulai Februari 2022, tabel AmlComputeClusterNodeEvent tidak digunakan lagi. Sebagai gantinya, kami sarankan agar Anda menggunakan tabel AmlComputeClusterEvent.

Penting

Saat Anda memilih Log dari menu Azure Machine Learning, Log Analytics dibuka dengan cakupan kueri yang diset ke ruang kerja saat ini. Hal ini berarti kueri log hanya akan menyertakan data dari sumber tersebut. Jika Anda ingin menjalankan kueri yang mencakup data dari database lain atau data dari layanan Azure lainnya, pilih Log dari menu Azure Monitor. Lihat Cakupan kueri log dan rentang waktu dalam Azure Monitor Log Analytics untuk mengetahui detailnya.

Untuk referensi mendetail mengenai log dan metrik, lihat Referensi data pemantauan Azure Machine Learning.

Contoh kueri Kusto

Penting

Saat Anda memilih Log dari menu [service-name], Log Analytics dibuka dengan cakupan kueri yang diset ke ruang kerja Azure Machine Learning saat ini. Hal ini berarti kueri log hanya akan menyertakan data dari sumber tersebut. Jika Anda ingin menjalankan kueri yang mencakup data dari ruang kerja lain atau data dari layanan Azure lainnya, pilih Log dari menu Azure Monitor. Lihat Cakupan kueri log dan rentang waktu dalam Azure Monitor Log Analytics untuk mengetahui detailnya.

Berikut adalah kueri-kueri yang dapat digunakan untuk membantu Anda memantau sumber Azure Machine Learning:

  • Dapatkan pekerjaan yang gagal dalam lima hari terakhir:

    AmlComputeJobEvent
    | where TimeGenerated > ago(5d) and EventType == "JobFailed"
    | project  TimeGenerated , ClusterId , EventType , ExecutionState , ToolType
    
  • Dapatkan rekaman untuk nama pekerjaan tertentu:

    AmlComputeJobEvent
    | where JobName == "automl_a9940991-dedb-4262-9763-2fd08b79d8fb_setup"
    | project  TimeGenerated , ClusterId , EventType , ExecutionState , ToolType
    
  • Dapatkan event kluster dalam lima hari terakhir untuk kluster di mana ukuran VM adalah Standard_D1_V2:

    AmlComputeClusterEvent
    | where TimeGenerated > ago(4d) and VmSize == "STANDARD_D1_V2"
    | project  ClusterName , InitialNodeCount , MaximumNodeCount , QuotaAllocated , QuotaUtilized
    
  • Mendapatkan alokasi node kluster dalam delapan hari terakhir::

    AmlComputeClusterEvent
    | where TimeGenerated > ago(8d) and TargetNodeCount  > CurrentNodeCount
    | project TimeGenerated, ClusterName, CurrentNodeCount, TargetNodeCount
    

Saat Anda menyambungkan beberapa ruang kerja Azure Machine Learning ke ruang kerja Analitik Log yang sama, Anda dapat membuat kueri di semua sumber daya.

  • Dapatkan jumlah simpul yang berjalan di ruang kerja dan kluster di hari terakhir:

    AmlComputeClusterEvent
    | where TimeGenerated > ago(1d)
    | summarize avgRunningNodes=avg(TargetNodeCount), maxRunningNodes=max(TargetNodeCount)
             by Workspace=tostring(split(_ResourceId, "/")[8]), ClusterName, ClusterType, VmSize, VmPriority
    

Membuat dasbor pemantauan ruang kerja dengan menggunakan templat

Dasbor adalah tampilan sumber daya cloud Anda yang terfokus dan terorganisir di portal Azure. Untuk informasi lebih lanjut mengenai pembuatan dasbor, lihat Membuat, menampilkan, dan mengelola peringatan metrik dengan menggunakan Azure Monitor.

Untuk menyebarkan dasbor sampel, Anda dapat menggunakan templat yang tersedia untuk umum. Dasbor sampel didasarkan pada Kueri Kusto, jadi Anda harus mengaktifkan pengumpulan data Log Analytics untuk ruang kerja Azure Machine Learning Anda sebelum menyebarkan dasbor.

Peringatan

Anda dapat mengakses peringatan untuk Azure Machine Learning dengan membuka Peringatan dari menu Azure Monitor. Lihat Buat, lihat, dan kelola pemberitahuan metrik menggunakan Azure Monitor untuk detail mengenai pembuatan pemberitahuan.

Tabel berikut ini mencantumkan aturan peringatan umum dan yang direkomendasikan untuk Azure Machine Learning:

Jenis pemberitahuan Kondisi Deskripsi
Penerapan Model Gagal Tipe agregasi: Total, Operator: Lebih besar dari, Nilai ambang batas: 0 Ketika satu atau beberapa penerapan model telah gagal
Persentase Pemanfaatan Kuota Tipe agregasi: Rata-rata, Operator: Lebih besar dari, Nilai ambang batas: 90 Ketika persentase pemanfaatan kuota lebih besar dari 90%
Simpul yang Tidak Dapat Digunakan Tipe agregasi: Total, Operator: Lebih besar dari, Nilai ambang batas: 0 Ketika ada satu atau beberapa simpul yang tidak dapat digunakan

Langkah berikutnya