Project Flash - Menggunakan Azure Resource Graph untuk memantau ketersediaan Azure Virtual Machine

Azure Resource Graph adalah salah satu solusi yang ditawarkan oleh Flash. Flash adalah nama internal untuk proyek yang didedikasikan untuk membangun mekanisme yang kuat, andal, dan cepat bagi pelanggan untuk memantau kesehatan komputer virtual (VM).

Artikel ini membahas penggunaan Azure Resource Graph untuk memantau ketersediaan Azure Virtual Machine. Untuk gambaran umum solusi Flash, lihat Gambaran umum Flash.

Untuk dokumentasi khusus untuk solusi lain yang ditawarkan oleh Flash, pilih dari artikel berikut:

Azure Resource Graph - HealthResources

Fitur ini saat ini tersedia secara umum. Ini berguna untuk melakukan penyelidikan skala besar. Ini menawarkan pengalaman yang sangat ramah pengguna untuk pengambilan informasi dengan penggunaan bahasa kueri kusto (KQL). Ini juga dapat berfungsi sebagai hub pusat untuk informasi sumber daya dan memungkinkan pengambilan data historis dengan mudah.

Selain status ketersediaan VM yang sudah mengalir, kami menerbitkan anotasi ketersediaan VM ke Azure Resource Graph (ARG) untuk atribusi kegagalan terperinci dan analisis waktu henti, bersama dengan mengaktifkan mekanisme pelacakan perubahan 14 hari untuk melacak perubahan historis dalam ketersediaan VM untuk penelusuran kesalahan cepat. Dengan penambahan baru ini, kami sangat senang mengumumkan ketersediaan umum informasi ketersediaan VM dalam himpunan data HealthResources di ARG! Dengan penawaran ini pengguna dapat:

  • Secara efisien mengkueri rekam jepret terbaru ketersediaan VM di semua langganan Azure sekaligus dan pada latensi rendah untuk pemantauan berkala dan fleetwide.
  • Menilai dampaknya secara akurat terhadap SLA bisnis sejalan dan dengan cepat memicu tindakan mitigasi yang menentukan, sebagai respons terhadap gangguan dan jenis tanda tangan kegagalan.
  • Siapkan dasbor kustom untuk mengawasi kesehatan aplikasi yang komprehensif dengan menggabungkan informasi ketersediaan VM dengan metadata sumber daya yang ada di ARG.
  • Lacak perubahan yang relevan dalam ketersediaan VM di seluruh jendela 14 hari yang bergulir, dengan menggunakan mekanisme pelacakan perubahan untuk melakukan penyelidikan terperinci.

Contoh kueri

Mulai

Pengguna dapat mengkueri ARG melalui PowerShell, REST API, Azure CLI, atau bahkan portal Azure. Langkah-langkah berikut merinci bagaimana data dapat diakses dari portal Azure.

  1. Setelah berada di portal Azure, navigasikan ke Resource Graph Explorer.

    Screenshot of the Azure Resource Graph Explorer landing page on the Azure portal.

  2. Pilih tab Tabel dan (tunggal) klik pada tabel HealthResources untuk mengambil rekam jepret terbaru informasi ketersediaan VM (status ketersediaan dan anotasi kesehatan).

    Screenshot of an Azure Resource Graph Explorer Window depicting the latest VM availability states and VM availability annotations in the Health Resources table.

Ada dua jenis peristiwa yang diisi dalam tabel HealthResources:

Snapshot of the type of events in the Health Resources table, as shown in Resource Graph Explorer on the Azure portal.

  • resourcehealth/availabilitystatuses

Kejadian ini menunjukkan status ketersediaan terbaru VM, berdasarkan pemeriksaan kesehatan yang dilakukan oleh platform Azure yang mendasar. Status ketersediaan yang saat ini kami keluarkan untuk VM adalah:

  • Tersedia: VM aktif dan berjalan seperti yang diharapkan.
  • Tidak tersedia: Kami mendeteksi gangguan pada fungsi normal VM, dan oleh karena itu, aplikasi tidak akan berjalan seperti yang diharapkan.
  • Tidak diketahui: Platform tidak dapat mendeteksi kesehatan VM secara akurat. Pengguna biasanya dapat memeriksa kembali dalam beberapa menit untuk status yang diperbarui.

Untuk melakukan polling status ketersediaan VM terbaru, lihat bidang properti, yang berisi detail berikut:

Sampel

{
 "targetResourceType": "Microsoft.Compute/virtualMachines",
 "previousAvailabilityState": "Available",
 "targetResourceId": "/subscriptions//resourceGroups//providers/Microsoft.Compute/virtualMachines/",
 "occurredTime": "2022-10-11T11:13:59.9570000Z",
 "availabilityState": "Unavailable"
 }

Deskripsi properti

Properti Keterangan Kategori kesehatan sumber daya yang sesuai (RHC)
targetResourceType Jenis sumber daya yang data kesehatannya mengalir resourceType
targetResourceId ID Sumber Daya resourceId
occurredTime Tanda waktu saat platform memancarkan status ketersediaan terbaru eventTimestamp
previousAvailabilityState Status ketersediaan VM sebelumnya previousHealthStatus
availabilityState Status ketersediaan VM saat ini currentHealthStatus

Lihat bagian HealthResources dari dokumentasi kueri sampel untuk daftar kueri pemula untuk menjelajahi data ini lebih lanjut.

  • resourcehealth/resourceannotations (BARU DITAMBAHKAN)

Kejadian ini mengkonteksualisasikan setiap perubahan pada ketersediaan VM, dengan merinci atribut kegagalan yang diperlukan untuk membantu pengguna menyelidiki dan mengurangi gangguan sesuai kebutuhan. Lihat daftar lengkap anotasi ketersediaan VM yang dipancarkan oleh platform. Anotasi ini dapat diklasifikasikan secara luas ke dalam tiga wadah:

  • Anotasi Waktu Henti: Anotasi ini dipancarkan ketika platform mendeteksi transisi ketersediaan VM ke Tidak Tersedia. (Misalnya, selama crash host yang tidak terduga, operasi perbaikan reboot).
  • Anotasi Informasi: Anotasi ini dipancarkan selama aktivitas sarana kontrol tanpa berdampak pada ketersediaan VM. (Seperti alokasi VM/Hentikan/Hapus/Mulai). Biasanya, tidak ada tindakan pelanggan lebih lanjut yang diperlukan sebagai respons.
  • Anotasi Terdegradasi: Anotasi ini dipancarkan ketika ketersediaan VM terdeteksi berisiko. (Misalnya, ketika model prediksi kegagalan memprediksi komponen perangkat keras yang terdegradasi yang dapat menyebabkan VM di-boot ulang pada waktu tertentu). Kami sangat mengimbau pengguna untuk menyebarkan ulang dengan tenggat waktu yang ditentukan dalam pesan anotasi, untuk menghindari hilangnya data atau waktu henti yang tidak terduga. Anda mungkin menerima pemberitahuan di set skala komputer virtual Azure Resource Health atau log Aktivitas dalam salah satu skenario berikut:

Untuk melakukan polling anotasi ketersediaan VM terkait untuk sumber daya, jika ada, lihat bidang properti, yang berisi detail berikut:

Sampel

{
 "targetResourceType": "Microsoft.Compute/virtualMachines", "targetResourceId": "/subscriptions//resourceGroups//providers/Microsoft.Compute/virtualMachines/",
 "annotationName": "VirtualMachineHostRebootedForRepair",
 "occurredTime": "2022-09-25T20:21:37.5280000Z",
 "category": "Unplanned",
 "summary": "We're sorry, your virtual machine isn't available because an unexpected failure on the host server. Azure has begun the auto-recovery process and is currently rebooting the host server. No further action is required from you at this time. The virtual machine will be back online after the reboot completes.",
 "context": "Platform Initiated",
 "reason": "Unexpected host failure"
 }

Deskripsi properti

Properti Keterangan RHC yang sesuai
targetResourceType Jenis sumber daya yang data kesehatannya mengalir resourceType
targetResourceId ID Sumber Daya resourceId
occurredTime Tanda waktu ketika status ketersediaan terbaru dipancarkan oleh platform eventTimestamp
anotasiName Nama Anotasi yang dipancarkan eventName
reason Ringkasan singkat tentang dampak ketersediaan yang diamati oleh pelanggan title
category Menunjukkan apakah aktivitas platform yang memicu anotasi adalah pemeliharaan terencana atau perbaikan yang tidak direncanakan. Bidang ini tidak berlaku untuk peristiwa yang dimulai pelanggan/VM. Kemungkinan nilai: Terencana, Tidak Direncanakan, Tidak Berlaku, Null category
context Menunjukkan apakah aktivitas yang memicu anotasi disebabkan oleh pengguna atau proses resmi (dimulai pelanggan), platform Azure (dimulai platform), atau aktivitas di OS tamu yang mengakibatkan dampak ketersediaan (VM dimulai). Nilai yang mungkin: Diinisiasi platform, Dimulai pengguna, dimulai VM, Tidak Berlaku, Null context
ringkasan Pernyataan yang merinci penyebab emisi anotasi, bersama dengan langkah-langkah remediasi yang dapat dilakukan pengguna ringkasan

Lihat bagian HealthResources dari dokumentasi kueri sampel untuk daftar kueri pemula untuk menjelajahi data ini lebih lanjut.

Kami memiliki beberapa penyempurnaan yang direncanakan untuk metadata anotasi yang muncul di himpunan data HealthResources. Pengayaan ini memberi pengguna akses ke atribut kegagalan yang lebih kaya untuk secara menentukan menyiapkan respons terhadap gangguan. Secara paralel, kami bertujuan untuk memperpanjang durasi lookback historis hingga minimal 30 hari sehingga pengguna dapat secara komprehensif melacak perubahan sebelumnya dalam ketersediaan VM.

Langkah berikutnya

Untuk mempelajari selengkapnya tentang solusi yang ditawarkan, lanjutkan ke artikel solusi yang sesuai:

Untuk gambaran umum tentang cara memantau Azure Virtual Machines, lihat Memantau komputer virtual Azure dan referensi Memantau komputer virtual Azure.