Project Flash - Memajukan pemantauan ketersediaan Azure Virtual Machine

Artikel
02/14/2024

Flash, seperti yang diketahui secara internal, mendapatkan namanya dari komitmen kami yang kuat untuk membangun mekanisme yang kuat, andal, dan cepat bagi pelanggan untuk memantau kesehatan komputer virtual (VM). Tujuan utama kami adalah memastikan pelanggan dapat dengan andal mengakses telemetri yang dapat ditindak lanjuti dan tepat, segera menerima pemberitahuan tentang perubahan, dan secara berkala memantau data dalam skala besar. Kami juga memberikan penekanan kuat pada pengembangan pengalaman terpusat dan koheren yang dapat digunakan pelanggan dengan mudah untuk memenuhi persyaratan pengamatan unik mereka. Ini adalah misi kami untuk memastikan Anda dapat:

Konsumsi data yang akurat dan dapat ditindaklanjuti pada gangguan ketersediaan VM (misalnya, reboot dan restart VM, pembekuan aplikasi karena pembaruan driver jaringan, dan pembaruan OS host 30 detik), bersama dengan detail kegagalan yang tepat (misalnya, platform versus yang dimulai pengguna, boot ulang versus pembekuan, direncanakan versus tidak direncanakan).
Analisis dan pemberitahuan tentang tren ketersediaan VM untuk penelusuran kesalahan cepat dan pelaporan bulan ke bulan.
Pantau data secara berkala dalam skala besar dan bangun dasbor kustom untuk tetap diperbarui pada status ketersediaan terbaru semua sumber daya.
Terima analisis akar penyebab akar otomatis (RCA) yang merinci VM yang terkena dampak, penyebab dan durasi waktu henti, perbaikan konsekuensi, dan sejenisnya—semuanya untuk memungkinkan penyelidikan yang ditargetkan dan analisis pasca-mortem.
Terima pemberitahuan seketika tentang perubahan penting dalam ketersediaan VM untuk memicu tindakan remediasi dengan cepat dan mencegah dampak pengguna akhir.
Menyesuaikan dan mengotomatiskan kebijakan pemulihan platform secara dinamis, berdasarkan sensitivitas beban kerja dan kebutuhan failover yang terus berubah.

Solusi flash

Inisiatif Flash didedikasikan untuk mengembangkan solusi selama bertahun-tahun yang memenuhi beragam kebutuhan pemantauan pelanggan kami. Untuk membantu Anda menentukan solusi pemantauan Flash yang paling sesuai untuk persyaratan spesifik Anda, lihat tabel berikut:

Solusi	Keterangan
Azure Resource Graph (Ketersediaan Umum)	Untuk penyelidikan dalam skala besar, repositori sumber daya terpusat dan pencarian riwayat, pelanggan besar ingin secara berkala menggunakan telemetri ketersediaan sumber daya di semua beban kerja mereka, sekaligus, menggunakan Azure Resource Graph (ARG).
Topik sistem Event Grid (Pratinjau Umum)	Untuk memicu mitigasi yang sensitif terhadap waktu dan kritis (penyebaran ulang, mulai ulang tindakan VM) untuk pencegahan dampak pengguna akhir, pelanggan (misalnya, Pearl Abyss, Krafton) ingin menerima pemberitahuan dalam hitungan detik dari perubahan penting dalam ketersediaan sumber daya melalui Penanganan Aktivitas di Event Grid.
Azure Monitor (Pratinjau Umum)	Untuk melacak tren, metrik platform agregat (CPU, disk, dll.), dan menyiapkan pemberitahuan berbasis ambang batas yang tepat, pelanggan ingin menggunakan metrik Ketersediaan VM di luar kotak melalui Azure Monitor.
Kesehatan Sumber Daya (Ketersediaan Umum)	Untuk melakukan pemeriksaan kesehatan UI Portal yang seketika dan nyaman, pelanggan per sumber daya dapat dengan cepat melihat bilah RHC di portal. Mereka juga dapat mengakses tampilan historis pemeriksaan kesehatan selama 30 hari untuk sumber daya tersebut untuk pemecahan masalah yang cepat dan mudah.

Pemantauan ketersediaan VM holistik

Untuk pendekatan holistik untuk memantau ketersediaan VM, termasuk skenario pemeliharaan rutin, migrasi langsung, penyembuhan layanan, dan degradasi VM, kami sarankan Anda menggunakan peristiwa terjadwal (SE) dan peristiwa kesehatan Flash.

Peristiwa terjadwal dirancang untuk menawarkan peringatan dini, memberikan pemberitahuan di muka hingga 15 menit sebelum aktivitas pemeliharaan. Waktu tunggu ini memungkinkan Anda membuat keputusan berdasarkan informasi mengenai waktu henti yang akan datang, memungkinkan Anda untuk menghindari atau mempersiapkannya. Anda memiliki fleksibilitas untuk mengakui peristiwa ini atau tindakan penundaan selama periode 15 menit ini, tergantung pada kesiapan Anda untuk pemeliharaan mendatang.

Di sisi lain, peristiwa Flash Health difokuskan pada pelacakan real-time dari gangguan ketersediaan yang sedang berlangsung dan selesai, termasuk degradasi VM. Fitur ini memberdayakan Anda untuk memantau dan mengelola waktu henti secara efektif, mendukung mitigasi otomatis, investigasi, dan analisis pasca-mortem.

Untuk memulai perjalanan observabilitas Anda, Anda dapat menjelajahi rangkaian produk Azure tempat kami memancarkan data ketersediaan VM berkualitas tinggi. Produk-produk ini termasuk kesehatan sumber daya, log aktivitas, grafik sumber daya Azure, metrik azure monitor, dan topik sistem Azure Event Grid.

Langkah berikutnya

Untuk mempelajari selengkapnya tentang solusi yang ditawarkan, lanjutkan ke artikel solusi yang sesuai:

Untuk gambaran umum tentang cara memantau Azure Virtual Machines, lihat Memantau komputer virtual Azure dan referensi Memantau komputer virtual Azure.

Share via

Project Flash - Memajukan pemantauan ketersediaan Azure Virtual Machine

Solusi flash

Pemantauan ketersediaan VM holistik

Langkah berikutnya

Sumber Daya Tambahan: