Perbaikan otomatis node kluster terkelola Azure Service Fabric (SFMC)

Kluster terkelola Service Fabric (SFMC) telah menambahkan kemampuan untuk membantu menjaga kluster tetap sehat secara otomatis melalui perbaikan node otomatis, yang lebih mengurangi manajemen operasional yang diperlukan. Kemampuan baru ini akan mendeteksi kapan node tidak berfungsi dalam kluster dan mencoba memperbaikinya tanpa intervensi pelanggan. Dalam dokumen ini, Anda akan mempelajari cara kerja perbaikan node otomatis untuk node kluster terkelola Service Fabric.

Cara SFMC memeriksa kapan node tidak berfungsi

Kluster terkelola Service Fabric terus memantau kondisi node dan mencatat waktu saat node berfungsi dan tidak berfungsi. Jika node terdeteksi tidak berfungsi selama periode yang telah ditentukan sebelumnya, SFMC memulai tindakan perbaikan otomatis pada node. Periode yang telah ditentukan saat ini dikonfigurasi menjadi 24 jam saat peluncuran dan dapat dioptimalkan nantinya.

Cara kerja perbaikan otomatis

SFMC melakukan tindakan perbaikan berikut pada Mesin Virtual (VM) yang mendasarinya jika node Service Fabric terdeteksi tidak berfungsi selama 24 jam:

  1. Reboot VM yang mendasari untuk node.
  2. Jika reboot tidak memunculkan node, sebarkan ulang node.
  3. Jika penyebaran ulang tidak berhasil memunculkan node, batalkan alokasi dan mulai VM kembali.
  4. Jika pembatalan alokasi tidak memunculkan node, citrakan ulang node.

SFMC menunggu node muncul kembali setelah setiap tindakan, dan jika node tidak muncul, SFMC melanjutkan ke tindakan berikutnya. Tindakan perbaikan otomatis node biasanya memakan waktu sekitar 30 menit setelah dimulai, tetapi dapat memakan waktu lebih dari tiga jam untuk mengulangi dan menyelesaikan seluruh rangkaian tindakan yang dijelaskan. Tidak ada percobaan ulang lebih lanjut jika node masih tidak berfungsi setelah SFMC mencoba semua tindakan perbaikan di atas. Remediasi alternatif akan diselidiki oleh teknisi SF jika perbaikan otomatis tidak memunculkan node.

Jika SFMC menemukan beberapa node tidak berfungsi selama pemeriksaan kondisi, setiap node diperbaiki satu per satu sebelum perbaikan lain dimulai. SFMC mencoba memperbaiki node dalam urutan yang sama seperti saat node terdeteksi tidak berfungsi.

Meskipun perbaikan otomatis node mencakup skenario yang dijelaskan di atas, pelanggan harus terus memantau kondisi kluster mereka dan sumber dayanya. Tujuan dari fitur ini adalah untuk melepas sebagian beban manajemen dan operasi kluster.

Future Roadmap

Peluncuran ini adalah perulangan pertama dari kemampuan perbaikan node otomatis, dan SFMC akan terus meningkatkan dan memperluas cakupannya di masa mendatang.

Langkah berikutnya