Rekomendasi untuk merancang strategi pemantauan dan pemberitahuan yang andal

Berlaku untuk rekomendasi daftar periksa Keandalan Azure Well-Architected Framework ini:

RE:10 Mengukur dan menerbitkan indikator kesehatan solusi. Terus menangkap waktu aktif dan data keandalan lainnya dari seluruh beban kerja dan juga dari komponen individu dan alur kunci.

Panduan ini menjelaskan rekomendasi untuk merancang strategi pemantauan dan peringatan yang andal. Terapkan strategi ini untuk menjaga tim operasi Anda tetap mendapat informasi tentang status kesehatan lingkungan Anda dan memastikan bahwa Anda memenuhi target keandalan yang ditetapkan untuk beban kerja Anda.

Definisi

Istilah Definisi
Metrik Nilai numerik yang dikumpulkan secara berkala. Metrik menjelaskan beberapa aspek sistem pada waktu tertentu.
Log sumber daya Data yang dihasilkan sistem. Ini memberikan informasi tentang status sistem.
Jejak Data yang menyediakan informasi tentang jalur yang dilalui permintaan melalui layanan dan komponen.

Strategi desain utama

Sebelum Anda membuat strategi pemantauan dan pemberitahuan, lakukan tugas berikut untuk beban kerja Anda sebagai bagian dari perencanaan keandalan Anda:

Buat strategi pemantauan dan pemberitahuan untuk memastikan bahwa beban kerja Anda beroperasi dengan andal. Strategi pemantauan dan pemberitahuan memberikan kesadaran kepada tim operasi Anda sehingga mereka diberi tahu tentang perubahan dalam kondisi beban kerja Anda dan dapat dengan cepat mengatasi masalah. Bangun strategi pemantauan yang kuat dan andal dengan membuat model kesehatan untuk alur kritis Anda dan komponen yang terdiri dari alur kritis ini. Model kesehatan mendefinisikan status sehat, terdegradasi, dan tidak sehat. Rancang postur operasional Anda untuk segera menangkap perubahan dalam status ini. Ketika status kesehatan berubah dari sehat menjadi terdegradasi atau tidak sehat, mekanisme peringatan memicu langkah-langkah korektif otomatis dan memberi tahu tim yang sesuai.

Terapkan rekomendasi berikut untuk merancang strategi pemantauan dan peringatan yang memenuhi persyaratan bisnis Anda.

Panduan Umum

  • Pahami perbedaan antara metrik, log, dan jejak.

  • Aktifkan pengelogan untuk semua sumber daya cloud. Gunakan otomatisasi dan tata kelola dalam penyebaran Anda untuk mengaktifkan pembuatan log diagnostik di seluruh lingkungan Anda.

  • Teruskan semua log diagnostik ke sink data terpusat dan platform analitik, seperti ruang kerja Analitik Log. Jika Anda memiliki persyaratan kedaulatan data regional, Anda harus menggunakan sink data lokal di wilayah yang tunduk pada persyaratan tersebut.

Tradeoff: Ada implikasi biaya untuk menyimpan dan mengkueri log. Perhatikan bagaimana analisis dan retensi log Anda memengaruhi anggaran Anda, dan tentukan keseimbangan pemanfaatan terbaik untuk memenuhi kebutuhan Anda. Untuk informasi selengkapnya, lihat Praktik terbaik untuk pengoptimalan biaya.

  • Jika beban kerja Anda tunduk pada satu atau beberapa kerangka kerja kepatuhan, beberapa log komponen yang menangani informasi sensitif juga tunduk pada kerangka kerja tersebut. Kirim log komponen yang relevan ke sistem manajemen informasi dan peristiwa keamanan (SIEM), seperti Microsoft Sentinel.

  • Buat kebijakan penyimpanan log yang menggabungkan persyaratan retensi jangka panjang yang diberlakukan kerangka kerja kepatuhan pada beban kerja Anda.

  • Gunakan pengelogan terstruktur untuk semua pesan log untuk mengoptimalkan kueri data log.

  • Konfigurasikan pemberitahuan untuk memicu saat nilai melewati ambang kritis yang berkorelasi dengan perubahan status model kesehatan, seperti hijau menjadi kuning atau merah.

    Konfigurasi ambang adalah praktik peningkatan berkelanjutan. Seiring berkembangnya beban kerja Anda, ambang yang Anda tentukan mungkin berubah. Dalam beberapa kasus, ambang dinamis adalah opsi yang baik untuk strategi pemantauan Anda.

  • Pertimbangkan untuk menggunakan pemberitahuan saat status meningkat, seperti merah ke kuning atau merah ke hijau, sehingga tim operasi dapat melacak peristiwa ini untuk referensi di masa mendatang.

  • Visualisasikan kesehatan lingkungan Anda secara real-time.

  • Gunakan data yang dikumpulkan selama insiden untuk terus meningkatkan model kesehatan Anda serta strategi pemantauan dan pemberitahuan Anda.

  • Menggabungkan layanan pemantauan dan pemberitahuan platform cloud, termasuk:

  • Menggabungkan pemantauan dan analitik tingkat lanjut yang dibuat khusus yang ditawarkan penyedia cloud Anda, seperti alat wawasan Azure Monitor.

  • Terapkan pemantauan pencadangan dan pemulihan untuk menangkap:

    • Status replikasi data untuk memastikan bahwa beban kerja Anda mencapai pemulihan dalam tujuan titik pemulihan target (RPO).

    • Pencadangan dan pemulihan yang berhasil dan gagal.

    • Durasi pemulihan untuk menginformasikan perencanaan pemulihan bencana Anda.

Memantau aplikasi

  • Buat pemeriksaan kesehatan atau periksa fungsi dan jalankan secara teratur dari luar aplikasi. Pastikan Anda menguji dari beberapa lokasi yang secara geografis dekat dengan pelanggan Anda.

  • Mencatat data saat aplikasi berjalan di lingkungan produksi. Anda memerlukan informasi yang cukup untuk mendiagnosis penyebab masalah dalam status produksi.

  • Catat peristiwa di batas layanan. Sertakan ID korelasi yang mengalir melintasi batas layanan. Jika transaksi mengalir melalui beberapa layanan dan salah satunya gagal, ID korelasi membantu Anda melacak permintaan di seluruh aplikasi Anda dan menentukan mengapa transaksi gagal.

  • Gunakan pengelogan asinkron. Operasi pengelogan sinkron terkadang memblokir kode aplikasi Anda, yang menyebabkan permintaan dicadangkan saat log ditulis. Gunakan pengelogan asinkron untuk menjaga ketersediaan selama pengelogan aplikasi.

  • Pisahkan pengelogan aplikasi dari audit. Rekaman audit biasanya dipelihara untuk kepatuhan atau persyaratan peraturan dan harus lengkap. Untuk menghindari transaksi yang dihilangkan, pertahankan log audit yang terpisah dari log diagnostik.

  • Gunakan korelasi telemetri untuk memastikan bahwa Anda dapat memetakan transaksi melalui aplikasi end-to-end dan alur sistem penting. Proses ini sangat penting untuk melakukan analisis akar penyebab (RCA) untuk kegagalan. Kumpulkan metrik dan log tingkat platform, seperti persentase CPU, jaringan masuk, jaringan keluar, dan operasi disk per detik, dari aplikasi untuk menginformasikan model kesehatan dan untuk mendeteksi dan memprediksi masalah. Pendekatan ini dapat membantu membedakan antara kesalahan sementara dan nontransient.

  • Gunakan pemantauan white box untuk melengkapi aplikasi dengan log dan metrik semantik. Kumpulkan metrik dan log tingkat aplikasi, seperti konsumsi memori atau latensi permintaan, dari aplikasi untuk menginformasikan model kesehatan dan untuk mendeteksi dan memprediksi masalah.

  • Gunakan pemantauan kotak hitam untuk mengukur layanan platform dan pengalaman pelanggan yang dihasilkan. Pemantauan black box menguji perilaku aplikasi yang terlihat secara eksternal tanpa sepengetahuan internal sistem. Pendekatan ini umum untuk mengukur indikator tingkat layanan (SLA) yang berpusat pada pelanggan, tujuan tingkat layanan (SLA), dan perjanjian tingkat layanan (SLA).

Catatan

Untuk informasi selengkapnya tentang pemantauan aplikasi, lihat Pola Pemantauan Titik Akhir Kesehatan.

Memantau data dan penyimpanan

  • Pantau metrik ketersediaan kontainer penyimpanan Anda. Ketika metrik ini turun di bawah 100 persen, itu menunjukkan penulisan yang gagal. Penurunan sementara dalam ketersediaan mungkin terjadi saat penyedia cloud Anda mengelola beban. Lacak tren ketersediaan untuk menentukan apakah ada masalah dengan beban kerja Anda.

    Dalam beberapa kasus, penurunan metrik ketersediaan untuk kontainer penyimpanan menunjukkan hambatan di lapisan komputasi yang terkait dengan kontainer penyimpanan.

  • Ada banyak metrik untuk dipantau untuk database. Dalam konteks keandalan, metrik penting untuk dipantau meliputi:

    • Durasi kueri

    • Waktu habis

    • Waktu tunggu

    • Tekanan memori

    • Kunci

Fasilitasi Azure

  • Azure Monitor adalah solusi pemantauan komprehensif yang digunakan untuk mengumpulkan, menganalisis, dan merespons data pemantauan dari lingkungan cloud dan lokal Anda.

  • Log Analytics adalah alat di portal Azure yang digunakan untuk mengedit dan menjalankan kueri log terhadap data di ruang kerja Analitik Log.

  • Application Insights adalah ekstensi dari Azure Monitor. Ini menyediakan fitur pemantauan performa aplikasi (APM).

  • Wawasan Azure Monitor adalah alat analitik tingkat lanjut yang membantu memantau layanan Azure, seperti komputer virtual, layanan aplikasi, dan kontainer. Wawasan dibangun di atas Azure Monitor dan Analitik Log.

  • Azure Monitor untuk solusi SAP adalah produk pemantauan asli Azure untuk lanskap SAP yang berjalan di Azure.

  • Azure Policy membantu memberlakukan standar organisasi dan menilai kepatuhan dalam skala besar.

  • Pusat Keberlangsungan Bisnis Azure memberi Anda wawasan tentang real estat kelangsungan bisnis Anda. Saat Anda menerapkan pendekatan yang diberikan untuk kelangsungan bisnis dan pemulihan bencana (BCDR), gunakan Pusat Keberlangsungan Bisnis Azure untuk memusatkan manajemen perlindungan kelangsungan bisnis di seluruh beban kerja Azure dan hibrid. Pusat Keberlangsungan Bisnis Azure menentukan sumber daya yang tidak memiliki perlindungan yang tepat (melalui pencadangan atau pemulihan bencana) dan mengambil tindakan korektif. Alat ini memfasilitasi pemantauan terpadu dan memungkinkan Anda menetapkan kepatuhan tata kelola dan audit melalui Azure Policy, semuanya dapat diakses dengan mudah di satu lokasi.

  • Untuk beberapa praktik terbaik ruang kerja, lihat Mendesain arsitektur ruang kerja Analitik Log.

Contoh

Untuk contoh solusi pemantauan dunia nyata, lihat Pemantauan aplikasi web di Azure dan Arsitektur garis besar untuk kluster Azure Kubernetes Service.

  • Azure Monitor Baseline Alerts (AMBA) adalah repositori pusat definisi pemberitahuan yang dapat digunakan pelanggan dan mitra untuk meningkatkan pengalaman pengamatan mereka melalui adopsi Azure Monitor.

Daftar periksa keandalan

Lihat serangkaian rekomendasi lengkap.