Desain untuk operasi
Merancang aplikasi sehingga tim operasi memiliki alat yang dibutuhkan
Cloud telah secara dramatis mengubah peran tim operasi. Mereka tidak lagi bertanggung jawab untuk mengelola perangkat keras dan infrastruktur yang menjadi host aplikasi. Yang mengatakan, operasi masih merupakan bagian penting dari menjalankan aplikasi cloud yang sukses. Beberapa fungsi penting dari tim operasi meliputi:
- Penyebaran
- Pemantauan
- Eskalasi
- Respons Insiden
- Audit keamanan
Pencatatan dan pelacakan yang kuat sangat penting dalam aplikasi cloud. Libatkan tim operasi dalam desain dan perencanaan, untuk memastikan aplikasi memberi mereka data dan wawasan yang dibutuhkan untuk menjadi sukses.
Rekomendasi
Buat semua hal dapat diamati. Setelah solusi disebarkan dan berjalan, log dan jejak adalah wawasan utama Anda ke dalam sistem. Pelacakan mencatat jalur melalui sistem, dan berguna untuk menentukan kemacetan, masalah performa, dan titik kegagalan. Pengelogan menangkap peristiwa individual seperti perubahan status aplikasi, kesalahan, dan pengecualian. Masuk dalam produksi, atau Anda kehilangan wawasan pada saat-saat ketika Anda paling membutuhkannya.
Instrumen untuk pemantauan. Pemantauan memberikan wawasan tentang seberapa baik (atau buruk) performa aplikasi, dalam hal ketersediaan, performa, dan kesehatan sistem. Misalnya, pemantauan memberi tahu Anda apakah Anda memenuhi SLA. Pemantauan terjadi selama operasi normal sistem. Ini harus sedekat mungkin dengan real time, sehingga staf operasi dapat bereaksi terhadap masalah dengan cepat. Idealnya, pemantauan dapat membantu mencegah masalah sebelum menyebabkan kegagalan kritis. Untuk informasi selengkapnya, lihat Pemantauan dan diagnostik.
Instrumen untuk analisis akar penyebab. Analisis akar penyebab adalah proses menemukan penyebab kegagalan yang mendasarinya. Ini terjadi setelah kegagalan sudah terjadi.
Menggunakan pelacakan terdistribusi. Gunakan sistem pelacakan terdistribusi yang dirancang untuk konkurensi, asinkronisasi, dan skala cloud. Jejak harus menyertakan ID korelasi yang mengalir melintasi batas layanan. Satu operasi mungkin melibatkan panggilan ke beberapa layanan aplikasi. Jika operasi gagal, ID korelasi membantu menentukan penyebab kegagalan.
Standarisasi log dan metrik. Tim operasi perlu mengumpulkan log dari berbagai layanan dalam solusi Anda. Jika setiap layanan menggunakan format pengelogan sendiri, ini menjadi sulit atau tidak mungkin untuk mendapatkan informasi yang berguna dari mereka. Tentukan skema umum yang mencakup bidang seperti ID korelasi, nama peristiwa, alamat IP pengirim, dan sebagainya. Masing-masing layanan dapat memperoleh skema kustom yang mewarisi skema dasar, dan berisi bidang tambahan.
Mengotomatiskan tugas manajemen, termasuk penyediaan, penyebaran, dan pemantauan. Mengotomatiskan tugas membuatnya dapat diulang dan kurang rentan terhadap kesalahan manusia.
Memperlakukan konfigurasi sebagai kode. Periksa file konfigurasi ke dalam sistem kontrol versi, sehingga Anda dapat melacak dan versi perubahan Anda, dan menggulung balik jika diperlukan.