Operasi beban kerja di manajemen cloud
Beberapa beban kerja penting untuk keberhasilan bisnis. Untuk beban kerja tersebut, garis beban manajemen tidak cukup untuk memenuhi komitmen bisnis yang diperlukan untuk manajemen cloud. Operasi platform mungkin tidak cukup untuk memenuhi komitmen bisnis. Sebagian beban kerja yang sangat penting ini membutuhkan fokus khusus tentang cara beban kerja berfungsi dan bagaimana hal tersebut didukung.
Sebagai imbalannya, investasi dalam operasi beban kerja dapat menyebabkan peningkatan performa, penurunan risiko gangguan bisnis, dan pemulihan yang lebih cepat ketika kegagalan sistem terjadi. Artikel ini membahas pendekatan untuk berinvestasi dalam operasi lanjutan beban kerja prioritas tinggi ini untuk mendorong komitmen bisnis yang lebih baik.
Saat yang tepat untuk berinvestasi dalam operasi beban kerja
Prinsip Pareto (juga dikenal sebagai aturan 80/20) menyatakan bahwa 80 persen efek berasal dari 20 persen penyebabnya. Ketika portofolio TI diizinkan untuk tumbuh secara organik dari waktu ke waktu, aturan ini sering diilustrasikan dalam tinjauan portofolio TI. Bergantung pada dampak yang membutuhkan investasi, penyebabnya dapat bervariasi tetapi prinsip umumnya tetap berlaku:
- 80 persen kegagalan sistem cenderung merupakan hasil dari 20 persen kesalahan umum atau bug.
- 80 persen nilai bisnis cenderung berasal dari 20 persen beban kerja dalam portofolio.
- 80 persen upaya bermigrasi ke cloud berasal dari 20 persen beban kerja yang dipindahkan.
- 80 persen upaya manajemen cloud akan mendukung 20 persen insiden layanan atau tiket bermasalah.
- 80 persen dampak bisnis dari pemadaman akan datang dari 20 persen sistem yang terkena dampak pemadaman.
Operasi beban kerja harus diterapkan hanya ketika strategi adopsi cloud, hasil bisnis, dan metrik operasional telah dipahami dengan baik. Ini adalah perubahan paradigma dari pandangan klasik TI. Sebelumnya, TI mengasumsikan bahwa semua beban kerja mengalami tingkat dukungan yang sama dan membutuhkan tingkat prioritas yang sama.
Sebelum mereka berinvestasi dalam operasi beban kerja yang mendalam, baik TI dan bisnis harus memahami pertimbangan bisnis dan harapan peningkatan investasi dalam manajemen cloud.
Mulai menangani data
Operasi beban kerja dimulai dengan memahami performa beban kerja dan persyaratan dukungan. Sebelum berinvestasi dalam operasi beban kerja, tim tersebut harus memiliki beragam data mengenai dependensi beban kerja, performa aplikasi, diagnostik database, telemetri mesin virtual, dan riwayat insiden.
Data ini menyemai wawasan yang mendorong keputusan operasi beban kerja.
Pengamatan lanjutan
Data awal dan telemetri yang sedang berlangsung dapat membantu merumuskan dan menguji teori performa beban kerja. Tetapi operasi beban kerja yang sedang berlangsung berakar pada pengamatan performa beban kerja yang berkelanjutan dan diperluas, dengan titik fokus pada performa aplikasi dan data.
Menguji automasi
Di tingkat aplikasi, persyaratan pertama operasi beban kerja adalah investasi dalam pengujian mendalam. Semua aplikasi yang didukung melalui operasi beban kerja, memerlukan rencana pengujian dan dijalankan secara teratur untuk memberikan pengujian fungsional dan skala di seluruh aplikasi.
Telemetri uji reguler dapat memberikan validasi langsung dari berbagai hipotesis tentang pengoperasian beban kerja. Meningkatkan pola operasional dan arsitektur dapat dieksekusi dan diuji. Delta yang dihasilkan memberikan analisis dampak yang jelas untuk memandu investasi lanjutan.
Memahami rilis
Pemahaman yang jelas tentang siklus rilis dan alur rilis merupakan elemen penting dari operasi beban kerja.
Pemahaman tentang siklus dapat mempersiapkan potensi gangguan dan memungkinkan tim untuk secara proaktif mengatasi setiap rilis yang mungkin berdampak buruk pada operasi. Pemahaman ini juga memungkinkan tim manajemen cloud bermitra dengan tim adopsi untuk terus meningkatkan kualitas produk dan mengatasi bug yang mungkin memengaruhi stabilitas.
Lebih penting lagi, pemahaman tentang alur rilis dapat secara signifikan meningkatkan tujuan titik pemulihan (RPO) beban kerja. Dalam banyak skenario, jalur tercepat dan paling akurat untuk pemulihan aplikasi adalah alur rilis. Untuk lapisan aplikasi yang berubah hanya ketika rilis baru terjadi, sebaiknya lakukan investasi lebih banyak dalam optimasi alur daripada pada pemulihan aplikasi dari proses cadangan tradisional.
Selain menjadi jalur tercepat menuju pemulihan, alur penyebaran juga merupakan jalur tercepat untuk remediasi. Jika aplikasi memiliki alur rilis yang cepat, efisien dan andal, tim manajemen cloud mempunyai opsi untuk mengotomatisasi penyebaran ke host baru sebagai bentuk remediasi otomatis.
Mungkin ada banyak mekanisme lain yang lebih cepat dan lebih efektif untuk remediasi dan pemulihan. Namun, ketika penggunaan alur yang ada dapat memenuhi komitmen bisnis dan memanfaatkan investasi DevOps yang ada, maka alur yang ada mungkin menjadi alternatif yang layak.
Mengomunikasikan perubahan beban kerja dengan jelas
Perubahan beban kerja adalah salah satu risiko terbesar terhadap operasi beban kerja. Untuk semua beban kerja di tingkat operasi beban kerja manajemen cloud, tim manajemen cloud harus selaras dengan tim adopsi cloud agar dapat memahami perubahan yang berasal dari setiap rilis. Investasi dalam pemahaman proaktif ini akan berdampak langsung dan positif pada stabilitas operasional.
Meningkatkan hasil
Investasi data dan komunikasi di beban kerja akan menghasilkan saran untuk perbaikan operasi yang sedang berlangsung di salah satu dari tiga area:
- Resolusi utang teknis
- Remediasi otomatis
- Desain sistem yang ditingkatkan
Resolusi utang teknis
Rencana operasi beban kerja terbaik masih memerlukan remediasi. Karena tim manajemen cloud Anda berusaha untuk tetap tersambung untuk memahami upaya dan rilis adopsi, tim juga harus secara teratur berbagi persyaratan remediasi untuk memastikan bahwa utang teknis dan bug adalah prioritas berkelanjutan bagi tim pengembangan Anda.
Remediasi otomatis
Dengan menerapkan prinsip Pareto, dapat kita sepakati bahwa 80 persen dampak negatif bisnis kemungkinan berasal dari 20 persen insiden layanan. Ketika insiden tersebut tidak dapat diatasi dalam siklus pengembangan normal, investasi di otomatisasi remediasi dapat mengurangi gangguan bisnis secara signifikan.
Desain sistem yang ditingkatkan
Dalam kasus resolusi utang teknis dan remediasi otomatis, kelemahan sistem adalah penyebab umum dari sebagian besar pemadaman sistem. Anda dapat memiliki dampak terbesar pada operasi beban kerja secara keseluruhan dengan mengikuti beberapa prinsip desain:
- Skalabilitas: Kemampuan sistem untuk menangani peningkatan beban.
- Ketersediaan: Persentase waktu sistem bekerja dan berfungsi.
- Ketahanan: Kemampuan sistem untuk pulih dari kegagalan dan terus berfungsi.
- Manajemen: Proses operasi yang menjaga sistem tetap berjalan dalam produksi.
- Keamanan: Melindungi aplikasi dan data dari ancaman.
Untuk membantu meningkatkan operasi secara keseluruhan, Microsoft Azure Well-Architected Framework menyediakan pendekatan untuk mengevaluasi beban kerja tertentu untuk kepatuhan terhadap pilar ini. Terapkan pilar ke operasi platform dan operasi beban kerja.
Langkah berikutnya
Dengan pemahaman penuh tentang metodologi Kelola dalam Cloud Adoption Framework, kini Anda telah siap menerapkan prinsip manajemen cloud. Pelajari cara agar metodologi ini dapat ditindaklanjuti dalam lingkungan operasi.