Melindungi dan memulihkan dalam manajemen cloud
Sebelum mempersiapkan potensi pemadaman beban kerja, tim manajemen cloud harus terlebih dahulu memastikan bahwa mereka telah memenuhi persyaratan untuk:
Saat mereka berencana, tim harus memulai dengan asumsi bahwa sesuatu akan gagal ketika bencana terjadi. Persiapan untuk pemadaman memungkinkan tim mendeteksi kegagalan lebih cepat dan pulih lebih cepat. Fokus disiplin ini adalah pada langkah-langkah segera setelah sistem gagal. Bagaimana Anda melindungi beban kerja sehingga dapat dipulihkan dengan cepat ketika pemadaman terjadi?
Tidak ada solusi teknis yang dapat secara konsisten menawarkan SLA yang menjamin waktu aktif 100 persen. Solusi dengan arsitektur paling redundan mengklaim memberikan waktu aktif "enam 9" atau 99,9999 persen. Tetapi bahkan solusi "enam 9" dapat tidak aktif selama 31,6 detik pada tahun tertentu. Sangat jarang solusi untuk menjamin investasi operasional besar yang sedang berlangsung yang diperlukan untuk mencapai "enam 9s" waktu aktif.
Menerjemahkan percakapan perlindungan dan pemulihan
Beban kerja yang mendukung operasi bisnis terdiri dari:
- Aplikasi
- Data
- Komputer virtual (VM)
- Aset lain
Setiap aset mungkin memerlukan pendekatan tersendiri untuk perlindungan dan pemulihan. Tujuan penting dari disiplin ini adalah untuk menetapkan komitmen yang konsisten dalam garis besar manajemen, yang dapat memberikan titik awal untuk diskusi bisnis.
Minimal, tim manajemen cloud harus membuat pendekatan dasar untuk setiap aset, dengan komitmen yang jelas untuk pemulihan cepat dan kehilangan data minimal.
Tujuan waktu pemulihan (RTO)
Tujuan waktu pemulihan adalah jumlah waktu yang diperlukan untuk memulihkan sistem apa pun ke keadaannya sebelum bencana. Ini akan mencakup waktu yang diperlukan untuk:
- Memulihkan fungsionalitas minimal ke VM dan aplikasi
- Memulihkan data yang diperlukan oleh aplikasi.
Dalam istilah bisnis, RTO mewakili jumlah waktu proses bisnis di luar layanan. Untuk beban kerja misi penting, variabel ini harus relatif rendah, memungkinkan proses bisnis dilanjutkan dengan cepat. Untuk beban kerja dengan prioritas lebih rendah, tingkat standar RTO mungkin tidak memiliki dampak yang nyata pada performa perusahaan.
Bisnis harus membuat garis besar manajemen yang menetapkan RTO standar untuk beban kerja non-misi penting. Bisnis kemudian dapat menggunakan garis besar tersebut sebagai alasan untuk investasi tambahan dalam waktu pemulihan.
Tujuan titik pemulihan (RPO)
Di sebagian besar sistem manajemen cloud, beberapa bentuk perlindungan data secara berkala menangkap dan menyimpan data. Titik pemulihan mengacu pada terakhir kali data diambil. Ketika sistem gagal, data hanya dapat dipulihkan ke titik pemulihan terbaru.
Tujuan titik pemulihan diukur dari titik pemulihan terbaru hingga pemadaman. Jika RPO diukur dalam jam, kegagalan sistem mengakibatkan hilangnya data selama berjam-jam antara titik pemulihan terakhir dan pemadaman. Jika RPO diukur dalam beberapa hari, kegagalan sistem mengakibatkan hilangnya data untuk hari-hari antara titik pemulihan terakhir dan pemadaman. RPO satu hari secara teoritis akan mengakibatkan hilangnya semua transaksi pada hari menjelang kegagalan.
Untuk sistem misi penting, mengukur RPO dalam hitungan menit atau detik dapat membantu menghindari kehilangan pendapatan atau keuntungan. Namun, RPO yang lebih pendek umumnya menghasilkan peningkatan biaya manajemen. Untuk membantu meminimalkan biaya ini, bisnis harus membuat garis besar manajemen yang berfokus pada RPO terpanjang yang dapat diterima. Bisnis kemudian dapat mengurangi RPO platform atau beban kerja tertentu yang menjamin lebih banyak investasi.
Melindungi dan memulihkan beban kerja
Sebagian besar beban kerja di lingkungan TI mendukung bisnis atau proses teknis tertentu. Sistem yang tidak berdampak sistemik pada operasi bisnis biasanya tidak menjamin peningkatan investasi yang diperlukan untuk memulihkan sistem dengan cepat atau meminimalkan kehilangan data. Dengan menetapkan garis besar, bisnis dapat mencari tahu tingkat dukungan pemulihan apa yang mereka butuhkan pada titik harga yang dapat mereka kelola secara konsisten. Memahami hal ini membantu pemangku kepentingan bisnis mengevaluasi nilai peningkatan investasi dalam pemulihan.
Untuk sebagian besar tim manajemen cloud, garis besar yang ditingkatkan, dengan komitmen RPO/RTO tertentu untuk berbagai aset, menghasilkan jalur yang paling menguntungkan untuk komitmen bisnis bersama. Bagian berikut menguraikan beberapa garis besar umum yang ditingkatkan yang memberdayakan bisnis untuk dengan mudah menambahkan fungsionalitas perlindungan dan pemulihan melalui proses yang dapat diulang.
Melindungi dan memulihkan data
Data bisa dibilang sebagai aset paling berharga dalam ekonomi digital. Hilangnya data yang mendukung beban kerja produksi menyebabkan hilangnya pendapatan atau laba. Garis besar yang paling umum ditingkatkan adalah kemampuan untuk melindungi dan memulihkan data secara efektif. Kami mendorong tim manajemen cloud untuk menawarkan tingkat garis besar manajemen yang ditingkatkan yang mendukung platform data umum.
Sebelum tim manajemen cloud menerapkan operasi platform, biasanya mereka mendukung operasi yang ditingkatkan untuk platform data platform as a service (PaaS). Misalnya, mudah bagi tim manajemen cloud untuk memberlakukan frekuensi pencadangan atau replikasi multiregional yang lebih tinggi untuk solusi Azure SQL Database atau Azure Cosmos DB. Melakukan tindakan tersebut memungkinkan tim pengembangan dengan mudah meningkatkan RPO dengan memodernisasi platform data mereka.
Untuk mempelajari selengkapnya tentang proses berpikir ini, lihat Disiplin operasi platform.
Melindungi dan memulihkan Mesin Virtual
Sebagian besar beban kerja agak tergantung pada komputer virtual, yang menghosting berbagai aspek solusi. Bisnis harus memulihkan beberapa komputer virtual dengan cepat agar beban kerja mendukung prosesnya setelah kegagalan sistem.
Setiap menit waktu henti pada komputer virtual tersebut dapat menyebabkan hilangnya pendapatan atau berkurangnya laba. Ketika waktu henti Mesin Virtual berdampak langsung pada performa fiskal bisnis, RTO menjadi sangat penting. Tim manajemen cloud dapat memulihkan komputer virtual dengan cepat dengan mereplikasinya ke situs sekunder dan menggunakan pemulihan otomatis, model yang disebut sebagai model pemulihan panas-hangat. Tim juga dapat mereplikasi komputer virtual ke situs sekunder fungsional dalam pendekatan yang dikenal sebagai model ketersediaan panas, atau tinggi. Pendekatan panas-panas lebih mahal, tetapi menawarkan status pemulihan tertinggi.
Masing-masing model ini mengurangi RTO, yang membantu bisnis memulihkan kemampuan bisnis mereka lebih cepat. Namun, setiap model juga menghasilkan biaya manajemen cloud yang meningkat secara signifikan.
Perhatikan juga bahwa, selain replikasi untuk ketersediaan tinggi, pencadangan harus diaktifkan untuk skenario seperti:
- Penghapusan yang tidak disengaja
- Kerusakan data
- Serangan ransomware
Untuk informasi selengkapnya tentang proses berpikir ini, lihat Disiplin operasi beban kerja.
Langkah berikutnya
Setelah komponen garis besar manajemen ini terpenuhi, tim dapat memikirkan apa yang dapat terjadi di masa mendatang untuk menghindari pemadaman dalam operasi platform dan operasi beban kerja.