Bagikan melalui


Pencadangan dan pemulihan untuk AKS

Pencadangan dan pemulihan adalah bagian penting dari strategi operasional dan pemulihan bencana organisasi mana pun. Rencana pencadangan dan pemulihan biasanya bergantung pada beragam teknologi dan praktik yang didasarkan pada mengambil salinan data dan aplikasi berkala ke perangkat atau layanan sekunder yang terpisah. Jika kegagalan sistem, kehilangan data, atau bencana terjadi, salinan ini digunakan untuk memulihkan data dan aplikasi, dan operasi bisnis yang bergantung padanya.

Bagian panduan operasi hari ke-2 Azure Kubernetes Service (AKS) ini menjelaskan praktik pencadangan dan pemulihan untuk AKS.

Mengapa mencadangkan kluster AKS Anda penting

Karena penyebaran cloud-native dan Kubernetes terus tumbuh dalam adopsi, menjadi semakin penting bagi organisasi untuk menyertakan kluster dan beban kerja Kubernetes dalam strategi pencadangan dan pemulihan yang komprehensif.

Menerapkan pencadangan dan pemulihan di AKS memungkinkan Anda:

  • Buat salinan sekunder konfigurasi dan data dari kluster AKS Anda, untuk digunakan jika kegagalan sistem yang tidak dapat diubah, kehilangan data, atau bencana terjadi.
  • Salin sumber daya Kubernetes dan data aplikasi dari satu kluster AKS ke kluster lainnya.
  • Replikasi kluster AKS Anda untuk membuat lingkungan lain.
  • Ambil rekam jepret beban kerja sebelum operasi pemeliharaan seperti peningkatan versi AKS.
  • Mematuhi persyaratan perlindungan data untuk menjaga kepatuhan terhadap peraturan atau organisasi.
  • Gulung balik dengan cepat ke penyebaran sebelumnya jika masalah dengan penyebaran atau perubahan terbaru terdeteksi.

Meskipun cadangan membantu Anda memulihkan beban kerja jika terjadi masalah, pencadangan tidak menyediakan ketersediaan tinggi (HA).

Dalam hal ketersediaan tinggi intra-wilayah dan pemulihan bencana lintas wilayah di AKS, Anda dapat mempertimbangkan beberapa opsi lain, seperti:

  • Zona ketersediaan: AKS mendukung penggunaan zona ketersediaan, yang secara fisik memisahkan pusat data dalam wilayah Azure. Dengan menyebarkan kluster AKS di beberapa zona ketersediaan, Anda dapat memastikan ketahanan dan toleransi kesalahan yang lebih tinggi dalam suatu wilayah. Melakukannya memungkinkan aplikasi Anda untuk tetap beroperasi meskipun satu zona mengalami pemadaman.
  • Opsi redundansi untuk volume persisten: AKS menyediakan berbagai opsi redundansi untuk volume persisten. Driver Azure Disk CSI untuk Kubernetes mendukung kelas penyimpanan bawaan dan kelas penyimpanan kustom yang menggunakan penyimpanan redundan lokal (LRS) atau penyimpanan redundan zona (ZRS) untuk ketahanan intra-wilayah yang lebih baik. Untuk informasi selengkapnya, lihat Parameter Driver.
  • Azure Kubernetes Fleet Manager: Azure Kubernetes Fleet Manager memungkinkan skenario multi-kluster dan intra-wilayah dan lintas wilayah dalam skala besar untuk kluster AKS.
  • Opsi geo-redundansi untuk Azure Container Registry (ACR): Azure Container Registry (ACR) menawarkan kemampuan replikasi geografis. Dengan geo-redundansi, gambar kontainer Anda direplikasi di berbagai wilayah Azure. Jadi, bahkan jika wilayah tertentu mengalami pemadaman, gambar Anda tersedia, yang memberikan ketersediaan yang lebih tinggi untuk registri kontainer Anda.

Anda juga dapat menggunakan metodologi seperti Infrastructure as Code (IaC), Azure Pipelines, GitOps, dan Flux untuk menyebarkan ulang beban kerja Anda dengan cepat jika bencana terjadi.

Untuk mengetahui selengkapnya tentang metodologi ini, Anda dapat meninjau artikel ini:

Apa yang harus dicadangkan

Saat mempertimbangkan pencadangan dan pemulihan untuk kluster AKS dan Kubernetes secara umum, sangat penting untuk mengidentifikasi komponen mana yang harus disertakan dalam cadangan untuk memastikan pemulihan yang berhasil. Terutama, komponen penting ini terdiri dari:

  • Status kluster: Mengacu pada konfigurasi atau status saat ini dan yang diinginkan dari semua objek Kubernetes dalam kluster. Ini mencakup berbagai objek seperti penyebaran, pod, layanan, dan banyak lagi. Status kluster disimpan dalam database pasangan nilai kunci etcd yang sangat tersedia, yang sering hanya dapat diakses dari server API, seperti halnya kluster terkelola seperti AKS. Status kluster didefinisikan secara deklaratif dan merupakan hasil dari semua file konfigurasi Kubernetes yang diterapkan ke kluster, seperti manifes YAML.

  • Data aplikasi: Mengacu pada data yang dibuat, dikelola, atau diakses oleh beban kerja dalam kontainer yang berjalan dalam kluster. Untuk memastikan persistensi data di seluruh pod atau kontainer dimulai ulang, Kubernetes merekomendasikan untuk menyimpan data aplikasi dalam volume persisten. Volume ini dapat dibuat secara statis atau dinamis dan dapat didukung oleh berbagai jenis penyimpanan persisten, menawarkan fleksibilitas dan skalabilitas untuk penyimpanan data dan persyaratan manajemen.

Meskipun pencadangan lengkap kluster akan mengharuskan status kluster dan data aplikasi disertakan sebagai satu unit, menentukan cakupan optimal setiap cadangan tergantung pada berbagai faktor. Misalnya, keberadaan sumber alternatif, seperti alur Integrasi Berkelanjutan dan Pengiriman Berkelanjutan (CI/CD), mungkin memungkinkan pemulihan status kluster yang lebih mudah. Selain itu, ukuran data aplikasi memainkan peran dalam biaya penyimpanan dan waktu yang diperlukan untuk operasi pencadangan dan pemulihan.

Strategi pencadangan dan pemulihan yang ideal sangat tergantung pada aplikasi dan lingkungan tertentu. Oleh karena itu, cakupan cadangan harus dinilai berdasarkan kasus per kasus. Ini juga harus mempertimbangkan faktor-faktor seperti pentingnya status kluster dan volume data aplikasi.

Menargetkan komponen lain seperti node kluster individu (VM) atau sistem file dan volume lokal, yang biasanya disertakan dalam rencana pencadangan dan pemulihan tradisional untuk sistem berbasis server, tidak relevan di Kubernetes. Status dan data yang relevan tidak bertahan pada simpul individual atau sistem file lokal dengan cara yang sama seperti sistem tradisional.

Pengantar opsi pencadangan dan pemulihan untuk AKS

Ada perbedaan penting antara aplikasi monolitik tradisional dan beban kerja yang berjalan di kluster Kubernetes, yang menghadirkan beberapa tantangan untuk pencadangan dan pemulihan. Beban kerja Kubernetes sengaja dirancang agar sangat dinamis dan terdistribusi, dengan data yang bertahan di seluruh volume persisten eksternal yang didukung oleh beberapa sumber daya dan layanan yang mendasar.

Untuk mendukung lingkungan Kubernetes secara efektif, solusi pencadangan dan pemulihan harus memiliki Kubernetes dan kesadaran aplikasi. Mereka harus menawarkan tingkat otomatisasi, keandalan, dan integrasi, yang sering tidak ditemukan dalam alat pencadangan dan pemulihan warisan atau lebih konvensional.

Berbagai solusi pencadangan dan pemulihan asli Kubernetes tersedia, dengan opsi mulai dari sumber terbuka hingga tertutup dan menawarkan model lisensi yang berbeda.

Berikut adalah beberapa contoh solusi pencadangan dan pemulihan yang dapat Anda gunakan dengan AKS. Salah satu contoh pentingnya adalah solusi pihak pertama microsoft yang dikelola sepenuhnya yang disebut Azure Kubernetes Service (AKS) Backup, yang menyediakan layanan terintegrasi Azure yang dirancang untuk pencadangan dan pemulihan kluster AKS dan beban kerjanya. Daftar ini tidak lengkap dan hanya menyediakan beberapa opsi yang tersedia.

Pencadangan AKS

AKS Backup adalah penawaran Azure untuk mencadangkan dan memulihkan kluster AKS Anda. Ini adalah proses sederhana asli Azure, yang memungkinkan Anda mencadangkan dan memulihkan aplikasi dan data dalam kontainer yang berjalan di kluster AKS Anda.

Pencadangan AKS memungkinkan pencadangan sesuai permintaan atau terjadwal dengan status kluster penuh atau halus dan data aplikasi yang disimpan dalam volume persisten berbasis disk Azure. Ini terintegrasi dengan Azure Backup Center untuk menyediakan satu area di portal Azure yang dapat membantu Anda mengatur, memantau, mengoperasikan, dan menganalisis cadangan dalam skala besar.

Lihat Tentang Pencadangan AKS menggunakan Azure Backup untuk deskripsi terperinci tentang cara kerja AKS Backup dan kemampuannya.

Kasten

Kasten adalah produk komersial, yang menyediakan tim operasi dengan sistem yang mudah digunakan dan aman untuk pencadangan dan pemulihan aplikasi Kubernetes. Ini tersedia dalam versi gratis dengan fungsionalitas terbatas dan tanpa dukungan, dan versi berbayar yang mencakup lebih banyak fitur dan dukungan pelanggan.

Ketika Kasten disebarkan sebagai operator Kubernetes dalam kluster, Kasten menyediakan solusi pencadangan yang komprehensif. Ini menawarkan dasbor manajemen untuk kontrol dan visibilitas terpusat. Dengan Kasten, pengguna dapat memperoleh manfaat dari pencadangan bertahap dan sadar aplikasi, memungkinkan perlindungan data yang efisien. Selain itu, Kasten menawarkan kemampuan pemulihan bencana. Kemampuan ini termasuk failover dan failback otomatis, dan fitur untuk migrasi data dan memastikan keamanan.

Untuk detail lebih lanjut tentang set fitur Kasten, lihat dokumentasi Kasten K10. Untuk mempelajari cara menggunakan Kasten dengan kluster AKS secara efektif, lihat Menginstal K10 di Azure.

Velero

Velero adalah alat pencadangan dan pemulihan sumber terbuka yang banyak digunakan untuk Kubernetes. Ini menawarkan versi gratis dan tidak terbatas yang tersedia untuk semua pengguna, dengan dukungan dan pemeliharaan yang disediakan oleh komunitas kontributor proyek.

Velero berjalan sebagai penyebaran dalam kluster dan menyediakan serangkaian fitur komprehensif untuk pencadangan, pemulihan, dan migrasi data aplikasi. Meskipun dasbor tidak tersedia secara langsung, dasbor dapat ditambahkan melalui integrasi eksternal.

Untuk informasi selengkapnya tentang set fiturnya dan untuk mempelajari cara mengintegrasikannya dengan kluster AKS, lihat dokumentasi Velero.

Menginstal dan Mengonfigurasi Pencadangan AKS

Untuk menginstal dan mengonfigurasi AKS Backup, ikuti langkah-langkah berikut:

  1. Lihat Prasyarat untuk Pencadangan AKS menggunakan Azure Backup untuk deskripsi terperinci tentang prasyarat untuk menggunakan AKS Backup dengan kluster AKS Anda.
  2. Tinjau matriks dukungan AKS Backup untuk deskripsi terperinci tentang ketersediaan wilayah AKS Backup, skenario yang didukung, dan batasan.
  3. Lihat Mengelola cadangan AKS menggunakan Azure Backup untuk panduan tentang cara mendaftarkan penyedia sumber daya yang diperlukan pada langganan Anda dan mengelola pendaftaran ini.
  4. Tinjau Cadangkan AKS menggunakan Azure Backup untuk instruksi terperinci tentang cara menyiapkan pencadangan dan pemulihan untuk kluster AKS Anda menggunakan AKS Backup. Instruksi termasuk pembuatan dan konfigurasi semua sumber daya Azure yang diperlukan seperti vault Backup, kebijakan Backup, dan instans Backup.
  5. Lihat Memulihkan AKS menggunakan Azure Backup untuk instruksi terperinci tentang cara melakukan pemulihan tingkat penuh atau item kluster AKS Anda dari instans Backup yang ada.

Frekuensi pencadangan dan retensi di AKS: menentukan kebijakan pencadangan

Menentukan frekuensi pencadangan dan periode retensi adalah aspek mendasar dari solusi pencadangan dan pemulihan. Parameter ini menentukan seberapa sering pencadangan dilakukan dan berapa lama pencadangan dipertahankan sebelum penghapusan. Pemilihan frekuensi pencadangan dan periode retensi untuk kluster AKS dan beban kerjanya harus selaras dengan tujuan Tujuan Titik Pemulihan (RPO) dan Tujuan Waktu Pemulihan (RTO) yang telah ditentukan sebelumnya.

Dalam skenario Kubernetes, RPO mewakili jumlah maksimum status kluster atau kehilangan data yang dapat diterima yang dapat ditoleransi. RTO menentukan waktu maksimum yang diizinkan antara status kluster atau kehilangan data dan dimulainya kembali operasi kluster.

Frekuensi pencadangan dan periode retensi yang dipilih adalah trade-off antara target RPO/RTO yang diinginkan, biaya penyimpanan, dan overhead manajemen cadangan. Ini berarti tidak ada konfigurasi satu ukuran untuk semua kluster dan beban kerja AKS, dan konfigurasi optimal untuk setiap kluster atau beban kerja harus didefinisikan berdasarkan kasus per kasus untuk memenuhi persyaratan bisnis, mengikuti perencanaan dan pertimbangan yang cermat. Faktor yang relevan untuk dipertimbangkan saat menentukan frekuensi pencadangan dan periode retensi kluster AKS meliputi:

  • Kekritisan: Tingkat kekritisan yang terkait dengan kluster dan data aplikasi beban kerjanya dalam hal kelangsungan bisnis.
  • Pola akses dan laju perubahan: Jumlah status kluster dan data yang ditambahkan, dimodifikasi, dihapus dalam jangka waktu tertentu.
  • Volume Data: Volume data yang memengaruhi biaya penyimpanan dan waktu yang diperlukan untuk menyelesaikan operasi pencadangan dan pemulihan.
  • Kepatuhan: Persyaratan untuk retensi data dan kedaulatan data berdasarkan aturan kepatuhan internal dan peraturan industri.

Dalam layanan Cadangan AKS, frekuensi pencadangan dan periode retensi disimpan sebagai sumber daya kebijakan cadangan, yang berlaku untuk status kluster dan data aplikasi dari volume persisten.

Kebijakan pencadangan dalam Cadangan AKS mendukung pencadangan harian dan per jam, dengan periode retensi hingga 360 hari, sementara beberapa kebijakan dapat ditentukan dan diterapkan ke kluster yang sama.

Lihat Membuat kebijakan pencadangan untuk informasi selengkapnya tentang cara mengonfigurasi kebijakan pencadangan di AKS Backup.

Pertimbangan cadangan lainnya

Untuk memastikan bahwa solusi pencadangan dan pemulihan Anda memenuhi persyaratan dan kebijakan organisasi Anda, pertimbangkan poin-poin berikut:

  • Tujuan Titik Pemulihan (RPO) dan Tujuan Waktu Pemulihan (RTO): Tentukan apakah Anda memiliki target RPO dan RTO tertentu yang perlu dipenuhi untuk operasi pencadangan dan pemulihan Anda.
  • Volume persisten (PV): Verifikasi apakah Anda menggunakan volume persisten dan pastikan bahwa solusi Cadangan AKS mendukung jenis PV Anda. Lihat matriks dukungan AKS Backup untuk detail kompatibilitas.
  • Cakupan cadangan: Tentukan apa yang perlu dicadangkan, seperti namespace tertentu, jenis sumber daya, atau data tertentu dalam kluster. Untuk informasi selengkapnya, lihat Mengonfigurasi pekerjaan pencadangan.
  • Frekuensi dan retensi cadangan: Tentukan frekuensi di mana Anda perlu melakukan pencadangan dan durasi yang Anda butuhkan untuk mempertahankannya. Pengaturan ini dapat dikonfigurasi menggunakan kebijakan pencadangan. Untuk informasi selengkapnya, lihat Menentukan kebijakan pencadangan.
  • Pemilihan kluster: Tentukan apakah Anda perlu mencadangkan semua kluster atau hanya kluster produksi tertentu berdasarkan kebutuhan Anda.
  • Uji prosedur pemulihan: Lakukan pemulihan pengujian berkala untuk memvalidasi keandalan dan kegunaan strategi pencadangan Anda. Langkah ini sangat penting untuk memastikan efektivitas solusi pencadangan dan pemulihan. Untuk informasi selengkapnya, lihat Memulihkan kluster AKS.
  • Skenario yang didukung: Verifikasi bahwa solusi Cadangan AKS mendukung skenario spesifik Anda. Lihat matriks dukungan AKS Backup untuk informasi kompatibilitas.
  • Alokasi anggaran: Pertimbangkan jika Anda memiliki alokasi anggaran tertentu untuk operasi pencadangan dan pemulihan. Tinjau informasi harga yang disediakan oleh solusi AKS Backup untuk menyelaraskan dengan persyaratan anggaran Anda.

Dengan mempertimbangkan pertimbangan lain ini, Anda dapat memastikan bahwa solusi pencadangan dan pemulihan untuk AKS memenuhi kebutuhan dan preferensi organisasi Anda secara efisien dan efektif.

Lokasi dan Penyimpanan Cadangan AKS

Cadangan AKS menggunakan vault Backup dan akun penyimpanan untuk menyimpan berbagai jenis data yang diambil dari kluster selama pencadangan.

Untuk volume persisten berbasis disk, AKS Backup menggunakan rekam jepret inkremental dari Azure Disk yang mendasar, yang disimpan dalam langganan Azure Anda.

Vault Backup adalah entitas penyimpanan aman dalam Azure, yang digunakan untuk menyimpan data cadangan untuk beban kerja yang didukung oleh Azure Backup, seperti kluster AKS. Backup Vault itu sendiri berisi kebijakan cadangan, dan cadangan dan titik pemulihan yang dibuat oleh pekerjaan cadangan.

Azure secara otomatis mengelola penyimpanan untuk Backup Vault. Anda dapat memilih dari beberapa opsi redundansi untuk data yang disimpan di dalamnya, yang dapat dikonfigurasi pada titik pembuatan Vault Cadangan.

Akun penyimpanan adalah area penyimpanan untuk objek data Anda dalam Azure, dan sangat dapat dikonfigurasi. Ini menyediakan beberapa opsi redundansi intra-wilayah dan lintas wilayah untuk memastikan durabilitas data. AKS Backup menggunakan kontainer blob dalam akun penyimpanan yang ditunjuk untuk mengambil cadangan beberapa komponen kluster AKS.

Rekam jepret bertahap adalah cadangan titik waktu untuk disk terkelola yang, saat diambil, hanya terdiri dari perubahan sejak rekam jepret terakhir. Snapshot bertahap pertama adalah salinan lengkap disk. Rekam jepret inkremental berikutnya hanya menangkap perubahan delta pada disk sejak rekam jepret terakhir.

Menggunakan AKS Backup untuk memigrasikan beban kerja antar kluster AKS

Anda dapat menggunakan AKS Backup sebagai mekanisme pencadangan dan pemulihan untuk kluster tertentu. AKS Backup juga mendukung skenario migrasi dengan memungkinkan Anda mengambil cadangan dari satu kluster dan memulihkannya ke kluster lain, seperti:

  • Memulihkan kluster pengembangan ke kluster penahapan
  • Mereplikasi konten di beberapa kluster

Untuk memastikan bahwa skenario Anda didukung, lihat dokumentasi berikut:

Kontributor

Artikel ini dikelola oleh Microsoft. Ini awalnya ditulis oleh kontributor berikut.

Penulis utama:

Kontributor lain:

Langkah berikutnya

Pelajari selengkapnya tentang Pencadangan AKS

Opsi pencadangan dan pemulihan AKS pihak ketiga