Siapkan pemulihan bencana dalam skala besar untuk VMware VMs/server fisik

Artikel
08/31/2023

Artikel ini menjelaskan cara menyiapkan pemulihan bencana ke Azure untuk jumlah besar (> 1000) VMware VM lokal atau server fisik di lingkungan produksi Anda, menggunakan layanan Azure Site Recovery.

Tentukan strategi BCDR Anda

Sebagai bagian dari strategi kelangsungan bisnis dan pemulihan bencana (BCDR), Anda menentukan tujuan titik pemulihan (RPO) dan tujuan waktu pemulihan (RTO) untuk aplikasi bisnis dan beban kerja Anda. RTO mengukur durasi waktu dan tingkat layanan di mana aplikasi atau proses bisnis harus dipulihkan dan tersedia, untuk menghindari masalah kontinuitas.

Site Recovery menyediakan replikasi berkelanjutan untuk VMware VM dan server fisik, dan SLA untuk RTO.
Saat Anda merencanakan pemulihan bencana skala besar untuk VM VMware dan mencari tahu sumber daya Azure yang Anda butuhkan, Anda dapat menentukan nilai RTO yang akan digunakan untuk perhitungan kapasitas.

Praktik terbaik

Beberapa praktik terbaik umum untuk pemulihan bencana skala besar. Praktik terbaik ini dibahas secara lebih rinci di bagian dokumen berikutnya.

Identifikasi persyaratan target: Perkirakan kebutuhan kapasitas dan sumber daya di Azure sebelum Anda menyiapkan pemulihan bencana.
Rencanakan untuk komponen Siter RecoverySitus: Cari tahu komponen Pemulihan Situs apa (server konfigurasi, server proses) yang Anda butuhkan untuk memenuhi perkiraan kapasitas Anda.
Menyiapkan satu atau beberapa server proses perbesar skala: Jangan gunakan server proses yang berjalan secara default di server konfigurasi.
Jalankan pembaruan terbaru: Tim Site Recovery merilis versi baru komponen Site Recovery secara teratur, dan Anda harus memastikan Anda menjalankan versi terbaru. Untuk membantunya, lacak apa yang baruuntuk pembaruan, dan aktifkan dan instal pembaruan saat dirilis.
Pantau secara proaktif: Saat Anda mendapatkan pemulihan bencana dan berjalan, Anda harus secara proaktif memantau status dan kesehatan komputer yang tereplikasi, dan sumber daya infrastruktur.
Penelusuran pemulihan bencana: Anda harus menjalankan penelusuran pemulihan bencana secara teratur. Ini tidak berdampak pada lingkungan produksi Anda, tetapi membantu memastikan bahwa failover ke Azure akan berfungsi seperti yang diharapkan saat diperlukan.

Mengumpulkan informasi perencanaan kapasitas

Kumpulkan informasi tentang lingkungan lokal Anda, untuk membantu menilai dan memperkirakan kebutuhan kapasitas target (Azure) Anda.

Untuk VMware, jalankan Perencana Penyebaran untuk VMware VMs untuk melakukan ini.
Untuk server fisik, kumpulkan informasi secara manual.

Jalankan Perencana Penyebaran untuk VMware VM

Perencana Penyebaran membantu Anda mengumpulkan informasi tentang lingkungan VMware lokal Anda.

Jalankan Perencana Penyebaran selama periode yang mewakili churn khas untuk VM Anda. Ini akan menghasilkan perkiraan dan rekomendasi yang lebih akurat.
Kami menyarankan agar Anda menjalankan Perencana Penyebaran pada mesin server konfigurasi, karena Perencana menghitung throughput dari server tempatnya dijalankan. Pelajari selengkapnya tentang mengukur throughput.
Jika Anda belum menyiapkan server konfigurasi:
- Dapatkan gambaran umum komponen Site Recovery.
- Siapkan server konfigurasi, untuk menjalankan Deployment Planner di atasnya.

Kemudian jalankan Perencana sebagai berikut:

Pelajari tentang Perencana Penyebaran. Anda dapat mengunduh versi terbaru dari portal, atau mengunduhnya secara langsung.
Tinjau prasyarat dan pembaruan terbaru untuk Perencana Penyebaran, dan unduh dan ekstrak alat tersebut.
Jalankan Perencana Penyebaran di server konfigurasi.
Buat laporan untuk meringkas estimasi dan rekomendasi.
Analisis rekomendasi laporan dan estimasi biaya.

Catatan

Secara default, alat ini dikonfigurasi ke profil dan menghasilkan laporan hingga 1000 VM. Anda dapat mengubah batas ini dengan meningkatkan nilai kunci MaxVMsSupported dalam ASRDeploymentPlanner.exe.config file.

Rencanakan persyaratan dan kapasitas target (Azure)

Dengan menggunakan estimasi dan rekomendasi yang dikumpulkan, Anda dapat merencanakan sumber daya dan kapasitas target. Jika Anda menjalankan Perencana Penyebaran untuk VMware VM, Anda dapat menggunakan sejumlahrekomendasi laporan untuk membantu Anda.

VM yang kompatibel: Gunakan nomor ini untuk mengidentifikasi jumlah VM yang siap untuk pemulihan bencana ke Azure. Rekomendasi tentang bandwidth jaringan dan inti Azure didasarkan pada nomor ini.
Bandwidth jaringan yang diperlukan: Perhatikan bandwidth yang Anda butuhkan untuk replikasi delta VM yang kompatibel.
- Saat Anda menjalankan Perencana, Anda menentukan RPO yang diinginkan dalam hitungan menit. Rekomendasi menunjukkan kepada Anda bandwidth yang diperlukan untuk memenuhi RPO 100% dan 90% dari waktu.
- Rekomendasi bandwidth jaringan memperhitungkan bandwidth yang diperlukan untuk jumlah total server konfigurasi dan server proses yang direkomendasikan di Perencana.
Inti Azure yang diperlukan: Perhatikan jumlah inti yang Anda butuhkan di wilayah Azure target, berdasarkan jumlah VM yang kompatibel. Jika Anda tidak memiliki cukup inti, di Site Recovery failover tidak akan dapat membuat Azure VM yang diperlukan.
Ukuran batch VM yang direkomendasikan: Ukuran batch yang direkomendasikan didasarkan pada kemampuan untuk menyelesaikan replikasi awal untuk batch dalam 72 jam secara default, sambil memenuhi RPO 100%. Nilai jam dapat dimodifikasi.

Anda dapat menggunakan rekomendasi ini untuk merencanakan sumber daya Azure, bandwidth jaringan, dan batching VM.

Merencanakan langganan dan kuota Azure

Kami ingin memastikan bahwa kuota yang tersedia dalam langganan target cukup untuk menangani failover.

Tugas	Detail	Tindakan
Periksa inti	Jika inti dalam kuota yang tersedia tidak sama atau melebihi jumlah target total pada saat failover, failover akan gagal.	Untuk VMware VM, pastikan Anda memiliki cukup inti dalam langganan target untuk memenuhi rekomendasi inti Perencana Penyebaran. Untuk server fisik, periksa apakah inti Azure memenuhi estimasi manual Anda. Untuk memeriksa kuota, di portal Microsoft Azure >Langganan, klik Penggunaan + kuota. Pelajari lebih lanjut cara meningkatkan kuota.
Periksa batas failover	Jumlah failover tidak boleh melebihi batas failover Site Recovery.	Jika failover melebihi batas, Anda dapat menambahkan langganan, dan melakukan failover ke beberapa langganan, atau menambah kuota untuk langganan.

Batas failover

Batas menunjukkan jumlah failover yang didukung oleh Site Recovery dalam waktu satu jam, dengan asumsi tiga disk per komputer.

Apa artinya mematuhi? Untuk memulai Azure VM, Azure mengharuskan beberapa driver berada dalam status mulai boot, dan layanan seperti DHCP diatur untuk memulai secara otomatis.

Komputer yang mematuhi sudah memiliki pengaturan ini di tempat.
Untuk mesin yang menjalankan Windows, Anda dapat secara proaktif memeriksa kepatuhan, dan membuatnya patuh jika diperlukan. Pelajari selengkapnya.
Mesin Linux hanya dibawa ke kepatuhan pada saat failover.

Mesin sesuai dengan Azure?	Batas Azure VM (failover disk terkelola)
Ya	2000
Tidak	1000

Batasan mengasumsikan bahwa pekerjaan lain minimal sedang berlangsung di wilayah target untuk langganan.
Beberapa wilayah Azure lebih kecil, dan mungkin memiliki batas yang sedikit lebih rendah.

Merencanakan infrastruktur dan konektivitas VM

Setelah failover ke Azure Anda memerlukan beban kerja untuk beroperasi seperti yang mereka lakukan di tempat, dan untuk memungkinkan pengguna mengakses beban kerja yang berjalan di Azure VMs.

Pelajari selengkapnya tentang melakukan failover atas infrastruktur Direktori Aktif atau DNS lokal Anda ke Azure.
Pelajari selengkapnya tentang mempersiapkan diri untuk menyambungkan ke Azure VMs setelah failover.

Rencanakan kapasitas dan persyaratan sumber

Penting bagi Anda untuk memiliki server konfigurasi yang memadai dan server proses perbesar skala untuk memenuhi persyaratan kapasitas. Saat Anda memulai penyebaran skala besar Anda, mulailah dengan satu server konfigurasi, dan satu server proses perbesar skala. Saat Anda mencapai batas yang ditentukan, tambahkan server tambahan.

Catatan

Untuk VMware VM, Perencana Penyebaran membuat beberapa rekomendasi tentang konfigurasi dan server proses yang Anda butuhkan. Kami menyarankan agar Anda menggunakan tabel yang disertakan dalam prosedur berikut, alih-alih mengikuti rekomendasi Perencana Penyebaran.

Siapkan server konfigurasi

Kapasitas server konfigurasi dipengaruhi oleh jumlah replikasi mesin, dan bukan oleh laju churn data. Untuk mengetahui apakah Anda memerlukan server konfigurasi tambahan, gunakan batas VM yang ditentukan ini.

CPU	Memori	Disk cache	Batas mesin yang direplikasi
8 vCPUs 2 sockets * 4 cores @ 2.5 Ghz	16 GB	600 GB	Hingga 550 mesin Asumsikan bahwa setiap mesin memiliki tiga disk masing-masing 100 GB.

Batas ini didasarkan pada server konfigurasi yang disiapkan menggunakan templat OVF.
Batas mengasumsikan bahwa Anda tidak menggunakan server proses yang berjalan secara default di server konfigurasi.

Jika Anda perlu menambahkan server konfigurasi baru, ikuti instruksi berikut:

Siapkan server konfigurasiuntuk pemulihan bencana VMware VM, menggunakan templat OVF.
Siapkan server konfigurasisecara manual untuk server fisik, atau untuk penyebaran VMware yang tidak dapat menggunakan templat OVF.

Saat Anda menyiapkan server konfigurasi, perhatikan bahwa:

Saat Anda menyiapkan server konfigurasi, penting untuk mempertimbangkan langganan dan brankas tempat server berada, karena ini tidak boleh diubah setelah pengaturan. Jika Anda perlu mengubah brankas, Anda harus memisahkan server konfigurasi dari brankas, dan mendaftarkannya kembali. Ini menghentikan replikasi VM di brankas.
Jika Anda ingin menyiapkan server konfigurasi dengan beberapa adapter jaringan, Anda harus melakukan ini selama penyiapan. Anda tidak dapat melakukan ini setelah mendaftarkan server konfigurasi di brankas.

Siapkan server proses

Kapasitas server proses dipengaruhi oleh tingkat churn data, dan bukan dengan jumlah mesin yang diaktifkan untuk replikasi.

Untuk penyebaran besar, Anda harus selalu memiliki setidaknya satu server proses scale pembesar.
Untuk mencari tahu apakah Anda memerlukan server tambahan, gunakan tabel berikut ini.
Kami menyarankan agar Anda menambahkan server dengan spesifikasi tertinggi.

CPU	Memori	Disk cache	Tingkat churn
12 vCPUs 2 sockets*6 cores @ 2.5 Ghz	24 GB	1 TB	Hingga 2 TB sehari

Siapkan server proses sebagai berikut:

Meninjau prasyarat.
Instal server di portal, atau dari baris perintah.
Konfigurasikan mesin yang direplikasi untuk menggunakan server baru. Jika Anda sudah memiliki mesin yang mereplikasi:
- Anda dapat memindahkan seluruh beban kerja server proses ke server proses baru.
- Atau, Anda dapat memindahkan VM tertentu ke server proses baru.

Aktifkan replikasi skala besar

Setelah merencanakan kapasitas dan menyebarkan komponen dan infrastruktur yang diperlukan, aktifkan replikasi untuk sejumlah besar VM.

Urutkan mesin ke dalam batch. Anda mengaktifkan replikasi untuk VM dalam batch, lalu beralih ke batch berikutnya.
- Untuk VMware VM, Anda dapat menggunakan ukuran batch VM yang direkomendasikan dalam laporan Perencana Penyebaran.
- Untuk mesin fisik, kami sarankan Anda mengidentifikasi batch berdasarkan mesin yang memiliki ukuran dan jumlah data yang sama, dan pada throughput jaringan yang tersedia. Tujuannya adalah untuk mem-batch mesin yang cenderung menyelesaikan replikasi awal mereka dalam waktu yang sama.
Jika disk churn untuk mesin tinggi, atau melebihi batas dalam Penyebaran thePlanner, Anda dapat memindahkan file non-kritis yang tidak perlu direplikasi (seperti dump log atau file sementara) dari mesin. Untuk VMware VM, Anda dapat memindahkan file-file ini ke disk terpisah, lalu mengecualikan disk tersebut dari replikasi.
Sebelum Anda mengaktifkan replikasi, periksa apakah mesin memenuhi persyaratan replikasi.
Konfigurasikan kebijakan replikasi untuk VMware VM atau server fisik.
Aktifkan replikasi untuk VMware VM atau server fisik. Ini memulai replikasi awal untuk mesin yang terpilih.

Memantau penyebaran Anda

Setelah Anda memulai replikasi untuk batch pertama VM, mulai pantau penyebaran Anda sebagai berikut:

Tetapkan administrator pemulihan bencana untuk memantau status kesehatan mesin yang direplikasi.
Memantau acara untuk item yang direplikasi dan infrastruktur.
Pantau kesehatan server proses perbesar skala Anda.
Daftar untuk mendapatkan pemberitahuan email untuk peristiwa, untuk pemantauan yang lebih mudah.
Lakukan penelusuran pemulihan bencana, secara teratur untuk memastikan bahwa semuanya bekerja seperti yang diharapkan.

Rencanakan untuk failover berskala besar

Jika terjadi bencana, Anda mungkin perlu melakukan failover atas sejumlah besar komputer / beban kerja ke Azure. Persiapkan untuk jenis peristiwa ini sebagai berikut.

Anda dapat mempersiapkan terlebih dahulu untuk failover sebagai berikut:

Siapkan infrastruktur dan VM Anda sehingga beban kerja Anda akan tersedia setelah failover, dan agar pengguna dapat mengakses Azure VM.
Perhatikan batas failover sebelumnya dalam dokumen ini. Pastikan failover Anda akan berada dalam batas ini.
Jalankan penelusuran pemulihan bencanareguler. Penelusuran membantu untuk:
- Menemukan celah dalam penyebaran Anda sebelum failover.
- Memperkirakan RTO end-to-end untuk aplikasi Anda.
- Memperkirakan RPO end-to-end untuk beban kerja Anda.
- Mengidentifikasi konflik rentang alamat IP.
- Saat Anda menjalankan penelusuran, kami sarankan Anda tidak menggunakan jaringan produksi untuk menelusuri dan membersihkan failover pengujian setelah setiap penelusuran.

Untuk menjalankan failover berskala besar, kami merekomendasikan hal berikut:

Buat rencana pemulihan untuk failover beban kerja.
- Setiap rencana pemulihan dapat memicu kegagalan hingga 100 mesin.
- Pelajari selengkapnya tentang rencana pemulihan.
Tambahkan skrip runbook Azure Automation ke rencana pemulihan, untuk mengautomasi tugas manual apa pun di Azure. Tugas umum termasuk mengkonfigurasi penyeimbang muatan, memperbarui DNS, dll. Pelajari lebih lanjut
Sebelum failover, siapkan mesin Windows sehingga mereka mematuhi lingkungan Azure. Batas failover lebih tinggi untuk mesin yang mematuhi. Pelajari selengkapnya tentang runbook.
Pemicu failover denganStart-AzRecoveryServicesAsrPlannedFailoverJob PowerShell, bersama dengan rencana pemulihan.

Langkah berikutnya

Memantau Site Recovery