Merancang untuk ketersediaan tinggi dengan ExpressRoute

ExpressRoute dirancang untuk ketersediaan tinggi guna menyediakan konektivitas jaringan privat tingkat operator ke sumber daya Microsoft. Dengan kata lain, tidak ada satu titik kegagalan di jalur ExpressRoute dalam jaringan Microsoft. Untuk memaksimalkan ketersediaan, pelanggan dan segmen penyedia layanan sirkuit ExpressRoute Anda juga harus dirancang untuk ketersediaan tinggi. Dalam artikel ini, pertama-tama mari kita lihat pertimbangan arsitektur jaringan untuk membangun konektivitas jaringan yang kuat menggunakan ExpressRoute, lalu mari kita lihat fitur penghalusan yang membantu Anda meningkatkan ketersediaan tinggi sirkuit ExpressRoute Anda.

Catatan

Konsep yang dijelaskan dalam artikel ini sama-sama berlaku ketika sirkuit ExpressRoute dibuat di bawah Azure Virtual WAN atau di luarnya.

Pertimbangan arsitektur

Gambar berikut menggambarkan cara yang direkomendasikan untuk terhubung menggunakan sirkuit ExpressRoute untuk memaksimalkan ketersediaan sirkuit ExpressRoute.

1

Untuk ketersediaan tinggi, penting untuk mempertahankan redundansi sirkuit ExpressRoute di seluruh jaringan end-to-end. Dengan kata lain, Anda perlu mempertahankan redundansi dalam jaringan lokal Anda, dan tidak boleh membahayakan redundansi dalam jaringan penyedia layanan Anda. Mempertahankan redundansi minimal menyiratkan menghindari satu titik kegagalan jaringan. Memiliki daya dan pendinginan redundan untuk perangkat jaringan semakin meningkatkan ketersediaan tinggi.

Pertimbangan desain lapisan fisik mil pertama

Jika Anda mengakhiri koneksi utama dan sekunder sirkuit ExpressRoute pada Customer Premises Equipment (CPE) yang sama, Anda mengorbankan ketersediaan tinggi dalam jaringan lokal Anda. Selain itu, jika Anda mengonfigurasi koneksi utama dan sekunder menggunakan port CPE yang sama, Anda juga memaksa mitra untuk membahayakan ketersediaan tinggi pada segmen jaringan mereka. Peristiwa ini dapat terjadi dengan mengakhiri dua koneksi di bawah sub-antarmuka yang berbeda atau dengan menggabungkan dua koneksi dalam jaringan mitra. Kompromi ini diilustrasikan dalam angka berikut.

2

Di sisi lain, jika Anda mengakhiri koneksi utama dan sekunder sirkuit ExpressRoute di lokasi geografis yang berbeda, maka Anda bisa mengorbankan kinerja jaringan konektivitas. Jika lalu lintas secara aktif dimuat seimbang di seluruh koneksi utama dan sekunder yang dihentikan pada lokasi geografis yang berbeda, potensi perbedaan substansial dalam latensi jaringan antara kedua jalur akan menghasilkan kinerja jaringan suboptimal.

Untuk pertimbangan desain geo-berlebihan, lihat Merancang untuk pemulihan bencana dengan ExpressRoute.

Sambungan aktif-aktif

Jaringan Microsoft dikonfigurasi untuk mengoperasikan koneksi utama dan sekunder sirkuit ExpressRoute dalam mode aktif-aktif. Namun, melalui iklan rute Anda, Anda dapat memaksa koneksi yang berlebihan dari sirkuit ExpressRoute untuk beroperasi dalam mode pasif-aktif. Mengiklankan rute yang lebih spesifik dan prepending jalur BGP AS adalah teknik umum yang digunakan untuk membuat satu jalur lebih disukai daripada jalur lainnya.

Untuk meningkatkan ketersediaan tinggi, disarankan untuk mengoperasikan kedua koneksi sirkuit ExpressRoute dalam mode aktif-aktif. Jika Anda mengizinkan koneksi beroperasi dalam mode aktif-aktif, beban jaringan Microsoft akan menyeimbangkan lalu lintas di seluruh koneksi per aliran.

Menjalankan koneksi utama dan sekunder sirkuit ExpressRoute dalam mode pasif aktif menghadapi risiko kedua koneksi gagal setelah kegagalan di jalur aktif. Penyebab umum kegagalan beralih adalah kurangnya manajemen aktif koneksi pasif, dan rute basi iklan koneksi pasif.

Atau, menjalankan koneksi primer dan sekunder sirkuit ExpressRoute dalam mode aktif-aktif, mengakibatkan hanya sekitar separuh aliran yang gagal dan dialihkan. Oleh karena itu, koneksi aktif-aktif secara signifikan membantu meningkatkan Mean Time To Recover (MTTR).

Catatan

Selama aktivitas pemeliharaan atau dalam kasus peristiwa yang tidak direncanakan berdampak pada salah satu koneksi, Microsoft akan lebih memilih untuk menggunakan jalur AS yang telah digunakan sebelumnya untuk mengalirkan lalu lintas ke koneksi yang sehat. Anda harus memastikan lalu lintas dapat merutekan melalui jalur sehat saat jalur yang telah dikonfigurasi sebelumnya dari Microsoft dan iklan rute yang diperlukan dikonfigurasi dengan tepat untuk menghindari gangguan layanan apa pun.

NAT untuk peering Microsoft

Peering Microsoft dirancang untuk komunikasi antara titik akhir publik. Jadi umumnya, endpoint pribadi di tempat adalah Network Address Translated (NATed) dengan IP publik di pelanggan atau jaringan mitra sebelum mereka berkomunikasi melalui peering Microsoft. Dengan asumsi Anda menggunakan koneksi utama dan sekunder dalam penyiapan aktif-aktif. Di mana dan bagaimana NAT Anda memiliki efek pada seberapa cepat Anda pulih setelah kegagalan di salah satu koneksi ExpressRoute. Dua opsi NAT berbeda diilustrasikan dalam gambar berikut:

3

Opsi 1:

NAT diterapkan setelah memisahkan lalu lintas antara koneksi primer dan sekunder dari sirkuit ExpressRoute. Untuk memenuhi persyaratan NAT yang statefulI, kelompok NAT independen digunakan untuk perangkat primer dan sekunder. Lalu lintas kembali tiba pada perangkat edge yang sama di mana alur keluar.

Jika koneksi ExpressRoute gagal, kemampuan untuk mencapai kelompok NAT yang sesuai kemudian rusak. Oleh karena itu, semua alur jaringan yang rusak harus dibuat ulang baik oleh TCP atau oleh lapisan aplikasi setelah batas waktu jendela yang sesuai. Selama kegagalan, Azure tidak dapat mencapai server lokal menggunakan NAT yang sesuai sampai konektivitas telah dipulihkan baik untuk koneksi primer atau sekunder dari sirkuit ExpressRoute.

Opsi 2:

Kelompok NAT umum digunakan sebelum memisahkan lalu lintas antara koneksi primer dan sekunder sirkuit ExpressRoute. Penting untuk membuat perbedaan bahwa kumpulan NAT umum sebelum membagi lalu lintas tidak berarti memperkenalkan satu titik kegagalan seperti itu mengorbankan ketersediaan tinggi.

Kelompok NAT dapat dicapai bahkan setelah koneksi primer atau sekunder gagal. Jadi lapisan jaringan itu sendiri dapat mengalihkan rute paket dan membantu memulihkan lebih cepat setelah kegagalan.

Catatan

  • Jika Anda menggunakan opsi NAT 1 (kumpulan NAT independen untuk koneksi ExpressRoute primer dan sekunder) dan memetakan port alamat IP dari salah satu kumpulan NAT ke server lokal, server tidak akan dapat dijangkau melalui sirkuit ExpressRoute ketika koneksi yang sesuai gagal.
  • Mengakhiri koneksi ExpressRoute BGP pada perangkat berstatus dapat menyebabkan masalah dengan failover selama pemeliharaan yang direncanakan atau tidak direncanakan oleh Microsoft atau Penyedia ExpressRoute Anda. Anda harus menguji pengaturan Anda untuk memastikan lalu lintas Anda akan failover dengan benar, dan jika memungkinkan, mengakhiri sesi BGP pada perangkat tanpa status.

Fitur penghalusan untuk peering privat

Di bagian ini, izinkan kami meninjau fitur opsional (tergantung pada penyebaran Azure Anda dan seberapa sensitif Anda terhadap MTTR) yang membantu meningkatkan ketersediaan tinggi sirkuit ExpressRoute Anda. Secara khusus, mari kita tinjau penyebaran gateway jaringan virtual ExpressRoute yang sadar zona, dan Deteksi Penerusan Dua Arah (BFD).

Gateway jaringan virtual ExpressRoute yang sadar Availability Zone

Zona Ketersediaan di wilayah Azure adalah kombinasi antara domain kesalahan dan domain pembaruan. Untuk mencapai ketahanan dan ketersediaan tertinggi, Anda harus mengonfigurasi gateway jaringan virtual ExpressRoute zona-redundan. Untuk mempelajari selengkapnya, lihat Tentang gateway jaringan virtual zona-redundan di Zona Ketersediaan Azure. Untuk mengonfigurasi gateway jaringan virtual zona-redundan, lihat Membuat gateway jaringan virtual zona-redundan di Zona Ketersediaan Azure.

Meningkatkan waktu deteksi kegagalan

ExpressRoute mendukung BFD (Deteksi Penerusan Dua Arah) melalui peering privat. BFD (Deteksi Penerusan Dua Arah) mengurangi waktu deteksi kegagalan melalui jaringan Lapisan2 antara Microsoft Enterprise Edge (MSEEs) dan tetangga BGP (Protokol Batas Gerbang) mereka di sisi lokal dari sekitar 3 menit (default) menjadi kurang dari satu detik. Waktu deteksi kegagalan yang cepat membantu mempercepat pemulihan kegagalan. Untuk mempelajari lebih lanjut, lihat Mengonfigurasi BFD (Deteksi Penerusan Dua Arah) melalui ExpressRoute.

Langkah berikutnya

Dalam artikel ini, kami membahas cara mendesain untuk ketersediaan konektivitas sirkuit ExpressRoute yang tinggi. Titik peering sirkuit ExpressRoute disematkan ke lokasi geografis dan karenanya terpengaruh oleh kegagalan bencana yang memengaruhi seluruh lokasi.

Untuk pertimbangan desain untuk membangun konektivitas jaringan geo-redundan ke backbone Microsoft yang dapat menahan kegagalan bencana, yang memengaruhi seluruh wilayah, lihat Merancang untuk pemulihan bencana dengan peering privat ExpressRoute.