Migrasi Hadoop ke Azure
Apache Hadoop menyediakan sistem file terdistribusi dan kerangka kerja untuk menggunakan teknik MapReduce untuk menganalisis dan mengubah himpunan data yang sangat besar. Karakteristik penting Hadoop adalah pemartisian data dan komputasi di banyak (ribuan) host. Komputasi dilakukan secara paralel dekat dengan data. Kluster Hadoop menskalakan kapasitas komputasi, kapasitas penyimpanan, dan bandwidth I/O hanya dengan menambahkan perangkat keras komoditas.
Artikel ini adalah gambaran umum migrasi Hadoop ke Azure. Artikel lain di bagian ini menyediakan panduan migrasi untuk komponen Hadoop tertentu. Yaitu:
- Migrasi Apache HDFS ke Azure
- Migrasi Apache HBase ke Azure
- Migrasi Apache Kafka ke Azure
- Migrasi Apache Sqoop ke Azure
Hadoop menyediakan ekosistem layanan dan kerangka kerja yang luas. Artikel ini tidak menjelaskan komponen Hadoop dan implementasi Azure secara rinci. Sebaliknya, mereka memberikan panduan dan pertimbangan tingkat tinggi untuk berfungsi sebagai titik awal bagi Anda untuk memigrasikan aplikasi Hadoop lokal dan cloud Anda ke Azure.
Apache, Apache Spark®, Apache Hadoop®, Apache HBase, Apache Hive, Apache Ranger®, Apache Sentry®, Apache ZooKeeper®, Apache Storm®, Apache Sqoop®, Apache Flink®, Apache Kafka®, dan logo api adalah merek dagang terdaftar atau merek dagang dari Apache Software Foundation di Amerika Serikat dan/atau lainnya® Negara. Tidak ada dukungan oleh The Apache Software Foundation yang tersirat oleh penggunaan tanda ini.
Komponen utama sistem Hadoop tercantum dalam tabel berikut. Untuk setiap komponen ada deskripsi singkat, dan informasi migrasi seperti:
- Tautan ke diagram alur keputusan untuk memutuskan strategi migrasi
- Daftar kemungkinan layanan target Azure
Komponen | Deskripsi | Bagan alur keputusan | Layanan Azure yang ditargetkan |
---|---|---|---|
Apache HDFS | Sistem File Terdistribusi DFS | Merencanakan migrasi data, Pra-pemeriksaan sebelum migrasi data | Azure Data Lake Storage |
Apache HBase | Layanan tabel berorientasi kolom | Memilih target pendaratan untuk Apache HBase, Memilih penyimpanan untuk Apache HBase di Azure | HBase pada komputer virtual (VM), HBase di Azure HDInsight, Azure Cosmos DB |
Apache Spark | Kerangka kerja pemrosesan data | Memilih target pendaratan untuk Apache Spark di Azure | Spark di HDInsight, Azure Synapse Analytics, Azure Databricks |
Apache Hive 2.1.0 | Infrastruktur gudang data | Memilih target pendaratan untuk Apache Hive, Memilih target DB untuk metadata Apache Hive | Apache Hive di VM, Apache Hive di HDInsight, Azure Synapse Analytics |
Apache Ranger | Kerangka kerja untuk memantau dan mengelola keamanan data | Paket Keamanan Perusahaan untuk HDInsight, MICROSOFT Entra ID, Ranger pada VM | |
Apache Sentry | Kerangka kerja untuk memantau dan mengelola keamanan data | Memilih target pendaratan untuk Apache Sentry di Azure | Sentry dan Ranger pada VM, Paket Keamanan Perusahaan untuk HDInsight, ID Microsoft Entra |
Apache MapReduce | Kerangka kerja komputasi terdistribusi | MapReduce, Spark | |
Apache Zookeeper | Layanan koordinasi terdistribusi | ZooKeeper pada VM, solusi bawaan dalam platform as a service (PaaS) | |
Apache YARN | Manajer sumber daya untuk ekosistem Hadoop | YARN pada VM, solusi bawaan di PaaS | |
Apache Sqoop | Alat antarmuka baris perintah untuk mentransfer data antara kluster Apache Hadoop dan database relasional | Memilih target pendaratan untuk Apache Sqoop di Azure | Sqoop pada VM, Sqoop di HDInsight, Azure Data Factory |
Apache Kafka | Sistem olahpesan terdistribusi yang sangat toleran terhadap kesalahan | Memilih target pendaratan untuk Apache Kafka di Azure | Kafka pada VM, Event Hubs untuk Kafka, Kafka di HDInsight |
Apache Atlas | Kerangka kerja sumber terbuka untuk tata kelola data dan manajemen metadata | Azure Purview |
Diagram berikut menunjukkan tiga pendekatan untuk memigrasikan aplikasi Hadoop:
Unduh file Visio arsitektur ini.
Pendekatannya adalah:
- Replatform dengan menggunakan Azure PaaS: Untuk informasi selengkapnya, lihat Memodernisasi dengan menggunakan Azure Synapse Analytics dan Databricks.
- Angkat dan geser ke HDInsight: Untuk informasi selengkapnya, lihat Angkat dan geser ke HDInsight.
- Angkat dan geser ke IaaS: Untuk informasi selengkapnya, lihat Mengangkat dan beralih ke infrastruktur sebagai layanan (IaaS) Azure.
Diagram berikut menunjukkan pendekatan ini:
Unduh file Visio arsitektur ini.
Diagram berikut menunjukkan pendekatan ini:
Unduh file Visio arsitektur ini.
Untuk informasi selengkapnya, lihat Memigrasikan kluster Apache Hadoop lokal ke Azure HDInsight.
Pola berikut menyajikan sudut pandang tentang cara menyebarkan OSS di Azure IaaS dengan integrasi yang ketat kembali ke sistem lokal seperti Active Directory, Pengendali Domain, dan DNS. Penyebaran mengikuti panduan zona pendaratan skala perusahaan dari Microsoft. Kemampuan manajemen seperti pemantauan, keamanan, tata kelola, dan jaringan dihosting dalam langganan manajemen. Beban kerja, semua berbasis IaaS, dihosting dalam langganan terpisah. Untuk informasi selengkapnya tentang zona pendaratan skala perusahaan, lihat Apa itu zona pendaratan Azure?.
Unduh file Visio arsitektur ini.
- Active Directory lokal disinkronkan dengan ID Microsoft Entra dengan menggunakan Microsoft Entra Connect yang dihosting secara lokal.
- Azure ExpressRoute menyediakan konektivitas jaringan yang aman dan privat antara lokal dan Azure.
- Langganan manajemen (atau hub) menyediakan kemampuan jaringan dan manajemen untuk penyebaran. Pola ini sejalan dengan panduan zona pendaratan skala perusahaan dari Microsoft.
- Layanan yang dihosting di dalam langganan hub menyediakan konektivitas jaringan dan kemampuan manajemen.
- NTP (dihosting di Azure VM) diperlukan untuk menjaga jam tetap sinkron di semua komputer virtual. Saat Menjalankan beberapa aplikasi, seperti HBase dan ZooKeeper, Anda harus menjalankan layanan Network Time Protocol (NTP) atau mekanisme sinkronisasi waktu lain pada kluster Anda. Semua simpul harus menggunakan layanan yang sama untuk sinkronisasi waktu. Untuk petunjuk tentang menyiapkan NTP di Linux, lihat 14.6. Konfigurasi NTP dasar.
- Azure Network Watcher menyediakan alat untuk memantau, mendiagnosis, dan mengelola sumber daya di jaringan virtual Azure. Network Watcher dirancang untuk memantau dan memperbaiki kesehatan jaringan produk IaaS, termasuk VM, jaringan virtual, gateway aplikasi, dan penyeimbang beban.
- Azure Advisor menganalisis konfigurasi sumber daya dan telemetri penggunaan Anda lalu merekomendasikan solusi untuk meningkatkan efektivitas biaya, performa, keandalan, dan keamanan sumber daya Azure Anda.
- Azure Monitor menyediakan solusi komprehensif untuk mengumpulkan, menganalisis, dan bertindak berdasarkan telemetri dari lingkungan cloud dan lokal Anda. Ini membantu Anda memahami performa aplikasi Sehingga Anda dapat secara proaktif mengidentifikasi masalah yang memengaruhi aplikasi dan sumber daya yang bergantung padanya.
- Ruang Kerja Analitik Log adalah lingkungan unik untuk data log Azure Monitor. Setiap ruang kerja memiliki repositori dan konfigurasi datanya sendiri. Sumber dan solusi data dikonfigurasi untuk menyimpan data mereka di ruang kerja tertentu. Anda memerlukan ruang kerja Analitik Log jika Anda ingin mengumpulkan data dari sumber berikut:
- Sumber daya Azure pada langganan Anda
- Komputer lokal yang dipantau oleh Manajer Operasi Pusat Sistem
- Koleksi perangkat dari System Center Configuration Manager
- Diagnostik atau data log dari Azure Storage
- Agen yang Dihost sendiri Azure DevOps yang dihosting di Azure virtual Machine Scale Sets memberi Anda fleksibilitas atas ukuran dan gambar mesin tempat agen berjalan. Anda menentukan set skala komputer virtual, sejumlah agen untuk tetap siaga, jumlah maksimum komputer virtual dalam set skala. Azure Pipelines mengelola penskalaan agen Anda untuk Anda.
- Penyewa ID Microsoft Entra disinkronkan dengan Active Directory lokal melalui layanan sinkronisasi Microsoft Entra Connect. Untuk informasi selengkapnya, lihat Sinkronisasi Microsoft Entra Connect: Memahami dan menyesuaikan sinkronisasi.
- Microsoft Entra Domain Services (Microsoft Entra Domain Services) menyediakan kemampuan LDAP dan Kerberos di Azure. Saat pertama kali Anda menyebarkan Microsoft Entra Domain Services, sinkronisasi satu arah otomatis dikonfigurasi dan dimulai untuk mereplikasi objek dari ID Microsoft Entra. Sinkronisasi satu arah ini terus berjalan di latar belakang untuk memastikan domain terkelola Microsoft Entra Domain Services selalu mendapatkan perubahan terbaru apa pun dari Microsoft Entra ID. Tidak ada sinkronisasi yang terjadi dari Microsoft Entra Domain Services kembali ke Microsoft Entra ID.
- Layanan seperti Azure DNS, Microsoft Defender untuk Cloud, dan Azure Key Vault berada di dalam langganan manajemen dan menyediakan resolusi alamat layanan/IP, manajemen keamanan infrastruktur terpadu, serta kemampuan manajemen sertifikat dan kunci.
- Virtual Network Peering menyediakan konektivitas antara jaringan virtual yang disebarkan dalam dua langganan: manajemen (hub) dan beban kerja (spoke).
- Sejalan dengan zona pendaratan skala perusahaan, langganan beban kerja digunakan untuk menghosting beban kerja aplikasi.
- Azure Data Lake Storage adalah serangkaian kemampuan yang dibangun di Azure Blob Storage untuk melakukan analitik big data. Dalam konteks beban kerja big data, Data Lake Storage dapat digunakan sebagai penyimpanan sekunder untuk Hadoop. Data yang ditulis ke Data Lake Storage dapat digunakan oleh layanan Azure lainnya yang berada di luar kerangka kerja Hadoop.
- Beban kerja big data dihosting pada sekumpulan komputer virtual Azure independen. Lihat panduan untuk HDFS, HBase, Apache Hive, Ranger, dan Spark di Azure IaaS untuk informasi selengkapnya.
- Azure DevOps adalah penawaran perangkat lunak sebagai layanan (SaaS) yang menyediakan serangkaian layanan dan alat terintegrasi untuk mengelola proyek perangkat lunak Anda, dari perencanaan dan pengembangan melalui pengujian dan penyebaran.
Salah satu tantangan migrasi beban kerja dari Hadoop lokal ke Azure adalah menyebarkan untuk mencapai arsitektur dan aplikasi status akhir yang diinginkan. Proyek yang dijelaskan dalam Migrasi Hadoop di Azure PaaS dimaksudkan untuk mengurangi upaya signifikan yang biasanya diperlukan untuk menyebarkan layanan PaaS dan aplikasi.
Dalam proyek itu, kita melihat arsitektur status akhir untuk beban kerja big data di Azure dan mencantumkan komponen yang digunakan dalam penyebaran templat Bicep. Dengan Bicep, kami hanya menyebarkan modul yang kami butuhkan untuk menyebarkan arsitektur. Kami membahas prasyarat untuk templat dan berbagai metode penyebaran sumber daya di Azure, seperti One-click, Azure CLI, GitHub Actions, dan Azure DevOps Pipeline.
Artikel ini dikelola oleh Microsoft. Ini awalnya ditulis oleh kontributor berikut.
Penulis utama:
- Namrata Maheshwary | Arsitek Solusi Cloud Senior
- Raja N | Direktur, Keberhasilan Pelanggan
- Hideo Takagi | Arsitek Solusi Cloud
- Ram Yerrabotu | Arsitek Solusi Cloud Senior
Kontributor lain:
- Ram Baskaran | Arsitek Solusi Cloud Senior
- Jason Bouska | Insinyur Perangkat Lunak Senior
- Eugene Chung | Arsitek Solusi Cloud Senior
- Pawan Hosatti | Arsitek Solusi Cloud Senior - Teknik
- Daman Kaur | Arsitek Solusi Cloud
- Danny Liu | Arsitek Solusi Cloud Senior - Teknik
- Arsitek Solusi Cloud Senior Jose Mendez
- Ben Sadeghi | Spesialis Senior
- Sunil Sattiraju | Arsitek Solusi Cloud Senior
- Amanjeet Singh | Manajer Program Utama
- Nagaraj Seeplapudur Venkatesan | Arsitek Solusi Cloud Senior - Teknik
Untuk melihat profil LinkedIn non-publik, masuk ke LinkedIn.
- Pengantar Azure Data Lake Storage Gen2
- Apa itu Apache Spark di Azure HDInsight?
- Apa itu Apache Hadoop di Azure HDInsight?
- Apa itu Apache HBase di Azure HDInsight?
- Apa itu Apache Kafka di Azure HDInsight?
- Gambaran umum keamanan perusahaan di Microsoft Azure HDInsight
- Dokumentasi Microsoft Entra
- Dokumentasi Azure Cosmos DB
- Dokumentasi Azure Data Factory
- Dokumentasi Azure Databricks
- Dokumentasi Azure Event Hubs
- Dokumentasi Azure Functions
- Dokumentasi Azure HDInsight
- Dokumentasi tata kelola data Microsoft Purview
- Dokumentasi Azure Stream Analytics
- Azure Synapse Analytics