Bagikan melalui


Migrasi Hadoop ke Azure

Apache Hadoop menyediakan sistem file terdistribusi dan kerangka kerja untuk menggunakan teknik MapReduce untuk menganalisis dan mengubah himpunan data yang sangat besar. Karakteristik penting Hadoop adalah pemartisian data dan komputasi di banyak (ribuan) host. Komputasi dilakukan secara paralel dekat dengan data. Kluster Hadoop menskalakan kapasitas komputasi, kapasitas penyimpanan, dan bandwidth I/O hanya dengan menambahkan perangkat keras komoditas.

Artikel ini adalah gambaran umum migrasi Hadoop ke Azure. Artikel lain di bagian ini menyediakan panduan migrasi untuk komponen Hadoop tertentu. Yaitu:

Hadoop menyediakan ekosistem layanan dan kerangka kerja yang luas. Artikel ini tidak menjelaskan komponen Hadoop dan implementasi Azure secara rinci. Sebaliknya, mereka memberikan panduan dan pertimbangan tingkat tinggi untuk berfungsi sebagai titik awal bagi Anda untuk memigrasikan aplikasi Hadoop lokal dan cloud Anda ke Azure.

Apache, Apache Spark®, Apache Hadoop®, Apache HBase, Apache Hive, Apache Ranger®, Apache Sentry®, Apache ZooKeeper®, Apache Storm®, Apache Sqoop®, Apache Flink®, Apache Kafka®, dan logo api adalah merek dagang terdaftar atau merek dagang dari Apache Software Foundation di Amerika Serikat dan/atau lainnya® Negara. Tidak ada dukungan oleh The Apache Software Foundation yang tersirat oleh penggunaan tanda ini.

Komponen Hadoop

Komponen utama sistem Hadoop tercantum dalam tabel berikut. Untuk setiap komponen ada deskripsi singkat, dan informasi migrasi seperti:

  • Tautan ke diagram alur keputusan untuk memutuskan strategi migrasi
  • Daftar kemungkinan layanan target Azure
Komponen Deskripsi Bagan alur keputusan Layanan Azure yang ditargetkan
Apache HDFS Sistem File Terdistribusi DFS Merencanakan migrasi data, Pra-pemeriksaan sebelum migrasi data Azure Data Lake Storage
Apache HBase Layanan tabel berorientasi kolom Memilih target pendaratan untuk Apache HBase, Memilih penyimpanan untuk Apache HBase di Azure HBase pada komputer virtual (VM), HBase di Azure HDInsight, Azure Cosmos DB
Apache Spark Kerangka kerja pemrosesan data Memilih target pendaratan untuk Apache Spark di Azure Spark di HDInsight, Azure Synapse Analytics, Azure Databricks
Apache Hive 2.1.0 Infrastruktur gudang data Memilih target pendaratan untuk Apache Hive, Memilih target DB untuk metadata Apache Hive Apache Hive di VM, Apache Hive di HDInsight, Azure Synapse Analytics
Apache Ranger Kerangka kerja untuk memantau dan mengelola keamanan data Paket Keamanan Perusahaan untuk HDInsight, MICROSOFT Entra ID, Ranger pada VM
Apache Sentry Kerangka kerja untuk memantau dan mengelola keamanan data Memilih target pendaratan untuk Apache Sentry di Azure Sentry dan Ranger pada VM, Paket Keamanan Perusahaan untuk HDInsight, ID Microsoft Entra
Apache MapReduce Kerangka kerja komputasi terdistribusi MapReduce, Spark
Apache Zookeeper Layanan koordinasi terdistribusi ZooKeeper pada VM, solusi bawaan dalam platform as a service (PaaS)
Apache YARN Manajer sumber daya untuk ekosistem Hadoop YARN pada VM, solusi bawaan di PaaS
Apache Sqoop Alat antarmuka baris perintah untuk mentransfer data antara kluster Apache Hadoop dan database relasional Memilih target pendaratan untuk Apache Sqoop di Azure Sqoop pada VM, Sqoop di HDInsight, Azure Data Factory
Apache Kafka Sistem olahpesan terdistribusi yang sangat toleran terhadap kesalahan Memilih target pendaratan untuk Apache Kafka di Azure Kafka pada VM, Event Hubs untuk Kafka, Kafka di HDInsight
Apache Atlas Kerangka kerja sumber terbuka untuk tata kelola data dan manajemen metadata Azure Purview

Pendekatan migrasi

Diagram berikut menunjukkan tiga pendekatan untuk memigrasikan aplikasi Hadoop:

Diagram yang menunjukkan tiga cara untuk memigrasikan aplikasi Hadoop.

Unduh file Visio arsitektur ini.

Pendekatannya adalah:

Modernisasi dengan menggunakan Azure Synapse Analytics dan Databricks

Diagram berikut menunjukkan pendekatan ini:

Diagram arsitektur untuk dimodernisasi dengan menggunakan Azure Synapse Analytics dan Databricks.

Unduh file Visio arsitektur ini.

Angkat dan geser ke HDInsight

Diagram berikut menunjukkan pendekatan ini:

Diagram arsitektur untuk memodernisasi dengan melakukan lift dan shift ke HDInsight.

Unduh file Visio arsitektur ini.

Untuk informasi selengkapnya, lihat Memigrasikan kluster Apache Hadoop lokal ke Azure HDInsight.

Angkat dan geser ke infrastruktur sebagai layanan (IaaS) Azure

Pola berikut menyajikan sudut pandang tentang cara menyebarkan OSS di Azure IaaS dengan integrasi yang ketat kembali ke sistem lokal seperti Active Directory, Pengendali Domain, dan DNS. Penyebaran mengikuti panduan zona pendaratan skala perusahaan dari Microsoft. Kemampuan manajemen seperti pemantauan, keamanan, tata kelola, dan jaringan dihosting dalam langganan manajemen. Beban kerja, semua berbasis IaaS, dihosting dalam langganan terpisah. Untuk informasi selengkapnya tentang zona pendaratan skala perusahaan, lihat Apa itu zona pendaratan Azure?.

Diagram arsitektur untuk mengangkat dan beralih ke Azure IaaS.

Unduh file Visio arsitektur ini.

  1. Active Directory lokal disinkronkan dengan ID Microsoft Entra dengan menggunakan Microsoft Entra Connect yang dihosting secara lokal.
  2. Azure ExpressRoute menyediakan konektivitas jaringan yang aman dan privat antara lokal dan Azure.
  3. Langganan manajemen (atau hub) menyediakan kemampuan jaringan dan manajemen untuk penyebaran. Pola ini sejalan dengan panduan zona pendaratan skala perusahaan dari Microsoft.
  4. Layanan yang dihosting di dalam langganan hub menyediakan konektivitas jaringan dan kemampuan manajemen.
    • NTP (dihosting di Azure VM) diperlukan untuk menjaga jam tetap sinkron di semua komputer virtual. Saat Menjalankan beberapa aplikasi, seperti HBase dan ZooKeeper, Anda harus menjalankan layanan Network Time Protocol (NTP) atau mekanisme sinkronisasi waktu lain pada kluster Anda. Semua simpul harus menggunakan layanan yang sama untuk sinkronisasi waktu. Untuk petunjuk tentang menyiapkan NTP di Linux, lihat 14.6. Konfigurasi NTP dasar.
    • Azure Network Watcher menyediakan alat untuk memantau, mendiagnosis, dan mengelola sumber daya di jaringan virtual Azure. Network Watcher dirancang untuk memantau dan memperbaiki kesehatan jaringan produk IaaS, termasuk VM, jaringan virtual, gateway aplikasi, dan penyeimbang beban.
    • Azure Advisor menganalisis konfigurasi sumber daya dan telemetri penggunaan Anda lalu merekomendasikan solusi untuk meningkatkan efektivitas biaya, performa, keandalan, dan keamanan sumber daya Azure Anda.
    • Azure Monitor menyediakan solusi komprehensif untuk mengumpulkan, menganalisis, dan bertindak berdasarkan telemetri dari lingkungan cloud dan lokal Anda. Ini membantu Anda memahami performa aplikasi Sehingga Anda dapat secara proaktif mengidentifikasi masalah yang memengaruhi aplikasi dan sumber daya yang bergantung padanya.
    • Ruang Kerja Analitik Log adalah lingkungan unik untuk data log Azure Monitor. Setiap ruang kerja memiliki repositori dan konfigurasi datanya sendiri. Sumber dan solusi data dikonfigurasi untuk menyimpan data mereka di ruang kerja tertentu. Anda memerlukan ruang kerja Analitik Log jika Anda ingin mengumpulkan data dari sumber berikut:
      • Sumber daya Azure pada langganan Anda
      • Komputer lokal yang dipantau oleh Manajer Operasi Pusat Sistem
      • Koleksi perangkat dari System Center Configuration Manager
      • Diagnostik atau data log dari Azure Storage
    • Agen yang Dihost sendiri Azure DevOps yang dihosting di Azure virtual Machine Scale Sets memberi Anda fleksibilitas atas ukuran dan gambar mesin tempat agen berjalan. Anda menentukan set skala komputer virtual, sejumlah agen untuk tetap siaga, jumlah maksimum komputer virtual dalam set skala. Azure Pipelines mengelola penskalaan agen Anda untuk Anda.
  5. Penyewa ID Microsoft Entra disinkronkan dengan Active Directory lokal melalui layanan sinkronisasi Microsoft Entra Connect. Untuk informasi selengkapnya, lihat Sinkronisasi Microsoft Entra Connect: Memahami dan menyesuaikan sinkronisasi.
  6. Microsoft Entra Domain Services (Microsoft Entra Domain Services) menyediakan kemampuan LDAP dan Kerberos di Azure. Saat pertama kali Anda menyebarkan Microsoft Entra Domain Services, sinkronisasi satu arah otomatis dikonfigurasi dan dimulai untuk mereplikasi objek dari ID Microsoft Entra. Sinkronisasi satu arah ini terus berjalan di latar belakang untuk memastikan domain terkelola Microsoft Entra Domain Services selalu mendapatkan perubahan terbaru apa pun dari Microsoft Entra ID. Tidak ada sinkronisasi yang terjadi dari Microsoft Entra Domain Services kembali ke Microsoft Entra ID.
  7. Layanan seperti Azure DNS, Microsoft Defender untuk Cloud, dan Azure Key Vault berada di dalam langganan manajemen dan menyediakan resolusi alamat layanan/IP, manajemen keamanan infrastruktur terpadu, serta kemampuan manajemen sertifikat dan kunci.
  8. Virtual Network Peering menyediakan konektivitas antara jaringan virtual yang disebarkan dalam dua langganan: manajemen (hub) dan beban kerja (spoke).
  9. Sejalan dengan zona pendaratan skala perusahaan, langganan beban kerja digunakan untuk menghosting beban kerja aplikasi.
  10. Azure Data Lake Storage adalah serangkaian kemampuan yang dibangun di Azure Blob Storage untuk melakukan analitik big data. Dalam konteks beban kerja big data, Data Lake Storage dapat digunakan sebagai penyimpanan sekunder untuk Hadoop. Data yang ditulis ke Data Lake Storage dapat digunakan oleh layanan Azure lainnya yang berada di luar kerangka kerja Hadoop.
  11. Beban kerja big data dihosting pada sekumpulan komputer virtual Azure independen. Lihat panduan untuk HDFS, HBase, Apache Hive, Ranger, dan Spark di Azure IaaS untuk informasi selengkapnya.
  12. Azure DevOps adalah penawaran perangkat lunak sebagai layanan (SaaS) yang menyediakan serangkaian layanan dan alat terintegrasi untuk mengelola proyek perangkat lunak Anda, dari perencanaan dan pengembangan melalui pengujian dan penyebaran.

Arsitektur referensi status akhir

Salah satu tantangan migrasi beban kerja dari Hadoop lokal ke Azure adalah menyebarkan untuk mencapai arsitektur dan aplikasi status akhir yang diinginkan. Proyek yang dijelaskan dalam Migrasi Hadoop di Azure PaaS dimaksudkan untuk mengurangi upaya signifikan yang biasanya diperlukan untuk menyebarkan layanan PaaS dan aplikasi.

Dalam proyek itu, kita melihat arsitektur status akhir untuk beban kerja big data di Azure dan mencantumkan komponen yang digunakan dalam penyebaran templat Bicep. Dengan Bicep, kami hanya menyebarkan modul yang kami butuhkan untuk menyebarkan arsitektur. Kami membahas prasyarat untuk templat dan berbagai metode penyebaran sumber daya di Azure, seperti One-click, Azure CLI, GitHub Actions, dan Azure DevOps Pipeline.

Kontributor

Artikel ini dikelola oleh Microsoft. Ini awalnya ditulis oleh kontributor berikut.

Penulis utama:

Kontributor lain:

Untuk melihat profil LinkedIn non-publik, masuk ke LinkedIn.

Langkah berikutnya

Pengenalan produk Azure

Referensi produk Azure

Lainnya