Bagikan melalui


Memigrasikan data Hadoop lokal ke Azure Data Lake Storage Gen2 dengan WANdisco LiveData Platform untuk Azure

WANdisco LiveData Platform untuk Azure memigrasikan petabyte data Hadoop lokal ke sistem file Azure Data Lake Storage Gen2 tanpa mengganggu operasi data atau memerlukan waktu henti. Pemeriksaan berkelanjutan platform mencegah data hilang sekaligus menjaganya tetap konsisten di kedua ujung transfer bahkan saat mengalami modifikasi.

Platform ini terdiri dari dua layanan. LiveData Migrator untuk Azure memigrasikan data yang digunakan secara aktif dari lingkungan lokal ke penyimpanan Azure, dan LiveData Plane untuk Azure memastikan bahwa semua data yang diubah atau diserap telah direplikasi secara konsisten.

Ilustrasi Gambaran Umum Platform Data Live

Kelola kedua layanan dengan menggunakan portal Microsoft Azure dan Azure CLI. Setiap layanan mengikuti model penagihan bayar sesuai pemakaian yang sama dengan semua layanan Azure lainnya: konsumsi data di LiveData Platform for Azure muncul pada tagihan Azure bulanan, yang akan menyediakan metrik penggunaan.

Beda dari migrasi data secara offline dengan menyalin informasi statis ke Azure Data Box, atau dengan menggunakan alat Hadoop seperti DistCp, Anda dapat mempertahankan operasi sistem bisnis Anda selama migrasi online dengan WANdisco LiveData untuk Azure. Jaga agar lingkungan big data Anda tetap beroperasi bahkan saat memindahkan data mereka ke Azure.

Manfaat utama WANdisco LiveData Platform untuk Azure

Jaringan area luas WANdisco LiveData Platform untuk Azure yang mampu mencapai konsistensi data, dan melakukan replikasi data real time dalam skala besar. Lihat video berikut untuk informasi selengkapnya:

Manfaat utama dari platform ini meliputi:

  • Akurasi data: Validasi data end-to-end mencegah kehilangan data dan memastikan data yang ditransfer sesuai untuk digunakan.

  • Konsistensi data: Menjaga volume data secara otomatis konsisten antara lingkungan bahkan ketika mereka mengalami perubahan terus menerus.

  • Efisiensi data: Transfer volume data besar terus menerus dengan kontrol penuh konsumsi bandwidth.

  • Eliminasi waktu henti: Bebas membuat, mengubah, membaca, dan menghapus data dengan aplikasi lain selama migrasi, tanpa perlu mengganggu operasi bisnis selama transfer data ke Azure. Terus operasikan aplikasi, infrastruktur analitik, tugas menelan, dan pemrosesan lainnya.

  • Penggunaan mudah: Gunakan integrasi Azure Platform untuk membuat, mengonfigurasi, menjadwalkan, dan melacak kemajuan migrasi otomatis. Selain itu, konfigurasikan replikasi data selektif, metadata Apache Hive, keamanan data, dan kerahasiaan sesuai kebutuhan.

Fitur utama WANdisco LiveData Platform untuk Azure

Fitur utama platform ini meliputi hal berikut:

  • Migrasi Metadata: Selain data HDFS, migrasikan metadata (dari Apache Hive dan penyimpanan lainnya) dengan LiveData Migrator untuk Azure.

  • Transfer Terjadwal: Gunakan LiveData Migrator untuk Azure untuk mengontrol dan mengotomatisasi kapan transfer data akan dimulai, menghilangkan kebutuhan untuk memigrasikan perubahan ke data secara manual.

  • Kerberos: LiveData Migrator untuk Azure mendukung kluster Kerberized.

  • Templat Pengecualian: Buat aturan di LiveData Migrator untuk Azure agar mencegah ukuran file atau nama file tertentu (ditentukan menggunakan pola glob) dimigrasikan ke penyimpanan target Anda. Buat templat pengecualian di portal Microsoft Azure atau dengan CLI, dan terapkan ke sejumlah migrasi.

  • Pemetaan Jalur: Tentukan jalur target alternatif untuk sistem file target tertentu, yang secara otomatis memindahkan data yang ditransfer ke direktori yang Anda tentukan.

  • Manajemen Bandwidth: Konfigurasikan jumlah maksimum bandwidth jaringan yang dapat digunakan LiveData Migrator untuk Azure untuk mencegah konsumsi bandwidth yang berlebihan.

  • Pengecualian: Tentukan kueri templat yang mencegah migrasi file dan direktori apa pun yang memenuhi kriteria, memungkinkan Anda untuk memigrasikan data secara selektif dari sistem sumber.

  • Metrik: Tampilkan detail tentang transfer data di LiveData Migrator untuk Azure, seperti file yang ditransfer dari waktu ke waktu, jalur yang dikecualikan, item yang gagal ditransfer, dan lainnya.

    LiveData

Migrasi data besar lebih cepat tanpa risiko

Layanan pertama dari WANdisco LiveData Platform untuk Azure adalah LiveData Migrator untuk Azure, yang memigrasikan data dari lingkungan lokal ke Azure Storage. Setelah Anda menyebarkan LiveData Migrator ke kluster Hadoop lokal Anda, itu akan secara otomatis membuat konfigurasi terbaik untuk sistem file Anda. Dari sana, berikan detail Kerberos untuk sistem. LiveData Migrator untuk Azure kemudian akan siap untuk memigrasikan data ke Azure Storage.

LiveData Migrator untuk Arsitektur Azure

Sebelum memulai dengan LiveData Migrator untuk Azure, tinjau prasyarat berikut.

Untuk melakukan migrasi:

  1. Di Azure CLI:

    • Daftar ke penyedia sumber daya WANdisco di Azure CLI dengan menjalankan az provider register --namespace Wandisco.Fusion --consent-to-permissions.
    • Terima persyaratan penagihan terukur LiveData Platform dengan menjalankan az vm image terms accept --offer ldma --plan metered-v1 --publisher Wandisco --subscription <subscriptionID>.
  2. Sebarkan instans LiveData Migrator dari portal Microsoft Azure ke kluster Hadoop lokal Anda. (Anda tidak perlu membuat perubahan pada atau menghidupkan ulang kluster.)

    Buat instans LiveData Migrator

    Catatan

    WANdisco LiveData Migrator untuk Azure menyediakan opsi untuk membuat Kluster Uji Hadoop.

  3. Konfigurasikan detail Kerberos, jika ada.

  4. Tentukan target akun penyimpanan Azure Data Lake Storage yang diaktifkan Gen2.

    Buat target LiveData Migrator

  5. Tentukan lokasi data yang ingin Anda migrasikan, misalnya: /user/hive/warehouse.

    Buat migrasi LiveData Migrator

  6. Mulai migrasi.

Pantau kemajuan migrasi Anda melalui alat Azure standar termasuk Azure CLI dan portal Microsoft Azure.

Mereplikasi data dua arah dalam perubahan aktif dengan LiveData Plane untuk Azure

Layanan kedua yang disertakan dalam LiveData Platform adalah LiveData Plane untuk Azure. LiveData Plane menggunakan mesin koordinasi WANdisco untuk menjaga data tetap konsisten di banyak kluster Hadoop lokal dan Azure Storage dengan secara cerdas menerapkan perubahan pada data di semua sistem, menghilangkan risiko konflik data di berbagai titik penggunaan.

LiveData Plane untuk Arsitektur Azure

Setelah migrasi awal, pertahankan agar data Anda tetap konsisten dengan LiveData Plane untuk Azure:

  1. Sebarkan LiveData Plane untuk Azure secara lokal dan di Azure, dimulai dari portal Microsoft Azure. Tidak diperlukan perubahan aplikasi.

  2. Konfigurasikan aturan replikasi yang mencakup lokasi data yang ingin Anda pertahankan agar tetap konsisten, misalnya: /user/contoso/sales/region/WA.

  3. Jalankan aplikasi yang mengakses dan mengubah data di kedua lokasi yang Anda butuhkan.

LiveData Plane untuk Azure secara konsisten mereplikasi perubahan data di semua lingkungan tanpa dampak signifikan pada operasi kluster atau performa aplikasi.

Uji coba atau Percobaan

Dari halaman LiveData Platform untuk Marketplace Azure, Anda memiliki dua opsi:

  • Tombol Dapatkan Sekarang meluncurkan layanan dalam langganan Anda. Dari sana, Anda dapat menggunakan kluster Hadoop Anda sendiri atau kluster Percobaan WANdisco.

  • Pilih Uji Coba untuk menguji LiveData Migrator untuk Azure di lingkungan yang telah dikonfigurasi dan dihosting untuk Anda. Hal ini memungkinkan Anda untuk mencoba LiveData Migrator untuk Azure sebelum menambahkannya ke langganan, tanpa biaya atau risiko pada data Anda.

Langkah berikutnya

Lihat juga