Bagikan melalui


Migrasikan Azure Data Lake Storage dari Gen1 ke Gen2 menggunakan portal Azure

Artikel ini menunjukkan cara menyederhanakan migrasi menggunakan portal Azure.

Catatan

Azure Data Lake Storage Gen1 sekarang dihentikan. Lihat pengumuman penghentian di sini. Sumber daya Data Lake Storage Gen1 tidak lagi dapat diakses. Jika Anda memerlukan bantuan khusus, silakan hubungi kami.

Berikut adalah video yang memberi tahu Anda lebih lanjut tentang hal itu.

     Bab:


  • 00.37 - Pengantar

  • 01:16 - Mempersiapkan migrasi

  • 07:15 - Salin migrasi

  • 17:40 - Salin vs migrasi lengkap

  • 19:43 - Menyelesaikan migrasi

  • 33:15 - Pascamigrasi

Sebelum Anda mulai, pastikan untuk membaca panduan umum tentang cara bermigrasi dari Gen1 ke Gen2 di panduan dan pola migrasi Azure Data Lake Storage.

Akun Anda mungkin tidak memenuhi syarat untuk migrasi berbasis portal berdasarkan batasan tertentu. Saat tombol Migrasikan data tidak diaktifkan di portal Azure untuk akun Gen1 Anda, jika Anda memiliki paket dukungan, Anda dapat mengajukan permintaan dukungan. Anda juga bisa mendapatkan jawaban dari pakar komunitas di Microsoft Q&A.

Catatan

Untuk lebih mudah dibaca, artikel ini menggunakan istilah Gen1 untuk merujuk ke Azure Data Lake Storage Gen1, dan istilah Gen2 untuk merujuk ke Azure Data Lake Storage Gen2.

Langkah 1: Membuat akun penyimpanan dengan kemampuan Gen2

Azure Data Lake Storage Gen2 bukan akun penyimpanan khusus atau jenis layanan. Ini adalah kumpulan kemampuan yang dapat Anda dapatkan dengan mengaktifkan fitur namespace Hirarki dari akun penyimpanan Azure. Untuk membuat akun yang memiliki kemampuan Gen2, lihat Membuat akun penyimpanan untuk digunakan dengan Azure Data Lake Storage Gen2.

Saat Anda membuat akun, pastikan untuk mengonfigurasi pengaturan dengan nilai berikut.

Pengaturan Nilai
Nama akun penyimpanan Nama apa pun yang Anda inginkan. Nama ini tidak harus sesuai dengan nama akun Gen1 Anda dan dapat berada dalam langganan pilihan Anda.
Location Wilayah yang sama yang digunakan oleh akun Data Lake Storage Gen1
Replikasi LRS atau ZRS
Versi TLS Minimum 1.0
NFS v3 Nonaktif
Namespace hierarkis Diaktifkan

Catatan

Alat migrasi di portal Microsoft Azure tidak memindahkan pengaturan akun. Oleh karena itu, setelah Anda membuat akun, Anda harus mengonfigurasi pengaturan secara manual seperti enkripsi, firewall jaringan, perlindungan data.

Penting

Pastikan Anda menggunakan akun penyimpanan yang baru dibuat yang tidak memiliki riwayat penggunaan apa pun. Jangan bermigrasi ke akun yang telah digunakan sebelumnya atau menggunakan akun yang kontainernya telah dihapus untuk membuat akun kosong.

Langkah 2: Memverifikasi penetapan peran kontrol akses berbasis peran Azure (Azure RBAC)

Untuk Gen2, pastikan bahwa peran Pemilik Data Blob Penyimpanan telah ditetapkan ke identitas pengguna Microsoft Entra Anda dalam cakupan akun penyimpanan, grup sumber daya induk, atau langganan.

Untuk Gen1, pastikan bahwa peran Pemilik telah ditetapkan ke identitas Microsoft Entra Anda dalam cakupan akun Gen1, grup sumber daya induk, atau langganan.

Langkah 3: Memigrasikan beban kerja Azure Data Lake Analytics

Azure Data Lake Storage Gen2 tidak mendukung Azure Data Lake Analytics. Azure Data Lake Analytics akan dihentikan pada tanggal 29 Februari 2024. Jika Anda mencoba menggunakan portal Azure untuk memigrasikan akun Azure Data Lake Storage Gen1 yang digunakan untuk Azure Data Lake Analytics, Anda mungkin akan memutus beban kerja Azure Data Lake Analytics. Anda harus terlebih dahulu memigrasikan beban kerja Azure Data Lake Analytics ke Azure Synapse Analytics atau platform komputasi lain yang didukung sebelum mencoba memigrasikan akun Gen1 Anda.

Untuk informasi selengkapnya, lihat Mengelola Azure Data Lake Analytics menggunakan portal Azure.

Langkah 4: Siapkan akun Gen1

Nama file atau direktori hanya dengan spasi atau tab, diakhapi .dengan , yang berisi :, atau dengan beberapa garis miring maju berturut-turut (//) tidak kompatibel dengan Gen2. Anda perlu mengganti nama file atau direktori ini sebelum melakukan migrasi.

Untuk performa yang lebih baik, pertimbangkan untuk menunda migrasi setidaknya selama sepuluh hari sejak operasi penghapusan terakhir. Dalam akun Gen1, file yang dihapus menjadi file yang dihapus sementara , dan Pengumpul Sampah tidak akan menghapusnya secara permanen hingga tujuh hari dan akan memakan waktu beberapa hari tambahan untuk memproses pembersihan. Waktu yang diperlukan untuk pembersihan akan tergantung pada jumlah file. Semua file, termasuk file yang dihapus sementara, diproses selama migrasi. Jika Anda menunggu hingga Pengumpul Sampah menghapus file yang dihapus secara permanen, waktu tunggu Anda dapat meningkat.

Langkah 5: Lakukan migrasi

Sebelum Anda mulai, tinjau dua opsi migrasi di bawah, dan putuskan apakah hanya menyalin data dari Gen1 ke Gen2 (disarankan) atau melakukan migrasi lengkap.

Opsi 1: Salin data saja (disarankan). Dalam opsi ini, data disalin dari Gen1 ke Gen2. Saat data sedang disalin, akun Gen1 menjadi baca-saja. Setelah data disalin, akun Gen1 dan Gen2 akan dapat diakses. Namun, Anda harus memperbarui aplikasi dan menghitung beban kerja untuk menggunakan titik akhir Gen2 baru.

Opsi 2: Lakukan migrasi lengkap. Dalam opsi ini, data disalin dari Gen1 ke Gen2. Setelah data disalin, semua lalu lintas dari akun Gen1 akan dialihkan ke akun dengan dukungan Gen2. Permintaan yang dialihkan menggunakan lapisan kompatibilitas Gen1 untuk menerjemahkan panggilan API Gen1 ke setara Gen2. Selama migrasi, akun Gen1 menjadi baca-saja. Setelah migrasi selesai, akun Gen1 tidak akan dapat diakses.

Opsi mana pun yang Anda pilih, setelah Anda bermigrasi dan memverifikasi bahwa semua beban kerja Anda berfungsi seperti yang diharapkan, Anda dapat menghapus akun Gen1.

Opsi 1: Salin data dari Gen1 ke Gen2

  1. Masuk ke portal Azure untuk memulai.

  2. Temukan akun Data Lake Storage Gen1 Anda dan tampilkan gambaran umum akun.

  3. Pilih tombol Migrasikan data.

    Screenshot of the button to migrate.

  4. Pilih Salin data dari akun Gen2 baru.

    Screenshot of the copy data option.

  5. Berikan persetujuan Microsoft untuk melakukan migrasi data dengan memilih kotak centang. Kemudian, pilih tombol Terapkan .

    Screenshot of the checkbox to provide consent.

    Bilah kemajuan muncul bersama dengan pesan sub status. Anda dapat menggunakan indikator ini untuk mengukur kemajuan migrasi. Karena waktu untuk menyelesaikan setiap tugas bervariasi, bilah kemajuan tidak akan maju pada tingkat yang konsisten. Misalnya, bilah kemajuan mungkin dengan cepat maju ke 50 persen, tetapi kemudian membutuhkan sedikit lebih banyak waktu untuk menyelesaikan sisa 50 persen.

    Screenshot of progress bar when migrating data.

    Penting

    Saat data Anda sedang dimigrasikan, akun Gen1 Anda menjadi baca-saja, dan akun berkemampuan Gen2 Anda dinonaktifkan. Saat migrasi selesai, Anda dapat membaca dan menulis ke kedua akun.

    Anda dapat menghentikan migrasi kapan pun dengan memilih tombol Hentikan migrasi.

    Screenshot of the stop migration option.

Opsi 2: Lakukan migrasi lengkap

  1. Masuk ke portal Azure untuk memulai.

  2. Temukan akun Data Lake Storage Gen1 Anda dan tampilkan gambaran umum akun.

  3. Pilih tombol Migrasikan data.

    Screenshot of the migrate button.

  4. Pilih Selesaikan migrasi ke akun Gen2 baru.

    Screenshot of the complete migration option.

  5. Berikan persetujuan Microsoft untuk melakukan migrasi data dengan memilih kotak centang. Kemudian, pilih tombol Terapkan .

    Screenshot of the consent checkbox.

    Bilah kemajuan muncul bersama dengan pesan sub status. Anda dapat menggunakan indikator ini untuk mengukur kemajuan migrasi. Karena waktu untuk menyelesaikan setiap tugas bervariasi, bilah kemajuan tidak akan maju pada tingkat yang konsisten. Misalnya, bilah kemajuan mungkin dengan cepat maju ke 50 persen, tetapi kemudian membutuhkan sedikit lebih banyak waktu untuk menyelesaikan sisa 50 persen.

    Screenshot of progress bar when performing a complete migration.

    Penting

    Saat data Anda sedang dimigrasikan, akun Gen1 Anda menjadi baca-saja, dan akun berkemampuan Gen2 dinonaktifkan.

    Selain itu, saat URI Gen1 sedang dialihkan, kedua akun dinonaktifkan.

    Setelah migrasi selesai, akun Gen1 Anda akan dinonaktifkan. Data di akun Gen1 Anda tidak akan dapat diakses dan akan dihapus setelah 30 hari. Akun Gen2 Anda akan tersedia untuk dibaca dan ditulis.

    Anda dapat menghentikan migrasi kapan pun sebelum URI dialihkan dengan memilih tombol Hentikan migrasi.

    Screenshot of the migration stop button.

Langkah 6: Verifikasi bahwa migrasi selesai

Jika migrasi berhasil diselesaikan, maka kontainer bernama gen1 akan dibuat di akun berkemampuan Gen2, dan semua data dari akun Gen1 akan disalin ke kontainer gen1 baru ini. Untuk menemukan data pada jalur yang ada di Gen1, Anda harus menambahkan awalan gen1/ ke jalur yang sama untuk mengaksesnya di Gen2. Misalnya, jalur yang diberi nama 'FolderRoot/FolderChild/FileName.csv' pada Gen1 akan tersedia pada 'gen1/FolderRoot/FolderChild/FileName.csv' pada Gen2. Nama kontainer tidak dapat diubah di Gen2, sehingga kontainer gen1 pada Gen2 tidak dapat diubah namanya setelah migrasi. Namun, data bisa disalin ke kontainer baru di Gen2 jika diperlukan.

Jika migrasi tidak berhasil diselesaikan, muncul pesan yang menyatakan bahwa migrasi terhenti karena ketidakcocokan. Jika Anda ingin bantuan dengan langkah berikutnya, silakan hubungi Dukungan Microsoft. Pesan ini dapat muncul jika akun yang diaktifkan Gen2 sebelumnya digunakan atau saat file dan direktori di akun Gen1 menggunakan konvensi penamaan yang tidak kompatibel.

Sebelum menghubungi dukungan, pastikan Anda menggunakan akun penyimpanan baru yang baru dibuat yang tidak memiliki riwayat penggunaan. Hindari bermigrasi ke akun atau akun yang digunakan sebelumnya di mana kontainer telah dihapus untuk membuat akun kosong. Di akun Gen1 Anda, pastikan Anda mengganti nama file atau direktori apa pun yang hanya berisi spasi atau tab, diakhapi .dengan , berisi :, atau berisi beberapa garis miring ke depan (//).

Langkah 7: Memigrasikan beban kerja dan aplikasi

  1. Konfigurasikan layanan dalam beban kerja Anda untuk menunjuk ke titik akhir Gen2 Anda. Untuk tautan ke artikel yang membantu Anda mengonfigurasi Azure Databricks, HDInsight, dan layanan Azure lainnya untuk menggunakan Gen2, baca Layanan Azure yang mendukung Azure Data Lake Storage Gen2.

  2. Perbarui aplikasi untuk menggunakan API Gen2. Lihat panduan ini:

    Lingkungan Artikel
    Azure Storage Explorer Gunakan Azure Storage Explorer untuk mengelola direktori, file, dan ACL di Azure Data Lake Storage Gen2
    .NET Gunakan .NET untuk mengelola direktori dan file di Azure Data Lake Storage Gen2
    Java Gunakan Java untuk mengelola direktori dan file di Azure Data Lake Storage Gen2
    Python Gunakan Python untuk mengelola direktori dan file di Azure Data Lake Storage Gen2
    JavaScript (Node.js) Gunakan JavaScript SDK di Node.js untuk mengelola direktori dan file di Azure Data Lake Storage Gen2
    REST API REST API Azure Data Lake Store
  3. Perbarui skrip untuk menggunakan Data Lake Storage Gen2 PowerShell cmdlets, dan perintah Azure CLI.

  4. Cari referensi URI yang berisi untai adl:// dalam file kode, atau di buku catatan Databricks, file HQL Apache Hive atau file lain yang digunakan sebagai bagian dari beban kerja Anda. Ganti referensi ini dengan URI berformat Gen2 dari akun penyimpanan baru Anda. Misalnya: URI Gen1: adl://mydatalakestore.azuredatalakestore.net/mydirectory/myfile mungkin menjadi abfss://myfilesystem@mydatalakestore.dfs.core.windows.net/mydirectory/myfile.

Lapisan kompatibilitas Gen1

Lapisan ini berupaya menyediakan kompatibilitas aplikasi antara Gen1 dan Gen2 sebagai kemudahan selama migrasi, sehingga aplikasi dapat terus menggunakan API Gen1 untuk berinteraksi dengan data di akun yang mendukung Gen2. Lapisan ini memiliki fungsionalitas terbatas dan disarankan untuk memvalidasi beban kerja dengan akun pengujian jika Anda menggunakan pendekatan ini sebagai bagian dari migrasi. Lapisan kompatibilitas berjalan di server, jadi tidak ada yang perlu diinstal.

Penting

Microsoft tidak merekomendasikan kemampuan ini sebagai pengganti untuk memigrasikan beban kerja dan aplikasi Anda. Dukungan untuk lapisan kompatibilitas Gen1 akan berakhir saat Gen1 dihentikan pada tanggal 29 Februari 2024.

Untuk menghadapi jumlah masalah paling sedikit dengan lapisan kompatibilitas, pastikan SDK Gen1 Anda menggunakan versi berikut (atau lebih tinggi).

Bahasa Versi SDK
.NET 2.3.9
Java 1.1.21
Python 0.0.51

Fungsionalitas berikut tidak didukung di lapisan kompatibilitas.

  • Opsi API ListStatus ke ListBefore entri.

  • API ListStatus dengan lebih dari 4.000 file tanpa token penerus.

  • Chunk-encoding untuk operasi lampiran.

  • Setiap panggilan API yang menggunakan https://management.azure.com/ sebagai audiens token Microsoft Entra.

  • Nama file atau direktori hanya dengan spasi atau tab, diakhiri dengan ., berisi :, atau dengan beberapa garis miring ke depan berturut-turut (//).

Tanya jawab umum

Berapa lama migrasi akan berlangsung?

Data dan metadata dimigrasikan secara paralel. Total waktu yang diperlukan untuk menyelesaikan migrasi sama dengan mana pun dari dua proses ini yang terakhir selesai.

Tabel berikut ini memperlihatkan perkiraan kecepatan setiap tugas pemrosesan migrasi.

Catatan

Perkiraan waktu ini adalah perkiraan dan dapat bervariasi. Misalnya, menyalin sejumlah besar file kecil dapat memperlambat performa.

Tugas pemrosesan Kecepatan
Salinan data 9 TB per jam
Validasi Data 9 juta file atau folder per jam
Salinan metadata 4 juta file atau folder per jam
Pemrosesan metadata 25 juta file atau folder per jam
Pemrosesan metadata tambahan (opsi penyalinan data)1 50 juta file atau folder per jam

1 Waktu pemrosesan metadata tambahan hanya berlaku jika Anda memilih opsi Salin data ke akun Gen2 baru. Waktu pemrosesan ini tidak berlaku jika Anda memilih opsi Selesaikan migrasi ke akun gen2 baru.

Contoh: Memproses sejumlah besar data dan metadata

Contoh ini mengasumsikan 300 TB data dan 200 juta data dan item metadata.

Tugas Perkiraan waktu
Salin data 300 TB / 9 TB = 33,33 jam
Validasi data 200 juta / 9 juta = 22,22 jam
Total waktu migrasi data 33,33 + 22,2 = 55,55 jam
Menyalin metadata 200 juta / 4 juta = 50 jam
Pemrosesan metadata 200 juta / 25 juta = 8 jam
Pemrosesan metadata tambahan - hanya opsi penyalinan data 200 juta / 50 juta = 4 jam
Total waktu migrasi metadata 50 + 8 + 4 = 62 jam
Total waktu untuk melakukan migrasi khusus data 62 jam
Total waktu untuk melakukan migrasi lengkap 62 - 4 = 58 jam
Contoh: Memproses sejumlah kecil data dan metadata

Contoh ini mengasumsikan bahwa 2 TB data dan 56 ribu data dan item metadata.

Tugas Perkiraan waktu
Salin data (2 TB/9 TB) * 60 menit = 13,3 menit
Validasi data (56.000 / 9 juta) * 3.600 detik = 22,4 detik
Total waktu migrasi data 13,3 menit + 22,4 detik = sekitar 14 menit
Menyalin metadata (56.000 / 4 juta) * 3.600 detik = sekitar 51 detik
Pemrosesan metadata 56.000/ 25 juta = 8 detik
Pemrosesan metadata tambahan - hanya opsi penyalinan data (56.000 / 50 juta) * 3.600 detik = 4 detik
Total waktu migrasi metadata 51 + 8 + 4 = 63 detik
Total waktu untuk melakukan migrasi khusus data 14 menit
Total waktu untuk melakukan migrasi lengkap 14 menit - 4 detik = 13 menit dan 56 detik (sekitar 14 menit)

Berapa biaya migrasi data?

Tidak ada biaya untuk menggunakan alat migrasi berbasis portal, namun Anda akan ditagih untuk penggunaan layanan Azure Data Lake Gen1 dan Gen2. Selama migrasi data, Anda akan ditagih untuk penyimpanan data dan transaksi akun Gen1.

Pasca migrasi, jika Anda memilih opsi yang hanya menyalin data, maka Anda akan ditagih untuk penyimpanan data dan transaksi untuk akun Azure Data Lake Gen1 dan Gen2. Untuk menghindari tagihan akun Gen1, hapus akun Gen1 setelah Anda memperbarui aplikasi agar ditagih ke Gen2. Jika Anda memilih untuk melakukan migrasi lengkap, Anda hanya akan ditagih untuk penyimpanan data dan transaksi akun berkemampuan Gen2.

Pastikan semua akun Azure Data lake Analytics Anda dimigrasikan ke Azure Synapse Analytics atau platform komputasi lain yang didukung. Setelah akun Azure Data Lake Analytics dimigrasikan, coba lagi persetujuannya. Jika Anda melihat masalah lebih jauh dan Anda memiliki rencana dukungan, Anda dapat mengajukan permintaan dukungan. Anda juga bisa mendapatkan jawaban dari pakar komunitas di Microsoft Q&A.

Setelah migrasi selesai, apakah saya dapat kembali menggunakan akun Gen1?

Jika Anda menggunakan Opsi 1: Salin data dari Gen1 ke Gen2 yang disebutkan di atas, akun Gen1 dan Gen2 tersedia untuk dibaca dan ditulis pascamigrasi. Namun, jika menggunakan Opsi 2: Lakukan migrasi lengkap, Anda tidak dapat kembali ke akun Gen1. Di Opsi 2, setelah migrasi selesai, data di akun Gen1 Anda tidak akan dapat diakses dan akan dihapus setelah 30 hari. Anda dapat terus melihat akun Gen1 di portal Azure, dan ketika Anda siap, Anda dapat menghapus akun Gen1.

Saya ingin mengaktifkan penyimpanan Geo-redundan (GRS) pada akun yang diaktifkan Gen2. Bagaimana saya melakukan itu?

Setelah migrasi selesai, baik dalam opsi "Salin data" dan "Migrasi lengkap", Anda dapat melanjutkan dan mengubah opsi redundansi ke GRS selama Anda tidak berencana untuk menggunakan lapisan kompatibilitas aplikasi. Kompatibilitas aplikasi tidak akan berfungsi pada akun yang menggunakan redundansi GRS.

Gen1 tidak memiliki kontainer dan Gen2 memilikinya – apa yang dapat saya harapkan?

Saat menyalin data ke akun yang didukung Gen2 Anda, kami otomatis membuat kontainer bernama 'Gen1'. Dalam nama kontainer Gen2 tidak dapat diganti namanya dan karenanya data pascamigrasi dapat disalin ke kontainer baru di Gen2 sesuai kebutuhan.

Apa yang harus saya pertimbangkan dalam hal performa migrasi?

Saat Anda menyalin data ke akun berkemampuan Gen2, dua faktor yang bisa mempengaruhi kinerja adalah jumlah file dan jumlah metadata yang Anda miliki. Misalnya, banyak file kecil dapat memengaruhi performa migrasi.

Apakah API Sistem File WebHDFS akan didukung pada akun Gen2 pascamigrasi?

API Sistem File WebHDFS Gen1 akan didukung pada Gen2 tetapi dengan penyimpangan tertentu, dan hanya fungsionalitas terbatas yang didukung melalui lapisan kompatibilitas. Pelanggan harus berencana untuk memanfaatkan API khusus Gen2 untuk performa dan fitur yang lebih baik.

Apa yang terjadi pada akun Gen1 saya setelah tanggal pensiun?

Akun menjadi tidak dapat diakses. Anda tidak akan dapat:

  • Mengelola akun

  • Mengakses data di akun

  • Menerima pembaruan layanan untuk API Gen1 atau Gen1, SDK, atau alat klien

  • Mengakses dukungan pelanggan Gen1 secara online, melalui telepon atau melalui email

Lihat Tindakan yang diperlukan: Beralih ke Azure Data Lake Storage Gen2 paling lambat 29 Februari 2024.

Langkah berikutnya