Bagikan melalui


Gunakan utilitas UCX untuk meningkatkan ruang kerja Anda ke Katalog Unity

Artikel ini memperkenalkan UCX, proyek Databricks Labs yang menyediakan alat untuk membantu Anda meningkatkan ruang kerja non-Unity-Catalog ke Unity Catalog.

Catatan

UCX, seperti semua proyek di akun GitHub databrickslabs, disediakan hanya untuk eksplorasi Anda, dan tidak didukung secara resmi oleh Databricks dengan perjanjian tingkat layanan (SLA). Ini disediakan apa adanya. Kami tidak membuat jaminan apapun. Jangan mengirimkan tiket dukungan Databricks yang berkaitan dengan masalah yang muncul dari penggunaan proyek ini. Sebagai gantinya, ajukan masalah GitHub. Masalah akan ditinjau sebagai izin waktu, tetapi tidak ada SLA formal untuk dukungan.

Proyek UCX menyediakan alat dan alur kerja migrasi berikut:

  1. Alur kerja penilaian untuk membantu Anda merencanakan migrasi.
  2. Alur kerja migrasi grup untuk membantu Anda meningkatkan keanggotaan grup dari ruang kerja Ke akun Databricks Anda dan memigrasikan izin ke grup tingkat akun baru.
  3. Migrasi tabel worfklow untuk membantu Anda meningkatkan tabel yang terdaftar di metastore Apache Hive ruang kerja Anda ke metastore Katalog Unity. Alur kerja ini juga membantu Anda memigrasikan lokasi penyimpanan dan kredensial yang diperlukan untuk mengaksesnya.

Diagram ini menunjukkan alur migrasi keseluruhan, mengidentifikasi alur kerja migrasi dan utilitas berdasarkan nama:

Bagan alur kerja migrasi UCX

Catatan

Alur kerja migrasi kode yang digambarkan dalam diagram tetap dalam pengembangan dan belum tersedia.

Sebelum Anda mulai

Sebelum Anda dapat menginstal UCX dan menjalankan alur kerja UCX, lingkungan Anda harus memenuhi persyaratan berikut.

Paket yang diinstal pada komputer tempat Anda menjalankan UCX:

  • Databricks CLI v0.213 atau lebih tinggi. Lihat Menginstal atau memperbarui Databricks CLI.

    Anda harus memiliki file konfigurasi Databricks dengan profil konfigurasi untuk ruang kerja dan akun Databricks.

  • Python 3.10 atau lebih tinggi.

  • Jika Anda ingin menjalankan alur kerja UCX yang mengidentifikasi lokasi penyimpanan yang digunakan oleh tabel Apache Hive di ruang kerja Anda (disarankan, tetapi tidak diperlukan), Anda harus menginstal CLI untuk penyedia penyimpanan cloud (Azure CLI atau AWS CLI) di komputer tempat Anda menjalankan alur kerja UCX.

Akses jaringan:

  • Akses jaringan dari komputer yang menjalankan penginstalan UCX ke ruang kerja Azure Databricks yang Anda migrasikan.
  • Akses jaringan ke internet dari komputer yang menjalankan penginstalan UCX. Ini diperlukan untuk akses ke pypi.org dan github.com.
  • Akses jaringan dari ruang kerja Azure Databricks Anda ke pypi.org untuk mengunduh databricks-sdk paket dan pyyaml .

Peran dan izin Databricks:

  • Admin akun Azure Databricks dan peran admin ruang kerja untuk pengguna yang menjalankan penginstalan UCX. Anda tidak dapat menjalankan penginstalan sebagai perwakilan layanan.

Prasyarat Databricks lainnya:

  • Metastore Unity Catalog dibuat untuk setiap wilayah yang menghosting ruang kerja yang ingin Anda tingkatkan, dengan masing-masing ruang kerja Azure Databricks yang dilampirkan ke metastore Unity Catalog.

    Untuk mempelajari cara menentukan apakah Anda sudah memiliki metastore Unity Catalog di wilayah ruang kerja yang relevan, cara membuat metastore jika tidak, dan cara melampirkan metastore Katalog Unity ke ruang kerja, lihat Langkah 1: Konfirmasikan bahwa ruang kerja Anda diaktifkan untuk Katalog Unity di artikel penyiapan Katalog Unity. Sebagai alternatif, UCX menyediakan utilitas untuk menetapkan metastorEs Unity Catalog ke ruang kerja yang dapat Anda gunakan setelah UCX diinstal.

    Melampirkan metastore Unity Catalog ke ruang kerja juga memungkinkan federasi identitas, di mana Anda memusatkan manajemen pengguna di tingkat akun Azure Databricks, yang juga merupakan prasyarat untuk menggunakan UCX. Lihat Mengaktifkan federasi identitas.

  • Jika ruang kerja Anda menggunakan metastore Apache Hive eksternal (seperti AWS Glue) alih-alih metastore Apache Hive lokal ruang kerja default, Anda harus melakukan beberapa penyiapan prasyarat. Lihat Integrasi Metastore Apache Hive Eksternal di repositori databrickslabs/ucx.

  • Gudang SQL Pro atau Tanpa Server yang berjalan di ruang kerja tempat Anda menjalankan alur kerja UCX, diperlukan untuk merender laporan yang dihasilkan oleh alur kerja penilaian.

Menginstal UCX

Untuk menginstal UCX, gunakan Databricks CLI:

databricks labs install ucx

Anda diminta untuk memilih hal berikut:

  1. Profil konfigurasi Databricks untuk ruang kerja yang ingin Anda tingkatkan. File konfigurasi juga harus menyertakan profil konfigurasi untuk akun Databricks induk ruang kerja.

  2. Nama untuk database inventori yang akan digunakan untuk menyimpan output alur kerja migrasi. Biasanya tidak masalah untuk memilih default, yaitu ucx.

  3. Gudang SQL untuk menjalankan proses penginstalan.

  4. Daftar grup ruang kerja-lokal yang ingin Anda migrasikan ke grup tingkat akun. Jika Anda membiarkan ini sebagai default (<ALL>), grup tingkat akun yang sudah ada yang namanya cocok dengan grup ruang kerja-lokal akan diperlakukan sebagai pengganti untuk grup ruang kerja-lokal tersebut dan akan mewarisi semua izin ruang kerjanya saat Anda menjalankan alur kerja migrasi grup setelah penginstalan.

    Anda memiliki kesempatan untuk memodifikasi pemetaan grup-grup-ke-akun-ruang kerja setelah Anda menjalankan alat penginstal dan sebelum Anda menjalankan migrasi grup. Lihat Resolusi Konflik Nama Grup di repositori UCX.

  5. Jika Anda memiliki metastore Apache Hive eksternal, seperti AWS Glue, Anda memiliki opsi untuk menyambungkannya atau tidak. Lihat Integrasi Metastore Apache Hive Eksternal di repositori databrickslabs/ucx.

  6. Apakah akan membuka buku catatan README yang dihasilkan.

Setelah penginstalan selesai, ia menyebarkan buku catatan README, dasbor, database, pustaka, pekerjaan, dan aset lainnya di ruang kerja Anda.

Untuk informasi selengkapnya, lihat instruksi penginstalan dalam readme proyek. Anda juga dapat menginstal UCX di semua ruang kerja di akun Databricks Anda.

Buka buku catatan README

Setiap penginstalan membuat buku catatan README yang menyediakan deskripsi terperinci tentang semua alur kerja dan tugas, dengan tautan cepat ke alur kerja dan dasbor. Lihat Buku catatan Readme.

Langkah 1. Menjalankan alur kerja penilaian

Alur kerja penilaian menilai kompatibilitas Katalog Unity dari identitas grup, lokasi penyimpanan, kredensial penyimpanan, kontrol akses, dan tabel di ruang kerja saat ini dan menyediakan informasi yang diperlukan untuk merencanakan migrasi ke Katalog Unity. Tugas dalam alur kerja penilaian dapat dijalankan secara paralel atau berurutan, tergantung pada dependensi yang ditentukan. Setelah alur kerja penilaian selesai, dasbor penilaian diisi dengan temuan dan rekomendasi umum.

Output dari setiap tugas alur kerja disimpan dalam tabel Delta dalam $inventory_database skema yang Anda tentukan selama penginstalan. Anda dapat menggunakan tabel ini untuk melakukan analisis dan pengambilan keputusan lebih lanjut menggunakan laporan penilaian. Anda dapat menjalankan alur kerja penilaian beberapa kali untuk memastikan bahwa semua entitas yang tidak kompatibel diidentifikasi dan diperhitungkan sebelum Anda memulai proses migrasi.

Anda dapat memicu alur kerja penilaian dari notebook README yang dihasilkan UCX dan UI Azure Databricks (Penilaian Pekerjaan > Alur > Kerja [UCX]), atau menjalankan perintah Databricks CLI berikut:

databricks labs ucx ensure-assessment-run

Untuk instruksi mendetail, lihat Alur kerja penilaian.

Langkah 2. Menjalankan alur kerja migrasi grup

Alur kerja migrasi grup meningkatkan grup ruang kerja-lokal ke grup tingkat akun untuk mendukung Katalog Unity. Ini memastikan bahwa grup tingkat akun yang sesuai tersedia di ruang kerja dan mereplikasi semua izin. Ini juga menghapus grup dan izin yang tidak perlu dari ruang kerja. Tugas dalam alur kerja migrasi grup bergantung pada output alur kerja penilaian.

Output dari setiap tugas alur kerja disimpan dalam tabel Delta dalam $inventory_database skema yang Anda tentukan selama penginstalan. Anda dapat menggunakan tabel ini untuk melakukan analisis dan pengambilan keputusan lebih lanjut. Anda dapat menjalankan alur kerja migrasi grup beberapa kali untuk memastikan bahwa semua grup berhasil dimutakhirkan dan bahwa semua izin yang diperlukan ditetapkan.

Untuk informasi tentang menjalankan alur kerja migrasi grup, lihat buku catatan README yang dihasilkan UCX dan Alur kerja migrasi grup di readme UCX.

Langkah 3. Menjalankan alur kerja migrasi tabel

Alur kerja migrasi tabel meningkatkan tabel dari metastore Apache Hive ke metastore Katalog Unity. Tabel eksternal di metastore Apache Hive ditingkatkan sebagai tabel eksternal di Katalog Unity, menggunakan SYNC. Tabel terkelola di metastore Apache Hive yang disimpan dalam penyimpanan ruang kerja (juga dikenal sebagai akar DBFS) ditingkatkan sebagai tabel terkelola di Katalog Unity, menggunakan KLON MENDALAM.

Tabel terkelola Apache Hive harus dalam format Delta atau Parquet untuk dimutakhirkan. Tabel Apache Hive eksternal harus dalam salah satu format data yang tercantum dalam tabel Eksternal.

Jalankan perintah persiapan

Migrasi tabel menyertakan sejumlah tugas persiapan yang Anda jalankan sebelum Menjalankan alur kerja migrasi tabel. Anda melakukan tugas-tugas ini menggunakan perintah Databricks CLI berikut:

  • Perintah create-table-mapping , yang membuat file CSV yang memetakan katalog, skema, dan tabel Katalog Unity target ke setiap tabel Apache Hive yang akan ditingkatkan. Anda harus meninjau dan memperbarui file pemetaan sebelum melanjutkan dengan alur kerja migrasi.
  • Perintah create-uber-principal , yang membuat perwakilan layanan dengan akses baca-saja ke semua penyimpanan yang digunakan oleh tabel di ruang kerja ini. Sumber daya komputasi pekerjaan alur kerja menggunakan prinsipal ini untuk meningkatkan tabel di ruang kerja. Deprovisi perwakilan layanan ini ketika Anda selesai dengan peningkatan Anda.
  • (Opsional) Perintah principal-prefix-access , yang mengidentifikasi akun penyimpanan dan kredensial akses penyimpanan yang digunakan oleh tabel Apache Hive di ruang kerja.
  • (Opsional) Perintah migrate-credentials , yang membuat kredensial penyimpanan Katalog Unity dari kredensial akses penyimpanan yang diidentifikasi oleh principal-prefix-access.
  • (Opsional) Perintah migration locations , yang membuat lokasi eksternal Katalog Unity dari lokasi penyimpanan yang diidentifikasi oleh alur kerja penilaian, menggunakan kredensial penyimpanan yang dibuat oleh migrate-credentials.
  • (Opsional) Perintah create-catalogs-schemas, yang membuat katalog dan skema Katalog Unity yang akan menyimpan tabel yang ditingkatkan.

Untuk detailnya, termasuk perintah dan opsi alur kerja migrasi tabel tambahan, lihat Perintah migrasi tabel dalam readme UCX.

Menjalankan migrasi tabel

Setelah menjalankan tugas persiapan, Anda bisa menjalankan alur kerja migrasi tabel dari buku catatan README yang dihasilkan UCX atau dari Pekerjaan Alur > Kerja di UI ruang kerja.

Output dari setiap tugas alur kerja disimpan dalam tabel Delta dalam $inventory_database skema yang Anda tentukan selama penginstalan. Anda dapat menggunakan tabel ini untuk melakukan analisis dan pengambilan keputusan lebih lanjut. Anda mungkin perlu menjalankan alur kerja migrasi tabel beberapa kali untuk memastikan bahwa semua tabel berhasil dimutakhirkan.

Untuk instruksi migrasi tabel lengkap, lihat buku catatan README yang dihasilkan UCX dan Alur Kerja Migrasi Tabel di readme UCX.

Alat tambahan

UCX juga mencakup alat penelusuran kesalahan dan utilitas lainnya untuk membantu Anda berhasil dengan migrasi Anda. Untuk informasi selengkapnya, lihat notebook README yang dihasilkan UCX dan readme proyek UCX Anda.

Tingkatkan penginstalan UCX Anda

Proyek UCX diperbarui secara berkala. Untuk meningkatkan penginstalan UCX Anda ke versi terbaru:

  1. Verifikasi bahwa UCX telah diinstal.

    databricks labs installed
    
    Name  Description                            Version
    ucx   Unity Catalog Migration Toolkit (UCX)  0.20.0
    
  2. Jalankan peningkatan:

    databricks labs upgrade ucx
    

Dapatkan bantuan

Untuk bantuan terkait UCX CLI, jalankan:

databricks labs ucx --help

Untuk bantuan terkait perintah UCX tertentu, jalankan:

databricks labs ucx <command> --help

Untuk memecahkan masalah:

Untuk mengajukan masalah atau permintaan fitur, ajukan masalah GitHub.

Catatan rilis UCX

Lihat changelog di repositori UCX GitHub.