Onboard data dari Azure Data Lake Storage Gen2

Artikel ini menjelaskan cara onboarding data ke ruang kerja Azure Databricks baru dari Azure Data Lake Storage Gen2. Anda akan mempelajari cara mengakses data sumber dengan aman di lokasi penyimpanan objek cloud yang sesuai dengan volume Katalog Unity (disarankan) atau lokasi eksternal Katalog Unity. Kemudian, Anda akan mempelajari cara menyerap data secara bertahap ke dalam tabel terkelola Katalog Unity menggunakan Auto Loader dengan Tabel Langsung Delta.

Catatan

Untuk onboard data di Databricks SQL alih-alih di notebook, lihat Memuat data menggunakan tabel streaming di Databricks SQL.

Sebelum Anda mulai

Jika Anda bukan admin, artikel ini mengasumsikan bahwa admin telah memberi Anda hal berikut:

  • Akses ke ruang kerja Azure Databricks dengan Unity Catalog diaktifkan. Untuk informasi selengkapnya, lihat Menyiapkan dan mengelola Katalog Unity.

  • Izin READ FILES pada volume eksternal Katalog Unity atau lokasi eksternal Katalog Unity yang sesuai dengan lokasi penyimpanan cloud yang berisi data sumber Anda. Untuk informasi selengkapnya, lihat Membuat lokasi eksternal untuk menyambungkan penyimpanan cloud ke Azure Databricks.

  • Jalur ke data sumber Anda.

    Contoh jalur volume: /Volumes/<catalog>/<schema>/<volume>/<path>/<folder>

    Contoh jalur lokasi eksternal: abfss://<container>@<storage-account>.dfs.core.windows.net/<folder>

  • Hak USE SCHEMA istimewa dan CREATE TABLE pada skema yang ingin Anda muat datanya.

  • Izin pembuatan kluster atau akses ke kebijakan kluster yang menentukan kluster alur Delta Live Tables (cluster_type bidang diatur ke dlt).

    Jika jalur ke data sumber Anda adalah jalur volume, kluster Anda harus menjalankan Databricks Runtime 13.3 LTS atau lebih tinggi.

Penting

Jika Anda memiliki pertanyaan tentang prasyarat ini, hubungi admin akun Anda.

Langkah 1: Membuat kluster

Untuk membuat kluster, lakukan hal berikut:

  1. Masuk ke ruang kerja Azure Databricks Anda.
  2. Di bar samping, klik Kluster Baru>.
  3. Di antarmuka pengguna kluster, tentukan nama unik untuk kluster Anda.
  4. Jika jalur ke data sumber Anda adalah jalur volume, untuk versi runtime Databricks Runtime, pilih 13.2 atau lebih tinggi.
  5. Klik Buat kluster.

Langkah 2: Membuat buku catatan eksplorasi data

Bagian ini menjelaskan cara membuat buku catatan eksplorasi data sehingga Anda bisa memahami data Anda sebelum membuat alur data.

  1. Di bilah samping, klik +Buku Catatan Baru>.

    Notebook secara otomatis dilampirkan ke kluster terakhir yang Anda gunakan (dalam hal ini, kluster yang Anda buat di Langkah 1: Buat kluster).

  2. Masukkan nama untuk buku catatan.

  3. Klik tombol bahasa, lalu pilih Python atau SQL dari menu dropdown. Python dipilih secara default.

  4. Untuk mengonfirmasi akses data ke data sumber Anda di ADLS Gen2, tempelkan kode berikut ke dalam sel buku catatan, klik Menu Jalankan, lalu klik Jalankan Sel.

    SQL

    LIST '<path-to-source-data>'
    

    Python

    %fs ls '<path-to-source-data>'
    

    Ganti <path-to-source-data> dengan jalur ke direktori yang berisi data Anda.

    Ini menampilkan konten direktori yang berisi himpunan data.

  5. Untuk menampilkan sampel rekaman agar lebih memahami konten dan format setiap rekaman, tempelkan yang berikut ini ke dalam sel buku catatan, klik Menu Jalankan, lalu klik Jalankan Sel.

    SQL

    SELECT * from read_files('<path-to-source-data>', format => '<file-format>') LIMIT 10
    

    Python

    spark.read.format('<file-format>').load('<path-to-source-data>').limit(10).display()
    

    Ganti nilai berikut:

    • <file-format>: Format file yang didukung. Lihat Opsi format file.
    • <path to source data>: Jalur ke file di direktori yang berisi data Anda.

    Ini menampilkan sepuluh rekaman pertama dari file yang ditentukan.

Langkah 3: Menyerap data mentah

Untuk menyerap data mentah, lakukan hal berikut:

  1. Di bilah samping, klik Buku Catatan Baru>.

    Notebook secara otomatis dilampirkan ke kluster terakhir yang Anda gunakan (dalam hal ini, kluster yang Anda buat sebelumnya dalam artikel ini).

  2. Masukkan nama untuk buku catatan.

  3. Klik tombol bahasa, lalu pilih Python atau SQL dari menu dropdown. Python dipilih secara default.

  4. Tempelkan kode berikut ke dalam sel buku catatan:

    SQL

    CREATE OR REFRESH STREAMING TABLE
      <table-name>
    AS SELECT
      *
    FROM
      STREAM read_files(
        '<path-to-source-data>',
        format => '<file-format>'
      )
    

    Python

    @dlt.table(table_properties={'quality': 'bronze'})
    def <table-name>():
      return (
         spark.readStream.format('cloudFiles')
         .option('cloudFiles.format', '<file-format>')
         .load(f'{<path-to-source-data>}')
     )
    

    Ganti nilai berikut:

    • <table-name>: Nama untuk tabel yang akan berisi rekaman yang diserap.
    • <path-to-source-data>: Jalur ke data sumber Anda.
    • <file-format>: Format file yang didukung. Lihat Opsi format file.

Catatan

Tabel Langsung Delta tidak dirancang untuk berjalan secara interaktif di sel buku catatan. Menjalankan sel yang berisi sintaks Tabel Langsung Delta dalam buku catatan mengembalikan pesan tentang apakah kueri valid secara sindikat, tetapi tidak menjalankan logika kueri. Langkah berikut menjelaskan cara membuat alur dari buku catatan penyerapan yang baru saja Anda buat.

Langkah 4: Membuat dan menerbitkan alur

Untuk membuat alur dan menerbitkannya ke Unity Catalog, lakukan hal berikut:

  1. Di bilah samping, klik Alur Kerja, klik tab Tabel Langsung Delta, lalu klik Buat alur.
  2. Masukkan nama untuk alur Anda.
  3. Untuk Mode alur, pilih Dipicu.
  4. Untuk Kode sumber, pilih buku catatan yang berisi kode sumber alur Anda.
  5. Untuk Tujuan, pilih Katalog Unity.
  6. Untuk memastikan bahwa tabel Anda dikelola oleh Katalog Unity dan setiap pengguna dengan akses ke skema induk dapat mengkuerinya, pilih Katalog dan skema Target dari daftar drop-down.
  7. Jika Anda tidak memiliki izin pembuatan kluster, pilih kebijakan Kluster yang mendukung Tabel Langsung Delta dari daftar drop-down.
  8. Untuk Tingkat Lanjut, atur Saluran ke Pratinjau.
  9. Terima semua nilai default lainnya dan klik Buat.

Langkah 5: Jadwalkan alur

Untuk menjadwalkan alur, lakukan hal berikut:

  1. Di bar samping, klik Tabel Langsung Delta.
  2. Klik nama alur yang ingin Anda jadwalkan.
  3. Klik Jadwalkan>Tambahkan jadwal.
  4. Untuk Nama pekerjaan, masukkan nama untuk pekerjaan tersebut.
  5. Atur Jadwal ke Dijadwalkan.
  6. Tentukan periode, waktu mulai, dan zona waktu.
  7. Konfigurasikan satu atau beberapa alamat email untuk menerima peringatan tentang mulai, keberhasilan, atau kegagalan alur.
  8. Klik Buat.

Langkah berikutnya