Bagikan melalui


Mengembangkan dan men-debug alur ETL dengan Editor Alur Lakeflow

Penting

Fitur ini ada di Pratinjau Umum.

Artikel ini menjelaskan penggunaan Editor Alur Lakeflow untuk mengembangkan dan men-debug alur ETL (ekstrak, transformasi, dan muat) di Lakeflow Spark Declarative Pipelines (SDP).

Nota

Editor Alur Lakeflow diaktifkan secara default. Anda dapat menonaktifkannya, atau mengaktifkannya kembali jika telah dimatikan. Lihat Mengaktifkan Editor Alur Lakeflow dan pemantauan yang diperbarui.

Apa itu Pengedit Jalur Lakeflow?

Editor Lakeflow Pipelines adalah IDE yang dibangun untuk mengembangkan pipelines. Ini menggabungkan semua tugas pengembangan alur pada satu permukaan, mendukung alur kerja code-first, organisasi kode berbasis folder, eksekusi selektif, pratinjau data, dan grafik alur. Terintegrasi dengan platform Azure Databricks, platform ini juga memungkinkan kontrol versi, tinjauan kode, dan eksekusi terjadwal.

Ikhtisar Antarmuka Editor Pipeline Lakeflow

Gambar berikut menunjukkan Editor Alur Lakeflow:

Editor Pipelines Lakeflow

Gambar menunjukkan fitur-fitur berikut:

  1. Browser aset alur: Membuat, menghapus, mengganti nama, dan mengatur aset alur. Juga termasuk pintasan ke konfigurasi alur.
  2. Editor kode multi-file dengan tab: Bekerja di beberapa file kode yang terkait dengan alur.
  3. Toolbar khusus alur: Menyertakan opsi konfigurasi alur dan memiliki tindakan eksekusi tingkat alur.
  4. Grafik siklus interaktif yang diarahkan (DAG): Dapatkan gambaran umum tabel Anda, buka bilah bawah pratinjau data, dan lakukan tindakan terkait tabel lainnya.
  5. Pratinjau data: Periksa data tabel streaming anda dan tampilan materialisasi.
  6. Wawasan tingkat eksekusi tabel: Dapatkan wawasan eksekusi untuk semua tabel atau satu tabel dalam pipeline. Wawasan merujuk pada proses pipeline terbaru.
  7. Panel masalah: Fitur ini meringkas kesalahan di semua file dalam alur, dan Anda dapat menavigasi ke tempat kesalahan terjadi di dalam file tertentu. Ini melengkapi indikator kesalahan yang di-afiks kode.
  8. Eksekusi selektif: Editor kode memiliki fitur untuk pengembangan langkah demi langkah, seperti kemampuan untuk me-refresh tabel hanya dalam file saat ini menggunakan tindakan Jalankan file atau satu tabel.
  9. Struktur folder alur default: Alur baru menyertakan struktur folder yang telah ditentukan sebelumnya dan kode sampel yang dapat Anda gunakan sebagai titik awal untuk alur Anda.
  10. Pembuatan alur yang disederhanakan: Berikan nama, katalog, dan skema tempat tabel harus dibuat secara default, dan alur dibuat menggunakan pengaturan default. Anda nantinya dapat menyesuaikan Pengaturan dari toolbar editor alur.

Membuat alur ETL baru

Untuk membuat alur ETL baru menggunakan Editor Alur Lakeflow, ikuti langkah-langkah berikut:

  1. Di bagian atas bar samping, klik ikon Plus.Baru lalu pilih ikon Alur.Alur ETL.

  2. Di bagian atas, Anda dapat memberi nama yang unik pada alur Anda.

  3. Tepat di bawah namanya, Anda dapat melihat katalog dan skema default yang telah dipilih untuk Anda. Ubah ini untuk menetapkan default yang berbeda pada rangkaian kerja Anda.

    Katalog bawaan dan skema bawaan adalah tempat himpunan data dibaca atau ditulis ketika Anda tidak menentukan himpunan data dengan katalog atau skema dalam kode Anda. Lihat Objek database di Azure Databricks untuk informasi selengkapnya.

  4. Pilih opsi pilihan Anda untuk membuat alur, dengan memilih salah satu opsi berikut:

    • Mulailah dengan kode sampel di SQL untuk membuat alur dan struktur folder baru, termasuk kode sampel di SQL.
    • Mulailah dengan kode sampel di Python untuk membuat alur dan struktur folder baru, termasuk kode sampel di Python.
    • Mulailah dengan satu transformasi untuk membuat alur dan struktur folder baru, dengan file kode kosong baru.
    • Tambahkan aset yang ada untuk membuat alur yang dapat Anda kaitkan dengan file kode exisitng di ruang kerja Anda.

    Anda dapat memiliki file kode sumber SQL dan Python di alur ETL Anda. Saat membuat alur baru dan memilih bahasa untuk kode sampel, bahasa hanya untuk kode sampel yang disertakan dalam alur Anda secara default.

  5. Saat Anda membuat pilihan, Anda dialihkan ke alur yang baru dibuat.

    Alur ETL dibuat dengan pengaturan default berikut:

    Anda dapat menyesuaikan pengaturan ini dari toolbar alur.

Atau, Anda dapat membuat alur ETL dari browser ruang kerja:

  1. Klik Ruang Kerja di panel sisi kiri.
  2. Pilih folder apa pun, termasuk folder Git.
  3. Klik Buat di sudut kanan atas, dan klik alur ETL.

Anda juga dapat membuat alur ETL dari halaman tugas dan alur:

  1. Di ruang kerja Anda, klik ikon Alur Kerja.Pekerjaan & Alur Kerja di bar samping.
  2. Di bawah Baru, klik Alur ETL.

Buka alur ETL yang ada

Ada beberapa cara untuk membuka alur ETL yang ada di Editor Alur Lakeflow:

  • Buka file sumber apa pun yang terkait dengan alur:

    1. Klik Ruang Kerja di panel samping.
    2. Navigasi ke folder dengan file kode sumber untuk alur Anda.
    3. Klik file kode sumber untuk membuka alur di editor.
  • Buka alur yang baru diedit:

    • Dari editor, Anda dapat menavigasi ke alur lain yang baru saja Anda edit dengan mengklik nama alur di bagian atas browser aset dan memilih alur lain dari daftar terbaru yang muncul.
    • Dari luar editor, dari halaman Terbaru di bilah sisi kiri, buka alur atau file yang dikonfigurasi sebagai kode sumber untuk alur.
  • Saat melihat alur di seluruh produk, Anda dapat memilih untuk mengedit alur:

    • Di halaman pemantauan alur, klik ikon Pensil.Edit alur.
    • Pada halaman Eksekusi Pekerjaan di bilah sisi kiri, klik tab Pekerjaan & alur dan klik ikon menu Kebab dan klik Edit alur.
    • Saat mengedit pekerjaan dan menambahkan tugas ke alur, Anda bisa mengklik tombol ikon buka di tab baru saat memilih alur di bawah Alur.
  • Jika Anda menelusuri Semua file di browser aset, dan membuka file kode sumber dari alur lain, banner ditampilkan di bagian atas editor, meminta Anda untuk membuka alur terkait tersebut.

Browser aset alur

Saat Anda mengedit pipeline, bilah samping ruang kerja kiri menggunakan mode khusus yang disebut browser aset pipeline. Secara default, browser aset pipeline berfokus pada root pipeline, serta folder dan file di dalam root tersebut. Anda juga dapat memilih untuk melihat Semua file untuk melihat file di luar akar alur. Tab yang dibuka di editor pipeline saat mengedit pipeline tertentu akan diingat, dan ketika Anda beralih ke pipeline lain, tab yang terbuka saat terakhir kali Anda mengedit pipeline tersebut akan dipulihkan.

Nota

Editor juga memiliki konteks untuk mengedit file SQL (disebut Editor SQL Databricks) dan konteks umum untuk mengedit file ruang kerja yang bukan file SQL atau file alur. Masing-masing konteks ini mengingat dan memulihkan tab yang telah Anda buka terakhir kali Anda menggunakan konteks tersebut. Anda dapat mengalihkan konteks dari bagian atas bilah sisi kiri. Klik header untuk memilih antara Ruang Kerja, Editor SQL, atau alur yang baru saja diedit.

Mengalihkan konteks editor

Saat Anda membuka file dari halaman browser Ruang Kerja, file akan terbuka di editor terkait untuk file tersebut. Jika file dikaitkan dengan alur, itu adalah Editor Alur Lakeflow.

Untuk membuka file yang bukan bagian dari alur, tetapi pertahankan konteks alur, buka file dari tab Semua file browser aset.

Penjelajah aset pipeline memiliki dua tab:

  • Alur: Di sinilah Anda dapat menemukan semua file yang terkait dengan alur. Anda dapat membuat, menghapus, mengganti nama, dan mengaturnya ke dalam folder. Tab ini juga mencakup pintasan untuk konfigurasi alur, dan tampilan grafis dari eksekusi terbaru.
  • Semua file: Semua aset ruang kerja lainnya tersedia di sini. Ini dapat berguna untuk menemukan file yang akan ditambahkan ke saluran, atau melihat file lain yang terkait dengan saluran, seperti file YAML yang menentukan Databricks Asset Bundles.

Browser aset jalur kerja

Anda dapat memiliki jenis file berikut di alur Anda:

  • File kode sumber: File-file ini adalah bagian dari definisi kode sumber alur, yang dapat dilihat di Pengaturan. Databricks merekomendasikan untuk selalu menyimpan file kode sumber di dalam folder akar alur; jika tidak, mereka ditampilkan di bagian file eksternal di bagian bawah browser dan memiliki set fitur yang kurang kaya.
  • File kode non-sumber: File-file ini disimpan di dalam folder akar alur tetapi bukan bagian dari definisi kode sumber alur.

Penting

Anda harus menggunakan browser aset alur di bawah tab Alur untuk mengelola file dan folder untuk alur Anda. Ini memperbarui pengaturan alur dengan benar. Memindahkan atau mengganti nama file dan folder dari browser ruang kerja Anda atau tab Semua file merusak konfigurasi alur, dan Anda kemudian harus mengatasinya secara manual di Pengaturan.

Direktori akar

Browser aset pipeline ditempatkan di folder akar pipeline. Saat Anda membuat alur baru, folder akar alur dibuat di folder beranda pengguna Anda dan diberi nama yang sama dengan nama alur.

Anda dapat mengubah direktori induk di browser aset pipeline. Ini berguna jika Anda membuat alur dalam folder dan kemudian ingin memindahkan semuanya ke folder yang berbeda. Misalnya, Anda membuat alur di folder normal dan ingin memindahkan kode sumber ke folder Git untuk kontrol versi.

  1. Klik ikon menu Kebab pada menu overflow untuk folder akar.
  2. Klik Konfigurasikan folder akar baru.
  3. Di bawah Folder akar alur klik Ikon Folder dan pilih folder lain sebagai folder akar alur.
  4. Kliklah Simpan.

Mengubah folder akar alur

Di ikon menu Kebab. untuk folder akar, Anda juga dapat mengklik Ganti nama folder akar untuk mengganti nama folder. Di sini, Anda juga dapat mengklik Pindahkan folder akar untuk memindahkan folder akar, misalnya, ke folder Git.

Anda juga dapat mengubah folder akar alur dalam pengaturan:

  1. Klik Pengaturan.
  2. Di bawah Aset kode klik Konfigurasikan jalur.
  3. Klik Ikon Folder untuk mengubah folder di bawah Folder akar alur.
  4. Kliklah Simpan.

Nota

Jika Anda mengubah folder akar alur, daftar file yang ditampilkan oleh browser aset alur terpengaruh, karena file di folder akar sebelumnya ditampilkan sebagai file eksternal.

Jalur yang ada tanpa folder induk

Alur yang sudah ada yang dibuat menggunakan pengalaman pengeditan buku catatan lama tidak akan memiliki folder akar yang dikonfigurasi. Saat Anda membuka alur yang tidak memiliki folder akar yang dikonfigurasi, Anda akan diminta untuk membuat folder akar dan mengatur file sumber di dalamnya.

Anda dapat menutupnya, dan melanjutkan pengeditan alur tanpa menetapkan direktori root.

Jika nanti Anda ingin mengonfigurasi folder akar untuk alur Anda, ikuti langkah-langkah berikut:

  1. Dalam penelusur aset pipeline, klik Konfigurasikan.
  2. Klik Ikon Folder untuk memilih folder akar di bawah Folder akar alur.
  3. Kliklah Simpan.

Tidak ada folder akar jalur

Struktur folder bawaan

Saat Anda membuat alur baru, struktur folder default dibuat. Ini adalah struktur yang direkomendasikan untuk mengatur file sumber alur dan kode non-sumber Anda, seperti yang dijelaskan di bawah ini.

Sejumlah kecil file kode sampel dibuat dalam struktur folder ini.

Nama folder Lokasi yang direkomendasikan untuk jenis file ini
<pipeline_root_folder> Folder induk yang berisi semua folder dan file untuk alur kerja Anda.
transformations File kode sumber, seperti file kode Python atau SQL dengan definisi tabel.
explorations File kode non-sumber, seperti notebook, kueri, dan file kode yang digunakan untuk analisis data eksploratif.
utilities File kode non-sumber dengan modul Python yang dapat diimpor dari file kode lain. Jika Anda memilih SQL sebagai bahasa Anda untuk kode sampel, folder ini tidak dibuat.

Anda dapat mengganti nama folder atau mengubah struktur agar sesuai dengan alur kerja Anda. Untuk menambahkan folder kode sumber baru, ikuti langkah-langkah berikut:

  1. Klik Tambahkan di browser aset alur.
  2. Klik Buat folder kode sumber alur.
  3. Masukkan nama folder dan klik Buat.

File kode sumber

File kode sumber adalah bagian dari definisi kode sumber alur. Saat Anda menjalankan alur pemrosesan, file-file ini dievaluasi. File dan folder yang merupakan bagian dari definisi kode sumber memiliki ikon khusus dengan ikon mini Pipeline ditumpangkan.

Untuk menambahkan file kode sumber baru, ikuti langkah-langkah berikut:

  1. Klik Tambahkan di browser aset alur.
  2. Klik Transformasi.
  3. Masukkan Nama untuk file dan pilih Python atau SQL sebagai Bahasa.
  4. Klik Buat.

Anda juga dapat mengklik ikon menu Kebab. untuk folder apa pun di browser aset alur untuk menambahkan file kode sumber.

transformations Folder untuk kode sumber dibuat secara default saat Anda membuat alur baru. Folder ini adalah lokasi yang direkomendasikan untuk kode sumber alur, seperti file kode Python atau SQL dengan definisi tabel alur.

File kode non-sumber

File kode non-sumber disimpan di dalam folder akar alur tetapi bukan bagian dari definisi kode sumber alur. Berkas-berkas ini tidak dievaluasi saat Anda menjalankan jalur pemrosesan. File kode non-sumber tidak boleh berupa file eksternal.

Anda dapat menggunakan ini untuk file yang terkait dengan pekerjaan Anda pada alur yang ingin Anda simpan bersama dengan kode sumber. Contohnya:

  • Notebook yang Anda gunakan untuk eksplorasi ad hoc yang dijalankan pada komputasi Alur Deklaratif Spark non-Lakeflow di luar siklus hidup alur.
  • Modul Python yang tidak akan dievaluasi dengan kode sumber Anda kecuali Anda secara eksplisit mengimpor modul ini di dalam file kode sumber Anda.

Untuk menambahkan file kode non-sumber baru, ikuti langkah-langkah berikut:

  1. Klik Tambahkan di browser aset alur.
  2. Klik Eksplorasi atau Utilitas.
  3. Masukkan Nama untuk file tersebut.
  4. Klik Buat.

Anda juga dapat mengklik ikon menu Kebab. untuk folder akar alur atau file kode non-sumber untuk menambahkan file kode non-sumber ke folder.

Saat Anda membuat alur baru, folder berikut untuk file kode non-sumber dibuat secara default:

Nama folder Description
explorations Folder ini adalah lokasi yang direkomendasikan untuk buku catatan, kueri, dasbor, dan file lainnya lalu menjalankannya pada komputasi Alur Deklaratif non-Lakeflow Spark, seperti yang biasanya Anda lakukan di luar siklus hidup eksekusi alur.
utilities Folder ini adalah lokasi yang direkomendasikan untuk modul Python yang dapat diimpor dari file lain melalui impor langsung yang dinyatakan sebagai from <filename> import, selama folder induknya secara hierarkis di bawah folder akar.

Anda juga dapat mengimpor modul Python yang terletak di luar folder akar, tetapi dalam hal ini, Anda harus menambahkan jalur folder ke sys.path dalam kode Python Anda:

import sys, os
sys.path.append(os.path.abspath('<alternate_path_for_utilities>/utilities'))
from utils import \*

File eksternal

Bagian Berkas Eksternal dari penjelajah pipeline menunjukkan berkas-berkas kode sumber di luar folder akar.

Untuk memindahkan file eksternal ke folder akar, seperti transformations folder , ikuti langkah-langkah berikut:

  1. Klik ikon menu Kebab di penjelajah aset untuk file tersebut dan klik Pindahkan.
  2. Pilih folder tempat Anda ingin memindahkan file dan klik Pindahkan.

File yang terkait dengan beberapa alur

Lencana ditampilkan di header file jika file dikaitkan dengan lebih dari satu alur. Ini memiliki jumlah pipeline terkait dan memungkinkan beralih ke yang lainnya.

Semua bagian file

Selain bagian Alur , ada bagian Semua file , tempat Anda dapat membuka file apa pun di ruang kerja Anda. Di sini Anda dapat:

  • Buka file di luar folder akar di tab tanpa meninggalkan Lakeflow Pipelines Editor.
  • Akses file-file kode sumber dari alur lain dan membukanya. Ini membuka file di editor, dan memberi Anda banner dengan opsi untuk beralih fokus di editor ke alur kedua ini.
  • Pindahkan file ke folder akar alur.
  • Sertakan file di luar folder akar dalam definisi kode sumber alur.

Mengedit file sumber alur

Saat Anda membuka file sumber alur dari browser ruang kerja, atau browser aset alur, file tersebut terbuka di tab editor di Editor Alur Lakeflow. Membuka lebih banyak file membuka tab terpisah, memungkinkan Anda mengedit beberapa file sekaligus.

Nota

Membuka file yang tidak terkait dengan alur dari browser ruang kerja akan membuka editor dalam konteks yang berbeda (baik editor Ruang Kerja umum atau, untuk file SQL, Editor SQL).

Saat Anda membuka file non-pipeline di tab Semua file dari browser aset pipeline, file tersebut akan terbuka di tab baru dalam konteks pipeline.

Kode sumber pipeline mencakup beberapa berkas. Secara default, file sumber berada di folder transformasi di browser aset alur. File kode sumber dapat berupa file Python (*.py) atau SQL (*.sql). Sumber Anda dapat menyertakan campuran file Python dan SQL dalam satu alur, dan kode dalam satu file dapat mereferensikan tabel atau tampilan yang ditentukan dalam file lain.

Anda juga dapat menyertakan file markdown (*.md) di folder tranformasi Anda. File markdown dapat digunakan untuk dokumentasi atau catatan, tetapi diabaikan saat menjalankan pembaruan alur.

Fitur berikut khusus untuk Editor Alur Lakeflow:

Mengedit kode alur

  1. Sambungkan ke pemrosesan tanpa server atau klasik untuk menjalankan alur. Semua file yang terkait dengan alur menggunakan koneksi komputasi yang sama, jadi setelah Anda tersambung, Anda tidak perlu menyambungkan untuk file lain dalam alur yang sama. Untuk informasi selengkapnya tentang opsi komputasi, lihat Opsi konfigurasi komputasi.

    Untuk file bukan pipeline, seperti notebook eksplorasi, opsi hubungkan tersedia, tetapi hanya berlaku untuk file tersebut secara individual.

  2. Jalankan file - Jalankan kode untuk memperbarui tabel yang ditentukan dalam file sumber ini. Bagian berikutnya menjelaskan berbagai cara untuk menjalankan kode alur Anda.

  3. Edit - Gunakan Asisten Databricks untuk mengedit atau menambahkan kode dalam file.

  4. Perbaikan cepat - Ketika ada kesalahan dalam kode Anda, gunakan Asisten untuk memperbaiki kesalahan.

Panel bawah juga menyesuaikan, berdasarkan tab saat ini. Melihat informasi alur di panel bawah selalu tersedia. File terkait non-alur, seperti file editor SQL, juga menampilkan outputnya di panel bawah di tab terpisah. Gambar berikut ini memperlihatkan pemilih tab vertikal untuk mengalihkan panel bawah antara menampilkan informasi alur atau informasi untuk buku catatan yang dipilih.

Pemilih tab vertikal untuk notebook eksplorasi

Jalankan kode alur

Anda memiliki empat opsi untuk menjalankan kode alur Anda:

  1. Menjalankan semua file kode sumber dalam alur

    Klik Jalankan alur atau Jalankan alur dengan refresh tabel penuh untuk menjalankan semua definisi tabel di semua file yang didefinisikan sebagai kode sumber alur. Untuk detail tentang jenis refresh, lihat Semantik refresh pipeline.

    Jalankan alur

    Anda juga dapat mengklik Eksekusi kering untuk memvalidasi alur tanpa memperbarui data apa pun.

  2. Menjalankan kode dalam satu file

    Klik Jalankan file atau Jalankan file dengan refresh tabel lengkap untuk menjalankan semua definisi tabel dalam file saat ini. File lain dalam proses tidak dievaluasi.

    Jalankan file

    Opsi ini berguna untuk debugging saat mengedit dan melakukan iterasi pada berkas dengan cepat. Ada efek samping ketika hanya menjalankan kode dalam satu file.

    • Ketika file lain tidak dievaluasi, kesalahan dalam file tersebut tidak ditemukan.
    • Tabel yang diwujudkan dalam file lain menggunakan materialisasi terbaru tabel, bahkan jika ada data sumber yang lebih baru.
    • Anda dapat mengalami kesalahan jika tabel yang dirujuk belum terwujud.
    • DAG mungkin salah atau terpisah pada tabel di file lain yang belum dimaterialisasi. Azure Databricks melakukan upaya terbaik untuk menjaga grafik tetap benar, tetapi tidak mengevaluasi file lain untuk melakukannya.

    Setelah Anda selesai men-debug dan mengedit file, Databricks merekomendasikan untuk menjalankan semua file kode sumber dalam alur untuk memverifikasi bahwa alur berfungsi end-to-end sebelum menempatkan alur dalam produksi.

  3. Menjalankan kode untuk satu tabel

    Di samping definisi tabel dalam file kode sumber, klik ikon Jalankan tabelJalankan Ikon Tabel lalu pilih Refresh tabel atau Tabel refresh penuh dari menu drop-down. Menjalankan kode untuk satu tabel memiliki efek samping yang sama seperti menjalankan kode dalam satu file.

    Jalankan tabel

    Nota

    Menjalankan kode untuk sebuah tabel dapat dilakukan pada tabel streaming dan tampilan materialisasi. Sink dan tampilan tidak didukung.

  4. Menjalankan kode untuk sekumpulan tabel

    Anda dapat memilih tabel dari DAG untuk membuat daftar tabel yang akan dijalankan. Arahkan mouse ke atas tabel di DAG, klik ikon menu Kebab., dan pilih Pilih tabel untuk refresh. Setelah Anda memilih tabel untuk di-refresh, pilih opsi Jalankan atau Jalankan dengan refresh penuh dari bagian bawah DAG.

    Jalankan tabel terpilih

Grafik alur, grafik terarah tanpa siklus (DAG)

Setelah Anda menjalankan atau memvalidasi semua file kode sumber dalam alur pipa, Anda akan melihat graf terarah asiklik (DAG), yang disebut graf alur pipa. Grafik memperlihatkan grafik dependensi tabel. Setiap simpul memiliki status yang berbeda di sepanjang siklus hidup alur, seperti divalidasi, berjalan, atau kesalahan.

Grafik siklus terarah (DAG)

Anda dapat mengaktifkan dan menonaktifkan grafik dengan mengklik ikon grafik di panel sisi kanan. Anda juga dapat memaksimalkan grafik. Ada opsi tambahan di kanan bawah, termasuk opsi zoom, dan ikon Penggeser.Opsi lainnya untuk menampilkan grafik dalam tata letak vertikal atau horizontal.

Mengarahkan mouse ke atas simpul akan menampilkan toolbar dengan opsi, termasuk memperbarui kueri. Mengklik kanan simpul memberi Anda opsi yang sama, di menu konteks.

Mengklik simpul memperlihatkan pratinjau data dan definisi tabel. Saat Anda mengedit file, tabel yang ditentukan dalam file tersebut disorot dalam grafik.

Pratinjau data

Bagian pratinjau data memperlihatkan data sampel untuk tabel yang dipilih.

Anda melihat pratinjau data tabel saat mengklik simpul dalam grafik diarahkan yang asiklik (DAG).

Jika tidak ada tabel yang dipilih, buka bagian Tabel dan klik Tampilkan pratinjau dataIkon Pratinjau Data LDP. Jika Anda telah memilih tabel, klik Semua tabel untuk kembali ke semua tabel.

Saat mempratinjau data tabel, Anda bisa memfilter atau mengurutkan data di tempat. Jika Anda ingin melakukan analisis yang lebih kompleks, Anda bisa menggunakan atau membuat buku catatan di folder Eksplorasi (dengan asumsi Anda menyimpan struktur folder default). Secara default, kode sumber dalam folder ini tidak dijalankan selama pembaruan alur, sehingga Anda dapat membuat kueri tanpa memengaruhi output alur.

Wawasan eksekusi

Anda dapat melihat wawasan eksekusi dari tabel tentang pembaruan alur terbaru di panel-panel yang terdapat di bagian bawah editor.

Panel Description
Tables Mencantumkan semua tabel dengan status dan metriknya. Jika Anda memilih satu tabel, Anda akan melihat metrik dan performa untuk tabel tersebut dan tab untuk pratinjau data.
Performance Riwayat dan profil kueri untuk semua aliran dalam pipa alur kerja ini. Anda dapat mengakses metrik eksekusi dan rencana kueri terperinci selama dan setelah eksekusi. Lihat Mengakses riwayat kueri untuk alur untuk informasi selengkapnya.
Panel masalah Klik panel untuk tampilan kesalahan dan peringatan yang disederhanakan untuk alur. Anda dapat mengklik entri untuk melihat detail selengkapnya, lalu menavigasi ke tempat dalam kode tempat kesalahan terjadi. Jika kesalahan ada dalam file selain yang saat ini ditampilkan, ini akan mengarahkan Anda ke file tempat kesalahan berada.
Klik Tampilkan detail untuk melihat entri log peristiwa terkait untuk detail lengkapnya. Klik Tampilkan log untuk melihat log kejadian lengkap.
Indikator kesalahan yang memiliki kode ditampilkan untuk kesalahan yang terkait dengan bagian tertentu dari kode. Untuk mendapatkan detail selengkapnya, klik ikon kesalahan atau arahkan mouse ke atas garis merah. Pop-up dengan informasi selengkapnya muncul. Anda kemudian dapat mengklik Perbaikan cepat untuk mengungkapkan serangkaian tindakan untuk memecahkan masalah kesalahan.
Catatan peristiwa Semua peristiwa yang dipicu selama jalannya jalur pemrosesan terakhir. Klik Tampilkan log atau entri apa pun di kotak masalah.

Konfigurasi pipeline

Anda dapat mengonfigurasi alur dari editor alur. Anda dapat membuat perubahan pada pengaturan alur, jadwal, atau izin.

Masing-masing dapat diakses dari tombol di header editor, atau dari ikon di browser aset (bilah sisi kiri).

  • Pengaturan (atau pilih ikon roda gigi. di browser aset):

    Anda dapat mengedit pengaturan untuk alur dari panel pengaturan, termasuk informasi umum, folder akar dan konfigurasi kode sumber, konfigurasi komputasi, pemberitahuan, pengaturan tingkat lanjut, dan banyak lagi.

  • Jadwalkan (atau pilih ikon Jam kalender. di browser aset):

    Anda dapat membuat satu atau beberapa jadwal untuk alur Anda dari dialog jadwal. Misalnya, jika Anda ingin menjalankannya setiap hari, Anda dapat mengaturnya di sini. Ini membuat pekerjaan untuk menjalankan alur pada jadwal yang Anda pilih. Anda dapat menambahkan jadwal baru atau menghapus jadwal yang sudah ada dari dialog jadwal.

  • Bagikan (atau, dari ikon menu Kebab. menu di browser aset, pilih ikon Bagikan.):

    Anda dapat mengelola izin pada pipeline untuk pengguna dan grup dari dialog izin pipeline.

Log Peristiwa

Anda dapat menerbitkan log acara untuk alur kerja ke Katalog Unity. Secara bawaan, log peristiwa untuk alur Anda ditampilkan di UI dan dapat diakses untuk dikuieri oleh pemilik.

  1. Buka Pengaturan.
  2. Klik ikon kanan Chevron. panah di samping Pengaturan tingkat lanjut.
  3. Klik Sunting pengaturan lanjutan.
  4. Di bawah Log peristiwa, klik Terbitkan ke katalog.
  5. Berikan nama, katalog, dan skema untuk log peristiwa.
  6. Kliklah Simpan.

Peristiwa alur Anda diterbitkan ke tabel yang Anda tentukan.

Untuk mempelajari selengkapnya tentang menggunakan log peristiwa alur, lihat Mengkueri log peristiwa.

Lingkungan alur

Anda dapat membuat lingkungan untuk kode sumber Anda dengan menambahkan dependensi di Pengaturan.

  1. Buka Pengaturan.
  2. Di bawah Lingkungan, klik Edit lingkungan.
  3. Pilih ikon Plus.Tambahkan dependensi untuk menambahkan dependensi, seolah-olah Anda menambahkannya ke requirements.txt file. Untuk informasi selengkapnya tentang dependensi, lihat Menambahkan dependensi ke buku catatan.

Databricks merekomendasikan agar Anda menyematkan versi dengan ==. Lihat paket PyPI.

Lingkungannya berlaku untuk semua file kode sumber di pipeline Anda.

Pemberitahuan

Anda dapat menambahkan pemberitahuan menggunakan pengaturan Alur.

  1. Buka Pengaturan.
  2. Di bagian Pemberitahuan , klik Tambahkan pemberitahuan.
  3. Tambahkan satu atau beberapa alamat email dan peristiwa yang Anda inginkan untuk dikirim.
  4. Klik Tambahkan pemberitahuan.

Nota

Buat respons kustom terhadap peristiwa, termasuk pemberitahuan atau penanganan kustom, dengan menggunakan kait peristiwa Python.

Memantau alur

Azure Databricks juga menyediakan fitur untuk memantau alur yang sedang berjalan. Editor menunjukkan hasil dan analisis eksekusi dari jalankan terbaru. Ini dioptimalkan untuk membantu Anda melakukan iterasi secara efisien saat Anda mengembangkan alur Anda secara interaktif.

Halaman pemantauan pipeline memungkinkan Anda melihat riwayat eksekusi, yang berguna saat pipeline berjalan sesuai jadwal menggunakan Job.

Nota

Ada pengalaman pemantauan default, dan pengalaman pemantauan pratinjau yang diperbarui. Bagian berikut menjelaskan cara mengaktifkan atau menonaktifkan pengalaman pemantauan pratinjau. Untuk informasi tentang kedua pengalaman, lihat Memantau alur di UI.

Pengalaman pemantauan dapat diakses dari tombol Pekerjaan & Pipelines di sisi kiri ruang kerja Anda. Anda juga dapat melompat langsung ke halaman pemantauan dari editor dengan mengklik hasil eksekusi di browser aset alur.

Menautkan ke halaman pemantauan dari editor

Untuk informasi selengkapnya tentang halaman pemantauan, lihat Memantau alur di UI. Antarmuka pengguna pemantauan mencakup kemampuan untuk kembali ke Editor Alur Lakeflow dengan memilih Edit alur dari header UI.

Aktifkan Editor Alur Lakeflow dan Pemantauan Terbaru

Pratinjau Editor Alur Lakeflow diaktifkan secara default. Anda dapat menonaktifkannya, atau mengaktifkannya kembali dengan instruksi berikut. Saat pratinjau Lakeflow Pipelines Editor diaktifkan, Anda juga dapat mengaktifkan pengalaman pemantauan yang diperbarui (pratinjau).

Pratinjau harus diaktifkan dengan mengatur opsi Editor Alur Lakeflow untuk ruang kerja Anda. Lihat Mengelola pratinjau Azure Databricks untuk informasi selengkapnya tentang cara mengedit opsi.

Setelah pratinjau diaktifkan, Anda dapat mengaktifkan Editor Alur Lakeflow dengan beberapa cara:

  • Saat Anda membuat alur ETL baru, aktifkan editor di Lakeflow Spark Declarative Pipelines dengan tombol Editor Alur Lakeflow.

    Mengaktifkan Penyunting Jalur Lakeflow

    Halaman pengaturan tingkat lanjut untuk alur digunakan saat pertama kali Anda mengaktifkan editor. Jendela pembuatan pipeline yang disederhanakan akan digunakan pada saat Anda membuat pipeline baru berikutnya.

  • Untuk suatu pipeline yang sudah ada, buka notebook yang digunakan dalam pipeline tersebut dan aktifkan pengalih Editor Alur Lakeflow di bagian header. Anda juga dapat masuk ke halaman pemantauan alur dan klik Pengaturan untuk mengaktifkan Editor Alur Lakeflow.

  • Anda dapat mengaktifkan Editor Alur Lakeflow dari pengaturan pengguna:

    1. Klik lencana pengguna Anda di area kanan atas ruang kerja Anda lalu klik Pengaturan dan Pengembang.
    2. Aktifkan Editor Alur Lakeflow.

Setelah Anda mengaktifkan pengalih Editor Alur Lakeflow , semua alur ETL menggunakan Editor Alur Lakeflow secara default. Anda dapat mengaktifkan dan menonaktifkan Editor Alur Lakeflow langsung dari dalamnya.

Nota

Jika Anda menonaktifkan editor alur baru, sangat membantu untuk meninggalkan umpan balik yang menjelaskan mengapa Anda telah menonaktifkannya. Ada tombol Kirim umpan balik pada tombol untuk umpan balik apa pun yang Anda miliki di editor baru.

Mengaktifkan halaman pemantauan alur baru

Penting

Fitur ini ada di Pratinjau Umum.

Sebagai bagian dari pratinjau Editor Pipeline Lakeflow, Anda juga dapat mengaktifkan halaman pemantauan pipeline baru untuk sebuah pipeline. Pratinjau Editor Alur Lakeflow harus diaktifkan untuk mengaktifkan halaman pemantauan alur. Saat pratinjau editor diaktifkan, halaman pemantauan baru juga diaktifkan secara default.

  1. Klik Pekerjaan & Alur.

  2. Klik nama alur apa pun untuk melihat detail alur.

  3. Di bagian atas halaman, aktifkan antarmuka pengguna pemantauan yang diperbarui dengan tombol Halaman alur baru .

    Tombol antarmuka pengguna halaman alur baru

Batasan dan masalah yang diketahui

Lihat batasan dan masalah umum berikut untuk editor alur ETL di Lakeflow Spark Declarative Pipelines:

  1. Bilah samping browser ruang kerja tidak berfokus pada alur jika Anda mulai dengan membuka file di explorations folder atau buku catatan, karena file atau buku catatan ini bukan bagian dari definisi kode sumber alur.

    Untuk memasuki mode fokus alur di browser ruang kerja, buka file yang terkait dengan alur.

  2. Pratinjau data tidak didukung untuk tampilan reguler.

  3. Modul-modul Python tidak ditemukan dari dalam UDF, meskipun mereka berada di direktori root Anda atau berada di sys.path. Anda dapat mengakses modul ini dengan menambahkan jalur ke sys.path dari dalam UDF, misalnya: sys.path.append(os.path.abspath(“/Workspace/Users/path/to/modules”))

  4. %pip install tidak didukung dari file (jenis aset default dengan editor baru). Anda dapat menambahkan dependensi dalam pengaturan. Lihat Lingkungan Pipeline.

    Secara bergantian, Anda dapat terus menggunakan %pip install dari buku catatan yang terkait dengan alur, dalam definisi kode sumbernya.

FAQ

  1. Mengapa menggunakan file dan bukan buku catatan untuk kode sumber?

    Eksekusi notebook berbasis sel tidak kompatibel dengan alur. Fitur standar notebook dinonaktifkan atau diubah saat bekerja dengan pipeline, yang menyebabkan kebingungan bagi pengguna yang terbiasa dengan perilaku notebook.

    Di Editor Pipeline Lakeflow, editor file digunakan sebagai fondasi untuk editor unggulan untuk pipeline. Fitur ditargetkan secara eksplisit ke alur, seperti Jalankan tabelJalankan Ikon Tabel, daripada membebani fitur yang sudah dikenal dengan perilaku yang berbeda.

  2. Masih bisakah saya menggunakan buku catatan sebagai kode sumber?

    Ya, Anda bisa. Namun, beberapa fitur, seperti Jalankan tabelIkon Jalankan Tabel atau Jalankan file, tidak ada.

    Jika Anda memiliki alur yang sudah ada menggunakan notebook, alur tersebut masih berfungsi di editor baru. Namun, Databricks merekomendasikan untuk beralih menggunakan file untuk alur baru.

  3. Bagaimana cara menambahkan kode yang sudah ada ke Alur yang baru dibuat?

    Anda dapat menambahkan file kode sumber yang ada ke alur baru. Untuk menambahkan folder dengan file yang sudah ada, ikuti langkah-langkah berikut:

    1. Klik Pengaturan.
    2. Di bawah Kode sumber klik Konfigurasikan jalur.
    3. Klik Tambahkan jalur dan pilih folder untuk file yang ada.
    4. Kliklah Simpan.

    Anda juga dapat menambahkan file individual:

    1. Klik Semua file di penjelajah aset alur kerja.
    2. Navigasi ke file Anda, klik ikon menu Kebab., dan klik Sertakan dalam alur.

    Pertimbangkan untuk memindahkan file ini ke folder akar alur. Jika dibiarkan di luar folder akar alur, folder tersebut ditampilkan di bagian File eksternal .

  4. Dapatkah saya mengelola kode sumber Alur di Git?

    Anda dapat mengelola sumber alur di Git dengan memilih folder Git saat Anda awalnya membuat alur.

    Nota

    Mengelola sumber Anda di folder Git menambahkan kontrol versi untuk kode sumber Anda. Namun, untuk mengontrol konfigurasi Anda secara versi, Databricks merekomendasikan penggunaan Bundel Aset Databricks untuk menentukan konfigurasi alur dalam file konfigurasi bundel yang dapat disimpan di Git (atau sistem kontrol versi lainnya). Untuk informasi selengkapnya, lihat Apa itu Bundel Aset Databricks?.

    Jika Anda tidak membuat alur di folder Git pada awalnya, Anda dapat memindahkan sumber Anda ke folder Git. Databricks merekomendasikan penggunaan tindakan editor untuk memindahkan seluruh folder akar ke folder Git. Ini memperbarui semua pengaturan yang sesuai. Lihat Folder root.

    Untuk memindahkan folder utama ke dalam folder Git di browser aset alur kerja:

    1. Klik ikon menu Kebab. untuk membuka folder akar.
    2. Klik Pindahkan folder akar.
    3. Pilih lokasi baru untuk folder akar Anda dan klik Pindahkan.

    Lihat bagian Folder akar untuk informasi selengkapnya.

    Setelah pemindahan, Anda akan melihat ikon Git yang akrab di samping nama folder akar Anda.

    Penting

    Untuk memindahkan folder root pipeline, gunakan penjelajah aset pipeline dan ikuti langkah-langkah yang tertera di atas. Memindahkannya dengan cara lain merusak konfigurasi alur, dan Anda harus mengonfigurasi jalur folder yang benar secara manual di Pengaturan.

  5. Dapatkah saya memiliki beberapa Alur di folder akar yang sama?

    Anda dapat melakukannya, tetapi Databricks merekomendasikan untuk hanya memiliki satu Alur per folder utama.

  6. Kapan saya harus menjalankan dry run?

    Klik Eksekusi kering untuk memeriksa kode Anda tanpa memperbarui tabel.

  7. Kapan saya harus menggunakan Tampilan sementara, dan kapan saya harus menggunakan tampilan materialisasi dalam kode saya?

    Gunakan tampilan sementara saat Anda tidak ingin mematerialkan data. Misalnya, ini adalah langkah dalam urutan langkah-langkah untuk menyiapkan data sebelum siap untuk terwujud menggunakan tabel streaming atau tampilan materialisasi yang terdaftar di Katalog.