Bagikan melalui


Pemetaan aliran data Mode Debug

BERLAKU UNTUK: Azure Data Factory Azure Synapse Analytics

Tip

Cobalah Data Factory di Microsoft Fabric, solusi analitik all-in-one untuk perusahaan. Microsoft Fabric mencakup semuanya mulai dari pergerakan data hingga ilmu data, analitik real time, kecerdasan bisnis, dan pelaporan. Pelajari cara memulai uji coba baru secara gratis!

Gambaran Umum

Mode debug aliran data pemetaan Azure Data Factory dan Synapse Analytics memungkinkan Anda melihat transformasi bentuk data secara interaktif saat Anda membangun dan men-debug aliran data. Sesi debug dapat digunakan baik dalam sesi desain Aliran Data maupun selama eksekusi debug alur aliran data. Untuk mengaktifkan mode debug, klik tombol Debug Aliran Data di bilah atas kanvas aliran data atau kanvas alur saat Anda memiliki aktivitas aliran data.

Cuplikan layar yang menunjukkan di mana penggeser Debug 1

Cuplikan layar yang menunjukkan di mana penggeser Debug 2

Setelah mengaktifkan pengguncurkan, Anda akan diminta untuk memilih konfigurasi runtime integrasi mana yang ingin Anda gunakan. Jika AutoResolveIntegrationRuntime dipilih, kluster dengan delapan inti komputasi umum dengan waktu 60 menit default untuk aktif akan berputar. Jika anda ingin mengizinkan tim siaga lebih banyak lagi sebelum sesi anda habis, anda dapat memilih pengaturan TTL yang lebih tinggi. Untuk informasi selengkapnya tentang runtime integrasi aliran data, lihat Performa Integration Runtime.

Men-debug seleksi IR

Saat mode Debug aktif, Anda akan secara interaktif membangun aliran data dengan kluster Spark aktif. Sesi ditutup setelah Anda menonaktifkan debug. Anda harus mengetahui biaya per jam yang dikeluarkan oleh Azure Data Factory selama Anda mengaktifkan sesi debug.

Dalam kebanyakan kasus, ini adalah praktik yang baik untuk membangun Aliran Data Anda dalam mode debug, sehingga Anda dapat memvalidasi logika bisnis dan melihat transformasi data Anda sebelum memublikasikan pekerjaan di Azure Data Factory. Gunakan tombol "Debug" pada panel alur untuk menguji aliran data Anda dalam alur.

Catatan

Masing-masing sesi debug yang dimulai pengguna dari UI browser ADF mereka adalah sesi baru dengan kluster Spark sendiri. Anda dapat menggunakan tampilan pemantauan untuk sesi debug yang ditampilkan di gambar sebelumnya untuk melihat dan mengelola sesi debug. Anda dikenakan biaya untuk setiap jam yang dijalankan masing-masing sesi debug termasuk waktu TTL.

Klip video ini berbicara tentang tips, trik, dan praktik yang baik untuk mode debug aliran data.

Status kluster

Indikator status kluster di bagian atas permukaan desain berubah menjadi hijau saat kluster siap untuk debug. Jika kluster Anda sudah hangat, maka indikator hijau muncul hampir seketika. Jika kluster Anda belum berjalan saat Anda memasuki mode debug, maka kluster Spark melakukan boot dingin. Indikator berputar sampai lingkungan siap untuk penelusuran kesalahan interaktif.

Setelah selesai dengan penelusuran kesalahan, matikan tombol Debug sehingga kluster Spark Anda dapat dihentikan dan Anda tidak akan lagi ditagih untuk aktivitas debug.

Pengaturan debug

Setelah mengaktifkan mode debug, Anda dapat mengedit cara aliran data mempratinjau data. Pengaturan debug dapat diedit dengan mengklik "Pengaturan Debug" pada toolbar kanvas Aliran Data. Anda dapat memilih batas baris atau sumber file yang akan digunakan untuk masing-masing transformasi Sumber di sini. Batas baris dalam pengaturan ini hanya untuk sesi debug saat ini. Anda juga dapat memilih layanan penahapan yang ditautkan untuk digunakan sebagai sumber Azure Synapse Analytics.

Pengaturan debug

Jika Anda memiliki parameter di Aliran Data atau himpunan data yang direferensikan, Anda dapat menentukan nilai apa yang akan digunakan selama penelusuran kesalahan dengan memilih tab Parameter.

Gunakan pengaturan pengambilan sampel di sini untuk menunjuk ke file sampel atau contoh tabel data sehingga Anda tidak perlu mengubah himpunan data sumber Anda. Dengan menggunakan file atau tabel sampel di sini, Anda dapat mempertahankan logika dan pengaturan properti yang sama dalam aliran data saat menguji terhadap subset data.

Parameter pengaturan debug

IR default yang digunakan untuk mode debug dalam aliran data ADF adalah simpul pekerja tunggal 4 inti kecil dengan simpul driver tunggal 4 inti. Hal ini berfungsi dengan baik pada sampel data yang lebih kecil saat menguji logika aliran data Anda. Jika Anda memperluas batas baris di pengaturan debug selama pratinjau data atau mengatur jumlah baris sampel yang lebih tinggi di sumber Anda selama debug alur, maka Anda mungkin ingin mempertimbangkan untuk mengatur lingkungan komputasi yang lebih besar di Azure Integration Runtime baru. Kemudian, Anda dapat menghidupkan ulang sesi debug menggunakan lingkungan komputasi yang lebih besar.

Pratinjau data

Dengan debug aktif, tab Pratinjau Data menyala di panel bawah. Tanpa mode debug aktif, Aliran Data hanya menunjukkan metadata saat ini masuk dan keluar dari setiap transformasi Anda di tab Inspeksi. Pratinjau data hanya akan mengkueri jumlah baris yang telah Anda tetapkan sebagai batas dalam pengaturan debug Anda. Pilih Refresh untuk memperbarui pratinjau data berdasarkan transformasi Anda saat ini. Jika data sumber Anda telah berubah, pilih Refresh Refetch > dari sumber.

Pratinjau data

Anda bisa mengurutkan kolom dalam pratinjau data dan menyusun ulang kolom menggunakan seret dan letakkan. Selain itu, ada tombol ekspor di bagian atas panel pratinjau data yang dapat Anda gunakan untuk mengekspor data pratinjau ke file CSV untuk eksplorasi data offline. Anda dapat menggunakan fitur ini untuk mengekspor hingga 1.000 baris data pratinjau.

Catatan

Sumber file hanya membatasi baris yang Anda lihat, bukan baris yang sedang dibaca. Untuk himpunan data yang sangat besar, disarankan agar Anda mengambil sebagian kecil file tersebut dan menggunakannya untuk pengujian. Anda dapat memilih file sementara di Pengaturan Debug untuk masing-masing sumber yang merupakan jenis himpunan data file.

Saat berjalan dalam Mode Debug di Aliran Data, data Anda tidak akan ditulis ke transformasi Sink. Sesi Debug dimaksudkan sebagai alat uji untuk transformasi Anda. Sink tidak diperlukan selama debug dan diabaikan dalam aliran data Anda. Jika Anda ingin menguji penulisan data dalam Sink, jalankan Aliran Data dari alur Azure Data Factory dan gunakan eksekusi Debug dari alur.

Pratinjau Data adalah rekam jepret dari data Anda yang ditransformasi menggunakan batas baris dan pengambilan sampel data dari bingkai data dalam memori Spark. Oleh karena itu, driver sink tidak digunakan atau diuji dalam skenario ini.

Catatan

Pratinjau Data menampilkan waktu sesuai pengaturan lokal browser.

Menguji kondisi gabungan

Saat pengujian unit Bergabung, Ada, atau Cari transformasi, pastikan Anda menggunakan sekumpulan kecil data yang diketahui untuk pengujian Anda. Anda dapat menggunakan opsi Pengaturan Debug yang dijelaskan sebelumnya untuk mengatur file sementara yang akan digunakan untuk pengujian Anda. Ini diperlukan karena saat membatasi atau mengambil sampel baris dari himpunan data besar, Anda tidak dapat memprediksi baris mana dan kunci mana yang dibaca ke dalam alur untuk pengujian. Hasilnya adalah nondeterministik, yang berarti bahwa kondisi gabungan Anda mungkin gagal.

Tindakan cepat

Setelah melihat pratinjau data, Anda dapat menghasilkan transformasi cepat untuk mengetik, menghapus, atau melakukan modifikasi pada kolom. Pilih header kolom lalu pilih salah satu opsi dari toolbar pratinjau data.

Cuplikan layar menunjukkan toolbar pratinjau data dengan opsi: Ketik, Ubah, Statistik, dan Hapus.

Setelah Anda memilih modifikasi, pratinjau data akan segera di-refresh. Pilih Konfirmasi di sudut kanan atas untuk menghasilkan transformasi baru.

Cuplikan layar menunjukkan tombol Konfirmasi.

Typecast dan Modifikasi menghasilkan transformasi Kolom Turunan dan Hapus menghasilkan transformasi Pilih.

Cuplikan layar menunjukkan Pengaturan Kolom Turunan.

Catatan

Jika Anda mengedit Aliran Data, Anda perlu mengambil kembali pratinjau data sebelum menambahkan transformasi cepat.

Pemrofilan data

Memilih kolom di tab pratinjau data Anda dan mengklik Statistik di toolbar pratinjau data akan memunculkan bagan di ujung kanan kisi data Anda dengan statistik terperinci tentang setiap bidang. Layanan ini membuat basis penentuan pada pengambilan sampel data dari jenis bagan mana yang akan ditampilkan. Bidang kardinalitas tinggi default ke bagan NULL/NOT NULL sementara data kategoris dan numerik yang memiliki kardinalitas rendah menampilkan bagan batang yang memperlihatkan frekuensi nilai data. Anda juga melihat panjang maksimum/lensa bidang string, nilai min/maks dalam bidang numerik, dev standar, persentil, hitungan, dan rata-rata.

Statistik kolom