Bagikan melalui


Simpulkan baris dan temukan nulls dengan menggunakan cuplikan aliran data

BERLAKU UNTUK: Azure Data Factory Azure Synapse Analytics

Tip

Cobalah Data Factory di Microsoft Fabric, solusi analitik all-in-one untuk perusahaan. Microsoft Fabric mencakup semuanya mulai dari pergerakan data hingga ilmu data, analitik real time, kecerdasan bisnis, dan pelaporan. Pelajari cara memulai uji coba baru secara gratis!

Dengan menggunakan cuplikan kode dalam aliran data pemetaan, Anda dapat dengan mudah melakukan tugas umum seperti deduplikasi data dan pemfilteran null. Artikel ini menjelaskan cara mudah menambahkan fungsi tersebut ke alur Anda dengan menggunakan cuplikan skrip aliran data.

Buat alur

  1. Pilih Alur Baru.

  2. Tambahkan aktivitas aliran data.

  3. Pilih tab Pengaturan sumber, tambahkan transformasi sumber, lalu sambungkan ke salah satu himpunan data Anda.

    Cuplikan layar

    Cuplikan pemeriksaan dedupe dan null menggunakan pola generik yang memanfaatkan drift skema aliran data. Cuplikan bekerja dengan skema apa pun dari himpunan data Anda, atau dengan himpunan data yang tidak memiliki skema yang telah ditentukan sebelumnya.

  4. Di bagian "Baris berbeda menggunakan semua kolom" dari Skrip aliran data (DFS), salin cuplikan kode untuk DistinctRows.

  5. Buka halaman dokumentasi Skrip Aliran Data dan salin cuplikan kode untuk Baris yang Berbeda.

    Cuplikan layar cuplikan sumber.

  6. Di skrip Anda, setelah definisi untuk source1, tekan Enter, lalu tempel cuplikan kode.

  7. Lakukan salah satu hal berikut:

    • Hubungkan cuplikan kode yang ditempelkan ini ke transformasi sumber yang Anda buat sebelumnya pada grafik dengan mengetik source1 di depan kode yang ditempelkan.

    • Atau, Anda dapat menghubungkan transformasi baru dalam perancang dengan memilih stream masuk dari node transformasi baru dalam grafik.

      Cuplikan layar

    Sekarang aliran data Anda akan menghapus baris duplikat dari sumber Anda dengan menggunakan transformasi agregat, yang mengelompokkan menurut semua baris dengan menggunakan hash umum dari seluruh nilai kolom.

  8. Tambahkan cuplikan kode untuk memisahkan data Anda menjadi satu stream yang berisi baris dengan null dan stream lain tanpa null. Untuk melakukannya:

  9. Kembali ke pustaka Cuplikan dan kali ini salin kode untuk pemeriksaan NULL.

    b. Di perancang aliran data Anda, pilih Script lagi, lalu tempelkan kode transformasi baru ini di bagian bawah. Tindakan ini menghubungkan skrip ke transformasi Anda sebelumnya dengan menempatkan nama transformasi tersebut di depan cuplikan yang ditempelkan.

    Grafik aliran data Anda sekarang akan terlihat mirip dengan ini:

    Cuplikan layar grafik aliran data.

Anda sekarang telah membuat aliran data yang berfungsi dengan pemeriksaan deduping dan null generik dengan mengambil cuplikan kode yang ada dari pustaka Skrip Aliran Data dan menambahkannya ke dalam desain Anda yang sudah ada.

  • Susun logika aliran data Anda lainnya dengan menggunakan transformasi pemetaan aliran data.