Menyiapkan data dengan manipulasi data

Azure Data Factory Azure Synapse Analytics

Tip

Data Factory di Microsoft Fabric adalah generasi Azure Data Factory berikutnya, dengan arsitektur yang lebih sederhana, AI bawaan, dan fitur baru. Jika Anda baru menggunakan integrasi data, mulailah dengan Fabric Data Factory. Beban kerja ADF yang ada dapat ditingkatkan ke Fabric untuk mengakses kemampuan baru di seluruh ilmu data, analitik real time, dan pelaporan.

Manipulasi data di Data Factory memungkinkan Anda membangun mash-up Power Query interaktif secara native di ADF dan kemudian menjalankannya pada skala besar di dalam alur ADF.

Membuat aktivitas Power Query

Ada dua cara untuk membuat Power Query di Azure Data Factory. Salah satu caranya adalah dengan mengklik ikon plus dan memilih Power Query di panel sumber daya pabrik.

Screenshot yang memperlihatkan Power Query di panel sumber daya pabrik.

Metode lain ada di panel aktivitas kanvas alur. Buka akordeon Power Query dan seret aktivitas Power Query ke kanvas.

Cuplikan layar yang menyoroti opsi manipulasi data.

Membuat aktivitas pengolahan data Power Query

Tambahkan himpunan data Source untuk mash-up Power Query Anda. Anda bisa memilih himpunan data yang sudah ada atau membuat yang baru. Setelah menyimpan mash-up, Anda kemudian dapat membuat alur, menambahkan aktivitas pengolahan data Power Query ke alur Anda, dan memilih himpunan data tujuan untuk memberi tahu ADF tempat pendaratan data Anda. Meskipun Anda dapat memilih satu atau beberapa kumpulan data sumber, hanya satu sink yang diizinkan saat ini. Memilih himpunan data sink bersifat opsional, tetapi setidaknya diperlukan satu himpunan data sumber.

Wrangling

Klik Buat untuk membuka editor mashup Online Power Query.

Pertama, Anda memilih sumber set data dari editor mashup.

Sumber Power Query.

Setelah selesai membangun Power Query, Anda dapat menyimpannya lalu membuat alur. Anda perlu menambahkan mashup sebagai aktivitas ke alur kerja Anda. Saat itulah Anda akan membuat/memilih himpunan data sink untuk mendaratkan data Anda. Anda juga dapat mengatur properti himpunan data sink dengan mengklik tombol kedua di sisi kanan himpunan data yang disink. Ingatlah untuk mengubah "opsi partisi" di bawah "Optimalkan" menjadi "Partisi tunggal" jika Anda hanya ingin mendapatkan satu file output.

Sink untuk Power Query.

Buat pengolahan Power Query Anda menggunakan persiapan data tanpa kode. Untuk daftar fungsi yang tersedia, lihat fungsi transformasi. ADF menerjemahkan skrip M ke dalam skrip aliran data sehingga Anda dapat menjalankan Power Query dalam skala besar menggunakan lingkungan Spark aliran data Azure Data Factory.

Screenshot yang memperlihatkan proses pengolahan data dengan Power Query.

Menjalankan dan memantau aktivitas manipulasi data Power Query

Untuk menjalankan eksekusi debug alur aktivitas Power Query, klik Debug di kanvas alur. Setelah Anda menerbitkan alur Anda, Picu sekarang menjalankan proses on-demand dari alur terakhir yang diterbitkan. Power Query pipeline dapat dijadwalkan dengan semua pemicu Azure Data Factory yang ada.

Screenshot yang menunjukkan cara menambahkan aktivitas pemrosesan data menggunakan Power Query.

Buka tab Monitor untuk memvisualisasikan output eksekusi aktivitas Power Query yang dipicu.

Screenshot yang menunjukkan output dari aktivitas Power Query yang dijalankan.

Pelajari cara membuat alur data pemetaan.