Modul 2: Mengubah data dengan aliran data di Data Factory

Modul ini membutuhkan waktu sekitar 25 menit untuk membuat aliran data, menerapkan transformasi, dan memindahkan data mentah dari tabel Perunggu ke tabel Gold Lakehouse.

Dengan data mentah yang dimuat ke dalam tabel Bronze Lakehouse Anda dari modul terakhir, Anda sekarang dapat menyiapkan data tersebut dan memperkayanya dengan menggabungkannya dengan tabel lain yang berisi diskon untuk setiap vendor dan perjalanan mereka selama hari tertentu. Tabel Gold Lakehouse akhir ini dimuat dan siap untuk dikonsumsi.

Langkah-langkah tingkat tinggi dalam aliran data adalah sebagai berikut:

  • Dapatkan data mentah dari tabel Lakehouse yang dibuat oleh aktivitas Salin di Modul 1: Buat alur dengan Data Factory.
  • Ubah data yang diimpor dari tabel Lakehouse.
  • Koneksi ke file CSV yang berisi data diskon.
  • Mengubah data diskon.
  • Menggabungkan data perjalanan dan diskon.
  • Muat kueri output ke dalam tabel Gold Lakehouse.

Mendapatkan data dari tabel Lakehouse

  1. Dari bar samping, pilih Buat, lalu Aliran Data Gen2 untuk membuat aliran data baru gen2. Screenshot showing the Fabric Create page with the Dataflow Gen2 button highlighted.

  2. Dari menu aliran data baru, pilih Dapatkan data, lalu Lainnya....

    Screenshot showing the Dataflow menu with Get data button highlighted and the More... option highlighted from its menu.

  3. Cari dan pilih konektor Lakehouse .

    Screenshot showing the selection of the Lakehouse data source from the Choose data source menu.

  4. Dialog Koneksi ke sumber data muncul, dan koneksi baru secara otomatis dibuat untuk Anda berdasarkan pengguna yang saat ini masuk. Pilih Selanjutnya.

    Screenshot showing the configuration of the data source settings for your new Lakehouse with your current signed in user, and the Next button selected.

  5. Dialog Pilih data ditampilkan. Gunakan panel navigasi untuk menemukan Lakehouse yang Anda buat untuk tujuan di modul sebelumnya, dan pilih tabel data Tutorial_Lakehouse .

    Screenshot showing the Lakehouse browser with the workspace, lakehouse, and table created with the Copy activity in module 1.

  6. (Opsional) Setelah kanvas Anda diisi dengan data, Anda dapat mengatur informasi profil kolom, karena ini berguna untuk pembuatan profil data. Anda dapat menerapkan transformasi yang tepat dan menargetkan nilai data yang tepat berdasarkan transformasi tersebut.

    Untuk melakukan ini, pilih Opsi dari panel pita, lalu pilih tiga opsi pertama di bawah Profil kolom, lalu pilih OK.

    Screenshot showing the column options selection for your data.

Mengubah data yang diimpor dari Lakehouse

  1. Pilih ikon tipe data di header kolom kedua, IpepPickupDatetime, untuk menampilkan menu dropdown dan pilih tipe data dari menu untuk mengonversi kolom dari jenis Tanggal/Waktu ke Tanggal . Screenshot showing the selection of the Date data type for the IpepPickupDatetime column.

  2. (Opsional) Pada tab Beranda pita, pilih opsi Pilih kolom dari grup Kelola kolom .

    Screenshot showing the Choose columns button on the Home tab of the dataflow editor.

  3. (Opsional)Pada dialog Pilih kolom , batal pilih beberapa kolom yang tercantum di sini, lalu pilih OK.

    • lpepDropoffDatetime
    • puLocationId
    • doLocationId
    • pickupLatitude
    • dropoffLongitude
    • rateCodeID

    Screenshot showing the Choose columns dialog with the identified columns deselected.

  4. Pilih menu tarik-turun kolom storeAndFwdFlag dan urutkan. (Jika Anda melihat peringatan Daftar mungkin tidak lengkap, pilih Muat lebih banyak untuk melihat semua data.)

    Screenshot showing the filter and sort dialog for the column.

  5. Pilih 'Y' untuk memperlihatkan hanya baris tempat diskon diterapkan, lalu pilih OK.

    Screenshot showing the values filter with only 'Y' selected.

  6. Pilih menu dropdown pengurutan dan filter kolom IpepPickupDatetime, lalu pilih Filter tanggal, dan pilih filter Antara... yang disediakan untuk jenis Tanggal dan Tanggal/Waktu.

    Screenshot showing the selection of the Date filters option in the column sort and format dropdown.

  7. Dalam dialog Filter baris, pilih tanggal antara 1 Januari 2015, dan 31 Januari 2015, lalu pilih OK.

    Screenshot showing the selection of the dates in January 2015.

Koneksi ke file CSV yang berisi data diskon

Sekarang, dengan data dari perjalanan di tempat, kami ingin memuat data yang berisi diskon masing-masing untuk setiap hari dan VendorID, dan menyiapkan data sebelum menggabungkannya dengan data perjalanan.

  1. Dari tab Beranda di menu editor aliran data, pilih opsi Dapatkan data , lalu pilih Teks/CSV.

    Screenshot showing the selection of the Get data menu from the Home tab, with Text/CSV highlighted.

  2. Pada dialog Koneksi ke sumber data, berikan detail berikut:

    • Jalur file atau URL - https://raw.githubusercontent.com/ekote/azure-architect/master/Generated-NYC-Taxi-Green-Discounts.csv
    • Jenis autentikasi - Anonim

    Kemudian pilih Berikutnya.

    Screenshot showing the Text/CSV settings for the connection.

  3. Pada dialog Pratinjau data file, pilih Buat.

    Screenshot showing the Preview file data dialog with the Create button highlighted.

Mengubah data diskon

  1. Meninjau data, kita melihat header tampaknya berada di baris pertama. Promosikan ke header dengan memilih menu konteks tabel di kiri atas area kisi pratinjau untuk memilih Gunakan baris pertama sebagai header.

    Screenshot showing the selection of the Use first row as headers option from the table context menu.

    Catatan

    Setelah mempromosikan header, Anda bisa melihat langkah baru yang ditambahkan ke panel Langkah yang diterapkan di bagian atas editor aliran data ke jenis data kolom Anda.

  2. Klik kanan kolom VendorID, dan dari menu konteks yang ditampilkan, pilih opsi Batalkan pivot kolom lain. Ini memungkinkan Anda mengubah kolom menjadi pasangan atribut-nilai, di mana kolom menjadi baris.

    Screenshot showing the context menu for the VendorID column with the Unpivot other columns selection highlighted.

  3. Dengan tabel tidak dipivot, ganti nama kolom Atribut dan Nilai dengan mengklik dua kali dan mengubah Atribut menjadi Tanggal dan Nilai menjadi Diskon.

    Screenshot showing the table columns after renaming Attribute to Date and Value to Discount.

  4. Ubah tipe data kolom Tanggal dengan memilih menu tipe data di sebelah kiri nama kolom dan pilih Tanggal.

    Screenshot showing the selection of the Date data type for the Date column.

  5. Pilih kolom Diskon lalu pilih tab Transformasi pada menu. Pilih Kolom angka, lalu pilih Transformasi numerik standar dari submenu, dan pilih Bagi.

    Screenshot showing the selection of the Divide option to transform data in the Discount column.

  6. Pada dialog Bagi, masukkan nilai 100.

    Screenshot showing the Divide dialog with the value 100 entered and the OK button highlighted.

Menggabungkan data perjalanan dan diskon

Langkah selanjutnya adalah menggabungkan kedua tabel ke dalam satu tabel yang memiliki diskon yang harus diterapkan pada perjalanan, dan total yang disesuaikan.

  1. Pertama, alihkan tombol tampilan Diagram sehingga Anda dapat melihat kedua kueri Anda.

    Screenshot showing the Diagram view toggle button with both queries created in this tutorial displayed.

  2. Pilih kueri nyc_taxi, dan pada tab Beranda, Pilih menu Gabungkan dan pilih Gabungkan kueri, lalu Gabungkan kueri sebagai baru.

    Screenshot showing the Merge queries as new selection for the nyc_taxi query.

  3. Pada dialog Gabungkan, pilih Generated-NYC-Taxi-Green-Discounts dari tabel Kanan untuk penggabungan drop down, lalu pilih ikon "bola lampu" di kanan atas dialog untuk melihat pemetaan kolom yang disarankan di antara kedua tabel.

    Screenshot showing the configuration of the Merge dialog with suggested column mappings displayed.

    Pilih masing-masing dari dua pemetaan kolom yang disarankan, satu per satu, memetakan kolom VendorID dan tanggal dari kedua tabel. Saat kedua pemetaan ditambahkan, header kolom yang cocok disorot di setiap tabel.

  4. Pesan ditampilkan yang meminta Anda untuk mengizinkan penggandaan data dari beberapa sumber data untuk melihat hasilnya. Pilih OK pada dialog Gabungkan .

    Screenshot showing the request to approve combining data from multiple data sources, with the OK button highlighted.

  5. Di area tabel, Anda awalnya akan melihat peringatan bahwa "Evaluasi dibatalkan karena menggabungkan data dari beberapa sumber dapat mengungkapkan data dari satu sumber ke sumber lain. Pilih lanjutkan jika kemungkinan mengungkapkan data baik-baik saja." Pilih Lanjutkan untuk menampilkan data gabungan.

    Screenshot showing the warning about combining data from multiple data sources with the Continue button highlighted.

  6. Perhatikan bagaimana kueri baru dibuat dalam tampilan Diagram memperlihatkan hubungan kueri Gabungkan baru dengan dua kueri yang sebelumnya Anda buat. Melihat panel tabel editor, gulir ke sebelah kanan daftar Gabungkan kolom kueri untuk melihat kolom baru dengan nilai tabel ada. Ini adalah kolom "Generated NYC Taxi-Green-Discounts", dan jenisnya adalah [Table]. Di header kolom ada ikon dengan dua panah yang berlawanan arah, memungkinkan Anda memilih kolom dari tabel. Batalkan pilihan semua kolom kecuali Diskon, lalu pilih OK.

    Screenshot showing the merged query with the column selection menu displayed for the newly generated column Generated-NYC-Taxi-Green-Discounts.

  7. Dengan nilai diskon sekarang di tingkat baris, kita dapat membuat kolom baru untuk menghitung jumlah total setelah diskon. Untuk melakukannya, pilih tab Tambahkan kolom di bagian atas editor, dan pilih Kolom kustom dari grup Umum .

    Screenshot showing the Add custom column button highlighted on the General section of the Add column tab.

  8. Pada dialog Kolom kustom, Anda bisa menggunakan bahasa rumus Power Query (juga dikenal sebagai M) untuk menentukan bagaimana kolom baru Anda harus dihitung. Masukkan TotalAfterDiscount untuk nama kolom Baru, pilih Mata Uang untuk Jenis data, dan berikan ekspresi M berikut untuk rumus kolom Kustom:

    if [totalAmount] > 0 then [totalAmount] * ( 1 -[Discount] ) else [totalAmount]

    Kemudian pilih OK.

    Screenshot showing the Custom column configuration screen with the New column name, Data type and Custom column formula highlighted.

  9. Pilih kolom TotalAfterDiscount yang baru dibuat lalu pilih tab Transformasi di bagian atas jendela editor. Pada grup Kolom angka, pilih menu drop-down Pembulatan lalu pilih Putar....

    Screenshot showing the Round... option on the Transform tab of the editor window.

  10. Pada dialog Putar, masukkan 2 untuk jumlah tempat desimal lalu pilih OK.

    Screenshot showing the Round dialog with 2 for the number of decimal places and the OK button highlighted.

  11. Ubah jenis data IpepPickupDatetime dari Tanggal ke Tanggal/Waktu.

    Screenshot showing the selection of the Date/Time data type for the IpepPickupDatetime column.

  12. Terakhir, perluas panel Pengaturan kueri dari sisi kanan editor jika belum diperluas, dan ganti nama kueri dari Gabungkan ke Output.

    Screenshot showing the renaming of the query from Merge to Output.

Memuat kueri output ke tabel di Lakehouse

Dengan kueri output sekarang sepenuhnya disiapkan dan dengan data siap untuk output, kita dapat menentukan tujuan output untuk kueri.

  1. Pilih kueri Penggabungan output yang dibuat sebelumnya. Lalu pilih tab Beranda di editor, dan Tambahkan tujuan data dari pengelompokan Kueri , untuk memilih tujuan Lakehouse .

    Screenshot showing the Add data destination button with Lakehouse highlighted.

  2. Pada dialog Koneksi ke tujuan data, koneksi Anda harus sudah dipilih. Untuk melanjutkan, klik Berikutnya.

  3. Pada dialog Pilih target tujuan, telusuri ke Lakehouse tempat Anda ingin memuat data dan beri nama tabel baru nyc_taxi_with_discounts, lalu pilih Berikutnya lagi.

    Screenshot showing the Choose destination target dialog with Table name nyc_taxi_with_discounts.

  4. Pada dialog Pilih pengaturan tujuan, biarkan metode Ganti pembaruan default, periksa kembali apakah kolom Anda dipetakan dengan benar, dan pilih Simpan pengaturan.

    Screenshot showing the Choose destination settings dialog with the Save settings button highlighted.

  5. Kembali ke jendela editor utama, konfirmasikan bahwa Anda melihat tujuan output Anda di panel Pengaturan kueri untuk tabel Output, lalu pilih Terbitkan.

    Penting

    Ketika Dataflow Gen2 pertama dibuat di ruang kerja, item Lakehouse dan Warehouse disediakan bersama dengan titik akhir analitik SQL terkait dan model semantik. Item ini dibagikan oleh semua aliran data di ruang kerja dan diperlukan agar Dataflow Gen2 beroperasi, tidak boleh dihapus, dan tidak dimaksudkan untuk digunakan langsung oleh pengguna. Item adalah detail implementasi Dataflow Gen2. Item tidak terlihat di ruang kerja, tetapi mungkin dapat diakses dalam pengalaman lain seperti pengalaman Notebook, SQL-endpoint, Lakehouse, dan Warehouse. Anda dapat mengenali item dengan awalannya dalam nama. Awalan item adalah 'DataflowsStaging'.

  6. (Opsional) Pada halaman ruang kerja, Anda dapat mengganti nama aliran data dengan memilih elipsis di sebelah kanan nama aliran data yang muncul setelah Anda memilih baris, dan memilih Properti.

    Screenshot showing the Properties option selected on the menu for a dataflow where it can be renamed.

  7. Pilih ikon refresh untuk aliran data setelah memilih barisnya, dan setelah selesai, Anda akan melihat tabel Lakehouse baru Anda dibuat seperti yang dikonfigurasi di pengaturan Tujuan data.

    Screenshot showing the selection of the refresh button to refresh the dataflow.

  8. Periksa Lakehouse Anda untuk melihat tabel baru yang dimuat di sana.

Dalam modul kedua ini ke tutorial end-to-end kami untuk integrasi data pertama Anda menggunakan Data Factory di Microsoft Fabric, Anda mempelajari cara:

  • Buat Dataflow Gen2 baru.
  • Mengimpor dan mengubah data sampel.
  • Mengimpor dan mengubah data teks/CSV.
  • Gabungkan data dari kedua sumber data ke dalam kueri baru.
  • Mengubah data dan menghasilkan kolom baru dalam kueri.
  • Mengonfigurasi sumber tujuan output untuk kueri.
  • Ganti nama dan refresh aliran data baru Anda.

Lanjutkan ke bagian berikutnya sekarang untuk mengintegrasikan alur data Anda.