Modul 2: Mengubah data dengan aliran data di Data Factory
Modul ini membutuhkan waktu sekitar 25 menit untuk membuat aliran data, menerapkan transformasi, dan memindahkan data mentah dari tabel Perunggu ke tabel Gold Lakehouse.
Dengan data mentah yang dimuat ke dalam tabel Bronze Lakehouse Anda dari modul terakhir, Anda sekarang dapat menyiapkan data tersebut dan memperkayanya dengan menggabungkannya dengan tabel lain yang berisi diskon untuk setiap vendor dan perjalanan mereka selama hari tertentu. Tabel Gold Lakehouse akhir ini dimuat dan siap untuk dikonsumsi.
Langkah-langkah tingkat tinggi dalam aliran data adalah sebagai berikut:
- Dapatkan data mentah dari tabel Lakehouse yang dibuat oleh aktivitas Salin di Modul 1: Buat alur dengan Data Factory.
- Ubah data yang diimpor dari tabel Lakehouse.
- Koneksi ke file CSV yang berisi data diskon.
- Mengubah data diskon.
- Menggabungkan data perjalanan dan diskon.
- Muat kueri output ke dalam tabel Gold Lakehouse.
Mendapatkan data dari tabel Lakehouse
Dari bar samping, pilih Buat, lalu Aliran Data Gen2 untuk membuat aliran data baru gen2.
Dari menu aliran data baru, pilih Dapatkan data, lalu Lainnya....
Cari dan pilih konektor Lakehouse .
Dialog Koneksi ke sumber data muncul, dan koneksi baru secara otomatis dibuat untuk Anda berdasarkan pengguna yang saat ini masuk. Pilih Selanjutnya.
Dialog Pilih data ditampilkan. Gunakan panel navigasi untuk menemukan Lakehouse yang Anda buat untuk tujuan di modul sebelumnya, dan pilih tabel data Tutorial_Lakehouse .
(Opsional) Setelah kanvas Anda diisi dengan data, Anda dapat mengatur informasi profil kolom, karena ini berguna untuk pembuatan profil data. Anda dapat menerapkan transformasi yang tepat dan menargetkan nilai data yang tepat berdasarkan transformasi tersebut.
Untuk melakukan ini, pilih Opsi dari panel pita, lalu pilih tiga opsi pertama di bawah Profil kolom, lalu pilih OK.
Mengubah data yang diimpor dari Lakehouse
Pilih ikon tipe data di header kolom kedua, IpepPickupDatetime, untuk menampilkan menu dropdown dan pilih tipe data dari menu untuk mengonversi kolom dari jenis Tanggal/Waktu ke Tanggal .
(Opsional) Pada tab Beranda pita, pilih opsi Pilih kolom dari grup Kelola kolom .
(Opsional) Pada dialog Pilih kolom , batal pilih beberapa kolom yang tercantum di sini, lalu pilih OK.
- lpepDropoffDatetime
- puLocationId
- doLocationId
- pickupLatitude
- dropoffLongitude
- rateCodeID
Pilih menu tarik-turun kolom storeAndFwdFlag dan urutkan. (Jika Anda melihat peringatan Daftar mungkin tidak lengkap, pilih Muat lebih banyak untuk melihat semua data.)
Pilih 'Y' untuk memperlihatkan hanya baris tempat diskon diterapkan, lalu pilih OK.
Pilih menu dropdown pengurutan dan filter kolom IpepPickupDatetime, lalu pilih Filter tanggal, dan pilih filter Antara... yang disediakan untuk jenis Tanggal dan Tanggal/Waktu.
Dalam dialog Filter baris, pilih tanggal antara 1 Januari 2015, dan 31 Januari 2015, lalu pilih OK.
Koneksi ke file CSV yang berisi data diskon
Sekarang, dengan data dari perjalanan di tempat, kami ingin memuat data yang berisi diskon masing-masing untuk setiap hari dan VendorID, dan menyiapkan data sebelum menggabungkannya dengan data perjalanan.
Dari tab Beranda di menu editor aliran data, pilih opsi Dapatkan data , lalu pilih Teks/CSV.
Pada dialog Koneksi ke sumber data, berikan detail berikut:
- Jalur file atau URL -
https://raw.githubusercontent.com/ekote/azure-architect/master/Generated-NYC-Taxi-Green-Discounts.csv
- Jenis autentikasi - Anonim
Kemudian pilih Berikutnya.
- Jalur file atau URL -
Pada dialog Pratinjau data file, pilih Buat.
Mengubah data diskon
Meninjau data, kita melihat header tampaknya berada di baris pertama. Promosikan ke header dengan memilih menu konteks tabel di kiri atas area kisi pratinjau untuk memilih Gunakan baris pertama sebagai header.
Catatan
Setelah mempromosikan header, Anda bisa melihat langkah baru yang ditambahkan ke panel Langkah yang diterapkan di bagian atas editor aliran data ke jenis data kolom Anda.
Klik kanan kolom VendorID, dan dari menu konteks yang ditampilkan, pilih opsi Batalkan pivot kolom lain. Ini memungkinkan Anda mengubah kolom menjadi pasangan atribut-nilai, di mana kolom menjadi baris.
Dengan tabel tidak dipivot, ganti nama kolom Atribut dan Nilai dengan mengklik dua kali dan mengubah Atribut menjadi Tanggal dan Nilai menjadi Diskon.
Ubah tipe data kolom Tanggal dengan memilih menu tipe data di sebelah kiri nama kolom dan pilih Tanggal.
Pilih kolom Diskon lalu pilih tab Transformasi pada menu. Pilih Kolom angka, lalu pilih Transformasi numerik standar dari submenu, dan pilih Bagi.
Pada dialog Bagi, masukkan nilai 100.
Menggabungkan data perjalanan dan diskon
Langkah selanjutnya adalah menggabungkan kedua tabel ke dalam satu tabel yang memiliki diskon yang harus diterapkan pada perjalanan, dan total yang disesuaikan.
Pertama, alihkan tombol tampilan Diagram sehingga Anda dapat melihat kedua kueri Anda.
Pilih kueri nyc_taxi, dan pada tab Beranda, Pilih menu Gabungkan dan pilih Gabungkan kueri, lalu Gabungkan kueri sebagai baru.
Pada dialog Gabungkan, pilih Generated-NYC-Taxi-Green-Discounts dari tabel Kanan untuk penggabungan drop down, lalu pilih ikon "bola lampu" di kanan atas dialog untuk melihat pemetaan kolom yang disarankan di antara kedua tabel.
Pilih masing-masing dari dua pemetaan kolom yang disarankan, satu per satu, memetakan kolom VendorID dan tanggal dari kedua tabel. Saat kedua pemetaan ditambahkan, header kolom yang cocok disorot di setiap tabel.
Pesan ditampilkan yang meminta Anda untuk mengizinkan penggandaan data dari beberapa sumber data untuk melihat hasilnya. Pilih OK pada dialog Gabungkan .
Di area tabel, Anda awalnya akan melihat peringatan bahwa "Evaluasi dibatalkan karena menggabungkan data dari beberapa sumber dapat mengungkapkan data dari satu sumber ke sumber lain. Pilih lanjutkan jika kemungkinan mengungkapkan data baik-baik saja." Pilih Lanjutkan untuk menampilkan data gabungan.
Perhatikan bagaimana kueri baru dibuat dalam tampilan Diagram memperlihatkan hubungan kueri Gabungkan baru dengan dua kueri yang sebelumnya Anda buat. Melihat panel tabel editor, gulir ke sebelah kanan daftar Gabungkan kolom kueri untuk melihat kolom baru dengan nilai tabel ada. Ini adalah kolom "Generated NYC Taxi-Green-Discounts", dan jenisnya adalah [Table]. Di header kolom ada ikon dengan dua panah yang berlawanan arah, memungkinkan Anda memilih kolom dari tabel. Batalkan pilihan semua kolom kecuali Diskon, lalu pilih OK.
Dengan nilai diskon sekarang di tingkat baris, kita dapat membuat kolom baru untuk menghitung jumlah total setelah diskon. Untuk melakukannya, pilih tab Tambahkan kolom di bagian atas editor, dan pilih Kolom kustom dari grup Umum .
Pada dialog Kolom kustom, Anda bisa menggunakan bahasa rumus Power Query (juga dikenal sebagai M) untuk menentukan bagaimana kolom baru Anda harus dihitung. Masukkan TotalAfterDiscount untuk nama kolom Baru, pilih Mata Uang untuk Jenis data, dan berikan ekspresi M berikut untuk rumus kolom Kustom:
if [totalAmount] > 0 then [totalAmount] * ( 1 -[Discount] ) else [totalAmount]
Kemudian pilih OK.
Pilih kolom TotalAfterDiscount yang baru dibuat lalu pilih tab Transformasi di bagian atas jendela editor. Pada grup Kolom angka, pilih menu drop-down Pembulatan lalu pilih Putar....
Pada dialog Putar, masukkan 2 untuk jumlah tempat desimal lalu pilih OK.
Ubah jenis data IpepPickupDatetime dari Tanggal ke Tanggal/Waktu.
Terakhir, perluas panel Pengaturan kueri dari sisi kanan editor jika belum diperluas, dan ganti nama kueri dari Gabungkan ke Output.
Memuat kueri output ke tabel di Lakehouse
Dengan kueri output sekarang sepenuhnya disiapkan dan dengan data siap untuk output, kita dapat menentukan tujuan output untuk kueri.
Pilih kueri Penggabungan output yang dibuat sebelumnya. Lalu pilih tab Beranda di editor, dan Tambahkan tujuan data dari pengelompokan Kueri , untuk memilih tujuan Lakehouse .
Pada dialog Koneksi ke tujuan data, koneksi Anda harus sudah dipilih. Untuk melanjutkan, klik Berikutnya.
Pada dialog Pilih target tujuan, telusuri ke Lakehouse tempat Anda ingin memuat data dan beri nama tabel baru nyc_taxi_with_discounts, lalu pilih Berikutnya lagi.
Pada dialog Pilih pengaturan tujuan, biarkan metode Ganti pembaruan default, periksa kembali apakah kolom Anda dipetakan dengan benar, dan pilih Simpan pengaturan.
Kembali ke jendela editor utama, konfirmasikan bahwa Anda melihat tujuan output Anda di panel Pengaturan kueri untuk tabel Output, lalu pilih Terbitkan.
Penting
Ketika Dataflow Gen2 pertama dibuat di ruang kerja, item Lakehouse dan Warehouse disediakan bersama dengan titik akhir analitik SQL terkait dan model semantik. Item ini dibagikan oleh semua aliran data di ruang kerja dan diperlukan agar Dataflow Gen2 beroperasi, tidak boleh dihapus, dan tidak dimaksudkan untuk digunakan langsung oleh pengguna. Item adalah detail implementasi Dataflow Gen2. Item tidak terlihat di ruang kerja, tetapi mungkin dapat diakses dalam pengalaman lain seperti pengalaman Notebook, SQL-endpoint, Lakehouse, dan Warehouse. Anda dapat mengenali item dengan awalannya dalam nama. Awalan item adalah 'DataflowsStaging'.
(Opsional) Pada halaman ruang kerja, Anda dapat mengganti nama aliran data dengan memilih elipsis di sebelah kanan nama aliran data yang muncul setelah Anda memilih baris, dan memilih Properti.
Pilih ikon refresh untuk aliran data setelah memilih barisnya, dan setelah selesai, Anda akan melihat tabel Lakehouse baru Anda dibuat seperti yang dikonfigurasi di pengaturan Tujuan data.
Periksa Lakehouse Anda untuk melihat tabel baru yang dimuat di sana.
Konten terkait
Dalam modul kedua ini ke tutorial end-to-end kami untuk integrasi data pertama Anda menggunakan Data Factory di Microsoft Fabric, Anda mempelajari cara:
- Buat Dataflow Gen2 baru.
- Mengimpor dan mengubah data sampel.
- Mengimpor dan mengubah data teks/CSV.
- Gabungkan data dari kedua sumber data ke dalam kueri baru.
- Mengubah data dan menghasilkan kolom baru dalam kueri.
- Mengonfigurasi sumber tujuan output untuk kueri.
- Ganti nama dan refresh aliran data baru Anda.
Lanjutkan ke bagian berikutnya sekarang untuk mengintegrasikan alur data Anda.