Tutorial: Mengubah data menggunakan aliran data pemetaan

Azure Data Factory Azure Synapse Analytics

Petunjuk / Saran

Data Factory di Microsoft Fabric adalah generasi Azure Data Factory berikutnya, dengan arsitektur yang lebih sederhana, AI bawaan, dan fitur baru. Jika Anda baru menggunakan integrasi data, mulailah dengan Fabric Data Factory. Beban kerja ADF yang ada dapat ditingkatkan ke Fabric untuk mengakses kemampuan baru di seluruh ilmu data, analitik real time, dan pelaporan.

Dalam tutorial ini, Anda menggunakan antarmuka pengguna (UX) Azure Data Factory untuk membuat alur yang menyalin dan mengubah data dari sumber Azure Data Lake Storage (ADLS) Gen2 ke sink ADLS Gen2 menggunakan aliran data pemetaan. Pola konfigurasi dalam tutorial ini dapat diperluas saat mentransformasikan data menggunakan alur data pemetaan

Tutorial ini dimaksudkan untuk memetakan aliran data secara umum. Aliran data tersedia baik di alur Azure Data Factory maupun Synapse. Jika Anda baru menggunakan aliran data di Alur Azure Synapse, ikuti Data Flow menggunakan Alur Azure Synapse.

Dalam tutorial ini, Anda melakukan tugas-tugas berikut:

  • Membuat pabrik data.
  • Buat alur dengan aktivitas Data Flow.
  • Bangun aliran data pemetaan dengan empat transformasi.
  • Uji coba jalur pipa.
  • Memantau aktivitas Data Flow

Prasyarat

  • langganan Azure. Jika Anda tidak memiliki langganan Azure, buat akun Azure free sebelum Memulai.
  • Azure Data Lake Storage Gen2 account. Anda menggunakan penyimpanan ADLS sebagai penyimpanan data sumber dan sink. Jika Anda tidak memiliki akun penyimpanan, lihat Buat akun penyimpanan Azure untuk langkah-langkah membuatnya.
  • Unduh MoviesDB.csv di sini. Untuk mengambil file dari GitHub, salin konten ke editor teks pilihan Anda untuk disimpan secara lokal sebagai file .csv. Unggah file ke akun penyimpanan Anda dalam kontainer bernama 'sample-data'.

Membuat pabrik data

Dalam langkah ini, Anda membuat sebuah data factory dan membuka antarmuka pengguna Data Factory untuk membuat pipeline di data factory.

  1. Buka Microsoft Edge atau Chrome. Saat ini, UI Data Factory hanya didukung di browser web Microsoft Edge dan Google Chrome.

  2. Di menu atas, pilih Buat sumber daya>Analitik>Pabrik Data :

    Pemilihan Data Factory di panel

  3. Di halaman Pabrik data baru, di bawah Nama, masukkan ADFTutorialDataFactory.

    Nama pabrik data Azure harus unik secara global. Jika Anda menerima pesan kesalahan tentang nilai nama, masukkan nama yang berbeda untuk pabrik data. (misalnya, yournameADFTutorialDataFactory). Untuk aturan penamaan artefak Data Factory, lihat artikel aturan penamaan Data Factory.

    Pesan kesalahan pabrik data baru untuk nama duplikat.

  4. Pilih Azure subscription tempat Anda ingin membuat pabrik data.

  5. Untuk Grup Sumber Daya, lakukan salah satu langkah berikut:

    1. Pilih Gunakan yang ada, lalu pilih grup sumber daya yang ada dari menu drop-down.

    2. Pilih Buat baru, lalu masukkan nama grup sumber daya.

    Untuk mempelajari tentang grup sumber daya, lihat Gunakan grup sumber daya untuk mengelola sumber daya Azure Anda.

  6. Di bawah Versi, pilih V2.

  7. Pada bagian Wilayah, pilih lokasi untuk pabrik data. Hanya lokasi yang didukung yang ditampilkan di daftar drop-down. Penyimpanan data (misalnya, Azure Storage dan SQL Database) dan komputasi (misalnya, Azure HDInsight) yang digunakan oleh pabrik data dapat berada di wilayah lain.

  8. Pilih Ulas + buat, lalu pilih Buat.

  9. Setelah pembuatan selesai, Anda akan melihat pemberitahuan di pusat Pemberitahuan. Pilih Buka halaman sumber daya untuk masuk ke halaman Data Factory.

  10. Pilih Luncurkan studio untuk meluncurkan studio Data Factory di tab terpisah.

Membuat alur dengan aktivitas Data Flow

Dalam langkah ini, Anda membuat alur yang berisi aktivitas Data Flow.

  1. Pada beranda Azure Data Factory, pilih Orchestrate.

    Screenshot yang memperlihatkan halaman beranda Azure Data Factory.

  2. Sekarang peluang terbuka untuk jalur baru. Di tab Umum untuk properti alur, masukkan TransformMovies untuk Nama alur.

  3. Di panel Aktivitas, perluas akordeon Pindah dan Transformasi. Seret dan letakkan aktivitas Data Flow dari panel ke kanvas alur.

    Screenshot yang menunjukkan kanvas alur tempat Anda dapat menjatuhkan aktivitas Data Flow.

  4. Beri nama aktivitas aliran data Anda DataFlow1.

  5. Di bilah atas kanvas alur kerja, geser slider Data Flow debug untuk mengaktifkan. Mode debug memungkinkan pengujian interaktif logika transformasi terhadap kluster Spark langsung. Data Flow kluster membutuhkan waktu 5-7 menit untuk pemanasan dan pengguna disarankan untuk mengaktifkan debug terlebih dahulu jika mereka berencana untuk melakukan pengembangan Data Flow. Untuk informasi selengkapnya, lihat Mode Debug.

    Cuplikan layar yang memperlihatkan sakelar untuk mengaktifkan debug aliran data.

Bangun logika transformasi di kanvas aliran data

Dalam langkah ini, Anda membangun aliran data yang mengambil moviesDB.csv dalam penyimpanan ADLS dan menggabungkan peringkat rata-rata komedi dari 1910 hingga 2000. Anda kemudian menulis file ini kembali ke penyimpanan ADLS.

  1. Di panel di bawah kanvas, buka Pengaturan aktivitas aliran data Anda dan pilih Baru, yang terletak di samping bidang aliran data. Ini membuka kanvas aliran data.

    Cuplikan layar memperlihatkan cara membuka editor aliran data dari editor alur.

  2. Di panel Properti di bawah Umum, beri nama aliran data Anda: TransformMovies.

  3. Di kanvas aliran data, tambahkan sumber dengan memilih kotak Tambahkan Sumber .

    Cuplikan layar yang memperlihatkan kotak Tambahkan Sumber.

  4. Beri nama sumber Anda MoviesDB. Klik Baru untuk membuat himpunan data sumber baru.

    Cuplikan layar yang memperlihatkan tempat Anda memilih Baru setelah memberi nama sumber data Anda.

  5. Pilih Azure Data Lake Storage Gen2. Pilih Lanjutkan.

    Screenshot yang menunjukkan di mana letaknya Azure Data Lake Storage Gen2 tile.

  6. Pilih DelimitedText. Pilih Lanjutkan.

    Cuplikan layar yang memperlihatkan petak peta DelimitedText.

  7. Beri nama himpunan data Anda MoviesDB. Di dropdown layanan tertaut, pilih Baru.

    Cuplikan layar yang memperlihatkan menu dropdown layanan yang ditautkan.

  8. Di layar pembuatan layanan yang ditautkan, beri nama layanan tertaut ADLS gen2 Anda ADLSGen2 dan tentukan metode autentikasi Anda. Lalu masukkan informasi masuk koneksi Anda. Dalam tutorial ini, kami menggunakan Kunci akun untuk terhubung ke akun penyimpanan kami. Anda dapat memilih Uji koneksi untuk memverifikasi kredensial Anda dimasukkan dengan benar. Pilih Buat setelah selesai.

    Cuplikan layar panel untuk membuat layanan tertaut yang baru untuk Azure Data Lake Storage.

  9. Setelah Anda kembali ke layar pembuatan himpunan data, masukkan lokasi file Anda di bawah bidang Jalur file. Dalam tutorial ini, file moviesDB.csv terletak di sampel-data kontainer. Saat file memiliki header, centang Baris pertama sebagai header. Pilih Dari koneksi/penyimpanan untuk mengimpor skema header langsung dari file dalam penyimpanan. Pilih OK setelah selesai.

    Cuplikan layar panel untuk membuat himpunan data.

  10. Jika kluster debug Anda telah dimulai, buka tab Pratinjau Data dari transformasi sumber dan pilih Refresh untuk mendapatkan rekam jepret data. Anda dapat menggunakan pratinjau data untuk memverifikasi bahwa transformasi Anda dikonfigurasi dengan benar.

    Cuplikan layar yang memperlihatkan tempat Anda dapat mempratinjau data untuk memverifikasi bahwa transformasi Anda dikonfigurasi dengan benar.

  11. Di samping simpul sumber Anda pada kanvas aliran data, klik ikon plus untuk menambahkan transformasi baru. Transformasi pertama yang Anda tambahkan adalah Filter.

    Cuplikan layar kanvas aliran data.

  12. Beri nama filter transformasi Anda FilterYears. Pilih kotak ekspresi di samping Filter aktif lalu Buka penyusun ekspresi. Di sini Anda menentukan kondisi pemfilteran Anda.

    Cuplikan layar yang memperlihatkan kotak Filter pada ekspresi.

  13. Penyusun ekspresi aliran data memungkinkan Anda membangun ekspresi secara interaktif yang digunakan dalam berbagai transformasi. Ekspresi dapat menyertakan fungsi bawaan, kolom dari skema input, dan parameter yang ditentukan pengguna. Untuk informasi selengkapnya tentang cara membuat ekspresi, lihat penyusun ekspresi Data Flow.

    Dalam tutorial ini, Anda ingin memfilter film genre komedi yang keluar antara tahun 1910 dan 2000. Karena tahun saat ini adalah untai (karakter), Anda perlu mengonversinya menjadi bilangan bulat menggunakan fungsi toInteger(). Gunakan operator yang lebih besar dari atau sama dengan (>=) dan lebih kecil dari atau sama dengan (<=) untuk membandingkan dengan nilai tahun harfiah 1910 dan 2000. Gabungkan ekspresi-ekspresi ini dengan operator &&. Ekspresi akan keluar sebagai:

    toInteger(year) >= 1910 && toInteger(year) <= 2000

    Untuk menemukan film mana yang merupakan komedi, Anda dapat menggunakan fungsi rlike() untuk menemukan pola 'Komedi' dalam genre kolom. Satukan ekspresi rlike dengan perbandingan tahun untuk mendapatkan:

    toInteger(year) >= 1910 && toInteger(year) <= 2000 && rlike(genres, 'Comedy')

    Jika Anda memiliki kluster debug aktif, Anda dapat memverifikasi logika Anda dengan memilih Refresh untuk melihat output ekspresi dibandingkan dengan input yang digunakan. Ada lebih dari satu jawaban yang tepat tentang bagaimana Anda dapat menyelesaikan logika ini menggunakan bahasa ekspresi aliran data.

    Cuplikan layar penyusun ekspresi filter.

    Pilih Simpan dan Selesai setelah Anda selesai dengan ekspresi Anda.

  14. Ambil Pratinjau Data untuk memverifikasi bahwa filter berfungsi dengan benar.

    Cuplikan layar yang memperlihatkan Pratinjau Data yang Anda ambil.

  15. Transformasi berikutnya yang akan Anda tambahkan adalah transformasi Agregat di bawah pengubah Skema.

    Cuplikan layar yang memperlihatkan pengubah skema agregat.

  16. Beri nama transformasi agregat Anda AggregateComedyRatings. Di tab Kelompokkan menurut, pilih tahun dari dropdown untuk mengelompokkan agregasi menurut tahun film yang telah keluar.

    Cuplikan layar yang memperlihatkan opsi tahun di tab Kelompokkan menurut di bawah Pengaturan Agregat.

  17. Masuk ke tab Agregat. Di kotak teks kiri, beri nama kolom agregat AverageComedyRating. Pilih kotak ekspresi kanan untuk memasukkan ekspresi agregat melalui pembuat ekspresi.

    Cuplikan layar yang memperlihatkan opsi tahun di tab Agregat di bawah Pengaturan Agregat.

  18. Untuk mendapatkan rata-rata kolom Peringkat, gunakan avg() fungsi agregat. Karena Peringkat adalah untai (karakter) dan avg() mengambil input numerik, kita harus mengonversi nilai ke angka melalui fungsi toInteger(). Ekspresi ini terlihat seperti:

    avg(toInteger(Rating))

    Pilih Simpan dan Selesai setelah selesai.

    Cuplikan layar yang memperlihatkan ekspresi tersimpan.

  19. Masuk ke tab Pratinjau Data untuk melihat output transformasi. Perhatikan hanya dua kolom yang ada di sana, tahun dan AverageComedyRating.

    Cuplikan layar yang memperlihatkan pratinjau agregat.

  20. Selanjutnya, Anda ingin menambahkan transformasi Sink di bawah Tujuan.

    Cuplikan layar yang memperlihatkan tempat untuk menambahkan transformasi penampung pada Destinasi.

  21. Beri nama sink Anda Sink. Klik Baru untuk membuat himpunan data sink Anda.

    Cuplikan layar yang memperlihatkan tempat Anda dapat memberi nama sink Anda dan membuat kumpulan data sink baru.

  22. Pilih Azure Data Lake Storage Gen2. Pilih Lanjutkan.

    Screenshot yang memperlihatkan petak peta Azure Data Lake Storage Gen2 yang dapat Anda pilih.

  23. Pilih DelimitedText. Pilih Lanjutkan.

    Cuplikan layar panel untuk memilih jenis himpunan data.

  24. Beri nama dataset sink Anda MoviesSink. Untuk layanan tertaut, pilih layanan tertaut ADLS gen2 yang Anda buat di langkah 6. Masukkan folder output untuk menulis data Anda. Dalam tutorial ini, kita menulis ke folder 'output' dalam kontainer 'sample-data'. Folder tidak perlu ada sebelumnya dan dapat dibuat secara dinamis. Atur Baris pertama sebagai header ke true dan pilih Tidak ada untuk Skema impor. Pilih Selesai.

    Cuplikan layar halaman pembuatan sink dengan baris pertama dipilih sebagai header.

Sekarang Anda sudah selesai membangun aliran data Anda. Anda siap untuk menjalankannya pada pipeline.

Menjalankan dan memantau Data Flow

Anda dapat men-debug alur sebelum memublikasikannya. Dalam langkah ini, Anda akan memicu proses debug dari pipeline aliran data. Meskipun pratinjau data tidak menulis data, menjalankan debug menulis data ke tujuan keluaran Anda.

  1. Pergi ke kanvas alur. Klik Debug untuk memicu eksekusi debug.

    Cuplikan layar yang memperlihatkan kanvas alur dengan Debug disorot.

  2. Debug alur aktivitas Data Flow menggunakan kluster debug aktif tetapi masih membutuhkan waktu setidaknya satu menit untuk diinisialisasi. Anda dapat melacak kemajuan melalui tab Output . Setelah eksekusi berhasil, arahkan mouse ke atas eksekusi dan pilih ikon kacamata untuk membuka panel pemantauan.

    Cuplikan layar status alur yang telah selesai, dengan tindakan output disorot.

  3. Di panel pemantauan, pilih tombol Tahapan untuk melihat jumlah baris dan waktu yang dihabiskan di setiap langkah transformasi.

    Cuplikan layar yang memperlihatkan panel pemantauan dengan tombol Tahapan disorot.

    Cuplikan layar panel pemantauan tempat Anda dapat melihat jumlah baris dan waktu yang dihabiskan di setiap langkah transformasi.

  4. Klik transformasi untuk mendapatkan informasi terperinci tentang kolom dan pemartisian data.

    Cuplikan layar panel transformasi pemantauan.

Jika Anda mengikuti tutorial ini dengan benar, Anda seharusnya sudah menulis 83 baris dan 2 kolom ke dalam folder sink Anda. Anda dapat memverifikasi bahwa data sudah benar dengan memeriksa penyimpanan blob Anda.

Alur dalam tutorial ini menjalankan aliran data yang menggabungkan peringkat rata-rata komedi dari 1910 hingga 2000 dan menulis data ke ADLS. Anda mempelajari cara untuk:

  • Membuat pabrik data.
  • Buat alur dengan aktivitas Data Flow.
  • Bangun aliran data pemetaan dengan empat transformasi.
  • Uji coba jalur pipa.
  • Memantau aktivitas Data Flow

Pelajari selengkapnya tentang bahasa ekspresi aliran data.