Bagikan melalui


Tutorial: Mengubah data menggunakan aliran data pemetaan

BERLAKU UNTUK: Azure Data Factory Azure Synapse Analytics

Petunjuk / Saran

Cobalah Data Factory di Microsoft Fabric, solusi analitik all-in-one untuk perusahaan. Microsoft Fabric mencakup semuanya mulai dari pergerakan data hingga ilmu data, analitik real time, kecerdasan bisnis, dan pelaporan. Pelajari cara memulai uji coba baru secara gratis!

Dalam tutorial ini, Anda menggunakan antarmuka pengguna Azure Data Factory (UX) untuk membuat alur yang menyalin dan mengubah data dari sumber Azure Data Lake Storage (ADLS) Gen2 ke sink ADLS Gen2 menggunakan aliran data pemetaan. Pola konfigurasi dalam tutorial ini dapat diperluas saat mentransformasikan data menggunakan alur data pemetaan

Tutorial ini dimaksudkan untuk memetakan aliran data secara umum. Aliran data tersedia baik di Azure Data Factory maupun Pipelines Synapse. Jika Anda baru menggunakan aliran data di Alur Azure Synapse, ikuti Aliran Data menggunakan Alur Azure Synapse.

Dalam tutorial ini, Anda melakukan tugas-tugas berikut:

  • Membuat pabrik data.
  • Buat alur dengan aktivitas Aliran Data.
  • Bangun aliran data pemetaan dengan empat transformasi.
  • Uji coba jalur pipa.
  • Memantau aktivitas Aliran Data

Prasyarat

  • Langganan Azure. Jika tidak memiliki langganan Azure, buat akun Azure gratis sebelum Anda memulai.
  • Akun Azure Data Lake Storage Gen2. Anda menggunakan penyimpanan ADLS sebagai penyimpanan data sumber dan sink. Jika Anda tidak memiliki akun penyimpanan Azure, lihat artikel Membuat akun penyimpanan Azure untuk langkah-langkah pembuatannya.
  • Unduh MoviesDB.csv di sini. Untuk mengambil file dari GitHub, salin konten ke editor teks pilihan Anda untuk disimpan secara lokal sebagai file .csv. Unggah file ke akun penyimpanan Anda dalam kontainer bernama 'sample-data'.

Membuat pabrik data

Dalam langkah ini, Anda membuat sebuah data factory dan membuka antarmuka pengguna Data Factory untuk membuat pipeline di data factory.

  1. Buka Microsoft Edge atau Google Chrome. Saat ini, antarmuka pengguna Data Factory hanya didukung di browser web Microsoft Azure Stack Edge dan Google Chrome.

  2. Di menu atas, pilih Buat sumber daya>Analitik>Pabrik Data :

    Pemilihan Data Factory di panel

  3. Di halaman Pabrik data baru, di bawah Nama, masukkan ADFTutorialDataFactory.

    Nama pabrik data Azure harus bersifat unik secara global. Jika Anda menerima pesan kesalahan tentang nilai nama, masukkan nama yang berbeda untuk pabrik data. (misalnya, yournameADFTutorialDataFactory). Untuk aturan penamaan artefak Data Factory, lihat artikel aturan penamaan Data Factory.

    Pesan kesalahan pabrik data baru untuk nama duplikat.

  4. Pilih langganan Azure di mana Anda ingin membuat pabrik data.

  5. Untuk Grup Sumber Daya, lakukan salah satu langkah berikut:

    1. Pilih Gunakan yang ada, lalu pilih grup sumber daya yang ada dari menu drop-down.

    2. Pilih Buat baru, lalu masukkan nama grup sumber daya.

    Untuk mempelajari grup sumber daya, lihat Menggunakan grup sumber daya untuk mengelola sumber daya Azure Anda.

  6. Di bawah Versi, pilih V2.

  7. Pada bagian Wilayah, pilih lokasi untuk pabrik data. Hanya lokasi yang didukung yang ditampilkan di daftar drop-down. Penyimpanan data (misalnya, Azure Storage dan SQL Database) dan komputasi (misalnya, Azure HDInsight) yang digunakan oleh pabrik data dapat berada di wilayah lain.

  8. Pilih Ulas + buat, lalu pilih Buat.

  9. Setelah pembuatan selesai, Anda akan melihat pemberitahuan di pusat Pemberitahuan. Pilih Buka halaman sumber daya untuk masuk ke halaman Data Factory.

  10. Pilih Luncurkan studio untuk meluncurkan studio Data Factory di tab terpisah.

Buat alur dengan aktivitas Aliran Data

Dalam langkah ini, Anda membuat alur yang berisi aktivitas Aliran Data.

  1. Di halaman beranda Azure Data Factory, pilih Orchestrate.

    Cuplikan layar yang memperlihatkan beranda Azure Data Factory.

  2. Sekarang peluang terbuka untuk jalur baru. Di tab Umum untuk properti alur, masukkan TransformMovies untuk Nama alur.

  3. Di panel Aktivitas, perluas akordeon Pindah dan Transformasi. Seret dan lepaskan aktivitas Aliran Data dari panel ke kanvas pipeline.

    Cuplikan layar yang memperlihatkan kanvas alur tempat Anda bisa meletakkan aktivitas Aliran Data.

  4. Beri nama aktivitas aliran data Anda DataFlow1.

  5. Di bilah atas kanvas alur, geser penggeser debug Aliran Data untuk menyalakannya. Mode debug memungkinkan pengujian interaktif logika transformasi terhadap kluster Spark langsung. Kluster Aliran Data membutuhkan waktu pemanasan 5-7 menit dan pengguna disarankan untuk mengaktifkan debug terlebih dahulu jika berencana untuk melakukan pengembangan Aliran Data. Untuk informasi selengkapnya, lihat Mode Debug.

    Cuplikan layar yang memperlihatkan sakelar untuk mengaktifkan debug aliran data.

Bangun logika transformasi di kanvas aliran data

Dalam langkah ini, Anda membangun aliran data yang mengambil moviesDB.csv dalam penyimpanan ADLS dan menggabungkan peringkat rata-rata komedi dari 1910 hingga 2000. Anda kemudian menulis file ini kembali ke penyimpanan ADLS.

  1. Di panel di bawah kanvas, buka Pengaturan aktivitas aliran data Anda dan pilih Baru, yang terletak di samping bidang aliran data. Ini membuka kanvas aliran data.

    Cuplikan layar memperlihatkan cara membuka editor aliran data dari editor alur.

  2. Di panel Properti di bawah Umum, beri nama aliran data Anda: TransformMovies.

  3. Di kanvas aliran data, tambahkan sumber dengan memilih kotak Tambahkan Sumber .

    Cuplikan layar yang memperlihatkan kotak Tambahkan Sumber.

  4. Beri nama sumber Anda MoviesDB. Klik Baru untuk membuat himpunan data sumber baru.

    Cuplikan layar yang memperlihatkan tempat Anda memilih Baru setelah memberi nama sumber data Anda.

  5. Pilih Azure Data Lake Storage Gen2. Pilih Lanjutkan.

    Cuplikan layar yang memperlihatkan lokasi ubin Azure Data Lake Storage Gen2.

  6. Pilih DelimitedText. Pilih Lanjutkan.

    Cuplikan layar yang memperlihatkan petak peta DelimitedText.

  7. Beri nama himpunan data Anda MoviesDB. Di dropdown layanan tertaut, pilih Baru.

    Cuplikan layar yang memperlihatkan menu dropdown layanan yang ditautkan.

  8. Di layar pembuatan layanan yang ditautkan, beri nama layanan tertaut ADLS gen2 Anda ADLSGen2 dan tentukan metode autentikasi Anda. Lalu masukkan informasi masuk koneksi Anda. Dalam tutorial ini, kami menggunakan Kunci akun untuk terhubung ke akun penyimpanan kami. Anda dapat memilih Uji koneksi untuk memverifikasi kredensial Anda dimasukkan dengan benar. Pilih Buat setelah selesai.

    Cuplikan layar panel untuk membuat layanan tertaut baru untuk Azure Data Lake Storage.

  9. Setelah Anda kembali ke layar pembuatan himpunan data, masukkan lokasi file Anda di bawah bidang Jalur file. Dalam tutorial ini, file moviesDB.csv terletak di sampel-data kontainer. Saat file memiliki header, centang Baris pertama sebagai header. Pilih Dari koneksi/penyimpanan untuk mengimpor skema header langsung dari file dalam penyimpanan. Pilih OK setelah selesai.

    Cuplikan layar panel untuk membuat himpunan data.

  10. Jika kluster debug Anda telah dimulai, buka tab Pratinjau Data dari transformasi sumber dan pilih Refresh untuk mendapatkan rekam jepret data. Anda dapat menggunakan pratinjau data untuk memverifikasi bahwa transformasi Anda dikonfigurasi dengan benar.

    Cuplikan layar yang memperlihatkan tempat Anda dapat mempratinjau data untuk memverifikasi bahwa transformasi Anda dikonfigurasi dengan benar.

  11. Di samping simpul sumber Anda pada kanvas aliran data, klik ikon plus untuk menambahkan transformasi baru. Transformasi pertama yang Anda tambahkan adalah Filter.

    Cuplikan layar kanvas aliran data.

  12. Beri nama filter transformasi Anda FilterYears. Pilih kotak ekspresi di samping Filter aktif lalu Buka penyusun ekspresi. Di sini Anda menentukan kondisi pemfilteran Anda.

    Cuplikan layar yang memperlihatkan kotak Filter pada ekspresi.

  13. Penyusun ekspresi aliran data memungkinkan Anda membangun ekspresi secara interaktif yang digunakan dalam berbagai transformasi. Ekspresi dapat menyertakan fungsi bawaan, kolom dari skema input, dan parameter yang ditentukan pengguna. Untuk informasi selengkapnya tentang cara menyusun ekspresi, lihat Penyusun ekspresi Aliran Data.

    Dalam tutorial ini, Anda ingin memfilter film genre komedi yang keluar antara tahun 1910 dan 2000. Karena tahun saat ini adalah untai (karakter), Anda perlu mengonversinya menjadi bilangan bulat menggunakan fungsi toInteger(). Gunakan operator yang lebih besar dari atau sama dengan (>=) dan lebih kecil dari atau sama dengan (<=) untuk membandingkan dengan nilai tahun harfiah 1910 dan 2000. Gabungkan ekspresi-ekspresi ini dengan operator &&. Ekspresi akan keluar sebagai:

    toInteger(year) >= 1910 && toInteger(year) <= 2000

    Untuk menemukan film mana yang merupakan komedi, Anda dapat menggunakan fungsi rlike() untuk menemukan pola 'Komedi' dalam genre kolom. Satukan ekspresi rlike dengan perbandingan tahun untuk mendapatkan:

    toInteger(year) >= 1910 && toInteger(year) <= 2000 && rlike(genres, 'Comedy')

    Jika Anda memiliki kluster debug aktif, Anda dapat memverifikasi logika Anda dengan memilih Refresh untuk melihat output ekspresi dibandingkan dengan input yang digunakan. Ada lebih dari satu jawaban yang tepat tentang bagaimana Anda dapat menyelesaikan logika ini menggunakan bahasa ekspresi aliran data.

    Cuplikan layar penyusun ekspresi filter.

    Pilih Simpan dan Selesai setelah Anda selesai dengan ekspresi Anda.

  14. Ambil Pratinjau Data untuk memverifikasi bahwa filter berfungsi dengan benar.

    Cuplikan layar yang memperlihatkan Pratinjau Data yang Anda ambil.

  15. Transformasi berikutnya yang akan Anda tambahkan adalah transformasi Agregat di bawah pengubah Skema.

    Cuplikan layar yang memperlihatkan pengubah skema agregat.

  16. Beri nama transformasi agregat Anda AggregateComedyRatings. Di tab Kelompokkan menurut, pilih tahun dari dropdown untuk mengelompokkan agregasi menurut tahun film yang telah keluar.

    Cuplikan layar yang memperlihatkan opsi tahun di tab Kelompokkan menurut di bawah Pengaturan Agregat.

  17. Masuk ke tab Agregat. Di kotak teks kiri, beri nama kolom agregat AverageComedyRating. Pilih kotak ekspresi kanan untuk memasukkan ekspresi agregat melalui pembuat ekspresi.

    Cuplikan layar yang memperlihatkan opsi tahun di tab Agregat di bawah Pengaturan Agregat.

  18. Untuk mendapatkan rata-rata kolom Peringkat, gunakan avg() fungsi agregat. Karena Peringkat adalah untai (karakter) dan avg() mengambil input numerik, kita harus mengonversi nilai ke angka melalui fungsi toInteger(). Ekspresi ini terlihat seperti:

    avg(toInteger(Rating))

    Pilih Simpan dan Selesai setelah selesai.

    Cuplikan layar yang memperlihatkan ekspresi tersimpan.

  19. Masuk ke tab Pratinjau Data untuk melihat output transformasi. Perhatikan hanya dua kolom yang ada di sana, tahun dan AverageComedyRating.

    Cuplikan layar yang memperlihatkan pratinjau agregat.

  20. Selanjutnya, Anda ingin menambahkan transformasi Sink di bawah Tujuan.

    Cuplikan layar yang memperlihatkan tempat untuk menambahkan transformasi penampung pada Destinasi.

  21. Beri nama sink Anda Sink. Klik Baru untuk membuat himpunan data sink Anda.

    Cuplikan layar yang memperlihatkan tempat Anda dapat memberi nama sink Anda dan membuat kumpulan data sink baru.

  22. Pilih Azure Data Lake Storage Gen2. Pilih Lanjutkan.

    Cuplikan layar yang memperlihatkan ubinan Azure Data Lake Storage Gen2 yang dapat Anda pilih.

  23. Pilih DelimitedText. Pilih Lanjutkan.

    Cuplikan layar panel untuk memilih jenis himpunan data.

  24. Beri nama dataset sink Anda MoviesSink. Untuk layanan tertaut, pilih layanan tertaut ADLS gen2 yang Anda buat di langkah 6. Masukkan folder output untuk menulis data Anda. Dalam tutorial ini, kita menulis ke folder 'output' dalam kontainer 'sample-data'. Folder tidak perlu ada sebelumnya dan dapat dibuat secara dinamis. Atur Baris pertama sebagai header ke true dan pilih Tidak ada untuk Skema impor. Pilih Selesai.

    Cuplikan layar halaman pembuatan sink dengan baris pertama dipilih sebagai header.

Sekarang Anda sudah selesai membangun aliran data Anda. Anda siap untuk menjalankannya pada pipeline.

Menjalankan dan memantau Aliran Data

Anda dapat men-debug alur sebelum memublikasikannya. Dalam langkah ini, Anda akan memicu proses debug dari pipeline aliran data. Meskipun pratinjau data tidak menulis data, menjalankan debug menulis data ke tujuan keluaran Anda.

  1. Pergi ke kanvas alur. Klik Debug untuk memicu eksekusi debug.

    Cuplikan layar yang memperlihatkan kanvas alur dengan Debug disorot.

  2. Debug pipeline aktivitas Aliran Data menggunakan kluster debug aktif, tetapi masih membutuhkan waktu setidaknya satu menit untuk menginisialisasi. Anda dapat melacak kemajuan melalui tab Output . Setelah eksekusi berhasil, arahkan mouse ke atas eksekusi dan pilih ikon kacamata untuk membuka panel pemantauan.

    Cuplikan layar status alur yang telah selesai, dengan tindakan output disorot.

  3. Di panel pemantauan, pilih tombol Tahapan untuk melihat jumlah baris dan waktu yang dihabiskan di setiap langkah transformasi.

    Cuplikan layar yang memperlihatkan panel pemantauan dengan tombol Tahapan disorot.

    Cuplikan layar panel pemantauan tempat Anda dapat melihat jumlah baris dan waktu yang dihabiskan di setiap langkah transformasi.

  4. Klik transformasi untuk mendapatkan informasi terperinci tentang kolom dan pemartisian data.

    Cuplikan layar panel transformasi pemantauan.

Jika Anda mengikuti tutorial ini dengan benar, Anda seharusnya sudah menulis 83 baris dan 2 kolom ke dalam folder sink Anda. Anda dapat memverifikasi bahwa data sudah benar dengan memeriksa penyimpanan blob Anda.

Alur dalam tutorial ini menjalankan aliran data yang menggabungkan peringkat rata-rata komedi dari 1910 hingga 2000 dan menulis data ke ADLS. Anda mempelajari cara untuk:

  • Membuat pabrik data.
  • Buat alur dengan aktivitas Aliran Data.
  • Bangun aliran data pemetaan dengan empat transformasi.
  • Uji coba jalur pipa.
  • Memantau aktivitas Aliran Data

Pelajari selengkapnya tentang bahasa ekspresi aliran data.