Transformasikan data secara aman menggunakan aliran data pemetaan

Artikel
05/15/2024

BERLAKU UNTUK: Azure Data Factory Azure Synapse Analytics

Tip

Cobalah Data Factory di Microsoft Fabric, solusi analitik all-in-one untuk perusahaan. Microsoft Fabric mencakup semuanya mulai dari pergerakan data hingga ilmu data, analitik real time, kecerdasan bisnis, dan pelaporan. Pelajari cara memulai uji coba baru secara gratis!

Jika Anda baru menggunakan Azure Data Factory, lihat Pendahuluan Azure Data Factory.

Dalam tutorial ini, Anda akan menggunakan antarmuka pengguna (UI) Azure Data Factory untuk membuat alur yang menyalin dan mengubah data dari sumber Azure Data Lake Storage Gen2 menjadi sink Azure Data Lake Storage Gen2 (keduanya memungkinkan akses ke hanya jaringan yang dipilih) dengan menggunakan alur data pemetaan di Jaringan Virtual Terkelola Azure Data Factory. Anda dapat memperluas pola konfigurasi dalam tutorial ini saat mengubah data dengan menggunakan alur data pemetaan.

Dalam tutorial ini, Anda melakukan tugas-tugas berikut:

Membuat pabrik data.
Buat alur dengan aktivitas aliran data.
Bangun aliran data pemetaan dengan empat transformasi.
Uji coba alur.
Pantau aktivitas aliran data.

Prasyarat

Langganan Azure. Jika tidak memiliki langganan Azure, buat akun Azure gratis sebelum Anda memulai.
Akun Microsoft Azure Storage. Anda menggunakan Azure Data Lake Storage sebagai penyimpanan data sumber dan sink. Jika Anda tidak memiliki akun penyimpanan Azure, lihat artikel Membuat akun penyimpanan Azure untuk langkah-langkah pembuatannya. Pastikan akun penyimpanan hanya mengizinkan akses dari jaringan yang dipilih.

File yang akan kita transformasi dalam tutorial ini adalah moviesDB.csv, yang dapat ditemukan di situs konten GitHub ini. Untuk mengambil file dari GitHub, salin konten ke editor teks pilihan Anda untuk disimpan secara lokal sebagai file .csv. Untuk mengunggah file ke akun penyimpanan Anda, lihat Mengunggah blob dengan portal Microsoft Azure. Contohnya akan merujuk kontainer bernama sample-data.

Membuat pabrik data

Dalam langkah ini, Anda membuat pabrik data dan membuka antarmuka pengguna Azure Data Factory untuk membuat alur di pabrik data.

Buka Microsoft Edge atau Google Chrome. Saat ini, hanya browser web Microsoft Edge dan Google Chrome yang mendukung antarmuka pengguna Azure Data Factory.
Di menu bagian kiri, pilih Buat sumber daya>Analytics>Azure Data Factory.
Di halaman Pabrik data baru, di bawah Nama, masukkan ADFTutorialDataFactory.

Nama pabrik data harus unik secara global. Jika Anda menerima pesan kesalahan tentang nilai nama, masukkan nama yang berbeda untuk pabrik data (misalnya, yournameADFTutorialDataFactory). Untuk aturan penamaan artefak Data Factory, lihat artikel aturan penamaan Data Factory.
Pilih langganan Azure Anda tempat Anda ingin membuat pabrik datanya.
Untuk Grup Sumber Daya, lakukan salah satu langkah berikut:
- Pilih Gunakan yang ada, lalu pilih grup sumber daya yang ada dari menu drop-down.
- Pilih Buat baru, lalu masukkan nama grup sumber daya.
Untuk mempelajari grup sumber daya, lihat Menggunakan grup sumber daya untuk mengelola sumber daya Azure Anda.
Di bawah Versi, pilih V2.
Di bawah Lokasi, pilih lokasi untuk pabrik data. Hanya lokasi yang didukung yang ditampilkan di daftar drop-down. Penyimpanan data (misalnya, Microsoft Azure Storage dan Microsoft Azure SQL Database) dan komputasi (misalnya, Microsoft Azure HDInsight) yang digunakan oleh pabrik data dapat berada di wilayah lain.
Pilih Buat.
Setelah pembuatan selesai, Anda akan melihat pemberitahuan di pusat Pemberitahuan. Pilih Buka sumber daya untuk masuk ke halaman Azure Data Factory.
Pilih Buka Azure Data Factory Studio untuk meluncurkan UI Data Factory di tab terpisah.

Buat runtime integrasi Azure di Jaringan Virtual Terkelola Azure Data Factory

Dalam langkah ini, Anda membuat runtime integrasi Azure dan mengaktifkan Jaringan Virtual Terkelola Azure Data Factory.

Di portal Azure Data Factory, buka Kelola dan pilih Baru untuk membuat runtime integrasi Azure baru.
Pada halaman Penyetelan runtime integrasi, pilih runtime integrasi apa yang akan dibuat berdasarkan kapabilitas yang diperlukan. Dalam tutorial ini, pilih Azure, Host Mandiri lalu klik Lanjutkan.
Pilih Azure lalu klik Lanjutkan untuk membuat runtime integrasi Azure.
Di bawah Konfigurasi jaringan virtual (Pratinjau), pilih Aktifkan.
Pilih Buat.

Buat alur dengan aktivitas aliran data

Dalam langkah ini, Anda akan membuat alur yang berisi aktivitas aliran data.

Di halaman beranda Azure Data Factory, pilih Orkestrasi.
Di panel properti untuk alur, masukkan TransformMovies untuk nama alur.
Di panel Aktivitas, perluas Pindahkan dan Transformasi. Seret aktivitas Aliran Data dari panel ke kanvas alur.
Di pop-up Tambahkan aliran data, pilih Buat aliran data baru, lalu pilihPemetaan Aliran Data. Pilih OK saat sudah selesai.
Beri nama aliran data Anda TransformMovies di panel properti.
Di bilah atas kanvas alur, geser penggeser debug Aliran Data ke aktif. Mode debug memungkinkan pengujian interaktif logika transformasi terhadap kluster Spark langsung. Kluster Aliran Data membutuhkan waktu pemanasan 5-7 menit dan pengguna disarankan untuk mengaktifkan debug terlebih dahulu jika berencana untuk melakukan pengembangan Aliran Data. Untuk informasi selengkapnya, lihat Mode Debug.

Bangun logika transformasi di kanvas aliran data

Setelah membuat aliran data, Anda akan dikirim secara otomatis ke kanvas aliran data. Dalam langkah ini, Anda akan membangun aliran data yang mengambil file moviesDB.csv di Azure Data Lake Storage dan mengagregasi peringkat rata-rata komedi dari 1910 hingga 2000. Anda kemudian akan menulis kembali file ini ke Azure Data Lake Storage.

Tambahkan transformasi sumber

Dalam langkah ini, Anda menyiapkan Data Lake Storage Gen2 sebagai sumber.

Di kanvas aliran data, tambahkan sumber dengan memilih kotak Tambahkan Sumber.
Beri nama sumber Anda MoviesDB. Klik Baru untuk membuat himpunan data sumber baru.
Pilih Azure Data Lake Storage Gen2, lalu pilih Lanjutkan.
Pilih DelimitedText, lalu pilih Lanjutkan.
Beri nama himpunan data Anda MoviesDB. Di drop down layanan tertaut, pilih Baru.
Di layar pembuatan layanan yang ditautkan, beri nama layanan tertaut Azure Data Lake Storage Gen2 anda ADLSGen2 dan tentukan metode autentikasi Anda. Lalu masukkan informasi masuk koneksi Anda. Dalam tutorial ini, kami menggunakan Kunci akun untuk terhubung ke akun penyimpanan kami.
Pastikan Anda mengaktifkan Penulisan interaktif. Mungkin perlu waktu satu menit untuk diaktifkan.
Pilih Pengujian koneksi. Ini harus gagal karena akun penyimpanan tidak mengaktifkan akses ke dalamnya tanpa pembuatan dan persetujuan titik akhir pribadi. Dalam pesan kesalahan, Anda akan melihat tautan untuk membuat titik akhir privat yang bisa Anda ikuti untuk membuat titik akhir privat terkelola. Alternatifnya adalah langsung masuk ke tab Kelola dan ikuti instruksi di bagian ini untuk membuat titik akhir privat terkelola.
Biarkan kotak dialog terbuka, lalu buka akun penyimpanan Anda.
Ikuti instruksi di bagian ini untuk menyetujui tautan pribadi.
Kembali ke kotak dialog. Pilih Pengujian koneksi lagi, dan pilih Buat untuk menyebarkan layanan tertaut.
Di layar pembuatan himpunan data, masukkan lokasi file Anda di bawah bidang Jalur file. Dalam tutorial ini, file moviesDB.csv terletak di sampel-data kontainer. Karena file memiliki headers, pilih kotak centang Baris pertama sebagai header. Pilih Dari koneksi/penyimpanan untuk mengimpor skema header langsung dari file dalam penyimpanan. Pilih OK saat sudah selesai.
Jika kluster debug Anda telah dimulai, buka tab Pratinjau Data dari transformasi sumber dan pilih Refresh untuk mendapatkan rekam jepret data. Anda dapat menggunakan pratinjau data untuk memverifikasi transformasi Anda dikonfigurasi dengan benar.

Buat titik akhir privat terkelola

Jika Anda tidak memilih hyperlink saat menguji koneksi, ikuti jalurnya. Sekarang Anda perlu membuat titik akhir privat terkelola yang akan Anda sambungkan ke layanan tertaut yang Anda buat.

Masuk ke tab Kelola.

Catatan

Tab Kelola mungkin tidak tersedia untuk semua instans Azure Data Factory. Jika Anda tidak melihatnya, Anda dapat mengakses titik akhir privat dengan memilih Titik Akhir Privat > Koneksi>Pembuat.
Masuk ke bagian Titik akhir pribadi terkelola.
Pilih + Baru di bawah Titik akhir privat terkelola.
Pilih petak peta Azure Data Lake Storage Gen2 dari daftar, dan pilih Lanjutkan.
Masukkan nama akun penyimpanan yang Anda buat.
Pilih Buat.
Setelah beberapa detik, Anda akan melihat bahwa tautan pribadi yang dibuat memerlukan persetujuan.
Pilih titik akhir privat yang Anda buat. Anda bisa melihat hyperlink yang akan membawa Anda menyetujui titik akhir privat di tingkat akun penyimpanan.

Persetujuan tautan pribadi di akun penyimpanan

Di akun penyimpanan, buka Koneksi titik akhir privat di bawah bagianPengaturan.
Pilih kotak centang untuk titik akhir privat yang Anda buat, dan pilih Setujui.
Tambahkan deskripsi, dan pilih ya.
Kembali ke bagian Titik akhir privat terkelola pada tab Kelola di Data Factory.
Setelah sekitar satu menit, Anda akan melihat persetujuan muncul untuk titik akhir privat Anda.

Tambahkan transformasi filter

Di samping simpul sumber Anda pada kanvas aliran data, klik ikon plus untuk menambahkan transformasi baru. Transformasi pertama yang Anda tambahkan adalah Filter.
Beri nama filter transformasi Anda FilterYears. Klik pada kotak ekspresi di samping Filter untuk membuka penyusun ekspresi. Di sini Anda akan menentukan kondisi pemfilteran Anda.
Penyusun ekspresi aliran data memungkinkan Anda membangun ekspresi secara interaktif yang digunakan dalam berbagai transformasi. Ekspresi dapat menyertakan fungsi bawaan, kolom dari skema input, dan parameter yang ditentukan pengguna. Untuk informasi selengkapnya tentang cara menyusun ekspresi, lihat Penyusun ekspresi Aliran Data.
- Dalam tutorial ini, Anda ingin memfilter film komedi genre yang keluar antara tahun 1910 dan 2000. Karena tahun saat ini adalah untai (karakter), Anda perlu mengonversinya menjadi bilangan bulat menggunakan toInteger() fungsi. Gunakan operator yang lebih besar dari atau sama dengan (>=) dan lebih kecil atau sama dengan (<=) untuk membandingkan dengan nilai tahun literal 1910 dan 2000. Satukan ekspresi ini bersama dengan dan operator (&&). Ekspresi akan keluar sebagai:
  
  toInteger(year) >= 1910 && toInteger(year) <= 2000
- Untuk menemukan film mana yang merupakan komedi, Anda dapat menggunakan rlike()fungsi untuk menemukan pola 'Komedi' dalam genre kolom. Satukan ekspresi rlike dengan perbandingan tahun untuk mendapatkan:
  
  toInteger(year) >= 1910 && toInteger(year) <= 2000 && rlike(genres, 'Comedy')
- Jika kluster debug aktif, Anda dapat memverifikasi logika dengan mengeklik Refresh untuk melihat output ekspresi dibandingkan dengan input yang digunakan. Ada lebih dari satu jawaban yang tepat tentang bagaimana Anda dapat menyelesaikan logika ini menggunakan bahasa pemrograman ekspresi aliran data.
- Pilih Simpan dan selesaikan setelah Anda selesai dengan ekspresi Anda.
Ambil Pratinjau Data untuk memverifikasi bahwa filter berfungsi dengan benar.

Tambahkan transformasi agregat

Transformasi berikutnya yang akan Anda tambahkan adalah transformasi Agregat di bawah pengubah Skema.
Beri nama transformasi agregat Anda AggregateComedyRating. Di tab Kelompokkan menurut, pilih tahun dari menu drop-down untuk mengelompokkan agregasi menurut tahun film yang telah keluar.
Masuk ke tab Agregat. Di kotak teks kiri, beri nama kolom agregat AverageComedyRating. Pilih kotak ekspresi kanan untuk memasukkan ekspresi agregat melalui pembuat ekspresi.
Untuk mendapatkan rata-rata kolom Peringkat, gunakan avg() fungsi agregat. Karena Peringkat adalah untai (karakter) dan avg() mengambil input numerik, kita harus mengonversi nilai ke angka melalui toInteger() fungsi. Ekspresi ini terlihat seperti:

avg(toInteger(Rating))
Pilih Simpan dan selesai setelah Anda selesai.
Masuk ke tab Pratinjau Data untuk melihat output transformasi. Perhatikan hanya dua kolom yang ada di sana, tahun dan AverageComedyRating.

Tambahkan transformasi sink

Selanjutnya, Anda ingin menambahkan transformasi Sink di bawah Tujuan.
Beri nama sink Anda Sink. Klik Baru untuk membuat himpunan data sink Anda.
Pada halaman Himpunan Data Baru, pilih Azure Data Lake Storage Gen2, lalu pilih Lanjutkan.
Pada halaman Pilih format, pilih DelimitedText lalu pilih Lanjutkan.
Beri nama set data sink Anda MoviesSink. Untuk layanan tertaut, pilih layanan tertaut ADLSGen2 sama yang Anda buat untuk transformasi sumber. Masukkan folder output untuk menulis data Anda. Dalam tutorial ini, kita menulis ke folder output dalam kontainer sample-data. Folder tidak perlu ada sebelumnya dan dapat dibuat secara dinamis. Pilih kotak centang Baris pertama sebagai header, dan pilih Tidak Ada untuk Mengimpor skema. Pilih OK.

Sekarang Anda sudah selesai membangun aliran data Anda. Anda siap untuk menjalankannya pada pipeline.

Jalankan dan pantau aliran data

Anda dapat men-debug alur sebelum memublikasikannya. Dalam langkah ini, Anda akan memicu proses debug dari alur aliran data. Meskipun pratinjau data tidak menulis data, debug berjalan akan menulis data ke tujuan sink Anda.

Pergi ke kanvas alur. Klik Debug untuk memicu eksekusi debug.
Debug alur aktivitas aliran data menggunakan kluster debug aktif tetapi masih membutuhkan waktu setidaknya satu menit untuk menginisialisasi. Anda dapat melacak kemajuan melalui tab Output. Setelah eksekusi berhasil, pilih ikon kacamata untuk detail eksekusi.
Pada halaman detail, Anda dapat melihat jumlah baris dan waktu yang dihabiskan untuk setiap langkah transformasi.
Klik transformasi untuk mendapatkan informasi terperinci tentang kolom dan pemartisian data.

Jika Anda mengikuti tutorial ini dengan benar, Anda harus menulis 83 baris dan 2 kolom ke dalam folder sink Anda. Anda dapat memverifikasi bahwa data sudah benar dengan memeriksa penyimpanan blob Anda.

Ringkasan

Dalam tutorial ini, Anda menggunakan antarmuka pengguna Azure Data Factory untuk membuat alur yang menyalin dan mengubah data dari sumber Azure Data Lake Storage Gen2 menjadi sink Azure Data Lake Storage Gen2 (keduanya memungkinkan akses ke hanya jaringan yang dipilih) dengan menggunakan aliran data pemetaan di Microsoft Azure Virtual Network Terkelola Azure Data Factory.

Bagikan melalui