Bagikan melalui


Mengubah data di delta lake menggunakan aliran data pemetaan

BERLAKU UNTUK: Azure Data Factory Azure Synapse Analytics

Petunjuk / Saran

Cobalah Data Factory di Microsoft Fabric, solusi analitik all-in-one untuk perusahaan. Microsoft Fabric mencakup semuanya mulai dari pergerakan data hingga ilmu data, analitik real time, kecerdasan bisnis, dan pelaporan. Pelajari cara memulai uji coba baru secara gratis!

Jika Anda baru menggunakan Azure Data Factory, lihat Pengantar Azure Data Factory.

Dalam tutorial ini, Anda menggunakan kanvas aliran data untuk membuat aliran data yang memungkinkan Anda menganalisis dan mengubah data di Azure Data Lake Storage (ADLS) Gen2 dan menyimpannya di Delta Lake.

Prasyarat

  • Langganan Azure. Jika Anda tidak memiliki langganan Azure, buat akun Azure gratis sebelum memulai.
  • Akun penyimpanan Azure. Anda menggunakan penyimpanan ADLS sebagai penyimpanan data sumber dan penyimpanan data tujuan. Jika Anda tidak memiliki akun penyimpanan, lihat Membuat akun penyimpanan Azure untuk langkah-langkah membuatnya.

File yang kita ubah dalam tutorial ini adalah MoviesDB.csv, yang dapat ditemukan di sini. Untuk mengambil file dari GitHub, salin konten ke editor teks pilihan Anda untuk disimpan secara lokal sebagai file .csv. Untuk mengunggah file ke akun penyimpanan Anda, lihat Mengunggah blob dengan portal Microsoft Azure. Contohnya adalah mereferensikan kontainer bernama 'sample-data'.

Membuat pabrik data

Dalam langkah ini, Anda membuat pabrik data dan membuka UX Azure Data Factory untuk membuat alur di pabrik data.

  1. Buka Microsoft Edge atau Google Chrome. Saat ini, antarmuka pengguna Data Factory hanya didukung di browser web Microsoft Azure Stack Edge dan Google Chrome.

  2. Di menu sebelah kiri, pilih Buat sumber daya>Integration>Data Factory

  3. Pada halaman Pabrik data baru , di bawah Nama, masukkan ADFTutorialDataFactory

  4. Pilih langganan Azure di mana Anda ingin membuat pabrik data.

  5. Untuk Grup Sumber Daya, lakukan salah satu langkah berikut:

    sebuah. Pilih Gunakan yang sudah ada, dan pilih grup sumber daya yang sudah ada dari daftar drop-down.

    b. Pilih Buat baru, dan masukkan nama grup sumber daya.

    Untuk mempelajari tentang grup sumber daya, lihat Menggunakan grup sumber daya untuk mengelola sumber daya Azure Anda.

  6. Di bawah Versi, pilih V2.

  7. Di bawah Lokasi, pilih lokasi untuk pabrik data. Hanya lokasi yang didukung yang ditampilkan di daftar drop-down. Penyimpanan data (misalnya, Azure Storage dan SQL Database) dan komputasi (misalnya, Azure HDInsight) yang digunakan oleh pabrik data dapat berada di wilayah lain.

  8. Pilih Buat.

  9. Setelah pembuatan selesai, Anda akan melihat pemberitahuan di pusat Pemberitahuan. Pilih Buka sumber daya untuk menavigasi ke halaman Pabrik data.

  10. Pilih Penulis & Pantau untuk meluncurkan UI Data Factory di tab terpisah.

Buat alur dengan aktivitas aliran data

Dalam langkah ini, Anda membuat alur yang berisi aktivitas aliran data.

  1. Pada beranda, pilih Orchestrate.

    Cuplikan layar yang memperlihatkan beranda ADF.

  2. Di tab Umum untuk alur, masukkan DeltaLake untuk Nama alur.

  3. Di panel Aktivitas , perluas akordion Pindahkan dan Transformasi . Seret dan letakkan aktivitas Aliran Data dari bagian panel ke kanvas pipeline.

    Cuplikan layar yang memperlihatkan kanvas alur tempat Anda dapat menghilangkan aktivitas Aliran Data.

  4. Di bilah atas kanvas pipa, geser slider debug Aliran Data ke posisi aktif. Mode debug memungkinkan pengujian interaktif logika transformasi terhadap kluster Spark langsung. Kluster Aliran Data membutuhkan waktu pemanasan 5-7 menit dan pengguna disarankan untuk mengaktifkan debug terlebih dahulu jika berencana untuk melakukan pengembangan Aliran Data. Untuk informasi selengkapnya, lihat Mode Debug.

    Cuplikan layar yang memperlihatkan di mana slider debug Aliran data.

Bangun logika transformasi di kanvas aliran data

Anda menghasilkan dua aliran data dalam tutorial ini. Aliran data pertama adalah sumber sederhana untuk tenggelam untuk menghasilkan Delta Lake baru dari file CSV film. Terakhir, Anda membuat desain alur yang mengikuti untuk memperbarui data di Delta Lake.

Alur akhir

Tujuan tutorial

  1. Gunakan sumber himpunan data MoviesCSV dari prasyarat, dan bentuk Delta Lake baru darinya.
  2. Buat logika ke peringkat yang diperbarui untuk film 1988 ke '1'.
  3. Menghapus semua film dari tahun 1950.
  4. Menyisipkan film baru untuk 2021 dengan menduplikasi film dari tahun 1960.

Memulai dari kanvas aliran data kosong

  1. Pilih transformasi sumber di bagian atas jendela editor aliran data, lalu pilih + Baru di samping properti Himpunan Data di jendela Pengaturan sumber :

    Cuplikan layar memperlihatkan tempat menambahkan himpunan data sumber baru ke aliran data.

  2. Pilih Azure Data Lake Storage Gen2 dari jendela Himpunan data baru yang muncul, lalu pilih Lanjutkan.

    Cuplikan layar memperlihatkan tempat memilih Azure Data Lake Storage Gen2 dari jendela Himpunan data baru.

  3. Pilih DelimitedText untuk jenis himpunan data, dan pilih Lanjutkan lagi.

    Cuplikan layar memperlihatkan tempat memilih format untuk himpunan data.

  4. Beri nama himpunan data "MoviesCSV", dan pilih + Baru di bawah Layanan tertaut untuk membuat layanan tertaut baru ke file.

  5. Berikan detail untuk akun penyimpanan Anda yang dibuat sebelumnya di bagian Prasyarat, dan telusuri dan pilih file MoviesCSV yang Anda unggah di sana.

  6. Setelah menambahkan layanan tertaut Anda, pilih kotak centang Baris pertama sebagai header , lalu pilih OK untuk menambahkan sumber.

  7. Navigasi ke tab Proyeksi dari jendela pengaturan aliran data, lalu pilih Deteksi jenis data.

  8. Sekarang pilih + setelah Sumber di jendela editor aliran data, dan gulir ke bawah untuk memilih Sink di bawah bagian Tujuan , menambahkan sink baru ke aliran data Anda.

    Cuplikan layar memperlihatkan tempat menambahkan tujuan sink untuk aliran data.

  9. Di tab Sink untuk pengaturan sink yang muncul setelah sink ditambahkan, pilih Sebaris untuk jenis Sink, lalu Delta untuk jenis himpunan data sebaris. Lalu pilih Azure Data Lake Storage Gen2 Anda untuk layanan Tertaut.

    Cuplikan layar memperlihatkan detail Sink untuk himpunan data delta sebaris.

  10. Pilih nama folder di kontainer penyimpanan tempat Anda ingin layanan membuat Delta Lake.

  11. Terakhir, navigasikan kembali perancang alur dan pilih Debug untuk menjalankan alur dalam mode debug hanya dengan aktivitas aliran data ini di kanvas. Ini menghasilkan Delta Lake baru Anda di Azure Data Lake Storage Gen2.

  12. Sekarang, dari menu Sumber Daya Pabrik di sebelah kiri layar, pilih + untuk menambahkan sumber daya baru, lalu pilih Aliran data.

    Cuplikan layar memperlihatkan tempat membuat aliran data baru di pabrik data.

  13. Seperti sebelumnya, pilih file MoviesCSV lagi sebagai sumber lalu pilih Deteksi jenis data lagi dari tab Proyeksi .

  14. Kali ini, setelah membuat sumber, pilih + di jendela editor aliran data, dan tambahkan transformasi Filter ke sumber Anda.

    Cuplikan layar memperlihatkan tempat untuk menambahkan kondisi Filter ke aliran data.

  15. Tambahkan kondisi Filter pada di jendela Pengaturan filter yang hanya mengizinkan baris film yang sesuai dengan 1950, 1960, dan 1988.

    Cuplikan layar memperlihatkan tempat menambahkan filter pada kolom Tahun untuk himpunan data.

  16. Sekarang tambahkan transformasi Kolom Turunan untuk memperbarui peringkat untuk setiap film tahun 1988 ke '1'.

    Cuplikan layar memperlihatkan tempat memasukkan ekspresi untuk kolom turunan.

  17. Kebijakan Update, insert, delete, and upsert dibuat dalam transformasi Baris perubahan. Tambahkan transformasi baris perubahan setelah kolom turunan Anda.

  18. Kebijakan baris perubahan Anda akan terlihat seperti ini.

    Ubah baris

  19. Sekarang setelah Anda menetapkan kebijakan yang tepat untuk setiap jenis baris perubahan, periksa apakah aturan pembaruan yang tepat telah ditetapkan pada transformasi sink

    Wastafel

  20. Di sini kita menggunakan sink Delta Lake ke data lake Azure Data Lake Storage Gen2 Anda dan memungkinkan penyisipan, pembaruan, penghapusan.

  21. Perhatikan bahwa kolom kunci adalah kunci komposit yang terdiri dari kolom kunci primer film dan kolom tahun. Ini karena kita membuat film 2021 palsu dengan menduplikasi baris 1960. Hal ini untuk menghindari tabrakan ketika melihat ke barisan yang ada dengan memberikan keunikan.

Mengunduh sampel yang sudah selesai

Berikut adalah solusi sampel untuk pipa Delta dengan aliran data untuk memperbarui/menghapus baris data di danau.

Pelajari selengkapnya tentang bahasa ekspresi aliran data.