Bagikan melalui


Secara bertahap menyalin file baru dan yang diubah berdasarkan LastModifiedDate dengan menggunakan alat Salin Data

BERLAKU UNTUK: Azure Data Factory Azure Synapse Analytics

Tip

Cobalah Data Factory di Microsoft Fabric, solusi analitik all-in-one untuk perusahaan. Microsoft Fabric mencakup semuanya mulai dari pergerakan data hingga ilmu data, analitik real time, kecerdasan bisnis, dan pelaporan. Pelajari cara memulai uji coba baru secara gratis!

Dalam tutorial ini, Anda menggunakan portal Microsoft Azure untuk membuat pabrik data. Anda kemudian akan menggunakan alat Salin Data untuk membuat alur yang secara bertahap menyalin file baru dan yang diubah saja, dari penyimpanan Azure Blob ke penyimpanan Azure Blob. Ini menggunakan LastModifiedDate untuk menentukan file mana yang akan disalin.

Setelah Anda menyelesaikan langkah-langkah di sini, Azure Data Factory akan memindai semua file di penyimpanan sumber, menerapkan filter file dengan LastModifiedDate, dan menyalin ke penyimpanan tujuan hanya file yang baru atau telah diperbarui sejak terakhir kali. Perhatikan bahwa jika Data Factory memindai sejumlah besar file, Anda masih harus mengharapkan durasi yang panjang. Pemindaian file memakan waktu, bahkan ketika jumlah data yang disalin berkurang.

Catatan

Jika Anda baru menggunakan Azure Data Factory, lihat Pengantar Azure Data Factory.

Dalam tutorial ini, Anda akan menyelesaikan tugas-tugas ini:

  • Membuat pabrik data.
  • Menggunakan alat Salin Data untuk membuat alur.
  • Pantau eksekusi alur dan aktivitas.

Prasyarat

  • Langganan Azure: Jika Anda tidak memiliki langganan Azure, buat akun gratis sebelum memulai.
  • Akun Azure Storage: Gunakan penyimpanan Blob untuk penyimpanan data sumber dan sink. Jika Anda belum memiliki akun Azure Storage, ikuti instruksi di Buat akun penyimpanan.

Membuat dua kontainer di penyimpanan Blob

Siapkan penyimpanan Blob Anda untuk tutorial dengan menyelesaikan langkah-langkah ini:

  1. Buat kontainer bernama sumber. Anda bisa menggunakan berbagai alat untuk melakukan tugas ini, seperti Azure Storage Explorer.

  2. Buat kontainer bernama tujuan.

Membuat pabrik data

  1. Di panel kiri, pilih Buat sumber daya. Pilih Integrasi>Azure Data Factory:

    Pilih Azure Data Factory

  2. Di halaman Pabrik data baru, di bawah Nama, masukkan ADFTutorialDataFactory.

    Nama pabrik data Anda harus unik secara global. Anda mungkin menerima pesan kesalahan ini:

    Pesan kesalahan pabrik data baru untuk nama duplikat.

    Jika Anda menerima pesan kesalahan tentang nilai nama, masukkan nama yang berbeda untuk pabrik data. Misalnya, gunakan nama yournameADFTutorialDataFactory. Untuk aturan penamaan artefak Data Factory, lihat aturan penamaan Data Factory.

  3. Di bawah Langganan, pilih langganan Azure tempat Anda akan membuat pabrik data baru.

  4. Di bawah Grup Sumber Daya, lakukan salah satu langkah berikut ini:

    • Pilih Gunakan yang ada, kemudian pilih grup sumber daya yang ada dalam daftar.

    • Pilih Buat baru lalu masukkan nama untuk grup sumber daya.

    Untuk mempelajari grup sumber daya, lihat Menggunakan grup sumber daya untuk mengelola sumber daya Azure Anda.

  5. Di bawah Versi, pilih V2.

  6. Di bawah Lokasi, pilih lokasi untuk pabrik data. Hanya lokasi yang didukung yang muncul dalam daftar. Penyimpanan data (misalnya, Azure Storage dan Azure SQL Database) dan komputasi (misalnya, Azure HDInsight) yang digunakan oleh pabrik data Anda dapat berada di lokasi dan wilayah lain.

  7. Pilih Buat.

  8. Setelah pabrik data dibuat, beranda pabrik data muncul.

  9. Untuk membuka antarmuka pengguna (UI) Azure Data Factory pada tab terpisah, pilih Buka pada petak peta Membuka Azure Data Factory Studio:

    Halaman beranda untuk Azure Data Factory, dengan petak peta Open Azure Data Factory Studio.

Menggunakan alat Salin Data untuk membuat alur

  1. Di beranda Azure Data Factory, pilih petak peta Serap untuk membuka alat Salin Data:

    Tangkapan layar yang menunjukkan beranda Azure Data Factory.

  2. Pada halaman Properti, ikuti langkah-langkah berikut ini:

    1. Di Jenis tugas, pilih Tugas salin bawaan.

    2. Di Ritme tugas atau jadwal tugas, pilih Jendela tumbling.

    3. Di bawahPengulangan, masukkan 15 Menit.

    4. Pilih Selanjutnya.

    Halaman properti salin data

  3. Pada halaman Penyimpanan data sumber, selesaikan langkah-langkah berikut ini:

    1. Pilih + Sambungan baru untuk menambahkan sambungan.

    2. Pilih Azure Blob Storage dari galeri, lalu pilih Lanjutkan:

      Pilih Azure Blob Storage

    3. Pada halaman Koneksi baru (Azure Blob Storage), pilih langganan Azure Anda dari daftar langganan Azure dan akun penyimpanan Anda dari daftar Nama akun penyimpanan. Uji koneksi lalu pilih Buat.

    4. Pilih koneksi yang baru dibuat di blok Koneksi.

    5. Di bagian File atau folder, pilih Telusur, lalu pilih folder sumber, kemudian pilih OK.

    6. Di Perilaku pemuatan file, pilih Pemuatan bertambah bertahap: LastModifiedDate, dan pilih Salinan biner.

    7. Pilih Selanjutnya.

    Cuplikan layar yang memperlihatkan halaman 'Penyimpanan data sumber'.

  4. Pada halaman Penyimpanan data tujuan, selesaikan langkah-langkah berikut:

    1. Pilih sambungan AzureBlobStorage yang Anda buat. Ini adalah akun penyimpanan yang sama dengan penyimpanan data sumber.

    2. Di bagian Jalur folder, telusuri dan pilih folder tujuan, lalu pilih OK.

    3. Pilih Selanjutnya.

    Cuplikan layar yang memperlihatkan halaman 'Penyimpanan data tujuan'.

  5. Pada halaman Pengaturan, di Nama tugas, masukkan DeltaCopyFromBlobPipeline, lalu pilih Berikutnya. Data Factory membuat alur dengan nama tugas yang ditentukan.

    Cuplikan layar yang memperlihatkan halaman Pengaturan.

  6. Pada halaman Ringkasan, tinjau pengaturan, lalu pilih Berikutnya.

    Halaman ringkasan

  7. Pada Halaman penyebaran, pilih Monitor untuk memantau alur (tugas).

    Halaman penyebaran

  8. Perhatikan bahwa tab Pemantauan di sebelah kiri dipilih secara otomatis. Aplikasi beralih ke tab Pemantau. Anda melihat status alur. Pilih Refresh untuk menyegarkan daftar. Pilih tautan di bawah Nama alur untuk melihat detail eksekusi aktivitas atau menjalankan kembali alur.

    Me-refresh daftar dan melihat detail eksekusi aktivitas

  9. Hanya ada satu aktivitas (aktivitas salin) dalam alur, jadi Anda hanya akan melihat satu entri. Untuk detail tentang operasi penyalinan, pada halaman Aktivitas berjalan, pilih tautan Detail (ikon kacamata) di kolom Nama aktivitas. Untuk detail properti, lihat Ringkasan aktivitas salin.

    Aktivitas salin dalam alur

    Karena tidak ada file dalam kontainer sumber di akun penyimpanan Blob Anda, Anda tidak akan melihat file apa pun yang disalin ke kontainer tujuan di akun:

    Tidak ada file dalam kontainer sumber atau tujuan

  10. Buat file teks kosong dan beri nama file1.txt. Unggah file teks ini ke kontainer sumber di akun penyimpanan Anda. Anda bisa menggunakan berbagai alat untuk melakukan tugas ini, seperti Azure Storage Explorer.

    Membuat file1.txt dan mengunggahnya ke kontainer sumber

  11. Untuk kembali ke tampilan Alur berjalan, pilih tautan Semua tautan berjalan di menu breadcrumb pada halaman Aktivitas berjalan, dan tunggu hingga alur yang sama otomatis terpicu lagi.

  12. Ketika eksekusi alur kedua selesai, ikuti langkah yang sama yang disebutkan sebelumnya untuk meninjau detail eksekusi aktivitas.

    Anda akan melihat bahwa satu file (file1.txt) telah disalin dari kontainer sumber ke kontainer tujuan akun penyimpanan Blob Anda:

    file1.txt telah disalin dari kontainer sumber ke kontainer tujuan

  13. Buat file teks kosong lainnya dan beri nama file2.txt. Unggah file teks ini ke kontainer sumber di akun penyimpanan Blob Anda.

  14. Ulangi langkah 11 dan 12 untuk file teks kedua. Anda akan melihat bahwa hanya file baru (file2.txt) yang disalin dari kontainer sumber ke kontainer tujuan akun penyimpanan Anda selama eksekusi alur.

    Anda juga dapat memverifikasi bahwa hanya satu file yang telah disalin dengan menggunakan Azure Storage Explorer untuk memindai file:

    Memindai file dengan menggunakan Azure Storage Explorer

Buka tutorial berikut untuk mempelajari cara mengubah data dengan menggunakan kluster Apache Spark di Azure: