Bagikan melalui


Salin file baru secara bertahap berdasarkan nama file yang dipartisi waktu dengan menggunakan alat Salin Data

BERLAKU UNTUK: Azure Data Factory Azure Synapse Analytics

Tip

Cobalah Data Factory di Microsoft Fabric, solusi analitik all-in-one untuk perusahaan. Microsoft Fabric mencakup semuanya mulai dari pergerakan data hingga ilmu data, analitik real time, kecerdasan bisnis, dan pelaporan. Pelajari cara memulai uji coba baru secara gratis!

Dalam tutorial ini, Anda menggunakan portal Microsoft Azure untuk membuat pabrik data. Kemudian, Anda menggunakan alat Salin Data untuk membuat alur yang secara bertahap menyalin file baru berdasarkan nama file yang dipartisi waktu dari penyimpanan Azure Blob ke penyimpanan Azure Blob.

Catatan

Jika Anda baru menggunakan Azure Data Factory, lihat Pendahuluan Azure Data Factory.

Di tutorial ini, Anda melakukan langkah-langkah berikuti:

  • Membuat pabrik data.
  • Menggunakan alat Salin Data untuk membuat alur.
  • Pantau eksekusi alur dan aktivitas.

Prasyarat

  • Langganan Azure: Jika Anda tidak memiliki langganan Azure, buat akun gratis sebelum memulai.
  • Akun penyimpanan Azure: Gunakan penyimpanan Blob sebagai penyimpanan data sumber dan sink. Jika Anda tidak memiliki akun penyimpanan Azure, lihat instruksi di Membuat akun penyimpanan.

Membuat dua kontainer di penyimpanan Blob

Siapkan penyimpanan Blob Anda untuk tutorial dengan melakukan langkah-langkah ini.

  1. Buat kontainer bernama sumber. Buat jalur folder sebagai 2021/07/15/06 dalam kontainer Anda. Buat file teks kosong dan beri nama file1.txt. Unggah file1.txt ke jalur folder source/2021/07/15/06 di akun penyimpanan Anda. Anda dapat menggunakan berbagai alat untuk melakukan tugas ini, seperti Azure Storage Explorer.

    unggah file

    Catatan

    Sesuaikan nama folder dengan waktu UTC Anda. Misalnya, jika waktu UTC saat ini adalah pukul 6:10 pagi pada 15 Juli 2021, Anda dapat membuat jalur folder sebagai source/2021/07/15/06/ dengan format source/{Year}/{Month}/{Day}/{Hour}/.

  2. Buat kontainer bernama tujuan. Anda dapat menggunakan berbagai alat untuk melakukan tugas ini, seperti Azure Storage Explorer.

Membuat pabrik data

  1. Di menu sebelah kiri, pilih Buat sumber daya>Integrasi>Data Factory:

    Pemilihan Data Factory di

  2. Di halaman Pabrik data baru, di bawah Nama, masukkan ADFTutorialDataFactory.

    Nama pabrik data Anda harus unik secara global. Anda mungkin menerima pesan kesalahan berikut:

    Pesan kesalahan pabrik data baru untuk nama duplikat.

    Jika Anda menerima pesan kesalahan tentang nilai nama, masukkan nama yang berbeda untuk pabrik data. Misalnya, gunakan nama yournameADFTutorialDataFactory. Untuk aturan penamaan artefak Data Factory, lihat aturan penamaan Data Factory.

  3. Pilih langganan Azure untuk membuat pabrik data baru.

  4. Untuk Grup Sumber Daya, lakukan salah satu langkah berikut:

    a. Pilih Gunakan yang ada, lalu pilih grup sumber daya yang ada dari menu drop-down.

    b. Pilih Buat baru, lalu masukkan nama grup sumber daya.

    Untuk mempelajari grup sumber daya, lihat Menggunakan grup sumber daya untuk mengelola sumber daya Azure Anda.

  5. Di bawah versi, pilih V2 untuk versi.

  6. Di bawah lokasi, pilih lokasi untuk pabrik data. Hanya lokasi yang didukung yang ditampilkan di daftar drop-down. Penyimpanan data (misalnya, Azure Storage dan SQL Database) dan komputasi (misalnya, Azure HDInsight) yang digunakan oleh pabrik data Anda dapat berada di lokasi dan wilayah lain.

  7. Pilih Buat.

  8. Setelah pembuatan selesai, beranda Data Factory ditampilkan.

  9. Untuk meluncurkan antarmuka pengguna (UI) Azure Data Factory di tab terpisah, pilih Buka pada petak peta Buka Azure Data Factory Studio.

    Halaman beranda untuk Azure Data Factory, dengan petak peta Open Azure Data Factory Studio.

Menggunakan alat Salin Data untuk membuat alur

  1. Di beranda Azure Data Factory, pilih Serap untuk meluncurkan alat Salin Data.

    Tangkapan layar yang menunjukkan beranda Azure Data Factory.

  2. Pada halaman Properti, ikuti langkah-langkah berikut ini:

    1. Di Jenis tugas, pilih Tugas salin bawaan.

    2. Di Ritme tugas atau jadwal tugas, pilih Jendela tumbling.

    3. Di bawahPengulangan, masukkan 1 Jam.

    4. Pilih Selanjutnya.

    halaman Properti

  3. Pada halaman Penyimpanan data sumber, selesaikan langkah-langkah berikut ini:

    a. Pilih + Sambungan baru untuk menambahkan sambungan.

    b. Pilih Azure Blob Storage dari galeri, lalu pilih Lanjutkan.

    c. Di halaman Koneksi baru (Azure Blob Storage), berikan nama untuk koneksi. Pilih langganan Azure Anda, dan pilih akun penyimpanan Anda dari daftar Nama akun Storage. Uji koneksi lalu pilih Buat.

    Halaman penyimpanan data sumber

    d. Di halaman Penyimpanan data sumber, pilih koneksi yang baru dibuat di blok Koneksi.

    e. Di bagian File atau folder, telusuri dan pilih kontainer sumber, lalu pilih OK.

    f. Di bawah Perilaku pemuatan file, pilih Muat secara bertahap: folder/nama file yang dipartisi waktu.

    g. Tulis jalur folder dinamis sebagai source/{year}/{month}/{day}/{hour}/, dan ubah format seperti yang ditunjukkan pada cuplikan layar berikut.

    h. Centang Salinan biner dan klik Berikutnya.

    Cuplikan layar yang memperlihatkan konfigurasi halaman penyimpanan data Sumber.

  4. Di halaman Penyimpanan data tujuan, selesaikan langkah-langkah berikut ini:

    1. Pada halaman AzureBlobStorage, yang merupakan akun penyimpanan yang sama dengan penyimpanan sumber data.

    2. Telusuri dan pilih folder tujuan, lalu pilih OK.

    3. Tulis jalur folder dinamis sebagai destination/{year}/{month}/{day}/{hour}/, dan ubah format seperti yang ditunjukkan pada cuplikan layar berikut.

    4. Pilih Selanjutnya.

    Cuplikan layar yang memperlihatkan konfigurasi halaman penyimpanan data Tujuan.

  5. Di halaman Pengaturan, pada Nama tugas, masukkan DeltaCopyFromBlobPipeline, lalu pilih Berikutnya. Antarmuka pengguna Data Factory membuat alur dengan nama tugas yang ditentukan.

    Cuplikan layar yang menunjukkan konfigurasi halaman pengaturan.

  6. Pada halaman Ringkasan, ulas pengaturan, lalu pilih Berikutnya.

    Halaman ringkasan

  7. Pada Halaman penyebaran, pilih Monitor untuk memantau alur (tugas). Halaman penyebaran

  8. Perhatikan bahwa tab Pemantauan di sebelah kiri dipilih secara otomatis. Anda perlu menunggu eksekusi alur ketika dipicu secara otomatis (sekitar setelah satu jam). Saat berjalan, pilih tautan nama pipeline DeltaCopyFromBlobPipeline untuk melihat detail eksekusi aktivitas atau menjalankan ulang pipeline. Pilih Refresh untuk menyegarkan daftar.

    Cuplikan layar memperlihatkan panel Eksekusi alur.

  9. Hanya ada satu aktivitas (aktivitas salin) dalam alur, jadi Anda hanya akan melihat satu entri. Sesuaikan lebar kolom Sumber dan Tujuan (jika perlu) untuk menampilkan lebih detail, Anda dapat melihat file sumber (file1.txt) telah disalin dari sumber /2021/07/15/06/ ke destination/2021/07/15/06/ dengan nama file yang sama.

    Cuplikan layar memperlihatkan detail eksekusi alur.

    Anda juga dapat memverifikasi hal yang sama dengan menggunakan Azure Storage Explorer (https://storageexplorer.com/) untuk memindai file.

    Cuplikan layar memperlihatkan detail eksekusi alur untuk tujuan tersebut.

  10. Buat file teks kosong lainnya dengan nama baru sebagai file2.txt. Unggah file2.txt ke jalur folder source/2021/07/15/07 di akun penyimpanan Anda. Anda dapat menggunakan berbagai alat untuk melakukan tugas ini, seperti Azure Storage Explorer.

    Catatan

    Anda mungkin menyadari bahwa jalur folder baru perlu untuk dibuat. Sesuaikan nama folder dengan waktu UTC Anda. Misalnya, jika waktu UTC saat ini adalah 7:30 AM pada bulan Juli. 15, 2021, Anda dapat membuat jalur folder sebagai source/2021/07/15/07/ dengan format {Year}/{Month}/{Day}/{Hour}/.

  11. Untuk kembali ke tampilan Eksekusi Pipeline, pilih Semua eksekusi pipeline, dan tunggu hingga pipeline yang sama dipicu lagi secara otomatis setelah satu jam lagi.

    Cuplikan layar memperlihatkan tautan Semua eksekusi alur untuk kembali ke halaman tersebut.

  12. Pilih tautan DeltaCopyFromBlobPipeline baru untuk eksekusi alur kedua ketika datang, dan lakukan hal yang sama untuk meninjau detail. Anda akan melihat file sumber (file2.txt) telah disalin dari source/2021/07/15/07/ ke penyedia sumber/2021/07/15/07/ dengan nama file yang sama. Anda juga dapat memverifikasi hal yang sama dengan menggunakan Azure Storage Explorer (https://storageexplorer.com/) untuk memindai file dalam kontainer tujuan.

Lanjutkan ke tutorial berikut untuk mempelajari tentang mengubah data dengan menggunakan kluster Spark di Azure: