Salin file baru secara bertahap berdasarkan nama file yang dipartisi waktu dengan menggunakan alat Salin Data
BERLAKU UNTUK: Azure Data Factory
Azure Synapse Analytics
Tip
Cobalah Data Factory di Microsoft Fabric, solusi analitik all-in-one untuk perusahaan. Microsoft Fabric mencakup semuanya mulai dari pergerakan data hingga ilmu data, analitik real time, kecerdasan bisnis, dan pelaporan. Pelajari cara memulai uji coba baru secara gratis!
Dalam tutorial ini, Anda menggunakan portal Microsoft Azure untuk membuat pabrik data. Kemudian, Anda menggunakan alat Salin Data untuk membuat alur yang secara bertahap menyalin file baru berdasarkan nama file yang dipartisi waktu dari penyimpanan Azure Blob ke penyimpanan Azure Blob.
Catatan
Jika Anda baru menggunakan Azure Data Factory, lihat Pendahuluan Azure Data Factory.
Di tutorial ini, Anda melakukan langkah-langkah berikuti:
- Membuat pabrik data.
- Menggunakan alat Salin Data untuk membuat alur.
- Pantau eksekusi alur dan aktivitas.
Prasyarat
- Langganan Azure: Jika Anda tidak memiliki langganan Azure, buat akun gratis sebelum memulai.
- Akun penyimpanan Azure: Gunakan penyimpanan Blob sebagai penyimpanan data sumber dan sink. Jika Anda tidak memiliki akun penyimpanan Azure, lihat instruksi di Membuat akun penyimpanan.
Membuat dua kontainer di penyimpanan Blob
Siapkan penyimpanan Blob Anda untuk tutorial dengan melakukan langkah-langkah ini.
Buat kontainer bernama sumber. Buat jalur folder sebagai 2021/07/15/06 dalam kontainer Anda. Buat file teks kosong dan beri nama file1.txt. Unggah file1.txt ke jalur folder source/2021/07/15/06 di akun penyimpanan Anda. Anda dapat menggunakan berbagai alat untuk melakukan tugas ini, seperti Azure Storage Explorer.
Catatan
Sesuaikan nama folder dengan waktu UTC Anda. Misalnya, jika waktu UTC saat ini adalah pukul 6:10 pagi pada 15 Juli 2021, Anda dapat membuat jalur folder sebagai source/2021/07/15/06/ dengan format source/{Year}/{Month}/{Day}/{Hour}/.
Buat kontainer bernama tujuan. Anda dapat menggunakan berbagai alat untuk melakukan tugas ini, seperti Azure Storage Explorer.
Membuat pabrik data
Di menu sebelah kiri, pilih Buat sumber daya>Integrasi>Data Factory:
Di halaman Pabrik data baru, di bawah Nama, masukkan ADFTutorialDataFactory.
Nama pabrik data Anda harus unik secara global. Anda mungkin menerima pesan kesalahan berikut:
Jika Anda menerima pesan kesalahan tentang nilai nama, masukkan nama yang berbeda untuk pabrik data. Misalnya, gunakan nama yournameADFTutorialDataFactory. Untuk aturan penamaan artefak Data Factory, lihat aturan penamaan Data Factory.
Pilih langganan Azure untuk membuat pabrik data baru.
Untuk Grup Sumber Daya, lakukan salah satu langkah berikut:
a. Pilih Gunakan yang ada, lalu pilih grup sumber daya yang ada dari menu drop-down.
b. Pilih Buat baru, lalu masukkan nama grup sumber daya.
Untuk mempelajari grup sumber daya, lihat Menggunakan grup sumber daya untuk mengelola sumber daya Azure Anda.
Di bawah versi, pilih V2 untuk versi.
Di bawah lokasi, pilih lokasi untuk pabrik data. Hanya lokasi yang didukung yang ditampilkan di daftar drop-down. Penyimpanan data (misalnya, Azure Storage dan SQL Database) dan komputasi (misalnya, Azure HDInsight) yang digunakan oleh pabrik data Anda dapat berada di lokasi dan wilayah lain.
Pilih Buat.
Setelah pembuatan selesai, beranda Data Factory ditampilkan.
Untuk meluncurkan antarmuka pengguna (UI) Azure Data Factory di tab terpisah, pilih Buka pada petak peta Buka Azure Data Factory Studio.
Menggunakan alat Salin Data untuk membuat alur
Di beranda Azure Data Factory, pilih Serap untuk meluncurkan alat Salin Data.
Pada halaman Properti, ikuti langkah-langkah berikut ini:
Di Jenis tugas, pilih Tugas salin bawaan.
Di Ritme tugas atau jadwal tugas, pilih Jendela tumbling.
Di bawahPengulangan, masukkan 1 Jam.
Pilih Selanjutnya.
Pada halaman Penyimpanan data sumber, selesaikan langkah-langkah berikut ini:
a. Pilih + Sambungan baru untuk menambahkan sambungan.
b. Pilih Azure Blob Storage dari galeri, lalu pilih Lanjutkan.
c. Di halaman Koneksi baru (Azure Blob Storage), berikan nama untuk koneksi. Pilih langganan Azure Anda, dan pilih akun penyimpanan Anda dari daftar Nama akun Storage. Uji koneksi lalu pilih Buat.
d. Di halaman Penyimpanan data sumber, pilih koneksi yang baru dibuat di blok Koneksi.
e. Di bagian File atau folder, telusuri dan pilih kontainer sumber, lalu pilih OK.
f. Di bawah Perilaku pemuatan file, pilih Muat secara bertahap: folder/nama file yang dipartisi waktu.
g. Tulis jalur folder dinamis sebagai source/{year}/{month}/{day}/{hour}/, dan ubah format seperti yang ditunjukkan pada cuplikan layar berikut.
h. Centang Salinan biner dan klik Berikutnya.
Di halaman Penyimpanan data tujuan, selesaikan langkah-langkah berikut ini:
Pada halaman AzureBlobStorage, yang merupakan akun penyimpanan yang sama dengan penyimpanan sumber data.
Telusuri dan pilih folder tujuan, lalu pilih OK.
Tulis jalur folder dinamis sebagai destination/{year}/{month}/{day}/{hour}/, dan ubah format seperti yang ditunjukkan pada cuplikan layar berikut.
Pilih Selanjutnya.
Di halaman Pengaturan, pada Nama tugas, masukkan DeltaCopyFromBlobPipeline, lalu pilih Berikutnya. Antarmuka pengguna Data Factory membuat alur dengan nama tugas yang ditentukan.
Pada halaman Ringkasan, ulas pengaturan, lalu pilih Berikutnya.
Pada Halaman penyebaran, pilih Monitor untuk memantau alur (tugas).
Perhatikan bahwa tab Pemantauan di sebelah kiri dipilih secara otomatis. Anda perlu menunggu eksekusi alur ketika dipicu secara otomatis (sekitar setelah satu jam). Saat berjalan, pilih tautan nama pipeline DeltaCopyFromBlobPipeline untuk melihat detail eksekusi aktivitas atau menjalankan ulang pipeline. Pilih Refresh untuk menyegarkan daftar.
Hanya ada satu aktivitas (aktivitas salin) dalam alur, jadi Anda hanya akan melihat satu entri. Sesuaikan lebar kolom Sumber dan Tujuan (jika perlu) untuk menampilkan lebih detail, Anda dapat melihat file sumber (file1.txt) telah disalin dari sumber /2021/07/15/06/ ke destination/2021/07/15/06/ dengan nama file yang sama.
Anda juga dapat memverifikasi hal yang sama dengan menggunakan Azure Storage Explorer (https://storageexplorer.com/) untuk memindai file.
Buat file teks kosong lainnya dengan nama baru sebagai file2.txt. Unggah file2.txt ke jalur folder source/2021/07/15/07 di akun penyimpanan Anda. Anda dapat menggunakan berbagai alat untuk melakukan tugas ini, seperti Azure Storage Explorer.
Catatan
Anda mungkin menyadari bahwa jalur folder baru perlu untuk dibuat. Sesuaikan nama folder dengan waktu UTC Anda. Misalnya, jika waktu UTC saat ini adalah 7:30 AM pada bulan Juli. 15, 2021, Anda dapat membuat jalur folder sebagai source/2021/07/15/07/ dengan format {Year}/{Month}/{Day}/{Hour}/.
Untuk kembali ke tampilan Eksekusi Pipeline, pilih Semua eksekusi pipeline, dan tunggu hingga pipeline yang sama dipicu lagi secara otomatis setelah satu jam lagi.
Pilih tautan DeltaCopyFromBlobPipeline baru untuk eksekusi alur kedua ketika datang, dan lakukan hal yang sama untuk meninjau detail. Anda akan melihat file sumber (file2.txt) telah disalin dari source/2021/07/15/07/ ke penyedia sumber/2021/07/15/07/ dengan nama file yang sama. Anda juga dapat memverifikasi hal yang sama dengan menggunakan Azure Storage Explorer (https://storageexplorer.com/) untuk memindai file dalam kontainer tujuan.
Konten terkait
Lanjutkan ke tutorial berikut untuk mempelajari tentang mengubah data dengan menggunakan kluster Spark di Azure:
Saran dan Komentar
https://aka.ms/ContentUserFeedback.
Segera hadir: Sepanjang tahun 2024 kami akan menghentikan penggunaan GitHub Issues sebagai mekanisme umpan balik untuk konten dan menggantinya dengan sistem umpan balik baru. Untuk mengetahui informasi selengkapnya, lihat:Kirim dan lihat umpan balik untuk