Bagikan melalui


Himpunan data di Azure Data Factory dan Synapse Analytics

BERLAKU UNTUK: Azure Data Factory Azure Synapse Analytics

Tip

Cobalah Data Factory di Microsoft Fabric, solusi analitik all-in-one untuk perusahaan. Microsoft Fabric mencakup semuanya mulai dari pergerakan data hingga ilmu data, analitik real time, kecerdasan bisnis, dan pelaporan. Pelajari cara memulai uji coba baru secara gratis!

Alat Salin Data memudahkan dan mengoptimalkan proses penyerapan data ke dalam data lake, yang biasanya merupakan langkah pertama dalam skenario integrasi data ujung-ke-ujung. Tindakan ini menghemat waktu, terutama ketika Anda menggunakan layanan untuk menyerap data dari sumber data untuk pertama kalinya. Beberapa keuntungan menggunakan alat ini adalah:

  • Saat menggunakan alat Salin Data, Anda tidak perlu memahami definisi layanan untuk layanan tertaut, himpunan data, alur, aktivitas, dan pemicu.
  • Alur alat Copy Data intuitif untuk memuat data ke dalam data lake. Alat ini secara otomatis membuat semua sumber daya yang diperlukan untuk menyalin data dari penyimpanan data sumber terpilih ke penyimpanan data tujuan/sink terpilih.
  • Alat Copy Data membantu Anda memvalidasi data yang sedang diserap pada saat penulisan, ini membantu Anda menghindari potensi kesalahan di awal.
  • Jika Anda perlu menerapkan logika bisnis yang kompleks untuk memuat data ke dalam data{i>

Tabel berikut menyediakan panduan kapan harus menggunakan alat Salin Data versus penulisan per aktivitas di antarmuka pengguna:

Alat Copy Data Penulisan per aktivitas (aktivitas Salin)
Anda ingin dengan mudah membangun tugas pemuatan data tanpa mempelajari tentang entitas (layanan tertaut, himpunan data, alur, dll.) Anda ingin menerapkan logika yang kompleks dan fleksibel untuk memuat data ke dalam data lake.
Anda ingin cepat-cepat memuat sejumlah besar artefak data ke dalam data lake. Anda ingin mengikat aktivitas Salin dengan aktivitas yang berikutnya untuk membersihkan atau memproses data.

Untuk memulai alat Salin Data, klik petak peta Penyerapan di beranda UI Data Factory atau Synapse Studio.

Setelah meluncurkan alat data penyalinan, Anda akan melihat dua jenis tugas: satu adalah tugas penyalinan bawaan dan yang lainnya adalah tugas penyalinan berbasis metadata. Tugas penyalinan bawaan mengarahkan Anda untuk membuat alur dalam waktu lima menit untuk mereplikasi data tanpa mempelajari tentang entitas. Tugas penyalinan berbasis metadata untuk memudahkan perjalanan Anda membuat alur parameter dan tabel kontrol eksternal guna menyalin sejumlah besar objek (misalnya, ribuan tabel) dalam skala besar. Anda dapat melihat detail selengkapnya di data penyalinan berbasis metadata.

Alur intuitif untuk memuat data ke dalam data lake

Alat ini memungkinkan Anda untuk memindahkan data dengan mudah dari berbagai sumber ke tujuan dalam hitungan menit dengan alur intuitif:

  1. Konfigurasikan pengaturan untuk sumber.

  2. Konfigurasikan pengaturan untuk tujuan.

  3. Konfigurasikan pengaturan lanjutan untuk operasi penyalinan, seperti pemetaan kolom, pengaturan performa, dan pengaturan toleransi kegagalan.

  4. Tentukan jadwal untuk tugas pemuatan data.

  5. Tinjau ringkasan entitas yang akan dibuat.

  6. Edit alur untuk memperbarui pengaturan sesuai kebutuhan untuk aktivitas salin.

    Sejak awal alat ini dirancang untuk big data, dengan dukungan untuk beragam jenis data dan objek. Anda dapat menggunakannya untuk memindahkan ratusan folder, file, atau tabel. Alat ini mendukung pratinjau data otomatis, pengambilan skema dan pemetaan otomatis, dan juga pemfilteran data.

Alat Copy Data

Pratinjau data otomatis

Anda dapat melihat pratinjau bagian data dari penyimpanan data sumber terpilih, yang memungkinkan Anda untuk memvalidasi data yang sedang disalin. Selain itu, jika data sumber berada dalam file teks, alat Copy Data memilah file teks untuk mendeteksi secara otomatis pemisah baris dan kolom, dan skema.

Pengaturan file

Setelah deteksi, pilih Pratinjau data:

Pengaturan dan pratinjau file yang terdeteksi

Pengambilan skema dan pemetaan otomatis

Dalam kebanyakan kasus, skema sumber data mungkin tidak sama dengan skema tujuan data. Dalam skenario ini, Anda perlu memetakan kolom dari skema sumber ke kolom di skema tujuan.

Alat Copy Data memantau dan mempelajari perilaku Anda ketika Anda memetakan kolom baik dari penyimpanan sumber maupun tujuan. Setelah Anda memilih satu atau beberapa kolom dari penyimpanan data sumber, dan memetakannya ke skema tujuan, alat Copy Data mulai menganalisis pola pasangan kolom yang Anda pilih dari kedua sisi. Kemudian, ia menerapkan pola yang sama ke kolom yang lainnya. Kini Anda melihat bahwa semua kolom telah dipetakan ke tujuan sesuai keinginan Anda hanya dengan beberapa klik. Jika Anda tidak puas dengan pilihan pemetaan kolom yang disediakan oleh alat Copy Data, Anda tinggal mengabaikannya dan melanjutkan pemetaan kolom secara manual. Namun, alat Copy Data akan terus mempelajari dan memperbarui pola tersebut, dan akhirnya mendapatkan pola yang tepat untuk pemetaan kolom yang Anda inginkan.

Catatan

Saat menyalin data dari SQL Server atau Azure SQL Database ke Azure Synapse Analytics, jika tabel tidak ada di penyimpanan tujuan, alat Copy Data mendukung pembuatan tabel tersebut secara otomatis dengan menggunakan skema sumber.

Filter data

Anda dapat memfilter data sumber untuk hanya memilih data yang perlu disalin ke penyimpanan data sink. Pemfilteran mengurangi volume data yang akan disalin ke penyimpanan data sink, dan karenanya, meningkatkan throughput operasi salin. Alat Copy Data menyediakan cara yang fleksibel untuk memfilter data dalam database hubungan dengan menggunakan bahasa kueri SQL, atau file dalam folder blob Azure.

Memfilter data dalam database

Cuplikan layar berikut ini memperlihatkan kueri SQL untuk memfilter data.

Memfilter data dalam database

Memfilter data dalam folder blob Azure

Anda dapat menggunakan variabel di jalur folder untuk menyalin data dari folder. Variabel yang didukung adalah: {tahun}, {bulan}, {tanggal}, {jam}, dan {menit}. Misalnya: inputfolder/{tahun}/{bulan}/{tanggal}.

Misalkan Anda memiliki folder input dalam format berikut:

2016/03/01/01
2016/03/01/02
2016/03/01/03
...

Klik tombol Telusuri File atau folder, telusuri ke salah satu folder ini (misalnya, 2016->03->01->02), dan klik Pilih. Anda akan melihat 2016/03/01/02 di kotak teks.

Sekarang, ganti 2016 dengan {tahun}, 03 dengan {bulan}, 01 dengan {tanggal}, dan 02 dengan {jam}, lalu tekan Tab. Saat Anda memilih Beban tambahan bertahap: nama folder/file yang dipartisi waktu di bagian Perilaku pemuatan file dan Anda memilih Jadwalkan atau Jendela tumbling di halaman Properti, Anda akan melihat daftar turun bawah untuk memilih format untuk keempat variabel ini:

Memfilter file atau folder

Alat Copy Data membuat parameter dengan ekspresi, fungsi, dan variabel sistem yang dapat digunakan untuk mewakili {tahun}, {bulan}, {tanggal}, {jam}, dan {menit} saat membuat alur.

Opsi penjadwalan

Anda dapat menjalankan operasi penyalinan satu kali atau sesuai jadwal (per jam, per hari, dan sebagainya). Opsi ini dapat digunakan untuk konektor di beragam lingkungan, termasuk desktop lokal (on-premises), cloud, dan lokal.

Operasi penyalinan satu kali memungkinkan pergerakan data dari sumber ke tujuan hanya sekali. Ini berlaku untuk data dengan ukuran apa pun dan format apa pun yang didukung. Penyalinan terjadwal memungkinkan Anda untuk menyalin data pada pengulangan yang Anda tentukan. Anda dapat menggunakan pengaturan kaya (seperti coba lagi, batas waktu, dan peringatan) untuk mengonfigurasi salinan terjadwal.

Opsi penjadwalan

Cobalah tutorial ini yang menggunakan alat Copy Data: