Catatan
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba masuk atau mengubah direktori.
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba mengubah direktori.
BERLAKU UNTUK:
Azure Data Factory
Azure Synapse Analytics
Petunjuk / Saran
Cobalah Data Factory di Microsoft Fabric, solusi analitik all-in-one untuk perusahaan. Microsoft Fabric mencakup semuanya mulai dari pergerakan data hingga ilmu data, analitik real time, kecerdasan bisnis, dan pelaporan. Pelajari cara memulai uji coba baru secara gratis!
Di alur Azure Data Factory dan Synapse, Anda dapat menggunakan aktivitas Salin untuk menyalin data di antara penyimpanan data yang terletak di tempat lokal dan di cloud. Setelah menyalin data, Anda dapat menggunakan aktivitas lain untuk mengubah dan menganalisisnya lebih lanjut. Anda juga dapat menggunakan Aktivitas Salin untuk menerbitkan hasil transformasi dan analisis untuk kecerdasan bisnis (BI) dan konsumsi aplikasi.
Aktivitas Salin dijalankan pada runtime integrasi. Anda dapat menggunakan berbagai jenis runtime integrasi untuk berbagai skenario salinan data:
- Saat Anda menyalin data di antara dua penyimpanan data yang dapat diakses publik melalui internet dari IP apa pun, Anda dapat menggunakan runtime integrasi Azure untuk aktivitas salin. Runtime integrasi ini aman, andal, dapat diskalakan, dan tersedia secara global.
- Saat Anda menyalin data ke dan dari penyimpanan data yang terletak di tempat atau di jaringan dengan kontrol akses (misalnya, jaringan virtual Azure), Anda perlu menyiapkan runtime integrasi yang dihost sendiri.
Runtime integrasi perlu dihubungkan dengan setiap sumber dan penyimpanan data tujuan. Untuk informasi tentang bagaimana aktivitas Copy menentukan runtime integrasi mana yang harus digunakan, lihat Menentukan runtime integrasi mana yang harus digunakan.
Catatan
Anda tidak dapat menggunakan lebih dari satu runtime integrasi yang dihost sendiri dalam aktivitas Salin yang sama. Sumber dan sink untuk aktivitas harus terhubung dengan runtime integrasi swakelola yang sama.
Untuk menyalin data dari sumber ke sink, layanan yang menjalankan aktivitas Salin melakukan langkah-langkah ini:
- Membaca data dari penyimpanan data sumber.
- Melakukan serialisasi/deserialisasi, pemadatan/dekompresi, pemetaan kolom, dan sebagainya. Layanan tersebut melakukan operasi ini berdasarkan konfigurasi himpunan data input, himpunan data output, dan aktivitas Salin.
- Menulis data ke penyimpanan data penerima/tujuan.
Catatan
Jika runtime integrasi yang di-host sendiri digunakan pada penyimpanan data sumber atau sink dalam aktivitas Salin, maka sumber dan sink harus dapat diakses dari server yang meng-host runtime integrasi agar aktivitas Salin berhasil.
Penyimpanan data dan format yang didukung
Catatan
Jika konektor ditandai sebagai Pratinjau, Anda dapat mencobanya dan memberi kami umpan balik. Jika Anda ingin bergantung pada konektor pratinjau dalam solusi Anda, hubungi dukungan Azure.
Format file yang didukung
Azure Data Factory mendukung jenis format file berikut. Lihat setiap artikel untuk mengetahui cara melakukan pengaturan berbasis format.
- Format Avro
- Format Biner
- Format teks dengan pembatas
- Format Excel
- Format Iceberg (hanya untuk Azure Data Lake Storage Gen2)
- Format JSON
- Format ORC
- Format Parquet
- Format XML
Anda dapat menggunakan aktivitas Salin untuk menyalin file apa adanya di antara dua penyimpanan data berbasis file, dalam hal ini data disalin secara efisien tanpa serialisasi atau deserialisasi. Selain itu, Anda juga dapat memilah atau membuat file dengan format tertentu, misalnya, Anda dapat melakukan hal berikut:
- Menyalin data dari database SQL Server dan menulis ke Azure Data Lake Storage Gen2 dalam format Parquet.
- Menyalin file dalam format teks (CSV) dari sistem file lokal dan menulis ke penyimpanan Azure Blob dalam format Avro.
- Menyalin file zip dari sistem file lokal, mendekompresi file dengan cepat, dan menulis file yang diekstrak ke Azure Data Lake Storage Gen2.
- Menyalin data dalam format teks terpadatkan Gzip (CSV) dari penyimpanan Azure Blob dan menulisnya ke Azure SQL Database.
- Banyak lagi aktivitas yang memerlukan serialisasi/deserialisasi atau pemadatan/dekompresi.
Wilayah yang didukung
Layanan yang memungkinkan aktivitas Salin tersedia secara global di wilayah dan geografi yang tercantum di lokasi runtime integrasi Azure. Topologi yang tersedia secara global memastikan pergerakan data yang efisien yang biasanya menghindari hop lintas wilayah. Lihat Produk menurut wilayah untuk memeriksa ketersediaan Data Factory, Ruang Kerja Synapse, dan pergerakan data di wilayah tertentu.
Konfigurasi
Untuk melakukan aktivitas salin dengan alur, Anda dapat menggunakan salah satu alat atau SDK berikut:
- Alat Salin Data
- Portal Azure
- .NET SDK
- Python SDK
- Azure PowerShell
- REST API
- Templat Azure Resource Manager
Secara umum, untuk menggunakan aktivitas Salin di alur Azure Data Factory atau Synapse, Anda perlu:
- Membuat layanan tertaut untuk penyimpanan data sumber dan penyimpanan data sink. Anda bisa menemukan daftar konektor yang didukung di bagian Penyimpanan dan format data yang didukung di artikel ini. Rujuk ke bagian "Properti layanan tertaut" pada artikel konektor untuk mendapatkan informasi tentang konfigurasi dan properti yang didukung.
- Membuat himpunan data untuk sumber dan sink. Lihat bagian "Properti himpunan data" di artikel sumber dan artikel konektor sink untuk informasi konfigurasi dan properti yang didukung.
- Buat pipeline dengan aktivitas Salin. Bagian berikutnya memberikan contoh.
Sintaks
Templat aktivitas Salin berikut ini berisi daftar lengkap properti yang didukung. Tentukan yang sesuai dengan skenario Anda.
"activities":[
{
"name": "CopyActivityTemplate",
"type": "Copy",
"inputs": [
{
"referenceName": "<source dataset name>",
"type": "DatasetReference"
}
],
"outputs": [
{
"referenceName": "<sink dataset name>",
"type": "DatasetReference"
}
],
"typeProperties": {
"source": {
"type": "<source type>",
<properties>
},
"sink": {
"type": "<sink type>"
<properties>
},
"translator":
{
"type": "TabularTranslator",
"columnMappings": "<column mapping>"
},
"dataIntegrationUnits": <number>,
"parallelCopies": <number>,
"enableStaging": true/false,
"stagingSettings": {
<properties>
},
"enableSkipIncompatibleRow": true/false,
"redirectIncompatibleRowSettings": {
<properties>
}
}
}
]
Detail sintaksis
| Properti | Deskripsi | Wajib diisi? |
|---|---|---|
| jenis | Untuk aktivitas Salin, atur ke Copy |
Ya |
| input | Tentukan himpunan data yang Anda buat yang menunjuk ke data sumber. Aktivitas Salin hanya mendukung satu input. | Ya |
| output | Tentukan himpunan data yang Anda buat yang menunjuk ke data sink. Aktivitas Salin hanya mendukung satu output. | Ya |
| tipeProperti | Tentukan properti untuk mengonfigurasikan aktivitas Salin. | Ya |
| sumber | Tentukan jenis sumber salinan dan properti terkait untuk mengambil data. Untuk informasi selengkapnya, lihat bagian "Properti aktivitas salin" di artikel konektor yang tercantum di Penyimpanan dan format data yang didukung. |
Ya |
| sink | Tentukan jenis sumber salin dan properti terkait untuk menulis data. Untuk informasi selengkapnya, lihat bagian "Properti aktivitas salin" di artikel konektor yang tercantum di Penyimpanan dan format data yang didukung. |
Ya |
| penerjemah | Tentukan pemetaan kolom eksplisit dari sumber ke sink. Properti ini berlaku saat perilaku salin default tidak memenuhi kebutuhan Anda. Untuk informasi selengkapnya, lihat Pemetaan skema dalam aktivitas salin. |
Tidak. |
| dataIntegrationUnits | Tentukan pengukuran yang menunjukkan jumlah daya yang digunakan runtime integrasi Azure untuk penyalinan data. Unit-unit ini sebelumnya dikenal sebagai cloud Data Movement Units (DMU). Untuk informasi selengkapnya, lihat Unit Integrasi Data. |
Tidak. |
| parallelCopies | Tentukan paralelisme yang Anda inginkan untuk digunakan aktivitas Salin saat membaca data dari sumber dan menulis data ke sink. Untuk informasi selengkapnya, lihat Salinan paralel. |
Tidak. |
| mempertahankan | Tentukan apakah akan mempertahankan metadata/ACL selama penyalinan data. Untuk informasi selengkapnya, lihat Mempertahankan metadata. |
Tidak. |
| mengaktifkan Pementasan pementasanPengaturan |
Tentukan apakah akan memproses data sementara di penyimpanan Blob alih-alih langsung menyalin data dari sumber ke sink. Untuk informasi tentang skenario berguna dan detail konfigurasi, lihat Salinan berlapis. |
Tidak. |
| aktifkanLompatiBarisTidakKompatibel Pengaturan Baris yang Tidak Kompatibel Dialihkan Kembali |
Pilih cara menangani baris yang tidak kompatibel saat Anda menyalin data dari sumber ke sink. Untuk informasi selengkapnya, lihat Toleransi kegagalan. |
Tidak. |
Pemantauan
Anda dapat memantau aktivitas Salin yang berjalan di Azure Data Factory dan Synapse pipelines, baik secara visual maupun melalui kode. Untuk detailnya, lihat Memantau aktivitas salin.
Salinan bertambah bertahap
Alur Data Factory dan Synapse memungkinkan Anda menyalin data delta secara bertahap dari penyimpanan data sumber ke penyimpanan data sink. Untuk detailnya, lihat Tutorial: Menyalin data secara bertahap.
Performa dan pengoptimalan
Pengalaman pemantauan aktivitas salin menunjukkan statistik kinerja penyalinan untuk setiap aktivitas yang telah Anda jalankan. Panduan kinerja dan skalabilitas aktivitas Salin menjelaskan faktor-faktor utama yang memengaruhi kinerja pemindahan data melalui aktivitas Salin. Panduan ini juga mencantumkan nilai performa yang diamati selama pengujian dan membahas cara mengoptimalkan performa aktivitas Copy.
Lanjutkan dari proses terakhir yang gagal
Aktivitas salin mendukung melanjutkan dari eksekusi terakhir yang gagal saat Anda menyalin file berukuran besar secara seadanya dengan format biner di antara penyimpanan berbasis file dan memilih untuk mempertahankan hierarki folder/file dari sumber ke tujuan, misalnya, untuk memindahkan data dari Amazon S3 ke Azure Data Lake Storage Gen2. Ini berlaku untuk konektor berbasis file berikut: Amazon S3, Amazon S3 Compatible StorageAzure Blob, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Azure Files, File System, FTP, Google Cloud Storage, HDFS, Oracle Cloud Storage, dan SFTP.
Anda dapat menggunakan fitur 'resume' untuk aktivitas penyalinan dengan dua cara berikut:
Coba lagi tingkat aktivitas: Anda dapat mengatur jumlah percobaan ulang pada aktivitas salin. Selama eksekusi alur, jika eksekusi aktivitas salin ini gagal, percobaan ulang otomatis berikutnya dimulai dari titik kegagalan uji coba terakhir.
Eksekusi ulang dari aktivitas yang gagal: Setelah eksekusi alur selesai, Anda juga dapat memicu eksekusi ulang dari aktivitas yang gagal dalam tampilan pemantauan antarmuka pengguna Azure Data Factory atau secara terprogram. Jika aktivitas yang gagal adalah aktivitas salin, alur tidak hanya akan dijalankan ulang dari aktivitas ini, tetapi juga akan melanjutkan dari titik kegagalan pelaksanaan sebelumnya.
Poin yang perlu diperhatikan:
- Proses melanjutkan terjadi pada tingkat file. Jika aktivitas salin gagal saat menyalin file, dalam eksekusi berikutnya, file spesifik ini akan dikodekan ulang.
- Agar resume berfungsi dengan baik, jangan ubah pengaturan aktivitas salin di antara tayangan ulang.
- Saat Anda menyalin data dari Amazon S3, Azure Blob, Azure Data Lake Storage Gen2, dan Google Cloud Storage, aktivitas salin dapat dilanjutkan dari jumlah file yang disalin secara arbitrer. Sementara untuk konektor berbasis file lainnya sebagai sumber, aktivitas penyalinan saat ini mendukung pengulangan dari sejumlah file terbatas, biasanya pada kisaran puluhan ribu dan bervariasi tergantung panjang jalur file; file yang melebihi jumlah ini akan disalin ulang selama eksekusi ulang.
Untuk skenario lain daripada salinan file biner, eksekusi ulang aktivitas salin dimulai dari awal.
Catatan
Melanjutkan eksekusi yang gagal terakhir melalui runtime integrasi yang dihost sendiri sekarang hanya didukung dalam versi 5.43.8935.2 atau lebih tinggi dari runtime integrasi tersebut.
Mempertahankan metadata bersama dengan data
Saat menyalin data dari sumber ke tujuan, dalam skenario seperti migrasi data lake, Anda juga dapat memilih untuk mempertahankan metadata dan ACL bersama dengan data menggunakan aktivitas penyalinan. Lihat Mempertahankan metadata untuk detailnya.
Tambahkan tag metadata pada sink berbasis file
Saat sink berbasis Azure Storage (penyimpanan data lake Azure atau Azure Blob Storage), kita dapat memilih untuk menambahkan beberapa metadata ke file. Metadata ini akan muncul sebagai bagian dari properti file sebagai pasangan Key-Value. Untuk semua jenis sink berbasis file, Anda dapat menambahkan metadata yang melibatkan konten dinamis menggunakan parameter alur, variabel sistem, fungsi, dan variabel. Selain itu, untuk sink berbasis file biner, Anda memiliki opsi untuk menambahkan tanggalwaktu Terakhir Diubah (dari file sumber) menggunakan kata kunci $$LASTMODIFIED, dan nilai kustom sebagai metadata ke file sink.
Skema dan pemetaan jenis data
Lihat Pemetaan skema dan jenis data untuk informasi tentang cara aktivitas Salin memetakan data sumber Anda ke sink Anda.
Menambahkan kolom tambahan selama penyalinan
Selain menyalin data dari penyimpanan data sumber ke sink, Anda juga dapat mengonfigurasikan untuk menambahkan kolom data tambahan untuk disalin ke sink. Contohnya:
- Saat Anda menyalin dari sumber berbasis file, simpan jalur file relatif sebagai kolom tambahan jenis String untuk dilacak dari file asal data.
- Menduplikasi kolom sumber yang ditentukan sebagai kolom lain.
- Menambahkan kolom dengan ekspresi ADF, untuk melampirkan variabel sistem ADF seperti nama alur/ID alur, atau simpan nilai dinamis lainnya dari output aktivitas upstream.
- Menambahkan kolom dengan nilai statis untuk memenuhi kebutuhan konsumsi hilir Anda.
Anda dapat menemukan konfigurasi berikut pada tab sumber aktivitas salin. Anda juga dapat memetakan kolom tambahan tersebut dalam pemetaan skema aktivitas salin sebagaimana biasa dengan menggunakan nama kolom yang ditentukan.
Petunjuk / Saran
Fitur ini bekerja dengan model himpunan data terbaru. Jika Anda tidak melihat opsi ini dari antarmuka pengguna, coba buat himpunan data baru.
Untuk mengonfigurasikannya secara terprogram, tambahkan properti additionalColumns di sumber aktivitas salin Anda:
| Properti | Deskripsi | Wajib diisi |
|---|---|---|
| kolom tambahan | Tambahkan kolom data tambahan untuk disalin ke sink. Setiap objek di bawah additionalColumnsarray mewakili kolom tambahan.
name menentukan nama kolom, dan value menunjukkan nilai data kolom tersebut.Nilai data yang diperbolehkan adalah: - $$FILEPATH - variabel yang dicadangkan menunjukkan untuk menyimpan jalur relatif file sumber ke jalur folder yang ditentukan dalam himpunan data. Menerapkan ke sumber berbasis file.- $$COLUMN:<source_column_name> - pola variabel cadangan menandakan duplikasi kolom sumber spesifik menjadi kolom lain- Ekspresi - Nilai statis |
Tidak. |
Contoh:
"activities":[
{
"name": "CopyWithAdditionalColumns",
"type": "Copy",
"inputs": [...],
"outputs": [...],
"typeProperties": {
"source": {
"type": "<source type>",
"additionalColumns": [
{
"name": "filePath",
"value": "$$FILEPATH"
},
{
"name": "newColName",
"value": "$$COLUMN:SourceColumnA"
},
{
"name": "pipelineName",
"value": {
"value": "@pipeline().Pipeline",
"type": "Expression"
}
},
{
"name": "staticValue",
"value": "sampleValue"
}
],
...
},
"sink": {
"type": "<sink type>"
}
}
}
]
Petunjuk / Saran
Setelah mengonfigurasi kolom tambahan, ingatlah untuk memetakannya ke sink tujuan Anda, di tab Pemetaan.
Membuat tabel sink secara otomatis
Saat Anda menyalin data ke database SQL/Azure Synapse Analytics, jika tabel tujuan tidak ada, aktivitas salin mendukung pembuatannya secara otomatis berdasarkan data sumber. Ini bertujuan untuk membantu Anda dengan cepat mulai memuat data dan mengevaluasi database SQL/Azure Synapse Analytics. Setelah penyerapan data, Anda dapat mengulas dan menyesuaikan skema tabel sink sesuai dengan kebutuhan Anda.
Fitur ini didukung saat menyalin data dari sumber apa pun ke dalam penyimpanan data sink berikut. Anda dapat menemukan opsi pada ADF authoring UI ->sink aktivitas menyalin ->Opsi tabel ->Otomatis membuat tabel, atau melalui properti dalam payload sink aktivitas menyalin.
Toleransi kegagalan
Secara default, aktivitas Salin berhenti menyalin data dan mengembalikan kegagalan saat baris data sumber tidak kompatibel dengan baris data sink. Untuk membuat salinan berhasil, Anda dapat mengonfigurasikan aktivitas Salin untuk melompati dan mencatat baris yang tidak kompatibel dan hanya menyalin data yang kompatibel. Lihat Toleransi Kesalahan Aktivitas Salin untuk detailnya.
Verifikasi konsistensi data
Saat Anda memindahkan data dari penyimpanan sumber ke penyimpanan tujuan, aktivitas salin menyediakan opsi bagi Anda untuk melakukan verifikasi konsistensi data tambahan untuk memastikan data tidak hanya berhasil disalin dari penyimpanan sumber ke tujuan, tetapi juga diverifikasi agar konsisten antara penyimpanan sumber dan tujuan. Setelah file yang tidak konsisten ditemukan selama pemindahan data, Anda dapat membatalkan aktivitas penyalinan atau melanjutkan menyalin sisanya dengan mengaktifkan pengaturan toleransi kegagalan untuk melompati file yang tidak konsisten. Anda bisa mendapatkan nama file yang dilompati dengan mengaktifkan pengaturan log sesi dalam aktivitas salin. Lihat Verifikasi konsistensi data dalam aktivitas salinuntuk detailnya.
Log sesi
Anda dapat mencatat nama file yang disalin, yang dapat membantu Anda untuk lebih memastikan data tidak hanya berhasil disalin dari penyimpanan sumber ke tujuan, tetapi juga konsisten antara penyimpanan sumber dan tujuan dengan meninjau log sesi aktivitas salin. Lihat Aktivitas penyalinan sesi masuk untuk informasi lebih lanjut.
Konten terkait
Lihat panduan cepat, tutorial, dan contoh berikut ini: