Mengonfigurasi Azure Data Lake Storage Gen2 dalam aktivitas salin
Artikel ini menguraikan cara menggunakan aktivitas salin dalam alur data untuk menyalin data dari dan ke Azure Data Lake Storage Gen2.
Format yang didukung
Azure Data Lake Storage Gen2 mendukung format file berikut. Lihat setiap artikel untuk mengetahui cara melakukan pengaturan berbasis format.
- Format Avro
- Format Biner
- Format teks terpisah
- Format Excel
- Format JSON
- Format ORC
- Format Parquet
- Format XML
Konfigurasi yang didukung
Untuk konfigurasi setiap tab di bawah aktivitas salin, buka bagian berikut.
Umum
Lihat panduan Pengaturan umum untuk mengonfigurasi tab Pengaturan umum.
Sumber
Properti berikut ini didukung untuk Azure Data Lake Storage Gen2 di bawah tab Sumber aktivitas salin.
Properti berikut diperlukan:
Jenis penyimpanan data: Pilih Eksternal.
Koneksi ion: Pilih koneksi Azure Data Lake Storage Gen2 dari daftar koneksi. Jika tidak ada koneksi, buat koneksi Azure Data Lake Storage Gen2 baru dengan memilih Baru.
jenis Koneksi ion: Pilih Azure Data Lake Storage Gen2.
Jenis jalur file: Anda dapat memilih Jalur file, jalur file Wildcard, atau Daftar file sebagai jenis jalur file Anda. Konfigurasi masing-masing pengaturan ini adalah:
Jalur file: Jika Anda memilih jenis ini, data dapat disalin dari sistem file atau jalur folder/file yang ditentukan sebelumnya.
Jalur file kartubebas: Jika Anda memilih jenis ini, tentukan sistem File dan jalur Wildcard.
Sistem file: Nama sistem file Azure Data Lake Storage Gen2.
Jalur kartubebas: Tentukan folder atau jalur file dengan karakter kartubebas di bawah sistem file yang ditentukan untuk memfilter folder atau file sumber.
Kartubebas yang diizinkan adalah:
*
(cocok dengan nol atau lebih karakter) dan?
(cocok dengan karakter nol atau satu). Gunakan^
untuk karakter escape jika nama folder Anda memiliki karakter kartubebas atau karakter escape di dalamnya. Untuk contoh lainnya, buka Contoh filter folder dan file.Jalur folder kartubebas: Tentukan jalur folder dengan karakter kartubebas di bawah sistem file yang Anda tentukan untuk memfilter folder sumber.
Nama file kartubebas: Tentukan nama file dengan karakter kartubebas di bawah sistem file + jalur folder yang Anda tentukan (atau jalur folder kartubebas) untuk memfilter file sumber.
Daftar file: Menunjukkan bahwa Anda ingin menyalin kumpulan file tertentu. Tentukan jalur Folder dan Jalur ke daftar file untuk menunjuk ke file teks yang menyertakan daftar file yang ingin Anda salin, satu file per baris, yang merupakan jalur relatif ke jalur. Untuk contoh lainnya, buka Contoh daftar file.
Jalur folder: Tentukan jalur ke folder di bawah sistem file yang ditentukan. Hal ini diperlukan.
Jalur ke daftar file: Tentukan jalur file teks yang menyertakan daftar file yang ingin Anda salin.
Secara rekursif: Tentukan apakah data dibaca secara rekursif dari subfolder atau hanya dari folder yang ditentukan. Perhatikan bahwa ketika Secara rekursif dipilih dan tujuannya adalah penyimpanan berbasis file, folder atau subfolder kosong tidak disalin atau dibuat di tujuan. Properti ini dipilih secara default dan tidak berlaku saat Anda mengonfigurasi Jalur ke daftar file.
Format file: Pilih format file yang diterapkan dari daftar drop-down. Pilih Pengaturan untuk mengonfigurasi format file. Untuk pengaturan format file yang berbeda, lihat artikel dalam Format yang didukung untuk informasi terperinci.
Di bawah Tingkat Lanjut, Anda bisa menentukan bidang berikut ini:
Filter menurut terakhir diubah: File difilter berdasarkan tanggal terakhir diubah. Properti ini tidak berlaku saat Anda mengonfigurasi tipe jalur file sebagai Daftar file.
Waktu mulai (UTC): File dipilih jika waktu terakhir diubah lebih besar dari atau sama dengan waktu yang dikonfigurasi.
Waktu selesai (UTC): File dipilih jika waktu terakhir diubah kurang dari waktu yang dikonfigurasi.
Ketika Waktu mulai (UTC) memiliki nilai tanggalwaktu tetapi Waktu selesai (UTC) adalah NULL, itu berarti file yang atribut terakhir diubah lebih besar dari atau sama dengan nilai tanggalwaktu akan dipilih. Ketika Waktu selesai (UTC) memiliki nilai tanggalwaktu tetapi Waktu mulai (UTC) adalah NULL, itu berarti file yang atribut terakhir diubah kurang dari nilai tanggalwaktu akan dipilih. Properti dapat berupa NULL, yang berarti tidak ada filter atribut file yang akan diterapkan ke data.
Aktifkan penemuan partisi: Tentukan apakah akan mengurai partisi dari jalur file dan menambahkannya sebagai kolom sumber tambahan. Ini tidak dipilih secara default dan tidak didukung saat Anda menggunakan format file biner.
Jalur akar partisi: Saat penemuan partisi diaktifkan, tentukan jalur akar absolut untuk membaca folder yang dipartisi sebagai kolom data.
Jika tidak ditentukan, secara default,
- Saat Anda menggunakan jalur file atau daftar file pada sumber, jalur akar partisi adalah jalur yang Anda konfigurasikan.
- Saat Anda menggunakan filter folder kartubebas, jalur akar partisi adalah sub-jalur sebelum wildcard pertama.
Misalnya, dengan asumsi Anda mengonfigurasi jalur sebagai
root/folder/year=2020/month=08/day=27
:- Jika Anda menentukan jalur akar partisi sebagai
root/folder/year=2020
, aktivitas salin akan menghasilkan dua kolom lagi bulan dan hari dengan nilai "08" dan "27" masing-masing, selain kolom di dalam file. - Jika jalur akar partisi tidak ditentukan, tidak ada kolom tambahan yang akan dihasilkan.
Koneksi bersamaan maksimum: Properti ini menunjukkan batas atas koneksi bersamaan yang dibuat ke penyimpanan data selama aktivitas berjalan. Menentukan nilai hanya saat Anda ingin membatasi koneksi bersamaan.
Kolom tambahan: Tambahkan kolom data tambahan untuk menyimpan jalur relatif file sumber atau nilai statis. Ekspresi didukung untuk yang terakhir.
Tujuan
Properti berikut ini didukung untuk Azure Data Lake Storage Gen2 di bawah tab Tujuan dari aktivitas salin.
Properti berikut diperlukan:
- Jenis penyimpanan data: Pilih Eksternal.
- Koneksi ion: Pilih koneksi Azure Data Lake Storage Gen2 dari daftar koneksi. Jika tidak ada koneksi, buat koneksi Azure Data Lake Storage Gen2 baru dengan memilih Baru.
- jenis Koneksi ion: Pilih Azure Data Lake Storage Gen2.
- Jalur file: Pilih Telusuri untuk memilih file yang ingin Anda salin atau isi jalur secara manual.
- Format file: Pilih format file yang diterapkan dari daftar drop-down. Pilih Pengaturan untuk mengonfigurasi format file. Untuk pengaturan format file yang berbeda, lihat artikel dalam Format yang didukung untuk informasi terperinci.
Di bawah Tingkat Lanjut, Anda bisa menentukan bidang berikut ini:
Perilaku salin: Menentukan perilaku salin saat sumbernya adalah file dari penyimpanan data berbasis file. Anda dapat memilih perilaku dari daftar drop-down.
- Meratakan hierarki: Semua file dari folder sumber berada di tingkat pertama folder tujuan. File tujuan memiliki nama yang dibuat secara otomatis.
- Gabungkan file: Menggabungkan semua file dari folder sumber ke satu file. Jika nama file ditentukan, nama file yang digabungkan adalah nama yang ditentukan. Jika tidak, ini adalah nama file yang dibuat secara otomatis.
- Mempertahankan hierarki: Mempertahankan hierarki file di folder target. Jalur relatif file sumber ke folder sumber identik dengan jalur relatif file target ke folder target.
Koneksi bersamaan maksimum: Batas atas koneksi bersamaan yang dibuat ke penyimpanan data selama aktivitas berjalan. Menentukan nilai hanya saat Anda ingin membatasi koneksi bersamaan.
Ukuran blok (MB): Tentukan ukuran blok dalam MB yang digunakan untuk menulis data ke Azure Data Lake Storage Gen2. Untuk informasi selengkapnya, lihat Blokir Blob. Nilai yang diizinkan adalah antara 4 MB dan 100 MB.
Secara default, ukuran blok secara otomatis ditentukan berdasarkan jenis dan data penyimpanan sumber Anda. Untuk salinan non-biner ke Azure Data Lake Storage Gen2, ukuran blok default adalah 100 MB sehingga pas dengan paling banyak data 4,75 TB. Ini mungkin tidak optimal ketika data Anda tidak besar. Anda dapat secara eksplisit menentukan ukuran blok, sementara memastikan Ukuran blok (MB)*50000 cukup besar untuk menyimpan data, jika tidak, aktivitas salin akan gagal.
Metadata: Atur metadata kustom saat menyalin ke tujuan. Setiap objek di bawah
metadata
array mewakili kolom tambahan.name
mendefinisikan nama kunci metadata, danvalue
menunjukkan nilai data dari kunci tersebut. Jika fitur pertahankan atribut digunakan, metadata yang ditentukan akan disatukan/ditimpa dengan metadata file sumber.Nilai data yang diperbolehkan adalah:
$$LASTMODIFIED
: Variabel yang dipesan menunjukkan untuk menyimpan waktu modifikasi terakhir file sumber. Terapkan ke sumber berbasis file dengan format biner saja.- Expression
- Nilai statis
Pemetaan
Untuk Konfigurasi tab Pemetaan , buka Mengonfigurasi pemetaan Anda di bawah tab pemetaan. Jika Anda memilih Biner sebagai format file Anda, pemetaan tidak didukung.
Pengaturan
Untuk konfigurasi tab Pengaturan, buka Mengonfigurasi pengaturan Anda yang lain di bawah tab pengaturan.
Ringkasan tabel
Tabel berikut ini berisi informasi selengkapnya tentang aktivitas salin di Azure Data Lake Storage Gen2.
Informasi sumber
Nama | Deskripsi | Nilai | Wajib | Properti skrip JSON |
---|---|---|---|---|
Jenis penyimpanan data | Jenis penyimpanan data Anda. | Eksternal | Ya | / |
Koneksi | Koneksi Anda ke penyimpanan data sumber. | <koneksi Azure Data Lake Storage Gen2 Anda> | Ya | koneksi |
Tipe sambungan | Jenis koneksi Anda. Pilih Azure Data Lake Storage Gen2. | Azure Data Lake Storage Gen2 | Ya | / |
Jenis jalur file | Jenis jalur file yang ingin Anda gunakan. | • Jalur file • Jalur folder kartubebas, nama file Wildcard •Daftar file |
Ya | • folderPath, fileName, fileSystem • wildcardFolderPath, wildcardFileName, fileSystem • folderPath, fileName, fileListPath |
Secara rekursif | Menunjukkan apakah data dibaca secara rekursif dari subfolder atau hanya dari folder yang ditentukan. Perhatikan bahwa ketika Secara rekursif dipilih dan tujuannya adalah penyimpanan berbasis file, folder atau subfolder kosong tidak disalin atau dibuat di tujuan. Properti ini tidak berlaku saat Anda mengonfigurasi Jalur ke daftar file. | dipilih (default) atau batal pilih | No | recursive |
Filter menurut terakhir diubah | File dengan waktu terakhir diubah dalam rentang [Waktu mulai, Waktu selesai) akan difilter untuk pemrosesan lebih lanjut. Waktu akan diterapkan ke zona waktu UTC dalam format yyyy-mm-ddThh:mm:ss.fffZ . Properti ini dapat dilewati yang berarti tidak ada filter atribut file yang akan diterapkan. Properti ini tidak berlaku saat Anda mengonfigurasi tipe jalur file sebagai Daftar file. |
datetime | No | modifiedDatetimeStart modifiedDatetimeEnd |
Mengaktifkan penemuan partisi | Menunjukkan apakah akan mengurai partisi dari jalur file dan menambahkannya sebagai kolom sumber tambahan. | dipilih atau tidak dipilih (default) | No | enablePartitionDiscovery: true atau false (default) |
Jalur akar partisi | Ketika penemuan partisi diaktifkan, tentukan jalur akar absolut untuk membaca folder yang dipartisi sebagai kolom data. | < jalur akar partisi Anda > | No | partitionRootPath |
Koneksi bersamaan maks | Batas atas koneksi bersamaan yang ditetapkan ke penyimpanan data selama eksekusi aktivitas. Menentukan nilai hanya saat Anda ingin membatasi koneksi bersamaan. | <koneksi bersamaan maks> | No | maxConcurrentConnections |
Kolom tambahan | Tambahkan kolom data tambahan untuk menyimpan jalur relatif file sumber atau nilai statis. Ekspresi didukung untuk yang terakhir. | •Nama •Nilai |
No | additionalColumns: •Nama •Nilai |
Informasi tujuan
Nama | Deskripsi | Nilai | Wajib | Properti skrip JSON |
---|---|---|---|---|
Jenis penyimpanan data | Jenis penyimpanan data Anda. | Eksternal | Ya | / |
Koneksi | Koneksi Anda ke penyimpanan data tujuan. | <koneksi Azure Data Lake Storage Gen2 Anda> | Ya | koneksi |
Tipe sambungan | Jenis koneksi Anda. Pilih Azure Data Lake Storage Gen2. | Azure Data Lake Storage Gen2 | Ya | / |
Jalur file | Jalur file data tujuan Anda. | < jalur file Anda > | Ya | folderPath, fileName, fileSystem |
Perilaku salin | Menentukan perilaku salin saat sumber berupa file dari penyimpanan data berbasis file. | • Meratakan hierarki • Gabungkan file • Mempertahankan hierarki |
No | copyBehavior: • FlattenHierarchy • MergeFiles • PreserveHierarchy |
Koneksi bersamaan maks | Batas atas koneksi bersamaan yang ditetapkan ke penyimpanan data selama eksekusi aktivitas. Menentukan nilai hanya saat Anda ingin membatasi koneksi bersamaan. | <koneksi bersamaan maks> | No | maxConcurrentConnections |
Ukuran blok (MB) | Tentukan ukuran blok dalam MB saat menulis data ke Azure Data Lake Storage Gen2. Nilai yang diizinkan adalah antara 4 MB dan 100 MB. | <ukuran blok> | No | blockSizeInMB |
Metadata | Atur metadata kustom saat menyalin ke tujuan. | • $$LASTMODIFIED •Ekspresi • Nilai statis |
No | metadata |