Mengonfigurasi FTP dalam aktivitas salin
Artikel ini menguraikan cara menggunakan aktivitas salin di alur data untuk menyalin data dari FTP.
Format yang didukung
FTP mendukung format file berikut. Lihat setiap artikel untuk mengetahui cara melakukan pengaturan berbasis format.
- Format Avro
- Format Biner
- Format teks terpisah
- Format Excel
- Format JSON
- Format ORC
- Format Parquet
- Format XML
Konfigurasi yang didukung
Untuk konfigurasi setiap tab di bawah aktivitas salin, buka bagian berikut.
Umum
Lihat panduan Pengaturan umum untuk mengonfigurasi tab Pengaturan umum.
Sumber
Buka tab Sumber untuk mengonfigurasi sumber aktivitas salin Anda. Lihat konten berikut untuk konfigurasi terperinci.
Tiga properti berikut diperlukan:
Jenis penyimpanan data: Pilih Eksternal.
Koneksi ion: Pilih koneksi FTP dari daftar koneksi. Jika tidak ada koneksi, buat koneksi FTP baru dengan memilih Baru.
Jenis jalur file: Pilih dari Jalur file, jalur file Wildcard, dan Daftar file berdasarkan cara Anda ingin membaca file.
Jalur file: Jika Anda memilih jenis ini, tentukan jalur file sumber Anda. Anda dapat memilih Telusuri untuk memilih file sumber Anda atau memasukkan jalur file Anda secara manual.
Jalur file liar: Jika Anda memilih jenis ini, tentukan jalur Wildcard untuk memfilter folder atau file sumber Anda.
Kartubebas yang diizinkan adalah
*
(cocok dengan nol atau lebih karakter) dan?
(cocok dengan nol atau satu karakter). Gunakan^
untuk karakter escape jika nama folder Anda memiliki karakter kartubebas atau karakter escape di dalamnya. Untuk contoh lainnya, buka Contoh filter folder dan file.Jalur folder kartubebas: Tentukan jalur folder dengan karakter kartubebas untuk memfilter folder sumber.
Nama file kartubebas: Tentukan nama file dengan karakter kartubebas di bawah jalur folder folder folder FolderPath/wildcard yang diberikan untuk memfilter file sumber.
Daftar file: Jika Anda memilih jenis ini, tentukan jalur Folder dan Daftar jalur ke file untuk menunjukkan untuk menyalin kumpulan file tertentu. Arahkan ke file teks yang menyertakan daftar file yang ingin Anda salin, satu file per baris. Untuk contoh lainnya, buka Contoh daftar file.
Jalur folder: Tentukan jalur ke folder sumber Anda. Hal ini diperlukan.
Jalur ke daftar file: Tentukan jalur file teks yang menyertakan daftar file yang ingin Anda salin.
Format file: Pilih format file yang diterapkan dari daftar drop-down. Pilih Pengaturan untuk mengonfigurasi format file. Untuk pengaturan format file yang berbeda, lihat artikel dalam Format yang didukung untuk informasi terperinci.
Di bawah Tingkat Lanjut, Anda bisa menentukan bidang berikut ini:
Filter menurut terakhir diubah: File difilter berdasarkan tanggal terakhir diubah. Properti ini tidak berlaku saat Anda mengonfigurasi tipe jalur file sebagai Daftar file.
- Waktu mulai (UTC): File dipilih jika waktu terakhir diubah lebih besar dari atau sama dengan waktu yang dikonfigurasi.
- Waktu selesai (UTC): File dipilih jika waktu terakhir diubah kurang dari waktu yang dikonfigurasi.
Ketika Waktu mulai (UTC) memiliki nilai tanggalwaktu tetapi Waktu selesai (UTC) adalah NULL, itu berarti file yang atribut terakhir diubah lebih besar dari atau sama dengan nilai tanggalwaktu akan dipilih. Ketika Waktu selesai (UTC) memiliki nilai tanggalwaktu tetapi Waktu mulai (UTC) adalah NULL, itu berarti file yang atribut terakhir diubah kurang dari nilai tanggalwaktu akan dipilih. Properti dapat berupa NULL, yang berarti tidak ada filter atribut file yang akan diterapkan ke data.
Nonaktifkan penggugusan: Penggugusan dirancang untuk mengoptimalkan performa dan terjadi di bawahnya. Opsi ini memungkinkan Anda menonaktifkan pemotongan dalam setiap file. Saat menyalin data dari FTP, layanan mencoba mendapatkan panjang file terlebih dahulu, kemudian membagi file menjadi beberapa bagian dan membacanya secara paralel. Tentukan apakah server FTP Anda mendukung mendapatkan panjang file atau ingin membaca dari offset tertentu. Ini tidak dipilih secara default.
Aktifkan penemuan partisi: Tentukan apakah akan mengurai partisi dari jalur file dan menambahkannya sebagai kolom sumber tambahan. Ini tidak dipilih secara default dan tidak didukung saat Anda menggunakan format file biner.
Jalur akar partisi: Saat penemuan partisi diaktifkan, tentukan jalur akar absolut untuk membaca folder yang dipartisi sebagai kolom data.
Jika tidak ditentukan, secara default,- Saat Anda menggunakan jalur file atau daftar file pada sumber, jalur akar partisi adalah jalur yang Anda konfigurasikan.
- Saat Anda menggunakan filter folder kartubebas, jalur akar partisi adalah sub-jalur sebelum wildcard pertama.
Misalnya, dengan asumsi Anda mengonfigurasi jalur sebagai
root/folder/year=2020/month=08/day=27
:- Jika Anda menentukan jalur akar partisi sebagai
root/folder/year=2020
, aktivitas salin akan menghasilkan dua kolom lagi bulan dan hari dengan nilai "08" dan "27" masing-masing, selain kolom di dalam file. - Jika jalur akar partisi tidak ditentukan, tidak ada kolom tambahan yang akan dihasilkan.
Gunakan transfer biner: Tentukan apakah akan menggunakan mode transfer biner. Pilih untuk menggunakan mode biner (default) atau batal pilih untuk menggunakan ASCII.
Koneksi bersamaan maksimum: Properti ini menunjukkan batas atas koneksi bersamaan yang dibuat ke penyimpanan data selama aktivitas berjalan. Menentukan nilai hanya saat Anda ingin membatasi koneksi bersamaan.
Kolom tambahan: Tambahkan kolom data tambahan untuk menyimpan jalur relatif file sumber atau nilai statis. Ekspresi didukung untuk yang terakhir. Untuk informasi selengkapnya, buka Menambahkan kolom tambahan selama penyalinan.
Pemetaan
Untuk Konfigurasi tab Pemetaan , lihat Mengonfigurasi pemetaan Anda di bawah tab pemetaan. Jika Anda memilih Biner sebagai format file Anda, pemetaan tidak akan didukung.
Pengaturan
Untuk konfigurasi tab Pengaturan, buka Mengonfigurasi pengaturan Anda yang lain di bawah tab pengaturan.
Ringkasan tabel
Tabel berikut berisi informasi selengkapnya tentang aktivitas salin di FTP.
Sumber
Nama | Deskripsi | Nilai | Wajib | Properti skrip JSON |
---|---|---|---|---|
Jenis penyimpanan data | Jenis penyimpanan data Anda. | Eksternal | Ya | / |
Koneksi | Koneksi FTP Anda ke penyimpanan data sumber. | < koneksi FTP Anda > | Ya | koneksi |
Jenis jalur file | Jenis jalur file yang digunakan untuk mendapatkan data sumber. | • Jalur file • Jalur file kartubebas • Daftar file |
Ya | / |
Jalur file | Jalur ke file sumber. | < jalur file> | Ya | fileName folderpath |
Jalur kartubebas | Jalur kartubebas ke file sumber. | < jalur file kartubebas Anda > | Ya untuk nama file Wildcard | wildcardFolderPath wildcardFileName |
Jalur Folder | Jalur ke folder sumber Anda. | < jalur folder beranda umum> | Ya | folderPath |
Jalur ke daftar file | Mengindikasikan untuk menyalin set file yang diberikan. Arahkan ke file teks yang menyertakan daftar file yang ingin Anda salin, satu file per baris. | < jalur daftar file > | No | fileListPath |
Format file | Format file untuk data sumber Anda. Untuk informasi format file yang berbeda, lihat artikel dalam Format yang didukung untuk informasi terperinci. | / | Ya | / |
Filter menurut terakhir diubah | File dengan waktu terakhir diubah dalam rentang [Waktu mulai, Waktu selesai) akan difilter untuk pemrosesan lebih lanjut. Waktu akan diterapkan ke zona waktu UTC dalam format yyyy-mm-ddThh:mm:ss.fffZ . Properti ini dapat dilewati yang berarti tidak ada filter atribut file yang akan diterapkan. Properti ini tidak berlaku saat Anda mengonfigurasi tipe jalur file sebagai Daftar file. |
datetime | No | modifiedDatetimeStart modifiedDatetimeEnd |
Menonaktifkan penggugusan | Potongan dirancang untuk mengoptimalkan performa dan terjadi di bawahnya. Opsi ini memungkinkan Anda menonaktifkan pemotongan dalam setiap file. Saat menyalin data dari FTP, layanan mencoba mendapatkan panjang file terlebih dahulu, kemudian membagi file menjadi beberapa bagian dan membacanya secara paralel. Tentukan apakah server FTP Anda mendukung mendapatkan panjang file atau ingin membaca dari offset tertentu. | dipilih atau tidak dipilih (default) | No | disableChunking: true atau false (default) |
Mengaktifkan penemuan partisi | Menunjukkan apakah akan mengurai partisi dari jalur file dan menambahkannya sebagai kolom sumber tambahan. | dipilih atau tidak dipilih (default) | No | enablePartitionDiscovery: true atau false (default) |
Jalur akar partisi | Jalur akar partisi absolut untuk membaca folder yang dipartisi sebagai kolom data. Tentukan ketika penemuan partisi diaktifkan. | < jalur akar partisi > | No | partitionRootPath |
Menggunakan transfer biner | Menunjukkan apakah akan menggunakan mode transfer biner. Nilainya adalah true untuk mode biner (default), dan false untuk ASCII. | dipilih (default) atau tidak dipilih | No | useBinaryTransfer: true (default) atau false |
Koneksi bersamaan maks | Batas atas koneksi bersamaan yang ditetapkan ke penyimpanan data selama eksekusi aktivitas. Menentukan nilai hanya saat Anda ingin membatasi koneksi bersamaan. | < batas atas koneksi bersamaan > (bilangan bulat) |
No | maxConcurrentConnections |
Kolom tambahan | Tambahkan kolom data tambahan untuk menyimpan jalur relatif file sumber atau nilai statis. Ekspresi didukung untuk yang terakhir. Untuk informasi selengkapnya, buka Menambahkan kolom tambahan selama penyalinan | •Nama •Nilai |
No | additionalColumns: •Nama •Nilai |