Catatan
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba masuk atau mengubah direktori.
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba mengubah direktori.
Artikel ini menguraikan cara menggunakan aktivitas salin dalam alur data untuk menyalin data dari dan ke HDFS untuk saluran.
Format yang didukung
Hdfs untuk Pipeline mendukung format file berikut. Lihat setiap artikel untuk mengetahui cara melakukan pengaturan berbasis format.
- Format Avro
- Format Binari
- Format teks terbatas
- Format Excel
- Format Gunung Es
- Format JSON
- Format ORC
- Format Parquet
- Format XML
Konfigurasi yang didukung
Untuk konfigurasi setiap tab di bawah aktivitas salin, buka bagian berikut.
Umum
Lihat panduan Pengaturan umum untuk mengonfigurasi tab Pengaturan umum.
Sumber
Properti berikut ini didukung untuk Hdfs untuk Alur di bawah tab Sumber aktivitas salin.
Properti berikut diperlukan:
Koneksi: Pilih Hdfs untuk koneksi Alur dari daftar koneksi. Jika tidak ada koneksi, buat koneksi baru bernama Hdfs untuk Pipeline.
Jenis jalur file: Anda dapat memilih Jalur file, jalur file wildcard, atau Daftar file sebagai jenis jalur file Anda. Konfigurasi masing-masing pengaturan ini adalah:
Jalur file: Jika Anda memilih jenis ini, data dapat disalin dari jalur folder/file yang ditentukan.
Jalur file wildcard: Tentukan jalur folder dengan karakter wildcard untuk memfilter folder sumber. Wildcard yang diizinkan adalah:
*
(mencocokkan nol atau lebih karakter) dan?
(mencocokkan nol atau satu karakter). Gunakan^
untuk menghindari jika folder atau nama file Anda memiliki wildcard atau karakter escape ini di dalamnya. Untuk contoh lainnya, buka Contoh filter folder dan file.Jalur folder wildcard: Spesifikasikan jalur folder dengan karakter wildcard untuk memfilter folder sumber.
Nama file kartubebas: Tentukan nama file dengan karakter kartubebas di bawah jalur folder folder/kartubebas yang dikonfigurasi untuk memfilter file sumber.
Daftar file: Menunjukkan untuk menyalin kumpulan file tertentu. Arahkan ke file teks yang menyertakan daftar file yang ingin Anda salin (satu file per baris, dengan jalur relatif ke jalur yang dikonfigurasi dalam himpunan data).
Saat Anda menggunakan opsi ini, jangan tentukan nama file di himpunan data. Untuk contoh selengkapnya, lihat Contoh daftar file.Jalur folder: Tentukan jalur ke folder. Hal ini diperlukan.
Jalur ke daftar file: Tentukan jalur file teks yang menyertakan daftar file yang ingin Anda salin.
Secara rekursif: Tentukan apakah data dibaca secara rekursif dari subfolder atau hanya dari folder yang ditentukan. Perhatikan bahwa ketika Secara rekursif dipilih dan tujuannya adalah penyimpanan berbasis file, folder atau subfolder kosong tidak disalin atau dibuat di tujuan. Properti ini dipilih secara default dan tidak berlaku saat Anda mengonfigurasi Jalur ke daftar file.
Format file: Pilih format file yang diterapkan dari daftar drop-down. Pilih Pengaturan untuk mengonfigurasi format file. Untuk pengaturan format file yang berbeda, lihat artikel dalam Format yang didukung untuk informasi terperinci.
Di bawah Tingkat Lanjut, Anda bisa menentukan bidang berikut ini:
Filter menurut terakhir diubah: File difilter berdasarkan tanggal terakhir diubah. Properti ini tidak berlaku saat Anda mengonfigurasi tipe jalur file sebagai Daftar file.
Waktu mulai (UTC): File dipilih jika waktu terakhir diubah lebih besar dari atau sama dengan waktu yang dikonfigurasi.
Waktu selesai (UTC): File dipilih jika waktu terakhir diubah kurang dari waktu yang dikonfigurasi.
Aktifkan penemuan partisi: Untuk file yang dipartisi, tentukan apakah akan menganalisis partisi melalui jalur file dan menambahkannya sebagai kolom sumber tambahan.
- Jalur akar partisi: Saat penemuan partisi diaktifkan, tentukan jalur akar absolut untuk membaca folder yang dipartisi sebagai kolom data.
Koneksi bersamaan maksimum: Properti ini menunjukkan batas atas koneksi bersamaan yang dibuat ke penyimpanan data selama aktivitas berjalan. Tentukan nilai hanya jika Anda ingin membatasi koneksi bersamaan.
Gunakan HDFS DistCp: Tentukan apakah akan mengaktifkan penggunaan grup properti HDFS DistCp.
Titik akhir ResourceManager: Titik akhir YARN (Yet Another Resource Negotiator).
Jalur skrip sementara: Jalur folder yang digunakan untuk menyimpan skrip perintah DistCp sementara. File skrip dihasilkan dan akan dihapus setelah tugas Penyalinan selesai.
Opsi DistCp: Opsi tambahan yang disediakan untuk perintah DistCp.
Kolom tambahan: Tambahkan kolom data tambahan untuk menyimpan jalur relatif atau nilai statis file sumber. Ekspresi didukung untuk pilihan terakhir.
Pemetaan
Untuk Konfigurasi tab Pemetaan , buka Mengonfigurasi pemetaan Anda di bawah tab pemetaan.
Pengaturan
Untuk Konfigurasi tab Pengaturan , lihat Mengonfigurasi pengaturan Anda yang lain di bawah tab pengaturan.
Ringkasan tabel
Tabel berikut berisi informasi lebih lanjut mengenai aktivitas penyalinan pada HDFS untuk Pipeline.
Informasi sumber
Nama | Deskripsi | Nilai | Diperlukan | Properti skrip JSON |
---|---|---|---|---|
Koneksi | Koneksi Anda dengan gudang data sumber. | <Hdfs Anda untuk koneksi Pipeline> | Ya | koneksi |
Jenis jalur file | Jenis jalur file yang Anda gunakan. | • Jalur file • Jalur file dengan karakter pengganti • Daftar file |
Ya | / |
Path file | Salin jalur ke folder/file pada penyimpanan data sumber. | <jalur file> | Ya | • folderPath • Nama File |
Jalur kartubebas | Jalur folder dengan karakter wildcard pada toko data sumber yang dikonfigurasi untuk memfilter folder sumber. | <jalur kartubebas> | Ya | • wildcardFolderPath • wildcardFileName |
Lokasi Folder | Arahkan ke folder yang menyertakan file yang ingin Anda salin. | <jalur folder> | Tidak. | folderPath |
Jalur ke daftar file | Menunjukkan untuk menyalin kumpulan file yang diberikan. Arahkan ke file teks yang menyertakan daftar file yang ingin Anda salin, satu file per baris, yang merupakan jalur relatif ke jalur yang dikonfigurasi. | <jalur ke daftar file> | Tidak. | fileListPath |
Secara rekursif | Menunjukkan apakah data dibaca secara rekursif dari subfolder atau hanya dari folder yang ditentukan. Perhatikan bahwa ketika Secara rekursif dipilih dan tujuannya adalah penyimpanan berbasis file, folder atau subfolder kosong tidak disalin atau dibuat di tujuan. Properti ini tidak berlaku saat Anda mengonfigurasi Jalur ke daftar file. | dipilih (default) atau batal pilih | Tidak. | rekursif |
Format berkas | Format file untuk data sumber Anda. Untuk informasi format file yang berbeda, lihat artikel dalam Format yang didukung untuk informasi terperinci. | / | Ya | / |
Filter berdasarkan terakhir diubah | File dengan waktu terakhir diubah dalam rentang [Waktu mulai, Waktu selesai) akan difilter untuk pemrosesan lebih lanjut. Waktu diterapkan ke zona waktu UTC dalam format yyyy-mm-ddThh:mm:ss.fffZ .Properti ini dapat dilewati yang berarti tidak ada filter atribut file yang diterapkan. Properti ini tidak berlaku saat Anda mengonfigurasi tipe jalur file sebagai Daftar file. |
• Waktu mulai • Waktu selesai |
Tidak. | modifiedDatetimeStart TanggalWaktuBerakhirDimodifikasi |
Mengaktifkan penemuan partisi | Apakah akan mengurai partisi dari jalur file dan menambahkannya sebagai kolom sumber tambahan. | Dipilih atau tidak dipilih (default) | Tidak. | MengaktifkanPenemuanPartisi benar atau salah (default) |
Jalur akar partisi | Jalur akar partisi absolut untuk membaca folder yang dipartisi sebagai kolom data. | <jalur akar partisi Anda> | Tidak. | partitionRootPath |
Jumlah koneksi bersamaan maksimum | Batas maksimum jumlah koneksi bersamaan yang dapat dibuat ke penyimpanan data selama aktivitas berlangsung. Tentukan nilai hanya jika Anda ingin membatasi koneksi bersamaan. | <koneksi bersamaan maksimum> | Tidak. | maxConcurrentConnections |
Menggunakan HDFS DistCp | Tentukan apakah akan mengaktifkan penggunaan grup properti HDFS DistCp. | dipilih atau tidak dipilih (default) | Tidak. | / |
Titik akhir ResourceManager | Titik akhir YARN (Yet Another Resource Negotiator). | < titik akhir resourceManager Anda > | Ya, jika menggunakan DistCp | resourceManagerEndpoint |
Jalur skrip sementara | Jalur folder yang digunakan untuk menyimpan skrip perintah DistCp sementara. File skrip dihasilkan dan akan dihapus setelah tugas Penyalinan selesai. | < jalur skrip sementara Anda > | Ya, jika menggunakan DistCp | tempScriptPath |
Opsi DistCp | Opsi tambahan yang disediakan untuk perintah DistCp. | < opsi distCp Anda > | Tidak. | distcpOptions |
Kolom tambahan | Tambahkan kolom data tambahan untuk menyimpan jalur relatif file sumber atau nilai statis. Ekspresi didukung untuk pilihan terakhir. | •Nama •Nilai |
Tidak. | kolomTambahan: •Nama • nilai |