Catatan
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencobamasuk ataumengubah direktori.
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencobamengubah direktori.
Artikel ini menguraikan cara menggunakan aktivitas menyalin dalam pipeline untuk menyalin data dari Oracle Cloud Storage.
Prasyarat
Untuk menyalin data dari Oracle Cloud Storage, lihat Object Storage Amazon S3 Compatibility API untuk prasyarat dan izin yang diperlukan.
Format yang didukung
Oracle Cloud Storage mendukung format file berikut. Lihat setiap artikel untuk mengetahui cara melakukan pengaturan berbasis format.
- Format Avro
- Format Biner
- Format teks terpisah
- Format Excel
- Format JSON
- Format ORC
- Format Parquet
- Format XML
Konfigurasi yang didukung
Untuk konfigurasi setiap tab pada aktivitas salin, buka bagian berikut:
General
Untuk Konfigurasi tab umum , buka Umum.
Sumber
Properti berikut ini didukung untuk Oracle Cloud Storage pada tab Sumber dari aktivitas salin.
Properti berikut diperlukan:
Koneksi: Pilih koneksi Oracle Cloud Storage dari daftar koneksi. Jika tidak ada koneksi, buat koneksi Oracle Cloud Storage baru dengan memilih Baru.
Jenis jalur file: Anda dapat memilih Jalur file, Awalan, jalur file Wildcard, atau Daftar file sebagai jenis jalur file Anda. Konfigurasi masing-masing pengaturan ini adalah:
Jalur file: Data dapat disalin dari jalur wadah atau folder/file yang ditentukan dalam Jalur file.
Awalan: Tentukan Bucket dan Awalan.
Wadah: Tentukan nama wadah Oracle Cloud Storage. Ini diperlukan.
Awalan: Awalan untuk nama kunci Oracle Cloud Storage di bawah bucket yang ditentukan untuk memfilter file sumber di Oracle Cloud Storage. Kunci Oracle Cloud Storage yang namanya dimulai dengan
given_bucket/this_prefixdipilih. Ini menggunakan filter sisi server Oracle Cloud Storage, yang memberikan performa yang lebih baik daripada filter wildcard.
: Tentukan Bucket dan jalurWildcard .Wadah: Tentukan nama wadah Oracle Cloud Storage. Ini diperlukan.
Jalur wildcard: Tentukan folder atau jalur file dengan karakter wildcard di bawah bucket yang Anda tentukan untuk memfilter folder atau file sumber Anda.
Wildcard yang diizinkan adalah:
*(cocok dengan nol atau lebih karakter) dan?(cocok dengan nol atau satu karakter). Gunakan^untuk melakukan escape jika nama folder Anda memiliki wildcard atau karakter escape di dalamnya. Untuk contoh lainnya, buka Contoh filter folder dan file.
- Jalur folder wildcard: Tentukan jalur folder dengan karakter wildcard di bawah bucket yang ditentukan untuk memfilter folder sumber.
- Nama file wildcard: Tentukan nama file dengan karakter wildcard di bawah jalur bucket dan folder yang ditentukan (atau jalur folder wildcard) untuk memfilter file sumber.
Daftar file: Tentukan jalur Folder dan Jalur ke daftar file untuk menunjukkan untuk menyalin kumpulan file tertentu. Arahkan ke file teks yang menyertakan daftar file yang ingin Anda salin, satu file per baris, yang merupakan jalur relatif ke jalur yang dikonfigurasi. Untuk contoh lainnya, buka Contoh daftar file.
- Jalur folder: Tentukan jalur ke folder di bawah wadah yang ditentukan. Ini diperlukan.
- Jalur ke daftar file: Tentukan jalur file teks yang menyertakan daftar file yang ingin Anda salin.
Secara rekursif: Menunjukkan apakah data dibaca secara rekursif dari subfolder atau hanya dari folder yang ditentukan. Ketika kotak centang ini dipilih, dan tujuannya adalah penyimpanan berbasis file, folder kosong atau subfolder tidak disalin atau dibuat di tujuan.
Format file: Pilih format file yang diterapkan dari daftar dropdown. Pilih Pengaturan untuk mengonfigurasi format file. Untuk pengaturan format file yang berbeda, lihat artikel dalam Format yang didukung.
Di bawah Tingkat Lanjut, Anda bisa menentukan bidang berikut ini:
Filter menurut terakhir diubah: File difilter berdasarkan tanggal terakhir diubah yang Anda tentukan. Properti ini tidak berlaku saat Anda mengonfigurasi tipe jalur file sebagai Daftar file.
- Waktu mulai (UTC): File dipilih jika waktu terakhir diubah lebih besar dari atau sama dengan waktu yang dikonfigurasi.
- Waktu selesai (UTC): File dipilih jika waktu terakhir diubah kurang dari waktu yang dikonfigurasi.
Ketika Waktu mulai (UTC) memiliki nilai tanggalwaktu tetapi Waktu selesai (UTC) adalah NULL, itu berarti file yang atribut terakhir diubahnya sama atau lebih besar dari nilai tanggalwaktu akan dipilih. Ketika Waktu selesai (UTC) memiliki nilai tanggal waktu tetapi Waktu mulai (UTC) adalah NULL, itu berarti file yang atribut terakhir diubahnya lebih kecil dari nilai tanggal waktu tersebut akan dipilih. Properti dapat berupa NULL, yang berarti tidak ada filter atribut file yang diterapkan ke data.
Aktifkan penemuan partisi: Tentukan apakah akan mengurai partisi dari jalur file dan menambahkannya sebagai kolom sumber lainnya. Ini tidak dipilih secara default dan tidak didukung saat Anda menggunakan format file biner.
Jalur akar partisi: Ketika penemuan partisi diaktifkan, tentukan jalur akar absolut untuk membaca folder yang dipartisi sebagai kolom data.
Jika tidak ditentukan, secara default:
- Saat Anda menggunakan jalur file atau daftar file pada sumber, jalur akar partisi adalah jalur yang Anda konfigurasikan.
- Saat Anda menggunakan filter folder wildcard, jalur akar partisi adalah subjalur sebelum wildcard pertama.
- Ketika Anda menggunakan awalan, jalur akar partisi adalah subpath sebelum "/"terakhir.
Misalnya, dengan asumsi Anda mengonfigurasi jalur sebagai
root/folder/year=2020/month=08/day=27:- Jika Anda menentukan jalur akar partisi sebagai
root/folder/year=2020, aktivitas salin menghasilkan dua kolom lagi, bulan dan hari. Kolom ini masing-masing memiliki nilai "08" dan "27", selain kolom di dalam file. - Jika jalur akar partisi tidak ditentukan, tidak ada kolom tambahan yang dihasilkan.
Koneksi bersamaan maks: Batas atas koneksi bersamaan yang dibuat ke penyimpanan data selama aktivitas berjalan. Tentukan nilai hanya jika Anda ingin membatasi koneksi bersamaan.
Kolom tambahan: Tambahkan lebih banyak kolom data untuk menyimpan jalur relatif file sumber atau nilai statis. Ekspresi didukung untuk pilihan terakhir.
Pemetaan
Untuk Konfigurasi tab Pemetaan , lihat Mengonfigurasi pemetaan Anda di bawah tab Pemetaan. Jika Anda memilih Biner sebagai format file Anda, pemetaan tidak akan didukung.
Pengaturan
Untuk Konfigurasi tab Pengaturan , lihat Mengonfigurasi pengaturan Anda yang lain di bawah tab Pengaturan.
Ringkasan tabel
Tabel berikut berisi informasi selengkapnya tentang aktivitas salin di Oracle Cloud Storage.
Informasi sumber
| Nama | Deskripsi | Nilai | Required | Properti skrip JSON |
|---|---|---|---|---|
| Koneksi | Koneksi Anda dengan gudang data sumber. | <Koneksi Oracle Cloud Storage Anda> | Yes | connection |
| Jenis jalur file | Jenis jalur file yang digunakan untuk mendapatkan data sumber. | • Path file • Awalan • Jalur file kartubebas • Daftar file |
Yes | / |
| Untuk Path berkas | ||||
| Bucket | Nama wadah Oracle Cloud Storage. | <nama wadah Anda> | Yes | bucketName |
| Direktori | Jalur ke folder di bawah bucket yang ditentukan. | <nama folder Anda> | Tidak. | folderpath |
| Nama file | Nama file di bawah wadah dan jalur folder yang ditentukan. | <nama file Anda> | Tidak. | Filename |
| Untuk Awalan | ||||
| Bucket | Nama wadah Oracle Cloud Storage. | <nama wadah Anda> | Yes | bucketName |
| Awalan | Awalan untuk nama kunci Oracle Cloud Storage di dalam bucket yang ditentukan untuk memfilter file sumber Oracle Cloud Storage. | <awalan Anda> | Tidak. | prefix |
| Untuk jalur file Wildcard | ||||
| Bucket | Nama wadah Oracle Cloud Storage. | <nama wadah Anda> | Yes | bucketName |
| Jalur folder pengganti | Jalur folder dengan karakter kartubebas di bawah wadah yang ditentukan untuk memfilter folder sumber. | <jalur folder Anda dengan karakter pengganti> | Tidak. | wildcardFolderPath |
| Nama file kartubebas | Nama file dengan karakter wildcard di bawah folder dan bucket yang ditentukan (atau jalur folder wildcard) untuk memfilter file sumber. | <nama file Anda dengan karakter pengganti> | Yes | wildcardFileName |
| Untuk Daftar file | ||||
| Bucket | Nama wadah Oracle Cloud Storage. | <nama wadah Anda> | Yes | bucketName |
| Direktori | Jalur ke folder di bawah bucket yang ditentukan. | <nama folder Anda> | Tidak. | folderpath |
| Jalur ke daftar file | Menunjukkan untuk menyalin kumpulan file tertentu. Arahkan ke file teks yang menyertakan daftar file yang ingin Anda salin, satu file per baris. | < jalur daftar file > | Tidak. | fileListPath |
| Format File | Format file untuk data sumber Anda. Untuk informasi tentang format file yang berbeda, lihat artikel dalam Format yang didukung. | / | Yes | / |
| Secara rekursif | Menunjukkan apakah data dibaca secara rekursif dari subfolder atau hanya dari folder yang ditentukan. Ketika kotak centang ini dipilih, dan tujuannya adalah penyimpanan berbasis file, folder kosong atau subfolder tidak disalin atau dibuat di tujuan. | dipilih (default) atau batal pilih | Tidak. | recursive |
| Filter berdasarkan terakhir diubah | File dengan waktu terakhir yang dimodifikasi dalam rentang [Waktu mulai, Waktu selesai) difilter untuk pemrosesan lebih lanjut. Waktu diterapkan ke zona waktu UTC dalam format yyyy-mm-ddThh:mm:ss.fffZ. Properti ini dapat dilewati, yang berarti tidak ada filter atribut file yang diterapkan. Properti ini tidak berlaku saat Anda mengonfigurasi tipe jalur file sebagai Daftar file. |
tanggalwaktu | Tidak. | modifiedDatetimeStart modifiedDatetimeEnd |
| Mengaktifkan penemuan partisi | Menunjukkan apakah akan mengurai partisi dari jalur file dan menambahkannya sebagai kolom sumber lainnya. | dipilih atau tidak dipilih (default) | Tidak. | aktifkanPenemuanPartisi: benar atau salah (default) |
| Jalur akar partisi | Saat penemuan partisi diaktifkan, tentukan jalur akar absolut untuk membaca folder yang dipartisi sebagai kolom data. | < jalur akar partisi Anda > | Tidak. | partitionRootPath |
| Jumlah koneksi bersamaan maksimum | Batas maksimum jumlah koneksi bersamaan yang dapat dibuat ke penyimpanan data selama aktivitas berlangsung. Tentukan nilai hanya jika Anda ingin membatasi koneksi bersamaan. | <koneksi bersamaan maksimum> | Tidak. | maxConcurrentConnections |
| Kolom tambahan | Tambahkan kolom data lain untuk menyimpan jalur relatif file sumber atau nilai statis. Ekspresi didukung untuk pilihan terakhir. | •Nama •Nilai |
Tidak. | kolomTambahan: •Nama • nilai |