Mengonfigurasi Amazon S3 dalam aktivitas salin

Artikel ini menguraikan cara menggunakan aktivitas salin dalam alur data untuk menyalin data dari dan ke Amazon S3.

Memerlukan izin

Untuk menyalin data dari Amazon S3, pastikan Anda telah diberi izin berikut untuk operasi objek Amazon S3: s3:GetObject dan s3:GetObjectVersion.

Selain itu, s3:ListAllMyBuckets izin dan s3:ListBucket/s3:GetBucketLocation diperlukan untuk operasi seperti menguji koneksi dan menjelajah dari root.

Untuk daftar lengkap izin Amazon S3, buka Menentukan Izin dalam Kebijakan di situs AWS.

Format yang didukung

Amazon S3 mendukung format file berikut. Lihat setiap artikel untuk mengetahui cara melakukan pengaturan berbasis format.

Konfigurasi yang didukung

Untuk konfigurasi setiap tab di bawah aktivitas salin, buka bagian berikut.

Umum

Lihat panduan Pengaturan umum untuk mengonfigurasi tab Pengaturan umum.

Sumber

Properti berikut ini didukung untuk Amazon S3 di bawah tab Sumber dari aktivitas salin.

Screenshot showing source tab and the list of properties.

Properti berikut diperlukan:

  • Jenis penyimpanan data: Pilih Eksternal.

  • Koneksi ion: Pilih koneksi Amazon S3 dari daftar koneksi. Jika tidak ada koneksi, buat koneksi Amazon baru dengan memilih Baru.

  • jenis Koneksi ion: Pilih Amazon S3 untuk jenis koneksi Anda.

  • Jenis jalur file: Anda dapat memilih Jalur file, Awalan, jalur file Wildcard, atau Daftar file sebagai jenis jalur file Anda. Konfigurasi untuk setiap pengaturan adalah:

    • Jalur file: Jika Anda memilih jenis ini, data dapat disalin dari wadah tertentu atau jalur wadah dan folder yang ditentukan.

    • Awalan: Jika Anda memilih jenis ini, tentukan Bucket dan Awalan.

      • Wadah: Tentukan nama wadah S3. Hal ini diperlukan.

      • Awalan: Tentukan awalan untuk nama kunci S3 di bawah wadah yang diberikan untuk memfilter file S3 sumber. Kunci S3 yang namanya dimulai bucket/this_prefix dipilih. Ini menggunakan filter sisi layanan S3, yang memberikan performa yang lebih baik daripada filter kartubebas.

        Saat Anda menggunakan awalan dan memilih untuk menyalin ke tujuan berbasis file dengan mempertahankan hierarki, perhatikan sub-jalur setelah "/" terakhir dalam awalan akan dipertahankan. Misalnya, Anda memiliki sumber bucket/folder/subfolder/file.txt, dan mengonfigurasi prefiks sebagai folder/sub, maka jalur file yang dipertahankan adalah subfolder/file.txt.

      Screenshot showing prefix.

    • Jalur file kartubebas: Jika Anda memilih jenis ini, tentukan jalur Bucket dan Wildcard.

      • Wadah: Tentukan nama wadah S3. Hal ini diperlukan.

      • Jalur kartubebas: Tentukan folder atau jalur file dengan karakter kartubebas di bawah wadah yang Anda berikan untuk memfilter folder atau file sumber Anda.

        Kartubebas yang diizinkan adalah: * (cocok dengan nol atau lebih karakter) dan ? (cocok dengan karakter nol atau satu). Gunakan ^ untuk karakter escape jika nama folder Anda memiliki karakter kartubebas atau karakter escape di dalamnya. Lihat contoh lainnya dalam Contoh filter folder dan file. Screenshot showing wildcard file path.Jalur folder kartubebas: Jalur folder dengan karakter kartubebas di bawah wadah yang diberikan untuk memfilter folder sumber.

        Nama file kartubebas: Nama file dengan karakter kartubebas di bawah jalur wadah dan folder yang diberikan (atau jalur folder kartubebas) untuk memfilter file sumber.

    • Daftar file: Jika Anda memilih jenis ini, tentukan jalur Folder dan Jalur ke daftar file untuk menunjukkan untuk menyalin kumpulan file tertentu. Arahkan ke file teks yang menyertakan daftar file yang ingin Anda salin, satu file per baris, yang merupakan jalur relatif ke jalur yang dikonfigurasi. Untuk contoh lainnya, buka Contoh daftar file.

      Screenshot showing list of files.

      • Jalur folder: Tentukan jalur ke folder di bawah wadah yang diberikan. Hal ini diperlukan.
      • Jalur ke daftar file: Tentukan jalur file teks yang menyertakan daftar file yang ingin Anda salin.
  • Secara rekursif: Tentukan apakah data dibaca secara rekursif dari subfolder atau hanya dari folder yang ditentukan. Ketika Dipilih secara rekursif dan tujuannya adalah penyimpanan berbasis file, folder atau subfolder kosong tidak disalin atau dibuat di tujuan. Properti ini dipilih secara default dan tidak berlaku saat Anda mengonfigurasi Jalur ke daftar file.

  • Format file: Pilih format file yang diterapkan dari daftar drop-down. Pilih Pengaturan untuk mengonfigurasi format file. Untuk pengaturan format file yang berbeda, lihat artikel dalam Format yang didukung untuk informasi terperinci.

Di bawah Tingkat Lanjut, Anda bisa menentukan bidang berikut ini:

  • Filter menurut terakhir diubah: File difilter berdasarkan tanggal terakhir diubah yang Anda tentukan. Properti ini tidak berlaku saat Anda mengonfigurasi tipe jalur file sebagai Daftar file.

    • Waktu mulai (UTC): File dipilih jika waktu terakhir diubah lebih besar dari atau sama dengan waktu yang dikonfigurasi.
    • Waktu selesai (UTC): File dipilih jika waktu terakhir diubah kurang dari waktu yang dikonfigurasi.

    Ketika Waktu mulai (UTC) memiliki nilai tanggalwaktu tetapi Waktu selesai (UTC) adalah NULL, itu berarti file yang atribut terakhir diubah lebih besar dari atau sama dengan nilai tanggalwaktu akan dipilih. Ketika Waktu selesai (UTC) memiliki nilai tanggalwaktu tetapi Waktu mulai (UTC) adalah NULL, itu berarti file yang atribut terakhir diubah kurang dari nilai tanggalwaktu akan dipilih. Properti dapat berupa NULL, yang berarti tidak ada filter atribut file yang akan diterapkan ke data.

  • Aktifkan penemuan partisi: Tentukan apakah akan mengurai partisi dari jalur file dan menambahkannya sebagai kolom sumber tambahan. Ini tidak dipilih secara default dan tidak didukung saat Anda menggunakan format file biner.

    • Jalur akar partisi: Saat penemuan partisi diaktifkan, tentukan jalur akar absolut untuk membaca folder yang dipartisi sebagai kolom data.

      Jika tidak ditentukan, secara default,

      • Saat Anda menggunakan jalur file atau daftar file pada sumber, jalur akar partisi adalah jalur yang Anda konfigurasikan.
      • Saat Anda menggunakan filter folder kartubebas, jalur akar partisi adalah sub-jalur sebelum wildcard pertama.
      • Saat Anda menggunakan awalan, jalur akar partisi adalah sub-jalur sebelum "/"terakhir.

      Misalnya, dengan asumsi Anda mengonfigurasi jalur sebagai root/folder/year=2020/month=08/day=27:

      • Jika Anda menentukan jalur akar partisi sebagai root/folder/year=2020, aktivitas salin akan menghasilkan dua kolom lagi bulan dan hari dengan nilai "08" dan "27" masing-masing, selain kolom di dalam file.
      • Jika jalur akar partisi tidak ditentukan, tidak ada kolom tambahan yang akan dihasilkan.

      Screenshot showing Enable partition discovery.

  • Koneksi bersamaan maksimum: Batas atas koneksi bersamaan yang dibuat ke penyimpanan data selama aktivitas berjalan. Menentukan nilai hanya saat Anda ingin membatasi koneksi bersamaan.

  • Kolom tambahan: Tambahkan kolom data tambahan untuk menyimpan jalur relatif file sumber atau nilai statis. Ekspresi didukung untuk yang terakhir.

Tujuan

Properti berikut ini didukung untuk Amazon S3 di bawah tab Tujuan dari aktivitas salin.

Screenshot showing destination tab and the list of properties.

Properti berikut diperlukan:

  • Jenis penyimpanan data: Pilih Eksternal.
  • Koneksi ion: Pilih koneksi Amazon S3 dari daftar koneksi. Jika tidak ada koneksi, buat koneksi Amazon baru dengan memilih Baru.
  • jenis Koneksi ion: Pilih Amazon S3 untuk jenis koneksi Anda.
  • Jalur file: Data dapat disalin ke wadah yang diberikan atau jalur wadah dan folder yang ditentukan.
  • Format file: Pilih format file yang diterapkan dari daftar drop-down. Pilih Pengaturan untuk mengonfigurasi format file. Untuk pengaturan format file yang berbeda, lihat artikel dalam Format yang didukung untuk informasi terperinci.

Di bawah Tingkat Lanjut, Anda bisa menentukan bidang berikut ini:

  • Perilaku salin: Menentukan perilaku salin saat sumbernya adalah file dari penyimpanan data berbasis file. Anda dapat memilih perilaku dari daftar drop-down.

    • Meratakan hierarki: Semua file dari folder sumber berada di tingkat pertama folder tujuan. File tujuan memiliki nama yang dibuat secara otomatis.
    • Gabungkan file: Menggabungkan semua file dari folder sumber ke satu file. Jika nama file ditentukan, nama file yang digabungkan adalah nama yang ditentukan. Jika tidak, ini adalah nama file yang dibuat secara otomatis.
    • Mempertahankan hierarki: Mempertahankan hierarki file di folder target. Jalur relatif file sumber ke folder sumber identik dengan jalur relatif file target ke folder target.
  • Koneksi bersamaan maksimum: Properti ini menunjukkan batas atas koneksi bersamaan yang dibuat ke penyimpanan data selama aktivitas berjalan. Menentukan nilai hanya saat Anda ingin membatasi koneksi bersamaan.

Pemetaan

Untuk Konfigurasi tab Pemetaan , buka Mengonfigurasi pemetaan Anda di bawah tab pemetaan. Jika Anda memilih Biner sebagai format file Anda, pemetaan tidak akan didukung.

Pengaturan

Untuk konfigurasi tab Pengaturan, buka Mengonfigurasi pengaturan Anda yang lain di bawah tab pengaturan.

Ringkasan tabel

Tabel berikut berisi informasi selengkapnya tentang aktivitas salin di Amazon S3.

Informasi sumber

Nama Deskripsi Nilai Wajib Properti skrip JSON
Jenis penyimpanan data Jenis penyimpanan data Anda. Eksternal Ya /
Koneksi Koneksi Anda ke penyimpanan data sumber. <koneksi Amazon S3 Anda> Ya koneksi
Tipe sambungan Pilih jenis untuk koneksi Anda. Amazon S3 Ya /
Jenis jalur file Jenis jalur file yang digunakan untuk mendapatkan data sumber. Jalur file
Awalan
Jalur file kartubebas
Daftar file
Ya /
Untuk Jalur file
Ember Nama wadah S3. <nama wadah Anda> Ya bucketName
Direktori Jalur ke folder di bawah wadah yang ditentukan. <nama folder Anda> No folderpath
Nama file Nama file di bawah wadah dan jalur folder yang ditentukan. <nama file Anda> No fileName
Untuk Awalan
Ember Nama wadah S3. <nama wadah Anda> Ya bucketName
Awalan Awalan untuk nama kunci S3 di bawah wadah yang diberikan untuk memfilter file S3 sumber. <awalan Anda> No awalan
Untuk jalur file Wildcard
Ember Nama wadah S3. <nama wadah Anda> Ya bucketName
Jalur Folder KartuBebas Jalur folder dengan karakter kartubebas di bawah wadah yang ditentukan untuk memfilter folder sumber. <jalur folder Anda dengan karakter kartubebas> No wildcardFolderPath
Nama File KartuBebas Nama file dengan karakter kartubebas di bawah jalur wadah dan folder yang ditentukan (atau jalur folder kartubebas) untuk memfilter file sumber. <nama file Anda dengan karakter kartubebas> Ya wildcardFileName
Untuk Daftar file
Ember Nama wadah S3. <nama wadah Anda> Ya bucketName
Direktori Jalur ke folder di bawah wadah yang ditentukan. <nama folder Anda> No folderpath
Jalur ke daftar file Mengindikasikan untuk menyalin set file yang diberikan. Arahkan ke file teks yang menyertakan daftar file yang ingin Anda salin, satu file per baris. < jalur daftar file > No fileListPath
Format file Format file untuk data sumber Anda. Untuk informasi format file yang berbeda, lihat artikel dalam Format yang didukung untuk informasi terperinci. / Ya /
Secara rekursif Menunjukkan apakah data dibaca secara rekursif dari subfolder atau hanya dari folder yang ditentukan. Perhatikan bahwa ketika Secara rekursif dipilih dan tujuannya adalah penyimpanan berbasis file, folder atau subfolder kosong tidak disalin atau dibuat di tujuan. Properti ini tidak berlaku saat Anda mengonfigurasi Jalur ke daftar file. dipilih (default) atau batal pilih No recursive
Filter menurut terakhir diubah File dengan waktu terakhir diubah dalam rentang [Waktu mulai, Waktu selesai) akan difilter untuk pemrosesan lebih lanjut. Waktu akan diterapkan ke zona waktu UTC dalam format yyyy-mm-ddThh:mm:ss.fffZ. Properti ini dapat dilewati yang berarti tidak ada filter atribut file yang akan diterapkan. Properti ini tidak berlaku saat Anda mengonfigurasi tipe jalur file sebagai Daftar file. datetime No modifiedDatetimeStart
modifiedDatetimeEnd
Mengaktifkan penemuan partisi Menunjukkan apakah akan mengurai partisi dari jalur file dan menambahkannya sebagai kolom sumber tambahan. dipilih atau tidak dipilih (default) No enablePartitionDiscovery:
true atau false (default)
Jalur akar partisi Ketika penemuan partisi diaktifkan, tentukan jalur akar absolut untuk membaca folder yang dipartisi sebagai kolom data. < jalur akar partisi Anda > No partitionRootPath
Koneksi bersamaan maks Batas atas koneksi bersamaan yang ditetapkan ke penyimpanan data selama eksekusi aktivitas. Menentukan nilai hanya saat Anda ingin membatasi koneksi bersamaan. <koneksi bersamaan maks> No maxConcurrentConnections
Kolom tambahan Tambahkan kolom data tambahan untuk menyimpan jalur relatif file sumber atau nilai statis. Ekspresi didukung untuk yang terakhir. •Nama
•Nilai
No additionalColumns:
•Nama
•Nilai

Informasi tujuan

Nama Deskripsi Nilai Wajib Properti skrip JSON
Jenis penyimpanan data Jenis penyimpanan data Anda. Eksternal Ya /
Koneksi Koneksi Anda ke penyimpanan data tujuan. <koneksi Amazon S3 Anda> Ya koneksi
Tipe sambungan Pilih jenis untuk koneksi Anda. Amazon S3 Ya /
Jalur file Jalur folder/file ke file tujuan. <jalur folder/file> Ya /
Ember Nama wadah S3. <nama wadah Anda> Ya bucketName
Direktori Jalur ke folder di bawah wadah yang ditentukan. <nama folder Anda> No folderpath
Nama file Nama file di bawah wadah dan jalur folder yang ditentukan. <nama file Anda> No fileName
Perilaku salin Menentukan perilaku salin saat sumber berupa file dari penyimpanan data berbasis file. • Meratakan hierarki
• Gabungkan file
• Mempertahankan hierarki
No copyBehavior:
• FlattenHierarchy
• MergeFiles
• PreserveHierarchy
Koneksi bersamaan maks Batas atas koneksi bersamaan yang ditetapkan ke penyimpanan data selama eksekusi aktivitas. Menentukan nilai hanya saat Anda ingin membatasi koneksi bersamaan. <koneksi bersamaan maks> No maxConcurrentConnections