Mengonfigurasi Gudang Data dalam aktivitas salin

Artikel ini menguraikan cara menggunakan aktivitas salin dalam alur data untuk menyalin data dari dan ke Gudang Data.

Konfigurasi yang didukung

Untuk konfigurasi setiap tab di bawah aktivitas salin, buka bagian berikut.

Umum

Untuk konfigurasi tab Umum, buka Umum.

Sumber

Properti berikut ini didukung untuk Gudang Data sebagai Sumber dalam aktivitas salin.

Cuplikan layar memperlihatkan tab sumber dan daftar properti.

Properti berikut diperlukan:

  • Jenis penyimpanan data: Pilih Ruang Kerja.

  • Jenis penyimpanan data ruang kerja: Pilih Gudang Data dari daftar jenis penyimpanan data.

  • Gudang Data: Pilih Gudang Data yang ada dari ruang kerja.

  • Gunakan kueri: Pilih Tabel, Kueri, atau Prosedur tersimpan.

    • Jika Anda memilih Tabel, pilih tabel yang sudah ada dari daftar tabel, atau tentukan nama tabel secara manual dengan memilih kotak Edit .

      Cuplikan layar memperlihatkan kueri penggunaan tabel.

    • Jika Anda memilih Kueri, gunakan editor kueri SQL kustom untuk menulis kueri SQL yang mengambil data sumber.

      Cuplikan layar memperlihatkan kueri penggunaan.

    • Jika Anda memilih Prosedur tersimpan, pilih prosedur tersimpan yang sudah ada dari daftar drop-down, atau tentukan nama prosedur tersimpan sebagai sumber dengan memilih kotak Edit .

      Cuplikan layar memperlihatkan kueri penggunaan prosedur tersimpan.

Di bawah Tingkat Lanjut, Anda bisa menentukan bidang berikut ini:

  • Batas waktu kueri (menit): Waktu habis untuk eksekusi perintah kueri, dengan default 120 menit. Jika properti ini diatur, nilai yang diizinkan dalam format rentang waktu, seperti "02:00:00" (120 menit).

  • Tingkat isolasi: Tentukan perilaku penguncian transaksi untuk sumber SQL.

  • Opsi partisi: Tentukan opsi partisi data yang digunakan untuk memuat data dari Gudang Data. Anda dapat memilih Tidak Ada atau Rentang dinamis.

    Jika Anda memilih Rentang dinamis, parameter partisi rentang(?AdfDynamicRangePartitionCondition) diperlukan saat menggunakan kueri dengan paralel diaktifkan. Kueri sampel: SELECT * FROM <TableName> WHERE ?AdfDynamicRangePartitionCondition.

    Cuplikan layar memperlihatkan rentang dinamis.

    • Nama kolom partisi: Tentukan nama kolom sumber dalam tipe bilangan bulat atau tanggal/tanggalwaktu (int, , datesmalldatetimebigintdatetimesmallint, datetime2, atau datetimeoffset) yang digunakan oleh pemartisian rentang untuk salinan paralel. Jika tidak ditentukan, indeks atau kunci primer tabel terdeteksi secara otomatis dan digunakan sebagai kolom partisi.
    • Batas atas partisi: Nilai maksimum kolom partisi untuk pemisahan rentang partisi. Nilai ini digunakan untuk menentukan langkah partisi, bukan untuk memfilter baris dalam tabel. Semua baris dalam tabel atau hasil kueri dipartisi dan disalin.
    • Batas bawah partisi: Nilai minimum kolom partisi untuk pemisahan rentang partisi. Nilai ini digunakan untuk menentukan langkah partisi, bukan untuk memfilter baris dalam tabel. Semua baris dalam tabel atau hasil kueri dipartisi dan disalin.
  • Kolom tambahan: Tambahkan kolom data tambahan untuk menyimpan jalur relatif file sumber atau nilai statis. Ekspresi didukung untuk yang terakhir.

    Cuplikan layar memperlihatkan kolom tambahan.

Tujuan

Properti berikut ini didukung untuk Gudang Data sebagai Tujuan dalam aktivitas salin.

Cuplikan layar memperlihatkan tab tujuan dan daftar properti.

Properti berikut diperlukan:

  • Jenis penyimpanan data: Pilih Ruang Kerja.
  • Jenis penyimpanan data ruang kerja: Pilih Gudang Data dari daftar jenis penyimpanan data.
  • Gudang Data: Pilih Gudang Data yang ada dari ruang kerja.
  • Tabel: Pilih tabel yang sudah ada dari daftar tabel atau tentukan nama tabel sebagai tujuan.

Di bawah Tingkat Lanjut, Anda bisa menentukan bidang berikut ini:

  • Salin pengaturan perintah: Tentukan properti perintah salin.

    Cuplikan layar memperlihatkan nilai default pengaturan perintah salin.

  • Opsi tabel: Tentukan apakah akan membuat tabel tujuan secara otomatis jika tidak ada berdasarkan skema sumber. Anda dapat memilih Tidak Ada atau Buat tabel otomatis.

  • Skrip pra-salin: Tentukan kueri SQL untuk dijalankan sebelum menulis data ke Gudang Data di setiap eksekusi. Gunakan properti ini untuk membersihkan data yang telah dimuat sebelumnya.

  • Menulis batas waktu batch: Waktu tunggu untuk operasi penyisipan batch selesai sebelum waktu habis. Nilai yang diizinkan dalam format rentang waktu. Nilai defaultnya adalah "00:30:00" (30 menit).

  • Nonaktifkan analitik metrik performa: Layanan mengumpulkan metrik untuk pengoptimalan dan rekomendasi performa salin. Jika Anda khawatir dengan perilaku ini, nonaktifkan fitur ini.

Salin langsung dengan menggunakan perintah COPY

Perintah COPY Gudang Data secara langsung mendukung Azure Blob Storage dan Azure Data Lake Storage Gen2 sebagai penyimpanan data sumber. Jika data sumber Anda memenuhi kriteria yang dijelaskan di bagian ini, gunakan perintah COPY untuk menyalin langsung dari penyimpanan data sumber ke Gudang Data.

  1. Data dan format sumber berisi jenis dan metode autentikasi berikut:

    Jenis penyimpanan data sumber yang didukung Format yang didukung Jenis autentikasi sumber yang didukung
    Azure Blob Storage Teks berbatas
    Parquet
    Autentikasi anonim
    Autentikasi kunci akun
    Autentikasi tanda tangan akses bersama
    Azure Data Lake Storage Gen2 Teks berbatas
    Parquet
    Autentikasi kunci akun
    Autentikasi tanda tangan akses bersama
  2. Pengaturan Format berikut dapat diatur:

    1. Untuk Parquet: Jenis kompresi dapat berupa None, snappy, atau gzip.
    2. Untuk DelimitedText:
      1. Pemisah baris: Saat menyalin teks yang dibatasi ke Gudang Data melalui perintah COPY langsung, tentukan pemisah baris secara eksplisit (\r; \n; atau \r\n). Hanya ketika pemisah baris dari file sumber adalah \r\n, nilai default (\r, \n, atau \r\n) berfungsi. Jika tidak, aktifkan penahapan untuk skenario Anda.
      2. Nilai null dibiarkan sebagai default atau diatur ke string kosong ("").
      3. Pengodean dibiarkan sebagai default atau diatur ke UTF-8 atau UTF-16.
      4. Lewati jumlah baris dibiarkan sebagai default atau diatur ke 0.
      5. Jenis kompresi bisa tidak ada atau gzip.
  3. Jika sumber Anda adalah folder, Anda harus memilih kotak centang Secara rekursif.

  4. Waktu mulai (UTC) dan Waktu akhir (UTC) di Filter menurut terakhir diubah, Awalan, Aktifkan penemuan partisi, dan Kolom tambahan tidak ditentukan.

Untuk mempelajari cara menyerap data ke Gudang Data Anda menggunakan perintah COPY, lihat artikel ini.

Jika penyimpanan dan format data sumber Anda awalnya tidak didukung oleh perintah COPY, gunakan salinan bertahap dengan menggunakan fitur perintah COPY sebagai gantinya. Ini secara otomatis mengonversi data menjadi format yang kompatibel dengan perintah COPY, lalu memanggil perintah COPY untuk memuat data ke Dalam Gudang Data.

Pemetaan

Untuk konfigurasi tab Pemetaan, jika Anda tidak menerapkan Gudang Data dengan tabel buat otomatis sebagai tujuan Anda, buka Pemetaan.

Jika Anda menerapkan Gudang Data dengan buat tabel secara otomatis sebagai tujuan Anda, kecuali konfigurasi di Pemetaan, Anda dapat mengedit jenis untuk kolom tujuan Anda. Setelah memilih Impor skema, Anda dapat menentukan jenis kolom di tujuan Anda.

Misalnya, jenis untuk kolom ID di sumber adalah int, dan Anda dapat mengubahnya menjadi jenis float saat memetakan ke kolom tujuan.

Cuplikan layar pemetaan jenis kolom tujuan.

Pengaturan

Untuk konfigurasi tab Pengaturan, buka Pengaturan.

Ringkasan tabel

Tabel berikut ini berisi informasi selengkapnya tentang aktivitas salin di Gudang Data.

Informasi sumber

Nama Deskripsi Nilai Wajib Properti skrip JSON
Jenis penyimpanan data Jenis penyimpanan data Anda. Workspace Ya /
Jenis penyimpanan data ruang kerja Bagian untuk memilih jenis penyimpanan data ruang kerja Anda. Gudang Data Ya jenis
Gudang Data Gudang Data yang ingin Anda gunakan. <gudang data Anda> Ya titik akhir
artifactId
Menggunakan kueri Cara membaca data dari Gudang Data. •Tabel
•Query
• Prosedur tersimpan
No (di bawah typeProperties ->source)
• typeProperties:
 skema
 tabel
• sqlReaderQuery
• sqlReaderStoredProcedureName
Batas waktu kueri (menit) Batas waktu untuk eksekusi perintah kueri, dengan default 120 menit. Jika properti ini diatur, nilai yang diizinkan dalam format rentang waktu, seperti "02:00:00" (120 menit). timespan No queryTimeout
Tingkat isolasi Perilaku penguncian transaksi untuk sumber. •Tidak
•Snapshot
No isolationLevel
Opsi partisi Opsi pemartisian data yang digunakan untuk memuat data dari Gudang Data. •Tidak
• Rentang dinamis
No partitionOption
Nama kolom partisi Nama kolom sumber dalam tipe bilangan bulat atau tanggal/tanggalwaktu (int, , smallint, , smalldatetimebigintdate, datetime, datetime2, atau datetimeoffset) yang digunakan oleh pemartisian rentang untuk salinan paralel. Jika tidak ditentukan, indeks atau kunci primer tabel terdeteksi secara otomatis dan digunakan sebagai kolom partisi. <nama kolom partisi> No partitionColumnName
Batas atas partisi Nilai maksimum kolom partisi untuk pemisahan rentang partisi. Nilai ini digunakan untuk menentukan langkah partisi, bukan untuk memfilter baris dalam tabel. Semua baris dalam tabel atau hasil kueri dipartisi dan disalin. <batas atas partisi> No partitionUpperBound
Batas bawah partisi Nilai minimum kolom partisi untuk pemisahan rentang partisi. Nilai ini digunakan untuk menentukan langkah partisi, bukan untuk memfilter baris dalam tabel. Semua baris dalam tabel atau hasil kueri dipartisi dan disalin. <partisi terikat bawah> No partitionLowerBound
Kolom tambahan Tambahkan kolom data tambahan untuk menyimpan jalur relatif file sumber atau nilai statis. •Nama
•Nilai
No additionalColumns:
•Nama
•Nilai

Informasi tujuan

Nama Deskripsi Nilai Wajib Properti skrip JSON
Jenis penyimpanan data Jenis penyimpanan data Anda. Workspace Ya /
Jenis penyimpanan data ruang kerja Bagian untuk memilih jenis penyimpanan data ruang kerja Anda. Gudang Data Ya jenis
Gudang Data Gudang Data yang ingin Anda gunakan. <gudang data Anda> Ya titik akhir
artifactId
Table Tabel tujuan untuk menulis data. <nama tabel tujuan Anda> Ya Skema
tabel
Salin pengaturan perintah Pengaturan properti perintah salin. Berisi pengaturan nilai default. Nilai default:
•Kolom
•Nilai
No copyCommand Pengaturan:
defaultValues:
• columnName
• defaultValue
Opsi tabel Apakah akan membuat tabel tujuan secara otomatis jika tidak ada berdasarkan skema sumber. •Tidak
• Buat tabel secara otomatis
No tableOption:

• Buat otomatis
Skrip pra-salin Kueri SQL untuk dijalankan sebelum menulis data ke Gudang Data di setiap proses. Gunakan properti ini untuk membersihkan data yang telah dimuat sebelumnya. <Skrip pra-salin> No preCopyScript
Menulis batas waktu batch Waktu tunggu untuk operasi penyisipan batch selesai sebelum waktu habis. Nilai yang diizinkan dalam format rentang waktu. Nilai defaultnya adalah "00:30:00" (30 menit). timespan No writeBatchTimeout
Menonaktifkan analitik metrik performa Layanan ini mengumpulkan metrik untuk pengoptimalan dan rekomendasi performa salin, yang memperkenalkan akses DB master tambahan. pilih atau batal pilih No disableMetricsCollection:
BENAR atau SALAH