Mengonfigurasi Gudang Data dalam aktivitas salin
Artikel ini menguraikan cara menggunakan aktivitas salin dalam alur data untuk menyalin data dari dan ke Gudang Data.
Konfigurasi yang didukung
Untuk konfigurasi setiap tab di bawah aktivitas salin, buka bagian berikut.
Umum
Untuk konfigurasi tab Umum, buka Umum.
Sumber
Properti berikut ini didukung untuk Gudang Data sebagai Sumber dalam aktivitas salin.
Properti berikut diperlukan:
Jenis penyimpanan data: Pilih Ruang Kerja.
Jenis penyimpanan data ruang kerja: Pilih Gudang Data dari daftar jenis penyimpanan data.
Gudang Data: Pilih Gudang Data yang ada dari ruang kerja.
Gunakan kueri: Pilih Tabel, Kueri, atau Prosedur tersimpan.
Jika Anda memilih Tabel, pilih tabel yang sudah ada dari daftar tabel, atau tentukan nama tabel secara manual dengan memilih kotak Edit .
Jika Anda memilih Kueri, gunakan editor kueri SQL kustom untuk menulis kueri SQL yang mengambil data sumber.
Jika Anda memilih Prosedur tersimpan, pilih prosedur tersimpan yang sudah ada dari daftar drop-down, atau tentukan nama prosedur tersimpan sebagai sumber dengan memilih kotak Edit .
Di bawah Tingkat Lanjut, Anda bisa menentukan bidang berikut ini:
Batas waktu kueri (menit): Waktu habis untuk eksekusi perintah kueri, dengan default 120 menit. Jika properti ini diatur, nilai yang diizinkan dalam format rentang waktu, seperti "02:00:00" (120 menit).
Tingkat isolasi: Tentukan perilaku penguncian transaksi untuk sumber SQL.
Opsi partisi: Tentukan opsi partisi data yang digunakan untuk memuat data dari Gudang Data. Anda dapat memilih Tidak Ada atau Rentang dinamis.
Jika Anda memilih Rentang dinamis, parameter partisi rentang(
?AdfDynamicRangePartitionCondition
) diperlukan saat menggunakan kueri dengan paralel diaktifkan. Kueri sampel:SELECT * FROM <TableName> WHERE ?AdfDynamicRangePartitionCondition
.- Nama kolom partisi: Tentukan nama kolom sumber dalam tipe bilangan bulat atau tanggal/tanggalwaktu (
int
, ,date
smalldatetime
bigint
datetime
smallint
,datetime2
, ataudatetimeoffset
) yang digunakan oleh pemartisian rentang untuk salinan paralel. Jika tidak ditentukan, indeks atau kunci primer tabel terdeteksi secara otomatis dan digunakan sebagai kolom partisi. - Batas atas partisi: Nilai maksimum kolom partisi untuk pemisahan rentang partisi. Nilai ini digunakan untuk menentukan langkah partisi, bukan untuk memfilter baris dalam tabel. Semua baris dalam tabel atau hasil kueri dipartisi dan disalin.
- Batas bawah partisi: Nilai minimum kolom partisi untuk pemisahan rentang partisi. Nilai ini digunakan untuk menentukan langkah partisi, bukan untuk memfilter baris dalam tabel. Semua baris dalam tabel atau hasil kueri dipartisi dan disalin.
- Nama kolom partisi: Tentukan nama kolom sumber dalam tipe bilangan bulat atau tanggal/tanggalwaktu (
Kolom tambahan: Tambahkan kolom data tambahan untuk menyimpan jalur relatif file sumber atau nilai statis. Ekspresi didukung untuk yang terakhir.
Tujuan
Properti berikut ini didukung untuk Gudang Data sebagai Tujuan dalam aktivitas salin.
Properti berikut diperlukan:
- Jenis penyimpanan data: Pilih Ruang Kerja.
- Jenis penyimpanan data ruang kerja: Pilih Gudang Data dari daftar jenis penyimpanan data.
- Gudang Data: Pilih Gudang Data yang ada dari ruang kerja.
- Tabel: Pilih tabel yang sudah ada dari daftar tabel atau tentukan nama tabel sebagai tujuan.
Di bawah Tingkat Lanjut, Anda bisa menentukan bidang berikut ini:
Salin pengaturan perintah: Tentukan properti perintah salin.
Opsi tabel: Tentukan apakah akan membuat tabel tujuan secara otomatis jika tidak ada berdasarkan skema sumber. Anda dapat memilih Tidak Ada atau Buat tabel otomatis.
Skrip pra-salin: Tentukan kueri SQL untuk dijalankan sebelum menulis data ke Gudang Data di setiap eksekusi. Gunakan properti ini untuk membersihkan data yang telah dimuat sebelumnya.
Menulis batas waktu batch: Waktu tunggu untuk operasi penyisipan batch selesai sebelum waktu habis. Nilai yang diizinkan dalam format rentang waktu. Nilai defaultnya adalah "00:30:00" (30 menit).
Nonaktifkan analitik metrik performa: Layanan mengumpulkan metrik untuk pengoptimalan dan rekomendasi performa salin. Jika Anda khawatir dengan perilaku ini, nonaktifkan fitur ini.
Salinan langsung
Pernyataan COPY adalah cara utama untuk menyerap data ke dalam tabel Gudang. Perintah COPY Gudang Data secara langsung mendukung Azure Blob Storage dan Azure Data Lake Storage Gen2 sebagai penyimpanan data sumber. Jika data sumber Anda memenuhi kriteria yang dijelaskan di bagian ini, gunakan perintah COPY untuk menyalin langsung dari penyimpanan data sumber ke Gudang Data.
Data dan format sumber berisi jenis dan metode autentikasi berikut:
Jenis penyimpanan data sumber yang didukung Format yang didukung Jenis autentikasi sumber yang didukung Azure Blob Storage Teks berbatas
ParquetAutentikasi anonim
Autentikasi kunci akun
Autentikasi tanda tangan akses bersamaAzure Data Lake Storage Gen2 Teks berbatas
ParquetAutentikasi kunci akun
Autentikasi tanda tangan akses bersamaPengaturan Format berikut dapat diatur:
- Untuk Parquet: Jenis kompresi dapat berupa None, snappy, atau gzip.
- Untuk DelimitedText:
- Pemisah baris: Saat menyalin teks yang dibatasi ke Gudang Data melalui perintah COPY langsung, tentukan pemisah baris secara eksplisit (\r; \n; atau \r\n). Hanya ketika pemisah baris dari file sumber adalah \r\n, nilai default (\r, \n, atau \r\n) berfungsi. Jika tidak, aktifkan penahapan untuk skenario Anda.
- Nilai null dibiarkan sebagai default atau diatur ke string kosong ("").
- Pengodean dibiarkan sebagai default atau diatur ke UTF-8 atau UTF-16.
- Lewati jumlah baris dibiarkan sebagai default atau diatur ke 0.
- Jenis kompresi bisa tidak ada atau gzip.
Jika sumber Anda adalah folder, Anda harus memilih kotak centang Secara rekursif.
Waktu mulai (UTC) dan Waktu akhir (UTC) di Filter menurut terakhir diubah, Awalan, Aktifkan penemuan partisi, dan Kolom tambahan tidak ditentukan.
Untuk mempelajari cara menyerap data ke Gudang Data Anda menggunakan perintah COPY, lihat artikel ini.
Jika penyimpanan dan format data sumber Anda awalnya tidak didukung oleh perintah COPY, gunakan salinan bertahap dengan menggunakan fitur perintah COPY sebagai gantinya. Ini secara otomatis mengonversi data menjadi format yang kompatibel dengan perintah COPY, lalu memanggil perintah COPY untuk memuat data ke Dalam Gudang Data.
Salinan yang dipentaskan
Saat data sumber Anda tidak kompatibel secara asli dengan perintah COPY, aktifkan penyalinan data melalui penyimpanan penahapan sementara. Dalam hal ini, layanan secara otomatis mengonversi data untuk memenuhi persyaratan format data perintah COPY. Kemudian memanggil perintah COPY untuk memuat data ke Gudang Data. Akhirnya, itu membersihkan data sementara Anda dari penyimpanan.
Untuk menggunakan salinan bertahap, buka tab Pengaturan dan pilih Aktifkan penahapan. Anda dapat memilih Ruang Kerja untuk menggunakan penyimpanan penahapan yang dibuat secara otomatis dalam Fabric. Untuk Eksternal, Azure Blob Storage dan Azure Data Lake Storage Gen2 didukung sebagai penyimpanan penahapan eksternal. Anda perlu membuat koneksi Azure Blob Storage atau Azure Data Lake Storage Gen2 terlebih dahulu, lalu memilih koneksi dari daftar drop-down untuk menggunakan penyimpanan penahapan.
Harap dicatat bahwa Anda perlu memastikan rentang IP Gudang Data telah diizinkan dengan benar dari penyimpanan penahapan.
Pemetaan
Untuk konfigurasi tab Pemetaan, jika Anda tidak menerapkan Gudang Data dengan tabel buat otomatis sebagai tujuan Anda, buka Pemetaan.
Jika Anda menerapkan Gudang Data dengan buat tabel secara otomatis sebagai tujuan Anda, kecuali konfigurasi di Pemetaan, Anda dapat mengedit jenis untuk kolom tujuan Anda. Setelah memilih Impor skema, Anda dapat menentukan jenis kolom di tujuan Anda.
Misalnya, jenis untuk kolom ID di sumber adalah int, dan Anda dapat mengubahnya menjadi jenis float saat memetakan ke kolom tujuan.
Pengaturan
Untuk konfigurasi tab Pengaturan , buka Pengaturan.
Ringkasan tabel
Tabel berikut ini berisi informasi selengkapnya tentang aktivitas salin di Gudang Data.
Informasi sumber
Nama | Deskripsi | Nilai | Wajib | Properti skrip JSON |
---|---|---|---|---|
Jenis penyimpanan data | Jenis penyimpanan data Anda. | Workspace | Ya | / |
Jenis penyimpanan data ruang kerja | Bagian untuk memilih jenis penyimpanan data ruang kerja Anda. | Gudang Data | Ya | jenis |
Gudang Data | Gudang Data yang ingin Anda gunakan. | <gudang data Anda> | Ya | titik akhir artifactId |
Menggunakan kueri | Cara membaca data dari Gudang Data. | •Tabel •Kueri • Prosedur tersimpan |
No | (di bawah typeProperties ->source )• typeProperties: skema tabel • sqlReaderQuery • sqlReaderStoredProcedureName |
Batas waktu kueri (menit) | Batas waktu untuk eksekusi perintah kueri, dengan default 120 menit. Jika properti ini diatur, nilai yang diizinkan dalam format rentang waktu, seperti "02:00:00" (120 menit). | timespan | No | queryTimeout |
Tingkat isolasi | Perilaku penguncian transaksi untuk sumber. | •Tidak •Snapshot |
No | isolationLevel |
Opsi partisi | Opsi pemartisian data yang digunakan untuk memuat data dari Gudang Data. | •Tidak • Rentang dinamis |
No | partitionOption |
Nama kolom partisi | Nama kolom sumber dalam tipe bilangan bulat atau tanggal/tanggalwaktu (int , , smallint , , smalldatetime bigint date , datetime , datetime2 , atau datetimeoffset ) yang digunakan oleh pemartisian rentang untuk salinan paralel. Jika tidak ditentukan, indeks atau kunci primer tabel terdeteksi secara otomatis dan digunakan sebagai kolom partisi. |
<nama kolom partisi> | No | partitionColumnName |
Batas atas partisi | Nilai maksimum kolom partisi untuk pemisahan rentang partisi. Nilai ini digunakan untuk menentukan langkah partisi, bukan untuk memfilter baris dalam tabel. Semua baris dalam tabel atau hasil kueri dipartisi dan disalin. | <batas atas partisi> | No | partitionUpperBound |
Batas bawah partisi | Nilai minimum kolom partisi untuk pemisahan rentang partisi. Nilai ini digunakan untuk menentukan langkah partisi, bukan untuk memfilter baris dalam tabel. Semua baris dalam tabel atau hasil kueri dipartisi dan disalin. | <partisi terikat bawah> | No | partitionLowerBound |
Kolom tambahan | Tambahkan kolom data tambahan untuk menyimpan jalur relatif file sumber atau nilai statis. | •Nama •Nilai |
No | additionalColumns: •Nama •nilai |
Informasi tujuan
Nama | Deskripsi | Nilai | Wajib | Properti skrip JSON |
---|---|---|---|---|
Jenis penyimpanan data | Jenis penyimpanan data Anda. | Workspace | Ya | / |
Jenis penyimpanan data ruang kerja | Bagian untuk memilih jenis penyimpanan data ruang kerja Anda. | Gudang Data | Ya | jenis |
Gudang Data | Gudang Data yang ingin Anda gunakan. | <gudang data Anda> | Ya | titik akhir artifactId |
Table | Tabel tujuan untuk menulis data. | <nama tabel tujuan Anda> | Ya | skema tabel |
Salin pengaturan perintah | Pengaturan properti perintah salin. Berisi pengaturan nilai default. | Nilai default: •Kolom •Nilai |
No | copyCommandSettings: defaultValues: • columnName • defaultValue |
Opsi tabel | Apakah akan membuat tabel tujuan secara otomatis jika tidak ada berdasarkan skema sumber. | •Tidak • Buat tabel secara otomatis |
No | tableOption: • Buat otomatis |
Skrip pra-salin | Kueri SQL untuk dijalankan sebelum menulis data ke Gudang Data di setiap proses. Gunakan properti ini untuk membersihkan data yang telah dimuat sebelumnya. | <Skrip pra-salin> | No | preCopyScript |
Menulis batas waktu batch | Waktu tunggu untuk operasi penyisipan batch selesai sebelum waktu habis. Nilai yang diizinkan dalam format rentang waktu. Nilai defaultnya adalah "00:30:00" (30 menit). | timespan | No | writeBatchTimeout |
Menonaktifkan analitik metrik performa | Layanan ini mengumpulkan metrik untuk pengoptimalan dan rekomendasi performa salin, yang memperkenalkan akses DB master tambahan. | pilih atau batal pilih | No | disableMetricsCollection: BENAR atau SALAH |