Catatan
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba masuk atau mengubah direktori.
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba mengubah direktori.
Artikel ini menguraikan cara menggunakan aktivitas salin dalam alur untuk menyalin data dari dan ke Fabric Lakehouse. Secara default, data ditulis ke Lakehouse Table dalam V-Order, dan Anda dapat membuka pengoptimalan tabel Delta Lake dan V-Order untuk informasi selengkapnya.
Konektor ini mendukung Lakehouse di ruang kerja dengan tautan privat diaktifkan. Untuk informasi selengkapnya tentang konfigurasi, lihat Menyiapkan dan menggunakan tautan privat.
Untuk mendukung tautan privat tingkat ruang kerja di gateway data lokal (versi 3000.286.12 atau lebih tinggi), Anda perlu menambahkan *.dfs.fabric.microsoft.com ke daftar yang diizinkan untuk memastikan konektor Lakehouse dapat mengakses API Onelake melalui jaringan.
Format yang didukung
Lakehouse mendukung format file berikut. Lihat setiap artikel untuk mengetahui cara melakukan pengaturan berbasis format.
- Format Avro
- Format Biner
- Format teks dengan pembatas
- Format Excel
- Format JSON
- Format ORC
- Format Parquet
- Format XML
Konfigurasi yang didukung
Untuk konfigurasi setiap tab di bawah aktivitas salin, buka bagian berikut.
General
Untuk konfigurasi tab Umum, buka Umum.
Source
Properti berikut didukung untuk Lakehouse pada bagian Sumber dari aktivitas penyalinan.
Properti berikut diperlukan:
Koneksi: Pilih koneksi Lakehouse dari daftar koneksi. Jika tidak ada koneksi, buat koneksi Lakehouse baru. Jika Anda menerapkan Gunakan konten dinamis untuk menentukan Lakehouse Anda, tambahkan parameter dan tentukan ID objek Lakehouse sebagai nilai parameter. Untuk mendapatkan ID objek Lakehouse Anda, buka Lakehouse di ruang kerja Anda, dan setelah
/lakehouses/, ID tersebut ada di URL Anda.
Lakehouse: Pilih Lakehouse yang ada yang ingin Anda gunakan.
Root folder: Pilih Tabel atau File, yang menunjukkan pandangan virtual area terkelola atau tidak terkelola di danau Anda. Untuk informasi selengkapnya, lihat Pengantar Lakehouse.
Jika Anda memilih Tabel:
-
Gunakan kueri: Pilih dari Tabel atau Kueri T-SQL.
Jika Anda memilih Table:
Tabel: Pilih tabel yang sudah ada dari daftar tabel atau tentukan nama tabel sebagai sumbernya. Atau Anda dapat memilih Baru untuk membuat tabel baru.
Saat Anda menerapkan Lakehouse dengan skema dalam koneksi, pilih tabel yang ada dengan skema dari daftar tabel atau tentukan tabel dengan skema sebagai sumbernya. Atau Anda dapat memilih Baru untuk membuat tabel baru dengan skema. Jika Anda tidak menentukan nama skema, layanan akan menggunakan dbo sebagai skema default.
Di bawah Tingkat Lanjut, Anda bisa menentukan bidang berikut ini:
- Tanda waktu: Tentukan untuk mengkueri rekam jepret yang lebih lama berdasarkan tanda waktu.
- Versi: Tentukan untuk mengkueri rekam jepret yang lebih lama menurut versi.
- Kolom tambahan: Tambahkan kolom data tambahan ke jalur relatif atau nilai statis file sumber penyimpanan. Ekspresi didukung untuk opsi terakhir.
Jika Anda memilih Kueri T-SQL:
Kueri T-SQL: Tentukan kueri SQL kustom untuk membaca data melalui titik akhir analitik Lakehouse SQL. Misalnya:
SELECT * FROM MyTable. Perhatikan bahwa mode kueri tabel Lakehouse tidak mendukung tautan privat tingkat ruang kerja.
Di bawah Tingkat Lanjut, Anda bisa menentukan bidang berikut ini:
Batas waktu kueri (menit): Tentukan batas waktu untuk eksekusi perintah kueri, defaultnya adalah 120 menit.
Opsi partisi: Menentukan opsi partisi data yang digunakan untuk memuat data dari mode kueri tabel Lakehouse. Anda dapat memilih Tidak Ada (default) atau Rentang dinamis.
Jika Anda memilih Tidak Ada, Anda memilih untuk tidak menggunakan partisi.
Jika Anda memilih Rentang dinamis, saat menggunakan kueri dengan diaktifkan paralel, parameter partisi rentang(
?DfDynamicRangePartitionCondition) diperlukan. Kueri sampel:SELECT * FROM <TableName> WHERE ?DfDynamicRangePartitionCondition.Nama kolom partisi: Tentukan nama kolom sumber dalam jenis bilangan bulat yang digunakan oleh pemartisian rentang untuk salinan paralel. Jika tidak ditentukan, indeks atau kunci utama tabel terdeteksi secara otomatis dan digunakan sebagai kolom partisi. Jika Anda menggunakan kueri untuk mengambil data sumber, kaitkan
?DfDynamicRangePartitionConditiondi klausul WHERE. Misalnya, lihat bagian Salinan paralel dari tabel Lakehouse menggunakan T-SQL Query .Batas atas partisi: Tentukan nilai maksimum kolom partisi untuk pemisahan rentang partisi. Nilai ini digunakan untuk memutuskan langkah partisi, bukan untuk memfilter baris dalam tabel. Semua baris dalam tabel atau hasil kueri akan dipartisi dan disalin. Jika tidak ditentukan, aktivitas salin otomatis mendeteksi nilai. Misalnya, lihat bagian Salinan paralel dari tabel Lakehouse menggunakan T-SQL Query .
Batas bawah partisi: Tentukan nilai minimum kolom partisi untuk pemisahan rentang partisi. Nilai ini digunakan untuk memutuskan langkah partisi, bukan untuk memfilter baris dalam tabel. Semua baris dalam tabel atau hasil kueri akan dipartisi dan disalin. Jika tidak ditentukan, aktivitas salin otomatis mendeteksi nilai. Misalnya, lihat bagian Salinan paralel dari tabel Lakehouse menggunakan T-SQL Query .
Kolom tambahan: Tambahkan kolom data tambahan ke jalur relatif atau nilai statis file sumber penyimpanan. Ekspresi didukung untuk opsi terakhir.
-
Gunakan kueri: Pilih dari Tabel atau Kueri T-SQL.
Jika Anda memilih File:
Jenis jalur file: Anda dapat memilih Jalur file, jalur file wildcard, atau Daftar file sebagai jenis jalur file Anda. Daftar berikut menjelaskan konfigurasi setiap pengaturan:
Jalur file: Pilih Telusuri untuk memilih file yang ingin Anda salin, atau isi jalur secara manual.
Jalur file wildcard: Tentukan folder atau jalur file dengan karakter wildcard di area tidak terkelola Lakehouse tertentu (di bawah File) untuk memfilter folder atau file sumber Anda. Wildcard yang diizinkan adalah:
*(mencocokkan nol atau lebih karakter) dan?(mencocokkan nol atau satu karakter). Gunakan^untuk menghindari jika folder atau nama file Anda memiliki wildcard atau karakter escape ini di dalamnya.Jalur folder dengan wildcard: Jalur ke folder di bawah kontainer yang diberikan. Jika Anda ingin menggunakan kartubebas untuk memfilter folder, lewati pengaturan ini dan tentukan informasi tersebut di pengaturan sumber aktivitas.
Pola nama file: Nama file di area tidak terkelola Lakehouse yang diberikan (di bawah File) dan jalur folder.
Daftar file: Menunjukkan untuk menyalin kumpulan file tertentu.
- Jalur folder: Menunjuk ke folder yang mengandung file yang ingin Anda salin.
- Jalur ke daftar file: Menunjuk ke file teks yang menyertakan daftar file yang ingin Anda salin, satu file per baris, yang merupakan jalur relatif ke jalur file yang dikonfigurasi.
Secara rekursif: Menunjukkan apakah data dibaca secara rekursif dari subfolder atau hanya dari folder yang ditentukan. Jika diaktifkan, semua file di folder input dan subfoldernya diproses secara rekursif. Properti ini tidak berlaku saat Anda mengonfigurasi tipe jalur file sebagai Daftar file.
Format file: Pilih format file Anda dari daftar drop-down. Pilih tombol Pengaturan untuk mengonfigurasi format file. Untuk pengaturan format file yang berbeda, lihat artikel dalam Format yang didukung untuk informasi terperinci.
Di bawah Tingkat Lanjut, Anda bisa menentukan bidang berikut ini:
-
Filter menurut terakhir diubah: File difilter berdasarkan tanggal terakhir diubah. Properti ini tidak berlaku saat Anda mengonfigurasi tipe jalur file sebagai Daftar file.
- Waktu Mulai: File dipilih jika waktu terakhir dimodifikasi lebih besar atau sama dengan waktu yang dikonfigurasi.
- Waktu Akhir: File dipilih jika waktu terakhir dimodifikasi lebih awal dari waktu yang dikonfigurasi.
-
Aktifkan penemuan partisi: Untuk file yang dipartisi, tentukan apakah akan menganalisis partisi melalui jalur file dan menambahkannya sebagai kolom sumber tambahan.
- Jalur akar partisi: Saat penemuan partisi diaktifkan, tentukan jalur akar absolut untuk membaca folder yang dipartisi sebagai kolom data.
- Koneksi bersamaan maksimum: Menunjukkan batas atas koneksi bersamaan yang dibuat ke penyimpanan data selama pelaksanaan aktivitas. Menentukan nilai hanya saat Anda ingin membatasi koneksi bersamaan.
-
Filter menurut terakhir diubah: File difilter berdasarkan tanggal terakhir diubah. Properti ini tidak berlaku saat Anda mengonfigurasi tipe jalur file sebagai Daftar file.
Destination
Properti berikut ini didukung untuk Lakehouse di bawah tab Tujuan dari aktivitas salin.
Properti berikut diperlukan:
Koneksi: Pilih koneksi Lakehouse dari daftar koneksi. Jika tidak ada koneksi, buat koneksi Lakehouse baru. Jika Anda menerapkan Gunakan konten dinamis untuk menentukan Lakehouse Anda, tambahkan parameter dan tentukan ID objek Lakehouse sebagai nilai parameter. Untuk mendapatkan ID objek Lakehouse Anda, buka Lakehouse di ruang kerja Anda, dan setelah
/lakehouses/, ID tersebut ada di URL Anda.
Root folder: Pilih Tabel atau File, yang menunjukkan pandangan virtual area terkelola atau tidak terkelola di danau Anda. Untuk informasi selengkapnya, lihat Pengantar Lakehouse.
Jika Anda memilih Tabel:
Tabel: Pilih tabel yang sudah ada dari daftar tabel atau tentukan nama tabel sebagai tujuan. Atau Anda dapat memilih Baru untuk membuat tabel baru.
Saat Anda menerapkan Lakehouse dengan skema dalam koneksi, pilih tabel yang sudah ada dengan skema dari daftar tabel atau tentukan tabel dengan skema sebagai tujuan. Atau Anda dapat memilih Baru untuk membuat tabel baru dengan skema. Jika Anda tidak menentukan nama skema, layanan akan menggunakan dbo sebagai skema default.
Note
Nama tabel harus panjang minimal satu karakter, tanpa '/' atau '\', tidak ada titik berikutnya, dan tidak ada spasi di depan atau di belakang.
Tindakan tabel: Tentukan operasi terhadap tabel yang dipilih.
Tambahkan: Tambahkan nilai baru ke tabel yang sudah ada. Di bawah Tingkat Lanjut, Anda dapat mengaktifkan partisi pada tabel target Anda:
-
Aktifkan Partisi: Pilihan ini memungkinkan Anda membuat partisi dalam struktur folder berdasarkan satu atau beberapa kolom. Setiap nilai kolom (pasangan) yang berbeda adalah partisi baru. Misalnya, "tahun=2000/bulan=01/berkas".
- Nama kolom partisi: Pilih dari kolom tujuan dalam pemetaan skema saat Anda menambahkan data ke tabel baru. Saat Anda menambahkan data ke tabel yang sudah ada yang sudah memiliki partisi, kolom partisi berasal dari tabel yang ada secara otomatis. Jenis data yang didukung adalah string, bilangan bulat, boolean, dan tanggalwaktu. Format mematuhi pengaturan konversi tipe di tab Pemetaan.
-
Aktifkan Partisi: Pilihan ini memungkinkan Anda membuat partisi dalam struktur folder berdasarkan satu atau beberapa kolom. Setiap nilai kolom (pasangan) yang berbeda adalah partisi baru. Misalnya, "tahun=2000/bulan=01/berkas".
Timpa: Timpa data dan skema yang ada dalam tabel menggunakan nilai baru. Di bawah Tingkat Lanjut, Anda dapat mengaktifkan partisi pada tabel target Anda:
-
Aktifkan Partisi: Pilihan ini memungkinkan Anda membuat partisi dalam struktur folder berdasarkan satu atau beberapa kolom. Setiap nilai kolom (pasangan) yang berbeda adalah partisi baru. Misalnya, "tahun=2000/bulan=01/berkas".
- Nama kolom partisi: Pilih dari kolom tujuan dalam pemetaan skema. Jenis data yang didukung adalah string, bilangan bulat, boolean, dan tanggalwaktu. Format mematuhi pengaturan konversi tipe di tab Pemetaan.
Ini mendukung fitur time travel Delta Lake. Tabel yang ditulis ulang memiliki log delta untuk versi sebelumnya, yang dapat diakses di Lakehouse. Anda juga dapat menyalin tabel versi sebelumnya dari Lakehouse, dengan menentukan Versi di sumber aktivitas salin.
-
Aktifkan Partisi: Pilihan ini memungkinkan Anda membuat partisi dalam struktur folder berdasarkan satu atau beberapa kolom. Setiap nilai kolom (pasangan) yang berbeda adalah partisi baru. Misalnya, "tahun=2000/bulan=01/berkas".
Upsert (Pratinjau): Sisipkan nilai baru ke tabel yang sudah ada dan perbarui nilai yang sudah ada. Upsert tidak didukung saat menggunakan tabel Lakehouse yang dipartisi. Partisi tidak dapat diaktifkan ketika tindakan ini dipilih.
- Kolom kunci: Pilih kolom mana yang digunakan untuk menentukan apakah baris dari sumber cocok dengan baris dari tujuan. Menu drop-down yang mencantumkan semua kolom tujuan. Anda dapat memilih satu atau beberapa kolom untuk diperlakukan sebagai kolom kunci saat menulis ke Dalam Tabel Lakehouse.
Di bawah Tingkat Lanjut, Anda bisa menentukan bidang berikut ini:
- Terapkan V-Order: Tentukan untuk menerapkan V-Order dengan cara menyalin. Menonaktifkannya mempertahankan file parket asli tanpa menerapkan pengoptimalan V-Order tambahan. Untuk informasi selengkapnya, lihat Pengoptimalan tabel Delta Lake dan V-Order.
Jika Anda memilih File:
Jalur file: Pilih Telusuri untuk memilih file yang ingin Anda salin, atau isi jalur secara manual.
Format file: Pilih format file Anda dari daftar drop-down. Pilih Pengaturan untuk mengonfigurasi format file. Untuk pengaturan format file yang berbeda, lihat artikel dalam Format yang didukung untuk informasi terperinci.
Di bawah Tingkat Lanjut, Anda bisa menentukan bidang berikut ini:
Perilaku salin: Menentukan perilaku salin saat sumbernya adalah file dari penyimpanan data berbasis file. Anda dapat memilih Ratakan hierarki, Gabungkan file, Pertahankan hierarki, atau Tambahkan konten Dinamis sebagai perilaku salin Anda. Konfigurasi setiap pengaturan adalah:
Meratakan hierarki: Semua file dari folder sumber berada di tingkat pertama folder tujuan. File tujuan memiliki nama yang dibuat secara otomatis.
Gabungkan file: Menggabungkan semua file dari folder sumber ke satu file. Jika nama file ditentukan, nama file yang digabungkan adalah nama yang ditentukan. Jika tidak, ini adalah nama file yang dibuat secara otomatis.
Mempertahankan hierarki: Mempertahankan hierarki file di folder target. Jalur relatif file sumber ke folder sumber identik dengan jalur relatif file target ke folder target.
Menambahkan konten dinamis: Untuk menentukan ekspresi untuk nilai properti, pilih Tambahkan konten dinamis. Bidang ini membuka penyusun ekspresi tempat Anda dapat membangun ekspresi dari variabel sistem yang didukung, output aktivitas, fungsi, dan variabel atau parameter yang ditentukan pengguna. Untuk informasi selengkapnya tentang bahasa ekspresi, buka Ekspresi dan fungsi.
Koneksi bersamaan maksimum: Batas atas koneksi bersamaan yang dibuat ke penyimpanan data selama aktivitas berjalan. Menentukan nilai hanya saat Anda ingin membatasi koneksi bersamaan.
Ukuran blok (MB): Tentukan ukuran blok dalam MB saat menulis data ke Lakehouse. Nilai yang diizinkan adalah antara 4 MB dan 100 MB.
Metadata: Atur metadata kustom saat menyalin ke penyimpanan data tujuan. Setiap objek di bawah
metadataarray mewakili kolom tambahan.namemendefinisikan nama kunci metadata, danvaluemenunjukkan nilai data dari kunci tersebut. Jika fitur pertahankan atribut digunakan, metadata yang ditentukan akan digabungkan/ditimpa dengan metadata file sumber. Nilai data yang diizinkan adalah:
Mapping
Untuk konfigurasi tab Pemetaan, jika Anda tidak menerapkan tabel Lakehouse sebagai penyimpanan data tujuan Anda, buka Pemetaan.
Jika Anda menerapkan tabel Lakehouse sebagai penyimpanan data tujuan Anda, kecuali konfigurasi di Pemetaan, Anda dapat mengedit jenis untuk kolom tujuan Anda. Setelah memilih Impor skema, Anda dapat menentukan jenis kolom di tujuan Anda.
Misalnya, jenis untuk kolom PersonID di sumber adalah int, dan Anda dapat mengubahnya menjadi jenis string saat memetakan ke kolom tujuan.
Note
Mengedit tipe tujuan saat ini tidak didukung ketika sumber Anda berjenis desimal.
Jika Anda memilih Biner sebagai format file Anda, pemetaan tidak didukung.
Settings
Untuk konfigurasi tab Pengaturan , buka Pengaturan.
Pemetaan jenis data tabel Lakehouse
Bagian berikut ini menjelaskan pemetaan jenis data saat menyalin data dari tabel Lakehouse. Lihat sub bagian yang sesuai dengan mode sumber Anda untuk detailnya.
Table
Saat menyalin data dari tabel Lakehouse dalam mode Tabel, pemetaan berikut digunakan dari jenis data tabel Lakehouse ke jenis data sementara yang digunakan oleh layanan secara internal.
| Tipe data Lakehouse untuk tabel | Jenis data layanan sementara |
|---|---|
| string | String |
| long | Int64 |
| integer | Int32 |
| short | Int16 |
| byte | SByte |
| float | Single |
| double | Double |
| decimal | Decimal |
| boolean | Boolean |
| biner | Array byte |
| date | Date |
| stempel waktu | DateTime |
Saat menyalin data ke tabel Lakehouse dalam mode Tabel, pemetaan berikut digunakan dari jenis data sementara yang digunakan oleh layanan secara internal ke jenis data tujuan delta yang didukung.
| Jenis data layanan sementara | Jenis tujuan delta yang didukung |
|---|---|
| Boolean | boolean |
| SByte | byte |
| Byte | short |
| Int16 | short |
| UInt16 | integer |
| Int32 | integer |
| UInt32 | long |
| Int64 | long |
| UInt64 | desimal (20,0) |
| Single | float |
| Double | double |
| GUID | string |
| Date | date |
| TimeSpan | Tidak didukung |
| DateTime | stempel waktu |
| DateTimeOffset | stempel waktu |
| String | string |
| Array byte | biner |
| Decimal | decimal |
Kueri T-SQL
Saat menyalin data dari tabel Lakehouse dalam mode Kueri T-SQL, pemetaan berikut digunakan dari jenis data tabel Lakehouse ke jenis data sementara yang digunakan oleh layanan secara internal.
| Tipe data tabel Lakehouse dalam mode Kueri T-SQL | Jenis data layanan sementara |
|---|---|
| int | Int32 |
| varchar | String |
| bigint | Int64 |
| smallint | Int16 |
| nyata / asli | Single |
| float | Double |
| decimal | Decimal |
| sedikit | Boolean |
| varbinary | Byte[] |
| date | Date |
| datetime2 | DateTime |
Salinan paralel dari tabel Lakehouse menggunakan T-SQL Query
Konektor tabel Lakehouse menggunakan T-SQL Query dalam aktivitas salin menyediakan partisi data bawaan untuk menyalin data secara paralel. Anda dapat menemukan opsi pemartisian data pada tab Sumber aktivitas salin.
Saat Anda mengaktifkan fitur penyalinan berpartisi, aktivitas salin menjalankan kueri secara paralel terhadap tabel Lakehouse Anda dengan menggunakan sumber Kueri T-SQL untuk memuat data berdasarkan partisi. Tingkat paralel dikontrol oleh Tingkat paralelisme salin di tab pengaturan aktivitas salin. Misalnya, jika Anda mengatur Tingkat paralelisme salin ke empat, layanan secara bersamaan menghasilkan dan menjalankan empat kueri berdasarkan opsi dan pengaturan partisi yang Anda tentukan, dan setiap kueri mengambil sebagian data dari tabel Lakehouse Anda menggunakan Kueri T-SQL.
Anda disarankan untuk mengaktifkan penyalinan paralel dengan pemartisian data terutama saat Anda memuat data dalam jumlah besar dari tabel Lakehouse Anda menggunakan T-SQL Query. Berikut ini adalah konfigurasi yang disarankan untuk skenario yang berbeda. Saat menyalin data ke penyimpanan data berbasis file, disarankan untuk menulis ke folder sebagai beberapa file (hanya tentukan nama folder), dalam hal ini performanya lebih baik daripada menulis ke satu file.
| Scenario | Pengaturan yang disarankan |
|---|---|
| Beban penuh dari tabel besar, tanpa partisi fisik, tetapi menggunakan kolom tipe integer atau kolom tanggal dan waktu untuk pemartisian data. |
Opsi partisi: Rentang partisi dinamis. kolom Partisi (opsional): Tentukan kolom yang digunakan untuk mempartisi data. Jika tidak ditentukan, indeks atau kolom kunci utama digunakan. Batas atas partisi dan batas bawah partisi (opsional): Menentukan apakah Anda ingin menentukan langkah partisi. Ini bukan untuk memfilter baris dalam tabel, semua baris dalam tabel akan dipartisi dan disalin. Jika tidak ditentukan, aktivitas salin otomatis mendeteksi nilai dan dapat memakan waktu lama tergantung pada nilai MIN dan MAX. Disarankan untuk menyediakan batas atas dan batas bawah. Misalnya, jika kolom partisi Anda "ID" memiliki nilai berkisar dari 1 hingga 100, dan Anda mengatur batas bawah sebagai 20 dan batas atas sebagai 80, dengan salinan paralel sebagai 4, layanan mengambil data dengan 4 partisi - ID dalam rentang <=20, [21, 50], [51, 80], dan >=81, masing-masing. |
| Muat sejumlah besar data dengan menggunakan kueri kustom, tanpa partisi fisik, sementara dengan kolom bilangan bulat atau tanggal/tanggalwaktu untuk pemartisian data. |
Opsi partisi: Rentang partisi dinamis. Kueri: SELECT * FROM <TableName> WHERE ?DfDynamicRangePartitionCondition AND <your_additional_where_clause>.Kolom partisi: Menentukan kolom yang digunakan untuk mempartisi data. Batas atas partisi dan batas bawah partisi (opsional): Menentukan apakah Anda ingin menentukan langkah partisi. Ini bukan untuk memfilter baris dalam tabel, semua baris dalam hasil kueri akan dipartisi dan disalin. Jika tidak ditentukan, aktivitas salin otomatis mendeteksi nilai. Misalnya, jika kolom partisi Anda "ID" memiliki nilai berkisar dari 1 hingga 100, dan Anda mengatur batas bawah sebagai 20 dan batas atas sebagai 80, dengan salinan paralel sebanyak 4, layanan mengambil data dalam 4 partisi - ID dalam rentang <=20, [21, 50], [51, 80], dan >=81, masing-masing, yaitu. Berikut adalah contoh kueri lainnya untuk skenario yang berbeda: • Kueri seluruh tabel: SELECT * FROM <TableName> WHERE ?DfDynamicRangePartitionCondition• Kueri dari tabel dengan pemilihan kolom dan filter where-clause tambahan: SELECT <column_list> FROM <TableName> WHERE ?DfDynamicRangePartitionCondition AND <your_additional_where_clause>• Kueri dengan subkueri: SELECT <column_list> FROM (<your_sub_query>) AS T WHERE ?DfDynamicRangePartitionCondition AND <your_additional_where_clause>• Kueri dengan partisi data dalam subkueri: SELECT <column_list> FROM (SELECT <your_sub_query_column_list> FROM <TableName> WHERE ?DfDynamicRangePartitionCondition) AS T |
Dukungan untuk tabel Delta Lake
Di bagian di bawah ini, Anda akan menemukan informasi terperinci tentang dukungan tabel Delta Lake untuk sumber dan tujuan.
Source
pemetaaan kolom Delta didukung saat Anda menerapkan versi pembaca 2 atau versi pembaca 3 dengan columnMapping di readerFeatures di tabel Lakehouse Anda.
Kemampuan pemetaan kolom tabel Delta memungkinkan evolusi skema yang lebih fleksibel, memastikan bahwa perubahan dalam struktur tabel tidak mengganggu alur kerja data. Dengan pemetaan kolom, Anda dapat membaca data dari tabel Delta Lake yang ada dengan delta.columnMapping.mode diatur ke name atau id.
vektor penghapusan didukung saat Anda menerapkan versi pembaca 3 dengan deletionVectors di readerFeatures di tabel Lakehouse Anda. Baris yang dihapus secara lunak ditandai dalam file vektor penghapusan dan dilewati saat membaca tabel Delta Lake.
Umpan Data Perubahan didukung.
Destination
Pemetaan kolom Delta didukung. Kemampuan ini memungkinkan evolusi skema yang lebih fleksibel, memastikan bahwa perubahan dalam struktur tabel tidak mengganggu alur kerja data. Dengan pemetaan kolom, Anda dapat:
- Tulis data ke tabel delta lake yang ada dengan
delta.columnMapping.modediatur kename. - Buat tabel secara otomatis dengan
delta.columnMapping.modediatur kenamesaat tabel tujuan tidak ada dan kolom sumber menyertakan karakter khusus dan spasi kosong. - Buat tabel secara otomatis dengan
delta.columnMapping.modediatur kenamesaat tindakan tabel ditimpa dan kolom himpunan data sumber menyertakan karakter khusus dan spasi kosong.
Vektor penghapusan didukung.
Umpan Data Perubahan didukung.
Ringkasan tabel
Tabel berikut berisi informasi selengkapnya tentang aktivitas salin di Lakehouse.
Informasi sumber
| Name | Description | Value | Required | Properti skrip JSON |
|---|---|---|---|---|
| Connection | Bagian untuk memilih koneksi Anda. | < koneksi Lakehouse Anda> | Yes | workspaceId ID Barang |
| Folder root | Jenis direktori root | • Tabel • File |
No | rootFolder: Tabel atau File |
| Gunakan kueri | Cara membaca data dari Lakehouse. Terapkan Tabel untuk membaca data dari tabel yang ditentukan atau menerapkan Kueri T-SQL untuk membaca data menggunakan kueri. | • Tabel • Kueri T-SQL |
Yes | / |
| Table | Nama tabel yang ingin Anda baca datanya, atau nama tabel dengan skema yang ingin Anda baca datanya saat Anda menerapkan Lakehouse dengan skema sebagai koneksi. | <nama tabel Anda> | Ya saat Anda memilih Tabel di folder Root | tabel |
| nama skema | Nama skema. | < nama skema Anda > | No | skema |
| nama tabel | Nama tabel tersebut. | < nama tabel Anda > | No | tabel |
| Kueri T-SQL | Gunakan kueri kustom untuk membaca data. Contohnya adalah SELECT * FROM MyTable. |
< kueri > | No | sqlReaderQuery |
| Timestamp | Tanda waktu untuk mengkueri rekam jepret yang lebih lama. | <penanda waktu> | No | timestampAsOf |
| Version | Versi untuk mengakses cuplikan yang sudah lama. | <versi> | No | versionAsOf |
| Batas waktu kueri (menit) | Batas waktu untuk eksekusi perintah kueri, defaultnya adalah 120 menit. | rentang waktu | No | queryTimeout |
| opsi Partisi | Opsi pemartisian data yang digunakan untuk memuat data dari mode kueri tabel Lakehouse. | •Tidak • Rentang dinamis |
No | partitionOption |
| nama kolom partisi | Nama kolom sumber dalam jenis bilangan bulat yang akan digunakan oleh pemartisian rentang untuk salinan paralel. Jika tidak ditentukan, kunci utama tabel terdeteksi secara otomatis dan digunakan sebagai kolom partisi. | <nama kolom partisi> | No | partitionColumnName |
| batas atas Partisi | Nilai maksimum kolom partisi untuk pembagian rentang partisi. Nilai ini digunakan untuk memutuskan langkah partisi, bukan untuk memfilter baris dalam tabel. Semua baris dalam tabel atau hasil kueri akan dipartisi dan disalin. | <batas atas partisi> | No | partitionUpperBound |
| batas bawah Partisi | Nilai minimum kolom partisi untuk pemisahan rentang partisi. Nilai ini digunakan untuk memutuskan langkah partisi, bukan untuk memfilter baris dalam tabel. Semua baris dalam tabel atau hasil kueri akan dipartisi dan disalin. | <partisi terikat bawah> | No | batas bawah partisi |
| Kolom tambahan | Kolom data tambahan untuk menyimpan jalur relatif file sumber atau nilai statis. Ekspresi didukung untuk opsi terakhir. | •Nama •Nilai |
No | additionalColumns: •Nama • nilai |
| Jenis jalur file | Jenis jalur file yang Anda gunakan. | • Jalur file • Jalur file dengan karakter pengganti • Daftar file |
Ya saat Anda memilih File di folder Root | / |
| Jalur file | Salin jalur ke folder/file pada penyimpanan data sumber. | <jalur file> | Ya ketika memilih File Path | • folderPath • Nama File |
| Jalur kartubebas | Jalur folder dengan karakter wildcard pada toko data sumber yang dikonfigurasi untuk memfilter folder sumber. | <jalur kartubebas> | Ya, saat memilih jalur file Wildcard | • wildcardFolderPath • wildcardFileName |
| Lokasi Folder | Arahkan ke folder yang menyertakan file yang ingin Anda salin. | <jalur folder> | No | folderPath |
| Jalur ke daftar file | Mengindikasikan untuk menyalin set file yang diberikan. Arahkan ke file teks yang menyertakan daftar file yang ingin Anda salin, satu file per baris, yang merupakan jalur relatif ke jalur yang dikonfigurasi. | <jalur ke daftar file> | No | fileListPath |
| Recursively | Proses semua file dalam folder input dan subfoldernya secara rekursif atau hanya yang ada di folder yang dipilih. Pengaturan ini dinonaktifkan ketika satu file dipilih. | pilih atau batal pilih | No | recursive: BENAR atau SALAH |
| Format File | Format file untuk data sumber Anda. Untuk informasi format file yang berbeda, lihat artikel dalam Format yang didukung untuk informasi terperinci. | / | Ya saat Anda memilih File di folder Root | / |
| Filter berdasarkan terakhir diubah | File dengan waktu terakhir diubah dalam rentang [Waktu mulai, Waktu selesai) akan difilter untuk pemrosesan lebih lanjut. Waktu diterapkan ke zona waktu UTC dalam format yyyy-mm-ddThh:mm:ss.fffZ.Properti ini dapat dilewati yang berarti tidak ada filter atribut file yang diterapkan. Properti ini tidak berlaku saat Anda mengonfigurasi tipe jalur file sebagai Daftar file. |
• Waktu mulai • Waktu selesai |
No | modifiedDatetimeStart modifiedDatetimeEnd |
| Mengaktifkan penemuan partisi | Apakah akan mengurai partisi dari jalur file dan menambahkannya sebagai kolom sumber tambahan. | Dipilih atau tidak dipilih | No | enablePartitionDiscovery: benar atau salah (default) |
| Jalur akar partisi | Jalur akar partisi absolut untuk membaca folder yang dipartisi sebagai kolom data. | <jalur akar partisi Anda> | No | partitionRootPath |
| Koneksi bersamaan maksimum | Batas atas koneksi bersamaan yang ditetapkan ke penyimpanan data selama pelaksanaan aktivitas. Nilai hanya diperlukan saat Anda ingin membatasi koneksi bersamaan. | <koneksi bersamaan maksimum> | No | maxConcurrentConnections |
Informasi tujuan
| Name | Description | Value | Required | Properti skrip JSON |
|---|---|---|---|---|
| Connection | Bagian untuk memilih koneksi Anda. | < koneksi Lakehouse Anda> | Yes | workspaceId ID Barang |
| Folder root | Jenis direktori root | • Tabel • File |
Yes | rootFolder: Tabel atau File |
| Table | Nama tabel yang ingin Anda tulis datanya. Atau nama tabel dengan skema yang ingin Anda tulis datanya saat Anda menerapkan Lakehouse dengan skema sebagai koneksi. | <nama tabel Anda> | Ya saat Anda memilih Tabel di folder Root | tabel |
| nama skema | Nama skema. |
<nama skema Anda> (defaultnya adalah dbo) |
No | skema |
| nama tabel | Nama tabel. | <nama tabel Anda> | Yes | tabel |
| Tindakan tabel | Tambahkan nilai baru ke tabel yang sudah ada, timpa data dan skema yang ada dalam tabel menggunakan nilai baru atau sisipkan nilai baru ke tabel yang sudah ada dan perbarui nilai yang sudah ada. | • Tambahkan • Timpa • Upsert (memperbarui atau menambah data) |
No | tableActionOption: •Tambahkan • OverwriteSkema • Tambah atau Perbarui |
| Terapkan V-Order | Terapkan V-Order dengan menyalin. Menonaktifkannya mempertahankan file parket asli tanpa menerapkan pengoptimalan V-Order tambahan. Untuk informasi selengkapnya, lihat Pengoptimalan tabel Delta Lake dan V-Order. | Dipilih (default) atau tidak dipilih | No | applyVOrder |
| Aktifkan partisi | Pilihan ini memungkinkan Anda membuat partisi dalam struktur folder berdasarkan satu atau beberapa kolom. Setiap nilai kolom (pasangan) yang berbeda adalah partisi baru. Misalnya, "tahun=2000/bulan=01/berkas". | Dipilih atau tidak dipilih | No | partitionOption: PartitionByKey atau None |
| Kolom partisi | Kolom tujuan dalam pemetaan skema. | <kolom partisi Anda> | No | partitionNameList |
| Kolom utama | Pilih kolom mana yang digunakan untuk menentukan apakah baris dari sumber cocok dengan baris dari tujuan. | <kolom kunci Anda> | Yes | keyColumns |
| Jalur file | Tulis data ke jalur folder/file dalam penyimpanan data tujuan. | <jalur file> | No | • folderPath • Nama File |
| Format File | Format file untuk data tujuan Anda. Untuk informasi format file yang berbeda, lihat artikel dalam Format yang didukung untuk informasi terperinci. | / | Ya saat Anda memilih File di folder Root | / |
| Perilaku salin | Perilaku penyalinan yang ditentukan ketika sumbernya adalah berkas dari gudang data berbasis berkas. | • Menyederhanakan hierarki • Gabungkan file • Mempertahankan hierarki • Tambahkan konten dinamis |
No | copyBehavior: • FlattenHierarchy • MergeFiles PeliharaHierarki |
| Koneksi bersamaan maksimum | Batas atas koneksi bersamaan yang ditetapkan ke penyimpanan data selama pelaksanaan aktivitas. Menentukan nilai hanya saat Anda ingin membatasi koneksi bersamaan. | <koneksi bersamaan maksimum> | No | maxConcurrentConnections |
| Ukuran blok (MB) | Ukuran blok dalam MB yang digunakan untuk menulis data ke Lakehouse. Nilai yang diizinkan adalah antara 4 MB dan 100 MB. | <ukuran blok> | No | blockSizeInMB |
| Metadata | Metadata kustom ditetapkan saat menyalin ke tujuan. | • org.osgi.service.jdbc.DataSourceFactory • Ekspresi • Nilai statis |
No | metadata |