Bagikan melalui


Mengonfigurasi Lakehouse dalam aktivitas salin

Artikel ini menguraikan cara menggunakan aktivitas salin dalam alur data untuk menyalin data dari dan ke Fabric Lakehouse. Secara default, data ditulis ke Lakehouse Table dalam V-Order, dan Anda dapat membuka pengoptimalan tabel Delta Lake dan V-Order untuk informasi selengkapnya.

Format yang didukung

Lakehouse mendukung format file berikut. Lihat setiap artikel untuk mengetahui cara melakukan pengaturan berbasis format.

Konfigurasi yang didukung

Untuk konfigurasi setiap tab di bawah aktivitas salin, buka bagian berikut.

Umum

Untuk konfigurasi tab Umum, buka Umum.

Sumber

Properti berikut ini didukung untuk Lakehouse di bawah tab Sumber dari aktivitas salin.

Cuplikan layar memperlihatkan tab sumber dan daftar properti.

Properti berikut diperlukan:

  • Koneksi: Pilih koneksi Lakehouse dari daftar koneksi. Jika tidak ada koneksi, buat koneksi Lakehouse baru dengan memilih Lainnya di bagian bawah daftar koneksi. Jika Anda menerapkan Gunakan konten dinamis untuk menentukan Lakehouse Anda, tambahkan parameter dan tentukan ID objek Lakehouse sebagai nilai parameter. Untuk mendapatkan ID objek Lakehouse Anda, buka Lakehouse di ruang kerja Anda, dan ID tersebut setelah /lakehouses/di URL Anda.

    Cuplikan layar memperlihatkan ID objek Lakehouse.

  • Folder akar: Pilih Tabel atau File, yang menunjukkan tampilan virtual area terkelola atau tidak terkelola di danau Anda. Untuk informasi selengkapnya, lihat pengantar Lakehouse.

    • Jika Anda memilih Tabel:

      • Nama tabel: Pilih tabel yang sudah ada dari daftar tabel atau tentukan nama tabel sebagai sumbernya. Atau Anda dapat memilih Baru untuk membuat tabel baru.

        Cuplikan layar memperlihatkan nama tabel.

      • Tabel: Saat Anda menerapkan Lakehouse dengan skema dalam koneksi, pilih tabel yang sudah ada dengan skema dari daftar tabel atau tentukan tabel dengan skema sebagai sumber. Atau Anda dapat memilih Baru untuk membuat tabel baru dengan skema. Jika Anda tidak menentukan nama skema, layanan akan menggunakan dbo sebagai skema default.

        Cuplikan layar memperlihatkan nama tabel dengan skema.

      • Di bawah Tingkat Lanjut, Anda bisa menentukan bidang berikut ini:

        • Tanda waktu: Tentukan untuk mengkueri rekam jepret yang lebih lama berdasarkan tanda waktu.
        • Versi: Tentukan untuk mengkueri rekam jepret yang lebih lama menurut versi.
        • Kolom tambahan: Tambahkan kolom data tambahan ke jalur relatif atau nilai statis file sumber penyimpanan. Ekspresi didukung untuk yang terakhir.

      Pembaca versi 1 didukung. Anda dapat menemukan fitur Delta Lake yang didukung yang sesuai dalam artikel ini.

    • Jika Anda memilih File:

      • Jenis jalur file: Anda dapat memilih Jalur file, jalur file Wildcard, atau Daftar file sebagai jenis jalur file Anda. Daftar berikut menjelaskan konfigurasi setiap pengaturan:

        Cuplikan layar memperlihatkan jalur file.

        • Jalur file: Pilih Telusuri untuk memilih file yang ingin Anda salin, atau isi jalur secara manual.

        • Jalur file kartubebas: Tentukan folder atau jalur file dengan karakter kartubebas di bawah area tidak terkelola Lakehouse tertentu (di bawah File) untuk memfilter folder atau file sumber Anda. Kartubebas yang diizinkan adalah: * (cocok dengan nol atau lebih karakter) dan ? (cocok dengan karakter nol atau satu). Gunakan ^ untuk melarikan diri jika folder atau nama file Anda memiliki kartubebas atau karakter escape ini di dalamnya.

          • Jalur folder kartubebas: Jalur ke folder di bawah kontainer yang diberikan. Jika Anda ingin menggunakan kartubebas untuk memfilter folder, lewati pengaturan ini dan tentukan informasi tersebut di pengaturan sumber aktivitas.

          • Nama file kartubebas: Nama file di bawah area tidak terkelola Lakehouse yang diberikan (di bawah File) dan jalur folder.

            Cuplikan layar memperlihatkan jalur file kartubebas.

        • Daftar file: Menunjukkan untuk menyalin kumpulan file tertentu.

          • Jalur folder: Menunjuk ke folder yang menyertakan file yang ingin Anda salin.
          • Jalur ke daftar file: Menunjuk ke file teks yang menyertakan daftar file yang ingin Anda salin, satu file per baris, yang merupakan jalur relatif ke jalur file yang dikonfigurasi.

          Cuplikan layar memperlihatkan jalur ke daftar file.

      • Secara rekursif: Menunjukkan apakah data dibaca secara rekursif dari subfolder atau hanya dari folder yang ditentukan. Jika diaktifkan, semua file di folder input dan subfoldernya diproses secara rekursif. Properti ini tidak berlaku saat Anda mengonfigurasi tipe jalur file sebagai Daftar file.

      • Format file: Pilih format file Anda dari daftar drop-down. Pilih tombol Pengaturan untuk mengonfigurasi format file. Untuk pengaturan format file yang berbeda, lihat artikel dalam Format yang didukung untuk informasi terperinci.

      • Di bawah Tingkat Lanjut, Anda bisa menentukan bidang berikut ini:

        • Filter menurut terakhir diubah: File difilter berdasarkan tanggal terakhir diubah. Properti ini tidak berlaku saat Anda mengonfigurasi tipe jalur file sebagai Daftar file.
          • Waktu mulai: File dipilih jika waktu terakhir diubah lebih besar dari atau sama dengan waktu yang dikonfigurasi.
          • Waktu selesai: File dipilih jika waktu terakhir dimodifikasi kurang dari waktu yang dikonfigurasi.
        • Aktifkan penemuan partisi: Untuk file yang dipartisi, tentukan apakah akan mengurai partisi dari jalur file dan menambahkannya sebagai kolom sumber tambahan.
          • Jalur akar partisi: Saat penemuan partisi diaktifkan, tentukan jalur akar absolut untuk membaca folder yang dipartisi sebagai kolom data.
        • Koneksi bersamaan maks: Menunjukkan batas atas koneksi bersamaan yang dibuat ke penyimpanan data selama aktivitas berjalan. Menentukan nilai hanya saat Anda ingin membatasi koneksi bersamaan.

Tujuan

Properti berikut ini didukung untuk Lakehouse di bawah tab Tujuan dari aktivitas salin.

Cuplikan layar memperlihatkan tab tujuan.

Properti berikut diperlukan:

  • Koneksi: Pilih koneksi Lakehouse dari daftar koneksi. Jika tidak ada koneksi, buat koneksi Lakehouse baru dengan memilih Lainnya di bagian bawah daftar koneksi. Jika Anda menerapkan Gunakan konten dinamis untuk menentukan Lakehouse Anda, tambahkan parameter dan tentukan ID objek Lakehouse sebagai nilai parameter. Untuk mendapatkan ID objek Lakehouse Anda, buka Lakehouse di ruang kerja Anda, dan ID tersebut setelah /lakehouses/di URL Anda.

    Cuplikan layar memperlihatkan ID objek Lakehouse.

  • Folder akar: Pilih Tabel atau File, yang menunjukkan tampilan virtual area terkelola atau tidak terkelola di danau Anda. Untuk informasi selengkapnya, lihat pengantar Lakehouse.

    • Jika Anda memilih Tabel:

      • Nama tabel: Pilih tabel yang sudah ada dari daftar tabel atau tentukan nama tabel sebagai tujuan. Atau Anda dapat memilih Baru untuk membuat tabel baru.

        Cuplikan layar memperlihatkan nama tabel.

      • Tabel: Saat Anda menerapkan Lakehouse dengan skema dalam koneksi, pilih tabel yang ada dengan skema dari daftar tabel atau tentukan tabel dengan skema sebagai tujuan. Atau Anda dapat memilih Baru untuk membuat tabel baru dengan skema. Jika Anda tidak menentukan nama skema, layanan akan menggunakan dbo sebagai skema default.

        Cuplikan layar memperlihatkan nama tabel dengan skema.

      • Di bawah Tingkat Lanjut, Anda bisa menentukan bidang berikut ini:

        • Tindakan tabel: Tentukan operasi terhadap tabel yang dipilih.

          • Tambahkan: Tambahkan nilai baru ke tabel yang sudah ada.

            • Aktifkan Partisi: Pilihan ini memungkinkan Anda membuat partisi dalam struktur folder berdasarkan satu atau beberapa kolom. Setiap nilai kolom (pasangan) yang berbeda adalah partisi baru. Misalnya, "year=2000/month=01/file".
              • Nama kolom partisi: Pilih dari kolom tujuan dalam pemetaan skema saat Anda menambahkan data ke tabel baru. Saat Anda menambahkan data ke tabel yang sudah ada yang sudah memiliki partisi, kolom partisi berasal dari tabel yang ada secara otomatis. Jenis data yang didukung adalah string, bilangan bulat, boolean, dan tanggalwaktu. Format menghormati pengaturan konversi jenis di bawah tab Pemetaan .
          • Timpa: Timpa data dan skema yang ada dalam tabel menggunakan nilai baru. Jika operasi ini dipilih, Anda dapat mengaktifkan partisi pada tabel target Anda:

            • Aktifkan Partisi: Pilihan ini memungkinkan Anda membuat partisi dalam struktur folder berdasarkan satu atau beberapa kolom. Setiap nilai kolom (pasangan) yang berbeda adalah partisi baru. Misalnya, "year=2000/month=01/file".
              • Nama kolom partisi: Pilih dari kolom tujuan dalam pemetaan skema. Jenis data yang didukung adalah string, bilangan bulat, boolean, dan tanggalwaktu. Format menghormati pengaturan konversi jenis di bawah tab Pemetaan .

            Ini mendukung perjalanan waktu Delta Lake. Tabel yang ditimpa memiliki log delta untuk versi sebelumnya, yang dapat Anda akses di Lakehouse Anda. Anda juga dapat menyalin tabel versi sebelumnya dari Lakehouse, dengan menentukan Versi di sumber aktivitas salin.

        • Koneksi bersamaan maksimum: Batas atas koneksi bersamaan yang dibuat ke penyimpanan data selama aktivitas berjalan. Menentukan nilai hanya saat Anda ingin membatasi koneksi bersamaan.

      Penulis versi 2 didukung. Anda dapat menemukan fitur Delta Lake yang didukung yang sesuai dalam artikel ini.

    • Jika Anda memilih File:

      • Jalur file: Pilih Telusuri untuk memilih file yang ingin Anda salin, atau isi jalur secara manual.

        Cuplikan layar memperlihatkan jalur file di tujuan.

      • Format file: Pilih format file Anda dari daftar drop-down. Pilih Pengaturan untuk mengonfigurasi format file. Untuk pengaturan format file yang berbeda, lihat artikel dalam Format yang didukung untuk informasi terperinci.

      • Di bawah Tingkat Lanjut, Anda bisa menentukan bidang berikut ini:

        • Perilaku salin: Menentukan perilaku salin saat sumbernya adalah file dari penyimpanan data berbasis file. Anda dapat memilih Ratakan hierarki, Gabungkan file, Pertahankan hierarki, atau Tambahkan konten Dinamis sebagai perilaku salin Anda. Konfigurasi setiap pengaturan adalah:

          • Meratakan hierarki: Semua file dari folder sumber berada di tingkat pertama folder tujuan. File tujuan memiliki nama yang dibuat secara otomatis.

          • Gabungkan file: Menggabungkan semua file dari folder sumber ke satu file. Jika nama file ditentukan, nama file yang digabungkan adalah nama yang ditentukan. Jika tidak, ini adalah nama file yang dibuat secara otomatis.

          • Mempertahankan hierarki: Mempertahankan hierarki file di folder target. Jalur relatif file sumber ke folder sumber identik dengan jalur relatif file target ke folder target.

          • Menambahkan konten dinamis: Untuk menentukan ekspresi untuk nilai properti, pilih Tambahkan konten dinamis. Bidang ini membuka penyusun ekspresi tempat Anda dapat membangun ekspresi dari variabel sistem yang didukung, output aktivitas, fungsi, dan variabel atau parameter yang ditentukan pengguna. Untuk informasi selengkapnya tentang bahasa ekspresi, buka Ekspresi dan fungsi.

            Cuplikan layar memperlihatkan perilaku salin.

        • Koneksi bersamaan maksimum: Batas atas koneksi bersamaan yang dibuat ke penyimpanan data selama aktivitas berjalan. Menentukan nilai hanya saat Anda ingin membatasi koneksi bersamaan.

        • Ukuran blok (MB): Tentukan ukuran blok dalam MB saat menulis data ke Lakehouse. Nilai yang diizinkan adalah antara 4 MB dan 100 MB.

        • Metadata: Atur metadata kustom saat menyalin ke penyimpanan data tujuan. Setiap objek di bawah metadataarray mewakili kolom tambahan. name mendefinisikan nama kunci metadata, dan value menunjukkan nilai data dari kunci tersebut. Jika fitur pertahankan atribut digunakan, metadata yang ditentukan akan digabungkan/ditimpa dengan metadata file sumber. Nilai data yang diizinkan adalah:

          • $$LASTMODIFIED: variabel yang dicadangkan menunjukkan untuk menyimpan waktu modifikasi terakhir file sumber. Terapkan ke sumber berbasis file dengan format biner saja.

          • Ekspresi

          • Nilai statis

            Cuplikan layar memperlihatkan metadata.

Pemetaan

Untuk konfigurasi tab Pemetaan, jika Anda tidak menerapkan tabel Lakehouse sebagai penyimpanan data tujuan Anda, buka Pemetaan.

Jika Anda menerapkan tabel Lakehouse sebagai penyimpanan data tujuan Anda, kecuali konfigurasi di Pemetaan, Anda dapat mengedit jenis untuk kolom tujuan Anda. Setelah memilih Impor skema, Anda dapat menentukan jenis kolom di tujuan Anda.

Misalnya, jenis untuk kolom PersonID di sumber adalah int, dan Anda dapat mengubahnya menjadi jenis string saat memetakan ke kolom tujuan.

Cuplikan layar pemetaan jenis kolom tujuan.

Catatan

Mengedit tipe tujuan saat ini tidak didukung ketika sumber Anda berjenis desimal.

Jika Anda memilih Biner sebagai format file Anda, pemetaan tidak didukung.

Pengaturan

Untuk konfigurasi tab Pengaturan , buka Pengaturan.

Ringkasan tabel

Tabel berikut berisi informasi selengkapnya tentang aktivitas salin di Lakehouse.

Informasi sumber

Nama Deskripsi Nilai Wajib Properti skrip JSON
Koneksi Bagian untuk memilih koneksi Anda. < koneksi Lakehouse Anda> Ya workspaceId
artifactId
Folder akar Jenis folder akar. Tabel
File
No rootFolder:
Tabel atau File
Nama tabel Nama tabel yang ingin Anda baca datanya. <nama tabel Anda> Ya saat Anda memilih Tabel di folder Root tabel
Table Nama tabel dengan skema yang ingin Anda baca datanya saat Anda menerapkan Lakehouse dengan skema sebagai koneksi. <tabel Anda dengan skema> Ya saat Anda memilih Tabel di folder Root /
Untuk Tabel
nama skema Nama skema. <nama skema Anda>
(defaultnya adalah dbo)
No (di bawah source ->datasetSettings ->typeProperties)
skema
nama tabel Nama tabel. <nama tabel Anda> Ya tabel
Stempel waktu Tanda waktu untuk mengkueri rekam jepret yang lebih lama. <timestamp> No timestampAsOf
Versi Versi untuk mengkueri rekam jepret yang lebih lama. <versi> No versionAsOf
Kolom tambahan Kolom data tambahan untuk menyimpan jalur relatif file sumber atau nilai statis. Ekspresi didukung untuk yang terakhir. •Nama
•Nilai
No additionalColumns:
•Nama
•nilai
Jenis jalur file Jenis jalur file yang Anda gunakan. Jalur file
Jalur file kartubebas
Daftar file
Ya saat Anda memilih File di folder Root /
Jalur file Salin dari jalur ke folder/file di bawah penyimpanan data sumber. <jalur file> Ya saat memilih jalur File • folderPath
•Filename
Jalur kartubebas Jalur folder dengan karakter kartubebas di bawah penyimpanan data sumber dikonfigurasi untuk memfilter folder sumber. <jalur kartubebas> Ya saat memilih jalur file Wildcard • wildcardFolderPath
• wildcardFileName
Jalur Folder Arahkan ke folder yang menyertakan file yang ingin Anda salin. <jalur folder> No folderPath
Jalur ke daftar file Mengindikasikan untuk menyalin set file yang diberikan. Arahkan ke file teks yang menyertakan daftar file yang ingin Anda salin, satu file per baris, yang merupakan jalur relatif ke jalur yang dikonfigurasi. <jalur ke daftar file> No fileListPath
Secara rekursif Proses semua file dalam folder input dan subfoldernya secara rekursif atau hanya yang ada di folder yang dipilih. Pengaturan ini dinonaktifkan ketika satu file dipilih. pilih atau batal pilih No Rekursif:
BENAR atau SALAH
Format file Format file untuk data sumber Anda. Untuk informasi format file yang berbeda, lihat artikel dalam Format yang didukung untuk informasi terperinci. / Ya saat Anda memilih File di folder Root /
Filter menurut terakhir diubah File dengan waktu terakhir diubah dalam rentang [Waktu mulai, Waktu selesai) akan difilter untuk pemrosesan lebih lanjut.

Waktu diterapkan ke zona waktu UTC dalam format yyyy-mm-ddThh:mm:ss.fffZ.

Properti ini dapat dilewati yang berarti tidak ada filter atribut file yang diterapkan. Properti ini tidak berlaku saat Anda mengonfigurasi tipe jalur file sebagai Daftar file.
Waktu mulai
Waktu selesai
No modifiedDatetimeStart
modifiedDatetimeEnd
Mengaktifkan penemuan partisi Apakah akan mengurai partisi dari jalur file dan menambahkannya sebagai kolom sumber tambahan. Dipilih atau tidak dipilih No enablePartitionDiscovery:
true atau false (default)
Jalur akar partisi Jalur akar partisi absolut untuk membaca folder yang dipartisi sebagai kolom data. <jalur akar partisi Anda> No partitionRootPath
Koneksi bersamaan maks Batas atas koneksi bersamaan yang ditetapkan ke penyimpanan data selama eksekusi aktivitas. Nilai hanya diperlukan saat Anda ingin membatasi koneksi bersamaan. <koneksi bersamaan maks> No maxConcurrentConnections

Informasi tujuan

Nama Deskripsi Nilai Wajib Properti skrip JSON
Koneksi Bagian untuk memilih koneksi Anda. < koneksi Lakehouse Anda> Ya workspaceId
artifactId
Folder akar Jenis folder akar. Tabel
File
Ya rootFolder:
Tabel atau File
Nama tabel Nama tabel yang ingin Anda tulis datanya. <nama tabel Anda> Ya saat Anda memilih Tabel di folder Root tabel
Table Nama tabel dengan skema yang ingin Anda tulis datanya saat Anda menerapkan Lakehouse dengan skema sebagai koneksi. <tabel Anda dengan skema> Ya saat Anda memilih Tabel di folder Root /
Untuk Tabel
nama skema Nama skema. <nama skema Anda>
(defaultnya adalah dbo)
No (di bawah sink ->datasetSettings ->typeProperties)
skema
nama tabel Nama tabel. <nama tabel Anda> Ya tabel
Tindakan tabel Tambahkan nilai baru ke tabel yang sudah ada atau timpa data dan skema yang ada dalam tabel menggunakan nilai baru. Tambahkan
Timpa
No tableActionOption:
Tambahkan atau TimpaSkema
Aktifkan partisi Pilihan ini memungkinkan Anda membuat partisi dalam struktur folder berdasarkan satu atau beberapa kolom. Setiap nilai kolom (pasangan) yang berbeda adalah partisi baru. Misalnya, "year=2000/month=01/file". Dipilih atau tidak dipilih No partitionOption:
PartitionByKey atau None
Kolom partisi Kolom tujuan dalam pemetaan skema. <kolom partisi Anda> No partitionNameList
Jalur file Tulis data ke jalur ke folder/file di bawah penyimpanan data tujuan. <jalur file> No • folderPath
•Filename
Format file Format file untuk data tujuan Anda. Untuk informasi format file yang berbeda, lihat artikel dalam Format yang didukung untuk informasi terperinci. / Ya saat Anda memilih File di folder Root /
Perilaku salin Perilaku salin yang ditentukan ketika sumber adalah file dari penyimpanan data berbasis file. Meratakan hierarki
Gabungkan file
Mempertahankan hierarki
Tambahkan konten dinamis
No copyBehavior:
• FlattenHierarchy
• MergeFiles
• PreserveHierarchy
Koneksi bersamaan maks Batas atas koneksi bersamaan yang ditetapkan ke penyimpanan data selama eksekusi aktivitas. Menentukan nilai hanya saat Anda ingin membatasi koneksi bersamaan. <koneksi bersamaan maks> No maxConcurrentConnections
Ukuran blok (MB) Ukuran blok dalam MB yang digunakan untuk menulis data ke Lakehouse. Nilai yang diizinkan adalah antara 4 MB dan 100 MB. <ukuran blok> No blockSizeInMB
Metadata Metadata kustom diatur saat menyalin ke tujuan. $$LASTMODIFIED
•Ekspresi
• Nilai statis
No metadata