Cara mengonfigurasi Lakehouse dalam aktivitas salin
Artikel ini menguraikan cara menggunakan aktivitas salin dalam alur data untuk menyalin data dari dan ke Fabric Lakehouse.
Penting
Microsoft Fabric saat ini dalam PRATINJAU. Informasi ini berkaitan dengan produk prarilis yang mungkin dimodifikasi secara substansial sebelum dirilis. Microsoft tidak memberikan jaminan, tersurat maupun tersirat, sehubungan dengan informasi yang diberikan di sini. Lihat dokumentasi Azure Data Factory untuk layanan di Azure.
Format yang didukung
Lakehouse mendukung format file berikut. Lihat setiap artikel untuk mengetahui cara melakukan pengaturan berbasis format.
- Format Avro
- Format Biner
- Format teks terpisah
- Format Excel
- Format JSON
- Format ORC
- Format Parquet
- Format XML
Konfigurasi yang didukung
Untuk konfigurasi setiap tab di bawah aktivitas salin, buka bagian berikut masing-masing.
Umum
Untuk konfigurasi tab Umum , buka Umum.
Sumber
Properti berikut ini didukung untuk Lakehouse di bawah tab Sumber aktivitas salin.
Properti berikut diperlukan:
- Jenis penyimpanan data: Pilih Ruang Kerja.
- Jenis penyimpanan data ruang kerja: Pilih Lakehouse dari daftar jenis penyimpanan data.
- Lakehouse: Pilih Lakehouse yang ada dari ruang kerja. Jika tidak ada, buat Lakehouse baru dengan memilih Baru.
- Folder akar: Pilih Tabel atau File, yang menunjukkan tampilan virtual area terkelola atau tidak terkelola di lake Anda. Untuk informasi selengkapnya, lihat pengantar Lakehouse.
- Jika Anda memilih Tabel:
- Nama tabel: Pilih tabel yang sudah ada dari daftar tabel atau tentukan nama tabel sebagai sumbernya.
- Di bawah Tingkat Lanjut, Anda bisa menentukan bidang berikut ini:
- Tanda waktu: Tentukan untuk mengkueri rekam jepret yang lebih lama menurut tanda waktu.
- Versi: Tentukan untuk mengkueri rekam jepret yang lebih lama menurut versi.
- Kolom tambahan: Tambahkan kolom data tambahan ke jalur relatif atau nilai statis file sumber penyimpanan. Ekspresi didukung untuk yang terakhir.
- Jika Anda memilih File:
Jenis jalur file: Anda dapat memilih Jalur file, jalur file Wildcard, atau Daftar file sebagai jenis jalur file Anda. Daftar berikut menjelaskan konfigurasi setiap pengaturan:
Jalur file: Pilih Telusuri untuk memilih file yang ingin Anda salin, atau isi jalur secara manual.
Jalur file kartubebas: Tentukan folder atau jalur file dengan karakter kartubebas di bawah area tidak terkelola Lakehouse yang Anda berikan (di bawah File) untuk memfilter folder atau file sumber Anda. Kartubebas yang diperbolehkan adalah:
*
(cocok dengan karakter nol atau lebih) dan?
(cocok dengan karakter nol atau tunggal). Gunakan^
untuk escape jika folder atau nama file Anda memiliki kartubebas atau karakter escape ini di dalamnya.Jalur folder kartubebas: Jalur ke folder di bawah kontainer yang diberikan. Jika Anda ingin menggunakan kartubebas untuk memfilter folder, lewati pengaturan ini dan tentukan informasi tersebut di pengaturan sumber aktivitas.
Nama file kartubebas: Nama file di bawah area tidak terkelola Lakehouse yang diberikan (di bawah File) dan jalur folder.
Daftar file: Menunjukkan untuk menyalin kumpulan file tertentu.
- Jalur folder: Menunjuk ke folder yang menyertakan file yang ingin Anda salin.
- Jalur ke daftar file: Menunjuk ke file teks yang menyertakan daftar file yang ingin Anda salin, satu file per baris, yang merupakan jalur relatif ke jalur file yang dikonfigurasi.
Secara rekursif: Menunjukkan apakah data dibaca secara rekursif dari subfolder atau hanya dari folder yang ditentukan. Jika diaktifkan, semua file dalam folder input dan subfoldernya diproses secara rekursif. Properti ini tidak berlaku saat Anda mengonfigurasi jenis jalur file sebagai Daftar file.
Format file: Pilih format file Anda dari daftar drop-down. Pilih tombol Pengaturan untuk mengonfigurasi format file. Untuk pengaturan format file yang berbeda, lihat artikel dalam Format yang didukung untuk informasi terperinci.
Di bawah Tingkat Lanjut, Anda bisa menentukan bidang berikut ini:
- Filter menurut terakhir diubah: File difilter berdasarkan tanggal terakhir diubah. Properti ini tidak berlaku saat Anda mengonfigurasi jenis jalur file sebagai Daftar file.
- Waktu mulai: File dipilih jika waktu terakhir diubah lebih besar dari atau sama dengan waktu yang dikonfigurasi.
- Waktu selesai: File dipilih jika waktu terakhir diubah kurang dari waktu yang dikonfigurasi.
- Aktifkan penemuan partisi: Untuk file yang dipartisi, tentukan apakah akan mengurai partisi dari jalur file dan menambahkannya sebagai kolom sumber tambahan.
- Jalur akar partisi: Saat penemuan partisi diaktifkan, tentukan jalur akar absolut untuk membaca folder yang dipartisi sebagai kolom data.
- Koneksi bersamaan maksimum: Menunjukkan batas atas koneksi bersamaan yang dibuat ke penyimpanan data selama aktivitas berjalan. Menentukan nilai hanya saat Anda ingin membatasi koneksi bersamaan.
- Filter menurut terakhir diubah: File difilter berdasarkan tanggal terakhir diubah. Properti ini tidak berlaku saat Anda mengonfigurasi jenis jalur file sebagai Daftar file.
- Jika Anda memilih Tabel:
Tujuan
Properti berikut ini didukung untuk Lakehouse di bawah tab Tujuan dari aktivitas salin.
Properti berikut diperlukan:
- Jenis penyimpanan data: Pilih Ruang Kerja.
- Jenis penyimpanan data ruang kerja: Pilih Lakehouse dari daftar jenis penyimpanan data.
- Lakehouse: Pilih Lakehouse yang ada dari ruang kerja. Jika tidak ada, buat Lakehouse baru dengan memilih Baru.
- Folder akar: Pilih Tabel atau File, yang menunjukkan tampilan virtual area terkelola atau tidak terkelola di lake Anda. Untuk informasi selengkapnya, lihat pengantar Lakehouse.
Jika Anda memilih Tabel:
Nama tabel: Pilih tabel yang sudah ada dari daftar tabel atau tentukan nama tabel sebagai tujuan.
Di bawah Tingkat Lanjut, Anda bisa menentukan bidang berikut ini:
- Baris maksimum per file: Tentukan baris maksimum per file saat menulis data ke Lakehouse.
- Tindakan tabel: Tentukan operasi terhadap tabel yang dipilih.
- Tambahkan: Tambahkan nilai baru ke tabel yang sudah ada.
- Timpa: Timpa data dan skema yang ada dalam tabel menggunakan nilai baru. Jika operasi ini dipilih, Anda dapat mengaktifkan partisi pada tabel target Anda:
- Aktifkan Partisi: Pilihan ini memungkinkan Anda membuat partisi dalam struktur folder berdasarkan satu atau beberapa kolom. Setiap nilai kolom (pasangan) yang berbeda adalah partisi baru. Misalnya, "year=2000/month=01/file". Pilihan ini mendukung mode sisipkan-saja dan memerlukan direktori kosong di tujuan.
- Nama kolom partisi: Pilih dari kolom tujuan dalam pemetaan skema. Jenis data yang didukung adalah string, bilangan bulat, boolean, dan tanggalwaktu. Format menghormati pengaturan konversi jenis di bawah tab Pemetaan .
- Aktifkan Partisi: Pilihan ini memungkinkan Anda membuat partisi dalam struktur folder berdasarkan satu atau beberapa kolom. Setiap nilai kolom (pasangan) yang berbeda adalah partisi baru. Misalnya, "year=2000/month=01/file". Pilihan ini mendukung mode sisipkan-saja dan memerlukan direktori kosong di tujuan.
- Koneksi bersamaan maks: Batas atas koneksi bersamaan yang dibuat ke penyimpanan data selama aktivitas berjalan. Menentukan nilai hanya saat Anda ingin membatasi koneksi bersamaan.
Jika Anda memilih File:
Jalur file: Pilih Telusuri untuk memilih file yang ingin Anda salin, atau isi jalur secara manual.
Format file: Pilih format file Anda dari daftar drop-down. Pilih Pengaturan untuk mengonfigurasi format file. Untuk pengaturan format file yang berbeda, lihat artikel dalam Format yang didukung untuk informasi terperinci.
Di bawah Tingkat Lanjut, Anda bisa menentukan bidang berikut ini:
Perilaku salin: Menentukan perilaku salin saat sumber adalah file dari penyimpanan data berbasis file. Anda dapat memilih Tambahkan konten Dinamis, Tidak Ada, Ratakan hierarki, atau Pertahankan hierarki sebagai perilaku salin Anda. Konfigurasi setiap pengaturan adalah:
Menambahkan konten dinamis: Untuk menentukan ekspresi untuk nilai properti, pilih Tambahkan konten dinamis. Bidang ini membuka penyusun ekspresi tempat Anda dapat membangun ekspresi dari variabel sistem yang didukung, output aktivitas, fungsi, dan variabel atau parameter yang ditentukan pengguna. Untuk informasi selengkapnya tentang bahasa ekspresi, buka Ekspresi dan fungsi.
Tidak ada: Pilih pilihan ini untuk tidak menggunakan perilaku salin apa pun.
Hierarki yang diratakan: Semua file dari folder sumber berada di tingkat pertama folder tujuan. File tujuan memiliki nama yang dibuat secara otomatis.
Mempertahankan hierarki: Mempertahankan hierarki file di folder target. Jalur relatif file sumber ke folder sumber identik dengan jalur relatif file target ke folder target.
Koneksi bersamaan maks: Batas atas koneksi bersamaan yang dibuat ke penyimpanan data selama aktivitas berjalan. Menentukan nilai hanya saat Anda ingin membatasi koneksi bersamaan.
Ukuran blok (MB): Tentukan ukuran blok dalam MB saat menulis data ke Lakehouse. Nilai yang diizinkan adalah antara 4 MB dan 100 MB.
Metadata: Atur metadata kustom saat menyalin ke penyimpanan data tujuan. Setiap objek di bawah
metadata
array mewakili kolom tambahan.name
mendefinisikan nama kunci metadata, danvalue
menunjukkan nilai data dari kunci tersebut. Jika fitur pertahankan atribut digunakan, metadata yang ditentukan akan digabungkan/ditimpa dengan metadata file sumber. Nilai data yang diizinkan adalah:
Pemetaan
Untuk konfigurasi tab Pemetaan , buka Pemetaan. Jika Anda memilih Biner sebagai format file Anda, pemetaan tidak didukung.
Pengaturan
Untuk konfigurasi tab Pengaturan , buka Pengaturan.
Ringkasan tabel
Tabel berikut ini berisi informasi selengkapnya tentang aktivitas salin di Lakehouse.
Informasi sumber
Nama | Deskripsi | Nilai | Diperlukan | Properti skrip JSON |
---|---|---|---|---|
Jenis penyimpanan data | Jenis penyimpanan data Anda. | Workspace | Ya | / |
Jenis penyimpanan data ruang kerja | Bagian untuk memilih jenis penyimpanan data ruang kerja Anda. | Lakehouse | Ya | jenis |
Lakehouse | Lakehouse yang Anda gunakan sebagai sumber. | <Lakehouse Anda> | Ya | workspaceId artifactId |
Folder akar | Jenis folder akar. | * Tabel * File |
Tidak | rootFolder: Tabel atau File |
Nama tabel | Nama tabel untuk membaca data. | <nama tabel> | Ya saat Anda memilih Tabel di folder Akar | tabel (di bawah typeProperties ->source ->typeProperties ) |
Tanda waktu | Tanda waktu untuk mengkueri rekam jepret yang lebih lama. | <Timestamp> | Tidak | timestampAsOf |
Versi | Versi untuk mengkueri rekam jepret yang lebih lama. | <versi> | Tidak | versionAsOf |
Kolom tambahan | Kolom data tambahan untuk menyimpan jalur relatif atau nilai statis file sumber. Ekspresi didukung untuk yang terakhir. | *Nama *Nilai |
Tidak | additionalColumns: *Nama *Nilai |
Jenis jalur file | Jenis jalur file yang Anda gunakan. | * Jalur file * Jalur file kartubebas * Daftar file |
Ya | / |
Jalur file | Salin dari jalur ke folder/file di bawah penyimpanan data sumber. Terapkan saat memilih Jalur file dalam jenis jalur File. | <jalur file> | Ya saat memilih Jalur file | * folderPath *Filename |
Jalur kartubebas | Jalur folder dengan karakter kartubebas di bawah penyimpanan data sumber yang dikonfigurasi untuk memfilter folder sumber. Terapkan saat memilih jalur file Wildcard di jenis jalur File. | <jalur kartubebas> | Ya saat memilih jalur file Wildcard | * wildcardFolderPath * wildcardFileName |
Jalur Folder | Menunjuk ke folder yang menyertakan file yang ingin Anda salin. Terapkan saat memilih Daftar file dalam jenis jalur File. | <jalur folder> | Tidak | folderPath |
Jalur ke daftar file | Mengindikasikan untuk menyalin set file yang diberikan. Arahkan ke file teks yang menyertakan daftar file yang ingin Anda salin, satu file per baris, yang merupakan jalur relatif ke jalur yang dikonfigurasi. Terapkan saat memilih Daftar file dalam jenis jalur File. | <jalur ke daftar file> | Tidak | fileListPath |
Secara rekursif | Proses semua file dalam folder input dan subfoldernya secara rekursif atau hanya yang ada di folder yang dipilih. Pengaturan ini dinonaktifkan ketika satu file dipilih. | pilih atau batal pilih | Tidak | Rekursif: BENAR atau SALAH |
Format file | Format file yang Anda gunakan. | <format file> | Ya | type (di bawah formatSettings ):DelimitedTextReadSettings |
Filter menurut terakhir diubah | File dengan waktu terakhir diubah dalam rentang [Waktu mulai, Waktu selesai) akan difilter untuk pemrosesan lebih lanjut. Waktu akan diterapkan ke zona waktu UTC dalam format 'yyyy-mm-ddThh:mm:ss.fffZ'. Properti ini dapat dilewati yang berarti tidak ada filter atribut file yang akan diterapkan. Properti ini tidak berlaku saat Anda mengonfigurasi jenis jalur file sebagai Daftar file. |
* Waktu mulai * Waktu selesai |
Tidak | modifiedDatetimeStart modifiedDatetimeEnd |
Mengaktifkan penemuan partisi | Apakah akan mengurai partisi dari jalur file dan menambahkannya sebagai kolom sumber tambahan. | Dipilih atau tidak dipilih | Tidak | enablePartitionDiscovery: true atau false (default) |
Jalur akar partisi | Jalur akar partisi absolut untuk membaca folder yang dipartisi sebagai kolom data. | <jalur akar partisi Anda> | Tidak | partitionRootPath |
Koneksi bersamaan maks | Batas atas koneksi bersamaan yang ditetapkan ke penyimpanan data selama eksekusi aktivitas. Nilai hanya diperlukan saat Anda ingin membatasi koneksi bersamaan. | <koneksi bersamaan maks> | Tidak | maxConcurrentConnections |
Informasi tujuan
Nama | Deskripsi | Nilai | Diperlukan | Properti skrip JSON |
---|---|---|---|---|
Jenis penyimpanan data | Jenis penyimpanan data Anda. | Workspace | Ya | / |
Jenis penyimpanan data ruang kerja | Bagian untuk memilih jenis penyimpanan data ruang kerja Anda. | Lakehouse | Ya | jenis |
Lakehouse | Lakehouse yang Anda gunakan sebagai tujuan. | <Lakehouse Anda> | Ya | workspaceId artifactId |
Folder akar | Jenis folder akar. | * Tabel * File |
Ya | rootFolder: Tabel atau File |
Nama tabel | Nama tabel yang ingin Anda tulis datanya. | <nama tabel Anda> | Ya saat Anda memilih Tabel di folder Akar | tabel (di bawah typeProperties ->sink ->typeProperties ) |
Baris maks per file | Saat menulis data ke dalam folder, Anda dapat memilih untuk menulis ke beberapa file dan menentukan baris maksimal per file. | <baris maks per flie> | Tidak | maxRowsPerFile |
Tindakan tabel | Tambahkan nilai baru ke tabel yang sudah ada atau timpa data dan skema yang ada dalam tabel menggunakan nilai baru. | * Menambahkan * Menimpa |
Tidak | tableActionOption: Tambahkan atau Timpa |
Koneksi bersamaan maks | Batas atas koneksi bersamaan yang ditetapkan ke penyimpanan data selama eksekusi aktivitas. Menentukan nilai hanya saat Anda ingin membatasi koneksi bersamaan. | <koneksi bersamaan maks> | Tidak | maxConcurrentConnections |
Jalur file | Tulis data ke jalur ke folder/file di bawah penyimpanan data tujuan. | <jalur file> | Tidak | * folderPath *Filename |
Format file | Format file yang Anda gunakan. | <format file> | Ya | type (di bawah formatSettings ):DelimitedTextWriteSettings |
Perilaku salin | Perilaku salin yang ditentukan ketika sumber adalah file dari penyimpanan data berbasis file. | * Menambahkan konten dinamis * Tidak * Meratakan hierarki * Mempertahankan hierarki |
Tidak | copyBehavior: * FlattenHierarchy * PertahankanHierarki |
Ukuran blok (MB) | Ukuran blok dalam MB yang digunakan untuk menulis data ke Lakehouse. Nilai yang diizinkan adalah antara 4 MB dan 100 MB. | <ukuran blok> | Tidak | blockSizeInMB |
Metadata | Metadata kustom diatur saat menyalin ke tujuan. | * $$LASTMODIFIED *Ekspresi * Nilai statis |
Tidak | metadata |