Format parket di Data Factory di Microsoft Fabric
Artikel ini menguraikan cara mengonfigurasi format Parquet dalam alur data Data Factory di Microsoft Fabric.
Kemampuan yang didukung
Format parquet didukung untuk aktivitas dan konektor berikut sebagai sumber dan tujuan.
Kategori | Konektor/Aktivitas |
---|---|
Konektor yang didukung | Amazon S3 |
Kompatibel dengan Amazon S3 | |
Azure Blob Storage | |
Azure Data Lake Storage Gen1 | |
Azure Data Lake Storage Gen2 | |
Azure Files | |
Sistem file | |
FTP | |
Penyimpanan Cloud Google | |
HTTP | |
File Lakehouse | |
Penyimpanan Cloud Oracle | |
SFTP | |
Aktivitas yang didukung | Aktivitas salin (sumber/tujuan) |
Aktivitas pencarian | |
Aktivitas GetMetadata | |
Aktivitas penghapusan |
Format parquet dalam aktivitas salin
Untuk mengonfigurasi format Parquet, pilih koneksi Anda di sumber atau tujuan aktivitas salin alur data, lalu pilih Parquet dalam daftar drop-down format File. Pilih Pengaturan untuk konfigurasi lebih lanjut dari format ini.
Format parquet sebagai sumber
Setelah Anda memilih Pengaturan di bagian Format file, properti berikut ini diperlihatkan dalam kotak dialog pengaturan format file pop-up.
- Jenis kompresi: Pilih codec kompresi yang digunakan untuk membaca file Parquet di daftar drop-down. Anda dapat memilih dari None, gzip (.gz), snappy, lzo, Brotli (.br), Zstandard, lz4, lz4frame, bzip2 (.bz2), atau lz4hadoop.
Format parquet sebagai tujuan
Setelah Anda memilih Pengaturan, properti berikut diperlihatkan dalam kotak dialog pengaturan format file pop-up.
Jenis kompresi: Pilih codec kompresi yang digunakan untuk menulis file Parquet di daftar drop-down. Anda dapat memilih dari None, gzip (.gz), snappy, lzo, Brotli (.br), Zstandard, lz4, lz4frame, bzip2 (.bz2), atau lz4hadoop.
Gunakan V-Order: Aktifkan pengoptimalan waktu tulis ke format file parquet. Untuk informasi selengkapnya, lihat Pengoptimalan tabel Delta Lake dan V-Order. Enkripsi diaktifkan secara default.
Di bawah Pengaturan tingkat lanjut di tab Tujuan , properti terkait format Parquet berikut ditampilkan.
- Baris maks per file: Saat menulis data ke dalam folder, Anda dapat memilih untuk menulis ke beberapa file dan menentukan baris maksimum per file. Tentukan baris maksimum yang ingin Anda tulis per file.
- Awalan nama file: Berlaku saat Baris maks per file dikonfigurasi. Menentukan awalan nama file saat menulis data ke beberapa file, menghasilkan pola ini:
<fileNamePrefix>_00000.<fileExtension>
. Jika tidak ditentukan, awalan nama file dibuat secara otomatis. Properti ini tidak berlaku ketika sumbernya adalah penyimpanan berbasis file atau opsi partisi yang mengaktifkan penyimpanan data.
Ringkasan tabel
Parquet sebagai sumber
Properti berikut ini didukung di bagian Sumber aktivitas salin saat menggunakan format Parquet.
Nama | Deskripsi | Nilai | Wajib | Properti skrip JSON |
---|---|---|---|---|
Format file | Format file yang ingin Anda gunakan. | Parquet | Ya | type (di bawah datasetSettings ):Parquet |
Jenis pemadatan | Codec kompresi yang digunakan untuk membaca file Parquet. | Pilih dari: Tidak gzip (.gz) Tajam izo Brotli (.br) Zstandard lz4 lz4frame bzip2 (.bz2) lz4hadoop |
No | compressionCodec: gzip snappy izo brotli zstd lz4 lz4frame bz2 lz4hadoop |
Parquet sebagai tujuan
Properti berikut ini didukung di bagian Tujuan aktivitas salin saat menggunakan format Parquet.
Nama | Deskripsi | Nilai | Wajib | Properti skrip JSON |
---|---|---|---|---|
Format file | Format file yang ingin Anda gunakan. | Parquet | Ya | type (di bawah datasetSettings ):Parquet |
Menggunakan V-Order | Pengoptimalan waktu tulis ke format file parke. | dipilih atau tidak dipilih | No | enableVertiParquet |
Jenis pemadatan | Codec kompresi yang digunakan untuk menulis file Parquet. | Pilih dari: Tidak gzip (.gz) Tajam izo Brotli (.br) Zstandard lz4 lz4frame bzip2 (.bz2) lz4hadoop |
No | compressionCodec: gzip snappy izo brotli zstd lz4 lz4frame bz2 lz4hadoop |
Baris maks per file | Saat menulis data ke dalam folder, Anda dapat memilih untuk menulis ke beberapa file dan menentukan baris maksimum per file. Tentukan baris maksimum yang ingin Anda tulis per file. | <baris maks Anda per file> | No | maxRowsPerFile |
Awalan nama file | Berlaku saat Baris maks per file dikonfigurasi. Menentukan awalan nama file saat menulis data ke beberapa file, menghasilkan pola ini: <fileNamePrefix>_00000.<fileExtension> . Jika tidak ditentukan, awalan nama file dibuat secara otomatis. Properti ini tidak berlaku ketika sumbernya adalah penyimpanan berbasis file atau opsi partisi yang mengaktifkan penyimpanan data. |
<awalan nama file Anda> | No | fileNamePrefix |