Format parket di Data Factory di Microsoft Fabric

Artikel ini menguraikan cara mengonfigurasi format Parquet dalam alur data Data Factory di Microsoft Fabric.

Kemampuan yang didukung

Format parquet didukung untuk aktivitas dan konektor berikut sebagai sumber dan tujuan.

Category Koneksi/Aktivitas
Konektor yang didukung Amazon S3
Azure Blob Storage
Azure Data Lake Storage Gen1
Azure Data Lake Storage Gen2
Penyimpanan Cloud Google
HTTP
Aktivitas yang didukung Aktivitas Salin
Aktivitas pencarian
Aktivitas GetMetadata
Aktivitas penghapusan

Format parquet dalam aktivitas salin

Untuk mengonfigurasi format Parquet, pilih koneksi Anda di sumber atau tujuan aktivitas salin alur data, lalu pilih Parquet dalam daftar drop-down format File. Pilih Pengaturan untuk konfigurasi lebih lanjut dari format ini.

Screenshot showing file format settings.

Format parquet sebagai sumber

Setelah Anda memilih Pengaturan di bagian Format file, properti berikut ini diperlihatkan dalam kotak dialog pengaturan format file pop-up.

Screenshot showing parquet file format source.

  • Jenis kompresi: Pilih codec kompresi yang digunakan untuk membaca file Parquet di daftar drop-down. Anda dapat memilih dari None, gzip (.gz), snappy, lzo, Brotli (.br), Zstandard, lz4, lz4frame, bzip2 (.bz2), atau lz4hadoop.

Format parquet sebagai tujuan

Setelah Anda memilih Pengaturan, properti berikut ini diperlihatkan dalam kotak dialog pengaturan format file pop-up.

Screenshot showing parquet file format destination.

  • Jenis kompresi: Pilih codec kompresi yang digunakan untuk menulis file Parquet di daftar drop-down. Anda dapat memilih dari None, gzip (.gz), snappy, lzo, Brotli (.br), Zstandard, lz4, lz4frame, bzip2 (.bz2), atau lz4hadoop.

  • Gunakan V-Order: Aktifkan pengoptimalan waktu tulis ke format file parquet. Untuk informasi selengkapnya, lihat Pengoptimalan tabel Delta Lake dan V-Order. Enkripsi diaktifkan secara default.

Di bawah Pengaturan tingkat lanjut di tab Tujuan , properti terkait format Parquet berikut ditampilkan.

  • Baris maks per file: Saat menulis data ke dalam folder, Anda dapat memilih untuk menulis ke beberapa file dan menentukan baris maksimum per file. Tentukan baris maksimum yang ingin Anda tulis per file.
  • Awalan nama file: Berlaku saat Baris maks per file dikonfigurasi. Menentukan awalan nama file saat menulis data ke beberapa file, menghasilkan pola ini: <fileNamePrefix>_00000.<fileExtension>. Jika tidak ditentukan, awalan nama file dibuat secara otomatis. Properti ini tidak berlaku ketika sumbernya adalah penyimpanan berbasis file atau opsi partisi yang mengaktifkan penyimpanan data.

Ringkasan tabel

Parquet sebagai sumber

Properti berikut ini didukung di bagian Sumber aktivitas salin saat menggunakan format Parquet.

Nama Deskripsi Nilai Wajib Properti skrip JSON
Format file Format file yang ingin Anda gunakan. Parquet Ya type (di bawah datasetSettings):
Parquet
Jenis pemadatan Codec kompresi yang digunakan untuk membaca file Parquet. Pilih dari:
Tidak
gzip (.gz)
Tajam
izo
Brotli (.br)
Zstandard
lz4
lz4frame
bzip2 (.bz2)
lz4hadoop
No compressionCodec:

gzip
snappy
izo
brotli
zstd
lz4
lz4frame
bz2
lz4hadoop

Parquet sebagai tujuan

Properti berikut ini didukung di bagian Tujuan aktivitas salin saat menggunakan format Parquet.

Nama Deskripsi Nilai Wajib Properti skrip JSON
Format file Format file yang ingin Anda gunakan. Parquet Ya type (di bawah datasetSettings):
Parquet
Menggunakan V-Order Pengoptimalan waktu tulis ke format file parke. dipilih atau tidak dipilih No enableVertiParquet
Jenis pemadatan Codec kompresi yang digunakan untuk menulis file Parquet. Pilih dari:
Tidak
gzip (.gz)
Tajam
izo
Brotli (.br)
Zstandard
lz4
lz4frame
bzip2 (.bz2)
lz4hadoop
No compressionCodec:

gzip
snappy
izo
brotli
zstd
lz4
lz4frame
bz2
lz4hadoop
Baris maks per file Saat menulis data ke dalam folder, Anda dapat memilih untuk menulis ke beberapa file dan menentukan baris maksimum per file. Tentukan baris maksimum yang ingin Anda tulis per file. <baris maks Anda per file> No maxRowsPerFile
Awalan nama file Berlaku saat Baris maks per file dikonfigurasi. Menentukan awalan nama file saat menulis data ke beberapa file, menghasilkan pola ini: <fileNamePrefix>_00000.<fileExtension>. Jika tidak ditentukan, awalan nama file dibuat secara otomatis. Properti ini tidak berlaku ketika sumbernya adalah penyimpanan berbasis file atau opsi partisi yang mengaktifkan penyimpanan data. <awalan nama file Anda> No fileNamePrefix