Microsoft Fabric'te Data Factory'de parquet biçimi
Bu makalede, Microsoft Fabric'te Data Factory'nin veri işlem hattında Parquet biçimini yapılandırma adımları açıklanmaktadır.
Desteklenen özellikler
Parquet biçimi, kaynak ve hedef olarak aşağıdaki etkinlikler ve bağlayıcılar için desteklenir.
Kategori | Bağlayıcı/Etkinlik |
---|---|
Desteklenen bağlayıcı | Amazon S3 |
Amazon S3 Uyumlu | |
Azure Blob Depolama | |
Azure Data Lake Storage Gen1 | |
Azure Data Lake Storage 2. Nesil | |
Azure Dosyaları | |
Dosya sistemi | |
FTP | |
Google Cloud Storage | |
HTTP | |
Lakehouse Dosyaları | |
Oracle Cloud Storage | |
SFTP | |
Desteklenen etkinlik | Kopyalama etkinliği (kaynak/hedef) |
Arama etkinliği | |
GetMetadata etkinliği | |
Silme etkinliği |
Kopyalama etkinliğinde parquet biçimi
Parquet biçimini yapılandırmak için, veri işlem hattı kopyalama etkinliğinin kaynağında veya hedefinde bağlantınızı seçin ve ardından Dosya biçimi açılan listesinde Parquet'i seçin. Bu biçimin daha fazla yapılandırılması için Ayarlar'ı seçin.
Kaynak olarak parquet biçimi
Dosya biçimi bölümünde Ayarlar'ı seçtikten sonra, açılır Dosya biçimi ayarları iletişim kutusunda aşağıdaki özellikler gösterilir.
- Sıkıştırma türü: Açılan listede Parquet dosyalarını okumak için kullanılan sıkıştırma codec bileşenini seçin. None, gzip (.gz), snappy, lzo, Brotli (.br), Zstandard, lz4, lz4frame, bzip2 (.bz2)veya lz4hadoop arasından seçim yapabilirsiniz.
Hedef olarak Parquet biçimi
Ayarlar'ı seçtikten sonra, açılır Dosya biçimi ayarları iletişim kutusunda aşağıdaki özellikler gösterilir.
Sıkıştırma türü: Açılan listede Parquet dosyalarını yazmak için kullanılan sıkıştırma codec bileşenini seçin. None, gzip (.gz), snappy, lzo, Brotli (.br), Zstandard, lz4, lz4frame, bzip2 (.bz2)veya lz4hadoop arasından seçim yapabilirsiniz.
V-Order kullan: Parquet dosya biçiminde yazma zamanı iyileştirmesini etkinleştirin. Daha fazla bilgi için bkz . Delta Lake tablo iyileştirme ve V-Order. Varsayılan olarak etkindir.
Hedef sekmesindeki Gelişmiş ayarlar'ın altında, aşağıdaki Parquet biçimiyle ilgili özellikler görüntülenir.
- Dosya başına en fazla satır: Bir klasöre veri yazarken, birden çok dosyaya yazmayı seçebilir ve dosya başına en fazla satır sayısını belirtebilirsiniz. Dosya başına yazmak istediğiniz en fazla satırı belirtin.
- Dosya adı ön eki: Dosya başına en fazla satır yapılandırıldığında geçerlidir. Birden çok dosyaya veri yazarken dosya adı ön ekini belirtin; bunun sonucunda şu desen elde edilir:
<fileNamePrefix>_00000.<fileExtension>
. Belirtilmezse, dosya adı ön eki otomatik olarak oluşturulur. Bu özellik, kaynak dosya tabanlı bir depo veya bölüm seçeneği etkin veri deposu olduğunda geçerli değildir.
Tablo özeti
Kaynak olarak Parquet
Parquet biçimi kullanılırken kopyalama etkinliği Kaynak bölümünde aşağıdaki özellikler desteklenir.
Veri Akışı Adı | Açıklama | Değer | Zorunlu | JSON betik özelliği |
---|---|---|---|---|
Dosya biçimi | Kullanmak istediğiniz dosya biçimi. | Parke | Yes | type (altında datasetSettings ):Parquet |
Sıkıştırma türü | Parquet dosyalarını okumak için kullanılan sıkıştırma codec bileşeni. | Aralarından seçim yapın: Hiçbiri gzip (.gz) Çabuk lzo Brotli (.br) Zstandard lz4 lz4frame bzip2 (.bz2) lz4hadoop |
Hayır | compressionCodec: gzip Çabuk lzo brotli zstd lz4 lz4frame bz2 lz4hadoop |
Hedef olarak Parquet
Parquet biçimi kullanılırken kopyalama etkinliği Hedef bölümünde aşağıdaki özellikler desteklenir.
Veri Akışı Adı | Açıklama | Değer | Zorunlu | JSON betik özelliği |
---|---|---|---|---|
Dosya biçimi | Kullanmak istediğiniz dosya biçimi. | Parke | Yes | type (altında datasetSettings ):Parquet |
V-Order kullanma | Parquet dosya biçimine yazma süresi iyileştirmesi. | seçili veya seçilmemiş | Hayır | enableVertiParquet |
Sıkıştırma türü | Parquet dosyalarını yazmak için kullanılan sıkıştırma codec bileşeni. | Aralarından seçim yapın: Hiçbiri gzip (.gz) Çabuk lzo Brotli (.br) Zstandard lz4 lz4frame bzip2 (.bz2) lz4hadoop |
Hayır | compressionCodec: gzip Çabuk lzo brotli zstd lz4 lz4frame bz2 lz4hadoop |
Dosya başına en fazla satır | Bir klasöre veri yazarken, birden çok dosyaya yazmayı ve dosya başına en fazla satır sayısını belirtmeyi seçebilirsiniz. Dosya başına yazmak istediğiniz en fazla satırı belirtin. | <dosya başına en fazla satırınız> | Hayır | maxRowsPerFile |
Dosya adı ön eki | Dosya başına en fazla satır yapılandırıldığında geçerlidir. Birden çok dosyaya veri yazarken dosya adı ön ekini belirtin; bunun sonucunda şu desen elde edilir: <fileNamePrefix>_00000.<fileExtension> . Belirtilmezse, dosya adı ön eki otomatik olarak oluşturulur. Bu özellik, kaynak dosya tabanlı bir depo veya bölüm seçeneği etkin veri deposu olduğunda geçerli değildir. |
<dosya adı ön ekiniz> | Hayır | fileNamePrefix |
İlgili içerik
Geri Bildirim
https://aka.ms/ContentUserFeedback.
Çok yakında: 2024 boyunca, içerik için geri bildirim mekanizması olarak GitHub Sorunları’nı kullanımdan kaldıracak ve yeni bir geri bildirim sistemiyle değiştireceğiz. Daha fazla bilgi için bkz.Gönderin ve geri bildirimi görüntüleyin