Parquet-indeling in Data Factory in Microsoft Fabric

Artikel
06/28/2024

In dit artikel wordt beschreven hoe u de Parquet-indeling configureert in de gegevenspijplijn van Data Factory in Microsoft Fabric.

Ondersteunde mogelijkheden

Parquet-indeling wordt ondersteund voor de volgende activiteiten en connectors als bron en doel.

Categorie	Connector/activiteit
Ondersteunde connector	Amazon S3
	Amazon S3 compatibel
	Azure Blob Storage
	Azure Data Lake Storage Gen1
	Azure Data Lake Storage Gen2
	Azure Files
	Bestandssysteem
	FTP
	Google Cloud Storage
	HTTP
	Lakehouse Files
	Oracle Cloud Storage
	SFTP
Ondersteunde activiteit	Copy-activiteit (bron/doel)
	Activiteit Lookup
	GetMetadata-activiteit
	Activiteit verwijderen

Parquet-indeling in kopieeractiviteit

Als u de Parquet-indeling wilt configureren, kiest u de verbinding in de bron of het doel van de kopieeractiviteit van de gegevenspijplijn en selecteert u Parquet in de vervolgkeuzelijst met de bestandsindeling. Selecteer Instellingen voor verdere configuratie van deze indeling.

Schermopname van de instellingen voor de bestandsindeling.

Parquet-indeling als bron

Nadat u Instellingen in de sectie Bestandsindeling hebt geselecteerd, worden de volgende eigenschappen weergegeven in het dialoogvenster Instellingen voor bestandsindeling.

Schermopname van de parquet-bestandsindelingsbron.

Compressietype: kies de compressiecodec die wordt gebruikt voor het lezen van Parquet-bestanden in de vervolgkeuzelijst. U kunt kiezen uit None, gzip (.gz), snappy, lzo, Brotli (.br), Zstandard, lz4, lz4frame, bzip2 (.bz2) of lz4hadoop.

Parquet-indeling als doel

Nadat u Instellingen hebt geselecteerd, worden de volgende eigenschappen weergegeven in het dialoogvenster Instellingen voor bestandsindeling.

Schermopname van de doellocatie van parquet-bestandsindeling.

Compressietype: kies de compressiecodec die wordt gebruikt voor het schrijven van Parquet-bestanden in de vervolgkeuzelijst. U kunt kiezen uit None, gzip (.gz), snappy, lzo, Brotli (.br), Zstandard, lz4, lz4frame, bzip2 (.bz2) of lz4hadoop.
Gebruik V-Order: Schakel een optimalisatie van schrijftijd in voor de Parquet-bestandsindeling. Zie Optimalisatie van Delta Lake-tabellen en V-Order voor meer informatie. Deze functie is standaard ingeschakeld.

Onder Geavanceerde instellingen op het tabblad Bestemming worden de volgende eigenschappen met betrekking tot parquet-indeling weergegeven.

Maximum aantal rijen per bestand: bij het schrijven van gegevens in een map kunt u ervoor kiezen om naar meerdere bestanden te schrijven en de maximumrijen per bestand op te geven. Geef de maximumrijen op die u per bestand wilt schrijven.
Bestandsnaamvoorvoegsel: van toepassing wanneer maximumrijen per bestand is geconfigureerd. Geef het voorvoegsel voor de bestandsnaam op bij het schrijven van gegevens naar meerdere bestanden, wat resulteert in dit patroon: <fileNamePrefix>_00000.<fileExtension> Als dit niet is opgegeven, wordt het voorvoegsel van de bestandsnaam automatisch gegenereerd. Deze eigenschap is niet van toepassing wanneer de bron een archief is op basis van bestanden of een partitieoptie ingeschakeld gegevensarchief.

Tabelsamenvatting

Parquet als bron

De volgende eigenschappen worden ondersteund in de sectie Bron van kopieeractiviteit wanneer u de Parquet-indeling gebruikt.

Name	Beschrijving	Waarde	Vereist	JSON-scripteigenschap
Bestandsindeling	De bestandsindeling die u wilt gebruiken.	Parquet	Ja	type (onder `datasetSettings`): Parquet
Compressietype	De compressiecodec die wordt gebruikt om Parquet-bestanden te lezen.	Kies uit: Geen gzip (.gz) bits lzo Brotli (.br) Zstandard lz4 lz4frame bzip2 (.bz2) lz4hadoop	Nee	compressionCodec: gzip bits lzo brotli zstd lz4 lz4frame bz2 lz4hadoop

Parquet als bestemming

De volgende eigenschappen worden ondersteund in de sectie Doel van de kopieeractiviteit wanneer u de Parquet-indeling gebruikt.

Name	Beschrijving	Waarde	Vereist	JSON-scripteigenschap
Bestandsindeling	De bestandsindeling die u wilt gebruiken.	Parquet	Ja	type (onder `datasetSettings`): Parquet
V-order gebruiken	Een optimalisatie van schrijftijd naar de Parquet-bestandsindeling.	geselecteerd of niet geselecteerd	Nee	enableVertiParquet
Compressietype	De compressiecodec die wordt gebruikt voor het schrijven van Parquet-bestanden.	Kies uit: Geen gzip (.gz) bits lzo Brotli (.br) Zstandard lz4 lz4frame bzip2 (.bz2) lz4hadoop	Nee	compressionCodec: gzip bits lzo brotli zstd lz4 lz4frame bz2 lz4hadoop
Maximum aantal rijen per bestand	Wanneer u gegevens in een map schrijft, kunt u ervoor kiezen om naar meerdere bestanden te schrijven en de maximumrijen per bestand op te geven. Geef de maximumrijen op die u per bestand wilt schrijven.	<uw maximum aantal rijen per bestand>	Nee	maxRowsPerFile
Bestandsnaamvoorvoegsel	Van toepassing wanneer maximumrijen per bestand zijn geconfigureerd. Geef het voorvoegsel voor de bestandsnaam op bij het schrijven van gegevens naar meerdere bestanden, wat resulteert in dit patroon: `<fileNamePrefix>_00000.<fileExtension>` Als dit niet is opgegeven, wordt het voorvoegsel van de bestandsnaam automatisch gegenereerd. Deze eigenschap is niet van toepassing wanneer de bron een archief is op basis van bestanden of een partitieoptie ingeschakeld gegevensarchief.	<uw bestandsnaamvoorvoegsel>	Nee	fileNamePrefix

Delen via

Parquet-indeling in Data Factory in Microsoft Fabric

Ondersteunde mogelijkheden

Parquet-indeling in kopieeractiviteit

Parquet-indeling als bron

Parquet-indeling als doel

Tabelsamenvatting

Parquet als bron

Parquet als bestemming

Feedback

Feedback

Aanvullende resources

Delen via

Parquet-indeling in Data Factory in Microsoft Fabric

Ondersteunde mogelijkheden

Parquet-indeling in kopieeractiviteit

Parquet-indeling als bron

Parquet-indeling als doel

Tabelsamenvatting

Parquet als bron

Parquet als bestemming

Gerelateerde inhoud

Feedback

Feedback

Aanvullende resources