Gecomprimeerde zip-bestanden uitvouwen en lezen

2025-04-22

U kunt de unzip Bash-opdracht gebruiken om gecomprimeerde zip-bestanden of mappen met bestanden uit te vouwen. Als u een bestand of map downloadt of tegenkomt dat eindigt met .zip, pak dan de gegevens uit voordat u doorgaat.

Apache Spark biedt systeemeigen codecs voor interactie met gecomprimeerde Parquet-bestanden. De meeste Parquet-bestanden die zijn geschreven door Azure Databricks eindigen met .snappy.parquet, waarmee wordt aangegeven dat ze snappy-compressie gebruiken.

Hoe gegevens uit te pakken

Met de Magic-opdracht van Azure Databricks %shkunt u willekeurige Bash-code uitvoeren, inclusief de unzip opdracht.

In het volgende voorbeeld wordt een gezipt CSV-bestand gebruikt dat is gedownload van internet. Zie Gegevens downloaden van internet.

Gebruik de Databricks Utilities om bestanden te verplaatsen naar de tijdelijke opslag die aan het stuurprogramma is gekoppeld voordat u ze uitbreidt.

Deze code gebruikt curl om de gegevens te downloaden en vervolgens unzip uit te vouwen:

%sh curl https://resources.lendingclub.com/LoanStats3a.csv.zip --output /tmp/LoanStats3a.csv.zip
unzip /tmp/LoanStats3a.csv.zip

Gebruik dbutils om het uitgebreide bestand als volgt te verplaatsen naar een Unity Catalog-volume:

dbutils.fs.mv("file:/LoanStats3a.csv", "/Volumes/my_catalog/my_schema/my_volume/LoanStats3a.csv")

In dit voorbeeld bevatten de gedownloade gegevens een opmerking in de eerste rij en een koptekst in de tweede. Nu u de gegevens hebt verplaatst en uitgebreid, gebruikt u standaardopties voor het lezen van CSV-bestanden, zoals in het volgende voorbeeld:

df = spark.read.format("csv").option("skipRows", 1).option("header", True).load("/Volumes/my_catalog/my_schema/my_volume/LoanStats3a.csv")
display(df)

Delen via

Gecomprimeerde zip-bestanden uitvouwen en lezen

Hoe gegevens uit te pakken

Feedback

Aanvullende resources