Teilen über


Dekomprimieren und Lesen komprimierter ZIP-Dateien

Sie können den unzip Bash-Befehl verwenden, um komprimierte Zip-Dateien.zip oder Verzeichnisse von Dateien zu erweitern. Der %shMagic-Befehl von Azure Databricks ermöglicht die Ausführung von beliebigem Bash-Code, einschließlich des Befehls unzip.

Apache Spark stellt native Codecs für die Interaktion mit komprimierten Parquet-Dateien bereit. Die meisten von Azure Databricks geschriebenen Parquet-Dateien enden mit .snappy.parquet, womit die Snappy-Komprimierung angegeben wird.

Herunterladen und Entpacken der Datei

Wird curl verwendet, um die komprimierte Datei herunterzuladen und dann unzip die Daten zu erweitern. Im folgenden Beispiel wird eine komprimierte CSV-Datei verwendet, die aus dem Internet heruntergeladen wurde. Weitere Informationen finden Sie unter Herunterladen von Daten aus dem Internet.

%sh curl https://resources.lendingclub.com/LoanStats3a.csv.zip --output /tmp/LoanStats3a.csv.zip
unzip /tmp/LoanStats3a.csv.zip

Verschieben der Datei auf ein Volume

Verschieben Sie nun die erweiterte Datei auf ein Unity-Katalogvolume:

%sh mv /tmp/LoanStats3a.csv /Volumes/my_catalog/my_schema/my_volume/LoanStats3a.csv

In diesem Beispiel enthalten die heruntergeladenen Daten einen Kommentar in der ersten Zeile und eine Überschrift in der zweiten Zeile. Nachdem Sie die Daten verschoben und erweitert haben, verwenden Sie Standardoptionen zum Lesen von CSV-Dateien, z. B.:

df = spark.read.format("csv").option("skipRows", 1).option("header", True).load("/Volumes/my_catalog/my_schema/my_volume/LoanStats3a.csv")
display(df)