Anmerkung
Der Zugriff auf diese Seite erfordert eine Genehmigung. Du kannst versuchen, dich anzumelden oder die Verzeichnisse zu wechseln.
Der Zugriff auf diese Seite erfordert eine Genehmigung. Du kannst versuchen , die Verzeichnisse zu wechseln.
Sie können den unzip Bash-Befehl verwenden, um komprimierte Zip-Dateien.zip oder Verzeichnisse von Dateien zu erweitern. Der %shMagic-Befehl von Azure Databricks ermöglicht die Ausführung von beliebigem Bash-Code, einschließlich des Befehls unzip.
Apache Spark stellt native Codecs für die Interaktion mit komprimierten Parquet-Dateien bereit. Die meisten von Azure Databricks geschriebenen Parquet-Dateien enden mit .snappy.parquet, womit die Snappy-Komprimierung angegeben wird.
Herunterladen und Entpacken der Datei
Wird curl verwendet, um die komprimierte Datei herunterzuladen und dann unzip die Daten zu erweitern. Im folgenden Beispiel wird eine komprimierte CSV-Datei verwendet, die aus dem Internet heruntergeladen wurde. Weitere Informationen finden Sie unter Herunterladen von Daten aus dem Internet.
%sh curl https://resources.lendingclub.com/LoanStats3a.csv.zip --output /tmp/LoanStats3a.csv.zip
unzip /tmp/LoanStats3a.csv.zip
Verschieben der Datei auf ein Volume
Verschieben Sie nun die erweiterte Datei auf ein Unity-Katalogvolume:
%sh mv /tmp/LoanStats3a.csv /Volumes/my_catalog/my_schema/my_volume/LoanStats3a.csv
In diesem Beispiel enthalten die heruntergeladenen Daten einen Kommentar in der ersten Zeile und eine Überschrift in der zweiten Zeile. Nachdem Sie die Daten verschoben und erweitert haben, verwenden Sie Standardoptionen zum Lesen von CSV-Dateien, z. B.:
df = spark.read.format("csv").option("skipRows", 1).option("header", True).load("/Volumes/my_catalog/my_schema/my_volume/LoanStats3a.csv")
display(df)