Memperluas dan membaca file terkompresi Zip

Anda dapat menggunakan unzip perintah Bash untuk memperluas file atau direktori file terkompresi Zip (.zip). Perintah ajaib Azure Databricks memungkinkan eksekusi kode Bash acak, termasuk perintah%sh.

Apache Spark menyediakan codec asli untuk berinteraksi dengan file Parquet terkompresi. Sebagian besar file Parquet yang ditulis oleh Azure Databricks berakhir dengan .snappy.parquet, menunjukkan bahwa mereka menggunakan kompresi snappy.

Mengunduh dan membuka zip file

Gunakan curl untuk mengunduh file terkompresi lalu unzip untuk memperluas data. Contoh berikut menggunakan file CSV zip yang diunduh dari internet. Lihat Mengunduh data dari internet.

%sh curl https://resources.lendingclub.com/LoanStats3a.csv.zip --output /tmp/LoanStats3a.csv.zip
unzip /tmp/LoanStats3a.csv.zip

Pindahkan berkas ke volume

Sekarang pindahkan file yang diperluas ke volume Katalog Unity:

%sh mv /tmp/LoanStats3a.csv /Volumes/my_catalog/my_schema/my_volume/LoanStats3a.csv

Dalam contoh ini, data yang diunduh memiliki komentar di baris pertama dan header di baris kedua. Sekarang setelah Anda memindahkan dan memperluas data, gunakan opsi standar untuk membaca file CSV, misalnya:

df = spark.read.format("csv").option("skipRows", 1).option("header", True).load("/Volumes/my_catalog/my_schema/my_volume/LoanStats3a.csv")
display(df)