Memperluas dan membaca file terkompresi Zip
Anda dapat menggunakan unzip
perintah Bash untuk memperluas file atau direktori file yang telah dikompresi Zip. Jika Anda mengunduh atau menemukan file atau direktori yang diakhir dengan .zip
, perluas data sebelum mencoba melanjutkan.
Catatan
Apache Spark menyediakan codec asli untuk berinteraksi dengan file Parquet terkompresi. Sebagian besar file Parquet yang ditulis oleh Azure Databricks berakhir dengan .snappy.parquet
, menunjukkan bahwa mereka menggunakan kompresi snappy.
Cara membuka zip data
Perintah ajaib Azure Databricks %sh
memungkinkan eksekusi kode Bash arbitrer, termasuk unzip
perintah .
Contoh berikut menggunakan file CSV zip yang diunduh dari internet. Lihat Mengunduh data dari internet.
Catatan
Anda dapat menggunakan Utilitas Databricks untuk memindahkan file ke penyimpanan sementara yang terpasang pada driver sebelum memperluasnya. Anda tidak dapat memperluas file zip saat berada di volume Katalog Unity. Lihat Referensi Utilitas Databricks (dbutils).
Kode berikut menggunakan curl
untuk mengunduh lalu unzip
memperluas data:
%sh curl https://resources.lendingclub.com/LoanStats3a.csv.zip --output /tmp/LoanStats3a.csv.zip
unzip /tmp/LoanStats3a.csv.zip
Gunakan dbutil untuk memindahkan file yang diperluas ke volume Katalog Unity, sebagai berikut:
dbutils.fs.mv("file:/LoanStats3a.csv", "/Volumes/my_catalog/my_schema/my_volume/LoanStats3a.csv")
Dalam contoh ini, data yang diunduh memiliki komentar di baris pertama dan header di baris kedua. Sekarang setelah data diperluas dan dipindahkan, gunakan opsi standar untuk membaca file CSV, seperti dalam contoh berikut:
df = spark.read.format("csv").option("skipRows", 1).option("header", True).load("/Volumes/my_catalog/my_schema/my_volume/LoanStats3a.csv")
display(df)