Memperluas dan membaca file terkompresi Zip

Artikel
08/09/2024

Anda dapat menggunakan unzip perintah Bash untuk memperluas file atau direktori file yang telah dikompresi Zip. Jika Anda mengunduh atau menemukan file atau direktori yang diakhir dengan .zip, perluas data sebelum mencoba melanjutkan.

Catatan

Apache Spark menyediakan codec asli untuk berinteraksi dengan file Parquet terkompresi. Sebagian besar file Parquet yang ditulis oleh Azure Databricks berakhir dengan .snappy.parquet, menunjukkan bahwa mereka menggunakan kompresi snappy.

Cara membuka zip data

Perintah ajaib Azure Databricks %sh memungkinkan eksekusi kode Bash arbitrer, termasuk unzip perintah .

Contoh berikut menggunakan file CSV zip yang diunduh dari internet. Lihat Mengunduh data dari internet.

Catatan

Anda dapat menggunakan Utilitas Databricks untuk memindahkan file ke penyimpanan sementara yang terpasang pada driver sebelum memperluasnya. Anda tidak dapat memperluas file zip saat berada di volume Katalog Unity. Lihat Referensi Utilitas Databricks (dbutils).

Kode berikut menggunakan curl untuk mengunduh lalu unzip memperluas data:

%sh curl https://resources.lendingclub.com/LoanStats3a.csv.zip --output /tmp/LoanStats3a.csv.zip
unzip /tmp/LoanStats3a.csv.zip

Gunakan dbutil untuk memindahkan file yang diperluas ke volume Katalog Unity, sebagai berikut:

dbutils.fs.mv("file:/LoanStats3a.csv", "/Volumes/my_catalog/my_schema/my_volume/LoanStats3a.csv")

Dalam contoh ini, data yang diunduh memiliki komentar di baris pertama dan header di baris kedua. Sekarang setelah data diperluas dan dipindahkan, gunakan opsi standar untuk membaca file CSV, seperti dalam contoh berikut:

df = spark.read.format("csv").option("skipRows", 1).option("header", True).load("/Volumes/my_catalog/my_schema/my_volume/LoanStats3a.csv")
display(df)

Bagikan melalui

Memperluas dan membaca file terkompresi Zip

Cara membuka zip data

Saran dan Komentar

Sumber Daya Tambahan: