Catatan
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba masuk atau mengubah direktori.
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba mengubah direktori.
Anda dapat menggunakan unzip perintah Bash untuk memperluas file atau direktori file terkompresi Zip (.zip). Perintah ajaib Azure Databricks memungkinkan eksekusi kode Bash acak, termasuk perintah%sh.
Apache Spark menyediakan codec asli untuk berinteraksi dengan file Parquet terkompresi. Sebagian besar file Parquet yang ditulis oleh Azure Databricks berakhir dengan .snappy.parquet, menunjukkan bahwa mereka menggunakan kompresi snappy.
Mengunduh dan membuka zip file
Gunakan curl untuk mengunduh file terkompresi lalu unzip untuk memperluas data. Contoh berikut menggunakan file CSV zip yang diunduh dari internet. Lihat Mengunduh data dari internet.
%sh curl https://resources.lendingclub.com/LoanStats3a.csv.zip --output /tmp/LoanStats3a.csv.zip
unzip /tmp/LoanStats3a.csv.zip
Pindahkan berkas ke volume
Sekarang pindahkan file yang diperluas ke volume Katalog Unity:
%sh mv /tmp/LoanStats3a.csv /Volumes/my_catalog/my_schema/my_volume/LoanStats3a.csv
Dalam contoh ini, data yang diunduh memiliki komentar di baris pertama dan header di baris kedua. Sekarang setelah Anda memindahkan dan memperluas data, gunakan opsi standar untuk membaca file CSV, misalnya:
df = spark.read.format("csv").option("skipRows", 1).option("header", True).load("/Volumes/my_catalog/my_schema/my_volume/LoanStats3a.csv")
display(df)