Tömörített Zip-fájlok kibontása és olvasása
A Bash paranccsal kibonthatja a unzip
tömörített Zip-fájlokat vagy fájlkönyvtárakat. Ha letölt vagy egy fájl vagy könyvtár végződik .zip
, a folytatás előtt bontsa ki az adatokat.
Feljegyzés
Az Apache Spark natív kodekeket biztosít a tömörített Parquet-fájlok használatához. Az Azure Databricks .snappy.parquet
által írt legtöbb Parquet-fájl a snappy tömörítést jelenti.
Adatok kibontásához
Az Azure Databricks %sh
magic parancsa lehetővé teszi tetszőleges Bash-kód végrehajtását, beleértve a unzip
parancsot is.
Az alábbi példa az internetről letöltött tömörített CSV-fájlt használja. Lásd: Adatok letöltése az internetről.
Feljegyzés
A Databricks segédprogramokkal áthelyezheti a fájlokat az illesztőprogramhoz csatolt rövid élettartamú tárolóba, mielőtt kibontja őket. A Zip-fájlok nem bonthatók ki, amíg a Unity-katalógus köteteiben találhatók. Lásd: Databricks Utilities (dbutils) referencia.
A következő kód az adatok letöltésére, majd unzip
bővítésére szolgálcurl
:
%sh curl https://resources.lendingclub.com/LoanStats3a.csv.zip --output /tmp/LoanStats3a.csv.zip
unzip /tmp/LoanStats3a.csv.zip
A dbutils használatával helyezze át a kibontott fájlt egy Unity Catalog-kötetre az alábbiak szerint:
dbutils.fs.mv("file:/LoanStats3a.csv", "/Volumes/my_catalog/my_schema/my_volume/LoanStats3a.csv")
Ebben a példában a letöltött adatokhoz tartozik egy megjegyzés az első sorban, a másodikban pedig egy fejléc. Most, hogy az adatok kibontva és áthelyezve lettek, a CSV-fájlok olvasásához használja a standard beállításokat, ahogyan az alábbi példában is látható:
df = spark.read.format("csv").option("skipRows", 1).option("header", True).load("/Volumes/my_catalog/my_schema/my_volume/LoanStats3a.csv")
display(df)