Megosztás a következőn keresztül:


Tömörített Zip-fájlok kibontása és olvasása

A Bash paranccsal kibonthatja a unzip tömörített Zip-fájlokat vagy fájlkönyvtárakat. Ha letölt vagy egy fájl vagy könyvtár végződik .zip, a folytatás előtt bontsa ki az adatokat.

Feljegyzés

Az Apache Spark natív kodekeket biztosít a tömörített Parquet-fájlok használatához. Az Azure Databricks .snappy.parquetáltal írt legtöbb Parquet-fájl a snappy tömörítést jelenti.

Adatok kibontásához

Az Azure Databricks %sh magic parancsa lehetővé teszi tetszőleges Bash-kód végrehajtását, beleértve a unzip parancsot is.

Az alábbi példa az internetről letöltött tömörített CSV-fájlt használja. Lásd: Adatok letöltése az internetről.

Feljegyzés

A Databricks segédprogramokkal áthelyezheti a fájlokat az illesztőprogramhoz csatolt rövid élettartamú tárolóba, mielőtt kibontja őket. A Zip-fájlok nem bonthatók ki, amíg a Unity-katalógus köteteiben találhatók. Lásd: Databricks Utilities (dbutils) referencia.

A következő kód az adatok letöltésére, majd unzip bővítésére szolgálcurl:

%sh curl https://resources.lendingclub.com/LoanStats3a.csv.zip --output /tmp/LoanStats3a.csv.zip
unzip /tmp/LoanStats3a.csv.zip

A dbutils használatával helyezze át a kibontott fájlt egy Unity Catalog-kötetre az alábbiak szerint:

dbutils.fs.mv("file:/LoanStats3a.csv", "/Volumes/my_catalog/my_schema/my_volume/LoanStats3a.csv")

Ebben a példában a letöltött adatokhoz tartozik egy megjegyzés az első sorban, a másodikban pedig egy fejléc. Most, hogy az adatok kibontva és áthelyezve lettek, a CSV-fájlok olvasásához használja a standard beállításokat, ahogyan az alábbi példában is látható:

df = spark.read.format("csv").option("skipRows", 1).option("header", True).load("/Volumes/my_catalog/my_schema/my_volume/LoanStats3a.csv")
display(df)