Compartir vía


Expansión y lectura de archivos comprimidos ZIP

Puede usar el unzip comando de Bash para expandir archivos comprimidos Zip o directorios de archivos. Si descarga o encuentra un archivo o directorio que termina con .zip, expanda los datos antes de continuar.

Apache Spark proporciona códecs nativos para interactuar con archivos Parquet comprimidos. La mayoría de los archivos Parquet escritos por Azure Databricks terminan con .snappy.parquet, lo que indica que usan compresión snappy.

Cómo descomprimir datos

El comando mágico de %sh Azure Databricks permite la ejecución de código Bash arbitrario, incluido el comando unzip.

En el ejemplo siguiente se usa un archivo CSV comprimido descargado de Internet. Consulte Descargar datos de Internet.

Use las utilidades de Databricks para mover archivos al almacenamiento efímero adjunto al controlador antes de expandirlos.

Este código usa curl para descargar y, a continuación, unzip expandir los datos:

%sh curl https://resources.lendingclub.com/LoanStats3a.csv.zip --output /tmp/LoanStats3a.csv.zip
unzip /tmp/LoanStats3a.csv.zip

Use dbutils para mover el archivo expandido a un volumen de Unity Catalog, como se indica a continuación:

dbutils.fs.mv("file:/LoanStats3a.csv", "/Volumes/my_catalog/my_schema/my_volume/LoanStats3a.csv")

En este ejemplo, los datos descargados tienen un comentario en la primera fila y un encabezado en la segunda. Ahora que ha movido y expandido los datos, use opciones estándar para leer archivos CSV, como en el ejemplo siguiente:

df = spark.read.format("csv").option("skipRows", 1).option("header", True).load("/Volumes/my_catalog/my_schema/my_volume/LoanStats3a.csv")
display(df)