Nota
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
Puede usar el unzip
comando de Bash para expandir archivos comprimidos Zip o directorios de archivos. Si descarga o encuentra un archivo o directorio que termina con .zip
, expanda los datos antes de continuar.
Apache Spark proporciona códecs nativos para interactuar con archivos Parquet comprimidos. La mayoría de los archivos Parquet escritos por Azure Databricks terminan con .snappy.parquet
, lo que indica que usan compresión snappy.
Cómo descomprimir datos
El comando mágico de %sh
Azure Databricks permite la ejecución de código Bash arbitrario, incluido el comando unzip
.
En el ejemplo siguiente se usa un archivo CSV comprimido descargado de Internet. Consulte Descargar datos de Internet.
Use las utilidades de Databricks para mover archivos al almacenamiento efímero adjunto al controlador antes de expandirlos.
Este código usa curl
para descargar y, a continuación, unzip
expandir los datos:
%sh curl https://resources.lendingclub.com/LoanStats3a.csv.zip --output /tmp/LoanStats3a.csv.zip
unzip /tmp/LoanStats3a.csv.zip
Use dbutils para mover el archivo expandido a un volumen de Unity Catalog, como se indica a continuación:
dbutils.fs.mv("file:/LoanStats3a.csv", "/Volumes/my_catalog/my_schema/my_volume/LoanStats3a.csv")
En este ejemplo, los datos descargados tienen un comentario en la primera fila y un encabezado en la segunda. Ahora que ha movido y expandido los datos, use opciones estándar para leer archivos CSV, como en el ejemplo siguiente:
df = spark.read.format("csv").option("skipRows", 1).option("header", True).load("/Volumes/my_catalog/my_schema/my_volume/LoanStats3a.csv")
display(df)