Columna de metadatos de archivo

Artículo
08/15/2024

Puede obtener información de metadatos para los archivos de entrada con la columna _metadata. La columna _metadata es una columna oculta y está disponible para todos los formatos de archivo de entrada. Para que se incluya la columna _metadata en el DataFrame devuelto, debe hacer referencia explícitamente a ella en la consulta.

Si el origen de datos contiene una columna denominada _metadata, las consultas devuelven la columna desde el origen de datos y no los metadatos del archivo.

Advertencia

Se pueden agregar nuevos campos a la columna _metadata en futuras versiones. Para evitar errores de evolución del esquema si se actualiza la columna _metadata, Databricks recomienda seleccionar campos específicos de la columna en las consultas. Consulte ejemplos.

Metadatos admitidos

La columna _metadata es un objeto STRUCT que contiene los campos siguientes:

Nombre	Escribir	Descripción	Ejemplo	Versión mínima de Databricks Runtime
file_path	`STRING`	Ruta de acceso del archivo de entrada.	`file:/tmp/f0.csv`	10.5
file_name	`STRING`	Nombre del archivo de entrada junto con su extensión.	`f0.csv`	10.5
file_size	`LONG`	Tamaño del archivo de entrada, en bytes.	628	10.5
file_modification_time	`TIMESTAMP`	Marca de tiempo de la última modificación del archivo de entrada.	`2021-12-20 20:05:21`	10.5
file_block_start	`LONG`	Desplazamiento inicial del bloque que se va a leer, en bytes.	0	13.0
file_block_length	`LONG`	Longitud del bloque que se lee, en bytes.	628	13.0

Ejemplos

Uso en un lector de origen de datos basado en archivos básico

Python

df = spark.read \
  .format("csv") \
  .schema(schema) \
  .load("dbfs:/tmp/*") \
  .select("*", "_metadata")

display(df)

'''
Result:
+---------+-----+----------------------------------------------------+
|   name  | age |                 _metadata                          |
+=========+=====+====================================================+
|         |     | {                                                  |
|         |     |    "file_path": "dbfs:/tmp/f0.csv",                |
| Debbie  | 18  |    "file_name": "f0.csv",                          |
|         |     |    "file_size": 12,                                |
|         |     |    "file_block_start": 0,                          |
|         |     |    "file_block_length": 12,                        |
|         |     |    "file_modification_time": "2021-07-02 01:05:21" |
|         |     | }                                                  |
+---------+-----+----------------------------------------------------+
|         |     | {                                                  |
|         |     |    "file_path": "dbfs:/tmp/f1.csv",                |
| Frank   | 24  |    "file_name": "f1.csv",                          |
|         |     |    "file_size": 12,                                |
|         |     |    "file_block_start": 0,                          |
|         |     |    "file_block_length": 12,                        |
|         |     |    "file_modification_time": "2021-12-20 02:06:21" |
|         |     | }                                                  |
+---------+-----+----------------------------------------------------+
'''

Scala

val df = spark.read
  .format("csv")
  .schema(schema)
  .load("dbfs:/tmp/*")
  .select("*", "_metadata")

display(df_population)

/* Result:
+---------+-----+----------------------------------------------------+
|   name  | age |                 _metadata                          |
+=========+=====+====================================================+
|         |     | {                                                  |
|         |     |    "file_path": "dbfs:/tmp/f0.csv",                |
| Debbie  | 18  |    "file_name": "f0.csv",                          |
|         |     |    "file_size": 12,                                |
|         |     |    "file_block_start": 0,                          |
|         |     |    "file_block_length": 12,                        |
|         |     |    "file_modification_time": "2021-07-02 01:05:21" |
|         |     | }                                                  |
+---------+-----+----------------------------------------------------+
|         |     | {                                                  |
|         |     |    "file_path": "dbfs:/tmp/f1.csv",                |
| Frank   | 24  |    "file_name": "f1.csv",                          |
|         |     |    "file_size": 10,                                |
|         |     |    "file_block_start": 0,                          |
|         |     |    "file_block_length": 12,                        |
|         |     |    "file_modification_time": "2021-12-20 02:06:21" |
|         |     | }                                                  |
+---------+-----+----------------------------------------------------+
*/

Selección de campos específicos

Python

spark.read \
  .format("csv") \
  .schema(schema) \
  .load("dbfs:/tmp/*") \
  .select("_metadata.file_name", "_metadata.file_size")

Scala

spark.read
  .format("csv")
  .schema(schema)
  .load("dbfs:/tmp/*")
  .select("_metadata.file_name", "_metadata.file_size")

Uso en filtros

Python

spark.read \
  .format("csv") \
  .schema(schema) \
  .load("dbfs:/tmp/*") \
  .select("*") \
  .filter(col("_metadata.file_name") == lit("test.csv"))

Scala

spark.read
  .format("csv")
  .schema(schema)
  .load("dbfs:/tmp/*")
  .select("*")
  .filter(col("_metadata.file_name") === lit("test.csv"))

Uso en COPY INTO

COPY INTO my_delta_table
FROM (
  SELECT *, _metadata FROM 'abfss://my-container-name@storage-account-name.dfs.core.windows.net/csvData'
)
FILEFORMAT = CSV

Uso en el cargador automático

Nota:

Al escribir la columna _metadata, se le cambia el nombre a source_metadata. Escribirlo como _metadata haría imposible tener acceso a la columna de metadatos de la tabla de destino, ya que si el origen de datos contiene una columna denominada _metadata, las consultas devolverán la columna del origen de datos y no los metadatos del archivo.

Python

spark.readStream \
  .format("cloudFiles") \
  .option("cloudFiles.format", "csv") \
  .schema(schema) \
  .load("abfss://my-container-name@storage-account-name.dfs.core.windows.net/csvData") \
  .selectExpr("*", "_metadata as source_metadata") \
  .writeStream \
  .option("checkpointLocation", checkpointLocation) \
  .start(targetTable)

Scala

spark.readStream
  .format("cloudFiles")
  .option("cloudFiles.format", "csv")
  .schema(schema)
  .load("abfss://my-container-name@storage-account-name.dfs.core.windows.net/csvData")
  .selectExpr("*", "_metadata as source_metadata")
  .writeStream
  .option("checkpointLocation", checkpointLocation)
  .start(targetTable)

Compartir vía

Columna de metadatos de archivo

Metadatos admitidos

Ejemplos

Uso en un lector de origen de datos basado en archivos básico

Python

Scala

Selección de campos específicos

Python

Scala

Uso en filtros

Python

Scala

Uso en COPY INTO

Uso en el cargador automático

Python

Scala

Comentarios

Recursos adicionales

Compartir vía

Columna de metadatos de archivo

Metadatos admitidos

Ejemplos

Uso en un lector de origen de datos basado en archivos básico

Python

Scala

Selección de campos específicos

Python

Scala

Uso en filtros

Python

Scala

Uso en COPY INTO

Uso en el cargador automático

Python

Scala

Artículos relacionados

Comentarios

Recursos adicionales