Coluna de metadados de ficheiro

Artigo
03/01/2024

Pode obter informações de metadados para ficheiros de entrada com a _metadata coluna. A _metadata coluna é uma coluna oculta e está disponível para todos os formatos de ficheiro de entrada. Para incluir a _metadata coluna no DataFrame devolvido, tem de a referenciar explicitamente na consulta.

Se a origem de dados contiver uma coluna com o nome _metadata, as consultas devolvem a coluna da origem de dados e não os metadados do ficheiro.

Aviso

Poderão ser adicionados novos campos à _metadata coluna em versões futuras. Para evitar erros de evolução do esquema se a coluna for atualizada, o _metadata Databricks recomenda a seleção de campos específicos da coluna nas suas consultas. Veja exemplos.

Metadados suportados

A _metadata coluna contém STRUCT os seguintes campos:

Nome	Tipo	Descrição	Exemplo	Versão mínima do Databricks Runtime
file_path	`STRING`	Caminho do ficheiro de entrada.	`file:/tmp/f0.csv`	10.5
file_name	`STRING`	Nome do ficheiro de entrada juntamente com a respetiva extensão.	`f0.csv`	10.5
file_size	`LONG`	Comprimento do ficheiro de entrada, em bytes.	628	10.5
file_modification_time	`TIMESTAMP`	Carimbo de data/hora da última modificação do ficheiro de entrada.	`2021-12-20 20:05:21`	10.5
file_block_start	`LONG`	Comece a desfasar o bloco que está a ser lido, em bytes.	0	13.0
file_block_length	`LONG`	Comprimento do bloco a ser lido, em bytes.	628	13.0

Exemplos

Utilizar num leitor básico de origem de dados baseada em ficheiros

Python

df = spark.read \
  .format("csv") \
  .schema(schema) \
  .load("dbfs:/tmp/*") \
  .select("*", "_metadata")

display(df)

'''
Result:
+---------+-----+----------------------------------------------------+
|   name  | age |                 _metadata                          |
+=========+=====+====================================================+
|         |     | {                                                  |
|         |     |    "file_path": "dbfs:/tmp/f0.csv",                |
| Debbie  | 18  |    "file_name": "f0.csv",                          |
|         |     |    "file_size": 12,                                |
|         |     |    "file_block_start": 0,                          |
|         |     |    "file_block_length": 12,                        |
|         |     |    "file_modification_time": "2021-07-02 01:05:21" |
|         |     | }                                                  |
+---------+-----+----------------------------------------------------+
|         |     | {                                                  |
|         |     |    "file_path": "dbfs:/tmp/f1.csv",                |
| Frank   | 24  |    "file_name": "f1.csv",                          |
|         |     |    "file_size": 12,                                |
|         |     |    "file_block_start": 0,                          |
|         |     |    "file_block_length": 12,                        |
|         |     |    "file_modification_time": "2021-12-20 02:06:21" |
|         |     | }                                                  |
+---------+-----+----------------------------------------------------+
'''

Scala

val df = spark.read
  .format("csv")
  .schema(schema)
  .load("dbfs:/tmp/*")
  .select("*", "_metadata")

display(df_population)

/* Result:
+---------+-----+----------------------------------------------------+
|   name  | age |                 _metadata                          |
+=========+=====+====================================================+
|         |     | {                                                  |
|         |     |    "file_path": "dbfs:/tmp/f0.csv",                |
| Debbie  | 18  |    "file_name": "f0.csv",                          |
|         |     |    "file_size": 12,                                |
|         |     |    "file_block_start": 0,                          |
|         |     |    "file_block_length": 12,                        |
|         |     |    "file_modification_time": "2021-07-02 01:05:21" |
|         |     | }                                                  |
+---------+-----+----------------------------------------------------+
|         |     | {                                                  |
|         |     |    "file_path": "dbfs:/tmp/f1.csv",                |
| Frank   | 24  |    "file_name": "f1.csv",                          |
|         |     |    "file_size": 10,                                |
|         |     |    "file_block_start": 0,                          |
|         |     |    "file_block_length": 12,                        |
|         |     |    "file_modification_time": "2021-12-20 02:06:21" |
|         |     | }                                                  |
+---------+-----+----------------------------------------------------+
*/

Selecionar campos específicos

Python

spark.read \
  .format("csv") \
  .schema(schema) \
  .load("dbfs:/tmp/*") \
  .select("_metadata.file_name", "_metadata.file_size")

Scala

spark.read
  .format("csv")
  .schema(schema)
  .load("dbfs:/tmp/*")
  .select("_metadata.file_name", "_metadata.file_size")

Utilizar em filtros

Python

spark.read \
  .format("csv") \
  .schema(schema) \
  .load("dbfs:/tmp/*") \
  .select("*") \
  .filter(col("_metadata.file_name") == lit("test.csv"))

Scala

spark.read
  .format("csv")
  .schema(schema)
  .load("dbfs:/tmp/*")
  .select("*")
  .filter(col("_metadata.file_name") === lit("test.csv"))

Utilizar em COPIAR PARA

COPY INTO my_delta_table
FROM (
  SELECT *, _metadata FROM 'abfss://my-container-name@storage-account-name.dfs.core.windows.net/csvData'
)
FILEFORMAT = CSV

Utilizar no Carregador Automático

Nota

Ao escrever a coluna, mudamos o _metadata nome para source_metadata. Escrevê-la como _metadata tornaria impossível aceder à coluna de metadados na tabela de destino, porque se a origem de dados contiver uma coluna com o nome _metadata, as consultas devolverão a coluna da origem de dados e não os metadados de ficheiro.

Python

spark.readStream \
  .format("cloudFiles") \
  .option("cloudFiles.format", "csv") \
  .schema(schema) \
  .load("abfss://my-container-name@storage-account-name.dfs.core.windows.net/csvData") \
  .selectExpr("*", "_metadata as source_metadata") \
  .writeStream \
  .format("delta") \
  .option("checkpointLocation", checkpointLocation) \
  .start(targetTable)

Scala

spark.readStream
  .format("cloudFiles")
  .option("cloudFiles.format", "csv")
  .schema(schema)
  .load("abfss://my-container-name@storage-account-name.dfs.core.windows.net/csvData")
  .selectExpr("*", "_metadata as source_metadata")
  .writeStream
  .format("delta")
  .option("checkpointLocation", checkpointLocation)
  .start(targetTable)

Partilhar via

Coluna de metadados de ficheiro

Metadados suportados

Exemplos

Utilizar num leitor básico de origem de dados baseada em ficheiros

Python

Scala

Selecionar campos específicos

Python

Scala

Utilizar em filtros

Python

Scala

Utilizar em COPIAR PARA

Utilizar no Carregador Automático

Python

Scala

Recursos adicionais

Partilhar via

Coluna de metadados de ficheiro

Metadados suportados

Exemplos

Utilizar num leitor básico de origem de dados baseada em ficheiros

Python

Scala

Selecionar campos específicos

Python

Scala

Utilizar em filtros

Python

Scala

Utilizar em COPIAR PARA

Utilizar no Carregador Automático

Python

Scala

Artigos relacionados

Recursos adicionais