Colonna metadati file

Articolo
03/01/2024

È possibile ottenere informazioni sui metadati per i file di input con la _metadata colonna. La _metadata colonna è una colonna nascosta ed è disponibile per tutti i formati di file di input. Per includere la _metadata colonna nel dataframe restituito, è necessario farvi riferimento in modo esplicito nella query.

Se l'origine dati contiene una colonna denominata _metadata, le query restituiscono la colonna dall'origine dati e non i metadati del file.

Avviso

I nuovi campi potrebbero essere aggiunti alla _metadata colonna nelle versioni future. Per evitare errori di evoluzione dello schema se la _metadata colonna viene aggiornata, Databricks consiglia di selezionare campi specifici dalla colonna nelle query. Vedere esempi.

Metadati supportati

La _metadata colonna è un STRUCT oggetto contenente i campi seguenti:

Nome	Digitare	Descrizione	Esempio	Versione minima di Databricks Runtime
file_path	`STRING`	Percorso file del file di input.	`file:/tmp/f0.csv`	10.5
file_name	`STRING`	Nome del file di input insieme alla relativa estensione.	`f0.csv`	10.5
file_size	`LONG`	Lunghezza del file di input, in byte.	628	10.5
file_modification_time	`TIMESTAMP`	Timestamp dell'ultima modifica del file di input.	`2021-12-20 20:05:21`	10.5
file_block_start	`LONG`	Offset iniziale del blocco letto, in byte.	0	13.0
file_block_length	`LONG`	Lunghezza del blocco in lettura, in byte.	628	13.0

Esempi

Usare in un lettore di origine dati basato su file di base

Python

df = spark.read \
  .format("csv") \
  .schema(schema) \
  .load("dbfs:/tmp/*") \
  .select("*", "_metadata")

display(df)

'''
Result:
+---------+-----+----------------------------------------------------+
|   name  | age |                 _metadata                          |
+=========+=====+====================================================+
|         |     | {                                                  |
|         |     |    "file_path": "dbfs:/tmp/f0.csv",                |
| Debbie  | 18  |    "file_name": "f0.csv",                          |
|         |     |    "file_size": 12,                                |
|         |     |    "file_block_start": 0,                          |
|         |     |    "file_block_length": 12,                        |
|         |     |    "file_modification_time": "2021-07-02 01:05:21" |
|         |     | }                                                  |
+---------+-----+----------------------------------------------------+
|         |     | {                                                  |
|         |     |    "file_path": "dbfs:/tmp/f1.csv",                |
| Frank   | 24  |    "file_name": "f1.csv",                          |
|         |     |    "file_size": 12,                                |
|         |     |    "file_block_start": 0,                          |
|         |     |    "file_block_length": 12,                        |
|         |     |    "file_modification_time": "2021-12-20 02:06:21" |
|         |     | }                                                  |
+---------+-----+----------------------------------------------------+
'''

Scala

val df = spark.read
  .format("csv")
  .schema(schema)
  .load("dbfs:/tmp/*")
  .select("*", "_metadata")

display(df_population)

/* Result:
+---------+-----+----------------------------------------------------+
|   name  | age |                 _metadata                          |
+=========+=====+====================================================+
|         |     | {                                                  |
|         |     |    "file_path": "dbfs:/tmp/f0.csv",                |
| Debbie  | 18  |    "file_name": "f0.csv",                          |
|         |     |    "file_size": 12,                                |
|         |     |    "file_block_start": 0,                          |
|         |     |    "file_block_length": 12,                        |
|         |     |    "file_modification_time": "2021-07-02 01:05:21" |
|         |     | }                                                  |
+---------+-----+----------------------------------------------------+
|         |     | {                                                  |
|         |     |    "file_path": "dbfs:/tmp/f1.csv",                |
| Frank   | 24  |    "file_name": "f1.csv",                          |
|         |     |    "file_size": 10,                                |
|         |     |    "file_block_start": 0,                          |
|         |     |    "file_block_length": 12,                        |
|         |     |    "file_modification_time": "2021-12-20 02:06:21" |
|         |     | }                                                  |
+---------+-----+----------------------------------------------------+
*/

Selezionare campi specifici

Python

spark.read \
  .format("csv") \
  .schema(schema) \
  .load("dbfs:/tmp/*") \
  .select("_metadata.file_name", "_metadata.file_size")

Scala

spark.read
  .format("csv")
  .schema(schema)
  .load("dbfs:/tmp/*")
  .select("_metadata.file_name", "_metadata.file_size")

Usare nei filtri

Python

spark.read \
  .format("csv") \
  .schema(schema) \
  .load("dbfs:/tmp/*") \
  .select("*") \
  .filter(col("_metadata.file_name") == lit("test.csv"))

Scala

spark.read
  .format("csv")
  .schema(schema)
  .load("dbfs:/tmp/*")
  .select("*")
  .filter(col("_metadata.file_name") === lit("test.csv"))

Usare in COPY INTO

COPY INTO my_delta_table
FROM (
  SELECT *, _metadata FROM 'abfss://my-container-name@storage-account-name.dfs.core.windows.net/csvData'
)
FILEFORMAT = CSV

Usare nel caricatore automatico

Nota

Quando si scrive la _metadata colonna, la si rinomina in source_metadata. Scriverla come _metadata renderebbe impossibile accedere alla colonna dei metadati nella tabella di destinazione, perché se l'origine dati contiene una colonna denominata _metadata, le query restituiranno la colonna dall'origine dati e non i metadati del file.

Python

spark.readStream \
  .format("cloudFiles") \
  .option("cloudFiles.format", "csv") \
  .schema(schema) \
  .load("abfss://my-container-name@storage-account-name.dfs.core.windows.net/csvData") \
  .selectExpr("*", "_metadata as source_metadata") \
  .writeStream \
  .format("delta") \
  .option("checkpointLocation", checkpointLocation) \
  .start(targetTable)

Scala

spark.readStream
  .format("cloudFiles")
  .option("cloudFiles.format", "csv")
  .schema(schema)
  .load("abfss://my-container-name@storage-account-name.dfs.core.windows.net/csvData")
  .selectExpr("*", "_metadata as source_metadata")
  .writeStream
  .format("delta")
  .option("checkpointLocation", checkpointLocation)
  .start(targetTable)

Condividi tramite

Colonna metadati file

Metadati supportati

Esempi

Usare in un lettore di origine dati basato su file di base

Python

Scala

Selezionare campi specifici

Python

Scala

Usare nei filtri

Python

Scala

Usare in COPY INTO

Usare nel caricatore automatico

Python

Scala

Risorse aggiuntive

Condividi tramite

Colonna metadati file

Metadati supportati

Esempi

Usare in un lettore di origine dati basato su file di base

Python

Scala

Selezionare campi specifici

Python

Scala

Usare nei filtri

Python

Scala

Usare in COPY INTO

Usare nel caricatore automatico

Python

Scala

Articoli correlati

Risorse aggiuntive