Kolom met bestandsmetagegevens

Artikel
03/01/2024

U kunt metagegevensgegevens voor invoerbestanden ophalen met de _metadata kolom. De _metadata kolom is een verborgen kolom en is beschikbaar voor alle invoerbestandsindelingen. Als u de _metadata kolom wilt opnemen in het geretourneerde DataFrame, moet u er expliciet naar verwijzen in uw query.

Als de gegevensbron een kolom met de naam _metadatabevat, retourneren query's de kolom uit de gegevensbron en niet de metagegevens van het bestand.

Waarschuwing

Nieuwe velden kunnen in toekomstige releases aan de _metadata kolom worden toegevoegd. Databricks raadt u aan specifieke velden te selecteren uit de kolom in uw query's om fouten in de schemaontwikkeling te voorkomen als de _metadata kolom wordt bijgewerkt. Zie voorbeelden.

Ondersteunde metagegevens

De _metadata kolom is een STRUCT met de volgende velden:

Naam	Type	Beschrijving	Voorbeeld	Minimale release van Databricks Runtime
file_path	`STRING`	Bestandspad van het invoerbestand.	`file:/tmp/f0.csv`	10.5
Bestandsnaam	`STRING`	Naam van het invoerbestand, samen met de extensie.	`f0.csv`	10.5
file_size	`LONG`	Lengte van het invoerbestand, in bytes.	628	10.5
file_modification_time	`TIMESTAMP`	Tijdstempel van laatste wijziging van het invoerbestand.	`2021-12-20 20:05:21`	10.5
file_block_start	`LONG`	Begin offset van het blok dat wordt gelezen, in bytes.	0	13.0
file_block_length	`LONG`	Lengte van het blok dat wordt gelezen, in bytes.	628	13.0

Voorbeelden

Gebruiken in een eenvoudige, op bestanden gebaseerde gegevensbronlezer

Python

df = spark.read \
  .format("csv") \
  .schema(schema) \
  .load("dbfs:/tmp/*") \
  .select("*", "_metadata")

display(df)

'''
Result:
+---------+-----+----------------------------------------------------+
|   name  | age |                 _metadata                          |
+=========+=====+====================================================+
|         |     | {                                                  |
|         |     |    "file_path": "dbfs:/tmp/f0.csv",                |
| Debbie  | 18  |    "file_name": "f0.csv",                          |
|         |     |    "file_size": 12,                                |
|         |     |    "file_block_start": 0,                          |
|         |     |    "file_block_length": 12,                        |
|         |     |    "file_modification_time": "2021-07-02 01:05:21" |
|         |     | }                                                  |
+---------+-----+----------------------------------------------------+
|         |     | {                                                  |
|         |     |    "file_path": "dbfs:/tmp/f1.csv",                |
| Frank   | 24  |    "file_name": "f1.csv",                          |
|         |     |    "file_size": 12,                                |
|         |     |    "file_block_start": 0,                          |
|         |     |    "file_block_length": 12,                        |
|         |     |    "file_modification_time": "2021-12-20 02:06:21" |
|         |     | }                                                  |
+---------+-----+----------------------------------------------------+
'''

Scala

val df = spark.read
  .format("csv")
  .schema(schema)
  .load("dbfs:/tmp/*")
  .select("*", "_metadata")

display(df_population)

/* Result:
+---------+-----+----------------------------------------------------+
|   name  | age |                 _metadata                          |
+=========+=====+====================================================+
|         |     | {                                                  |
|         |     |    "file_path": "dbfs:/tmp/f0.csv",                |
| Debbie  | 18  |    "file_name": "f0.csv",                          |
|         |     |    "file_size": 12,                                |
|         |     |    "file_block_start": 0,                          |
|         |     |    "file_block_length": 12,                        |
|         |     |    "file_modification_time": "2021-07-02 01:05:21" |
|         |     | }                                                  |
+---------+-----+----------------------------------------------------+
|         |     | {                                                  |
|         |     |    "file_path": "dbfs:/tmp/f1.csv",                |
| Frank   | 24  |    "file_name": "f1.csv",                          |
|         |     |    "file_size": 10,                                |
|         |     |    "file_block_start": 0,                          |
|         |     |    "file_block_length": 12,                        |
|         |     |    "file_modification_time": "2021-12-20 02:06:21" |
|         |     | }                                                  |
+---------+-----+----------------------------------------------------+
*/

Specifieke velden selecteren

Python

spark.read \
  .format("csv") \
  .schema(schema) \
  .load("dbfs:/tmp/*") \
  .select("_metadata.file_name", "_metadata.file_size")

Scala

spark.read
  .format("csv")
  .schema(schema)
  .load("dbfs:/tmp/*")
  .select("_metadata.file_name", "_metadata.file_size")

Gebruiken in filters

Python

spark.read \
  .format("csv") \
  .schema(schema) \
  .load("dbfs:/tmp/*") \
  .select("*") \
  .filter(col("_metadata.file_name") == lit("test.csv"))

Scala

spark.read
  .format("csv")
  .schema(schema)
  .load("dbfs:/tmp/*")
  .select("*")
  .filter(col("_metadata.file_name") === lit("test.csv"))

Gebruiken in COPY INTO

COPY INTO my_delta_table
FROM (
  SELECT *, _metadata FROM 'abfss://my-container-name@storage-account-name.dfs.core.windows.net/csvData'
)
FILEFORMAT = CSV

Gebruiken in automatisch laadprogramma

Opmerking

Wanneer u de kolom schrijft, wijzigen we deze _metadata in source_metadata. Als u deze schrijft als _metadata , is het onmogelijk om toegang te krijgen tot de kolom met metagegevens in de doeltabel, omdat als de gegevensbron een kolom met de naam _metadatabevat, query's de kolom uit de gegevensbron retourneren en niet de metagegevens van het bestand.

Python

spark.readStream \
  .format("cloudFiles") \
  .option("cloudFiles.format", "csv") \
  .schema(schema) \
  .load("abfss://my-container-name@storage-account-name.dfs.core.windows.net/csvData") \
  .selectExpr("*", "_metadata as source_metadata") \
  .writeStream \
  .format("delta") \
  .option("checkpointLocation", checkpointLocation) \
  .start(targetTable)

Scala

spark.readStream
  .format("cloudFiles")
  .option("cloudFiles.format", "csv")
  .schema(schema)
  .load("abfss://my-container-name@storage-account-name.dfs.core.windows.net/csvData")
  .selectExpr("*", "_metadata as source_metadata")
  .writeStream
  .format("delta")
  .option("checkpointLocation", checkpointLocation)
  .start(targetTable)

Delen via

Kolom met bestandsmetagegevens

Ondersteunde metagegevens

Voorbeelden

Gebruiken in een eenvoudige, op bestanden gebaseerde gegevensbronlezer

Python

Scala

Specifieke velden selecteren

Python

Scala

Gebruiken in filters

Python

Scala

Gebruiken in COPY INTO

Gebruiken in automatisch laadprogramma

Python

Scala

Aanvullende resources

Delen via

Kolom met bestandsmetagegevens

Ondersteunde metagegevens

Voorbeelden

Gebruiken in een eenvoudige, op bestanden gebaseerde gegevensbronlezer

Python

Scala

Specifieke velden selecteren

Python

Scala

Gebruiken in filters

Python

Scala

Gebruiken in COPY INTO

Gebruiken in automatisch laadprogramma

Python

Scala

Verwante artikelen

Aanvullende resources