Kolom metadata file

Artikel
03/01/2024

Anda bisa mendapatkan informasi metadata untuk file input dengan _metadata kolom . Kolom _metadata adalah kolom tersembunyi , dan tersedia untuk semua format file input. Untuk menyertakan _metadata kolom dalam DataFrame yang dikembalikan, Anda harus secara eksplisit mereferensikannya dalam kueri Anda.

Jika sumber data berisi kolom bernama _metadata, kueri mengembalikan kolom dari sumber data, dan bukan metadata file.

Peringatan

Bidang baru mungkin ditambahkan ke _metadata kolom dalam rilis mendatang. Untuk mencegah kesalahan evolusi skema jika kolom diperbarui _metadata , Databricks merekomendasikan untuk memilih bidang tertentu dari kolom dalam kueri Anda. Lihat contoh.

Metadata yang didukung

Kolom _metadata berisi STRUCT bidang berikut:

Nama	Jenis	Deskripsi	Contoh	Rilis Runtime Databricks Minimum
file_path	`STRING`	Jalur file file input.	`file:/tmp/f0.csv`	10.5
file_name	`STRING`	Nama file input bersama dengan ekstensinya.	`f0.csv`	10.5
file_size	`LONG`	Panjang file input, dalam byte.	628	10.5
file_modification_time	`TIMESTAMP`	Tanda waktu modifikasi terakhir dari file input.	`2021-12-20 20:05:21`	10.5
file_block_start	`LONG`	Mulai offset blok yang dibaca, dalam byte.	0	13.0
file_block_length	`LONG`	Panjang blok yang dibaca, dalam byte.	628	13.0

Contoh

Gunakan dalam pembaca sumber data berbasis file dasar

Python

df = spark.read \
  .format("csv") \
  .schema(schema) \
  .load("dbfs:/tmp/*") \
  .select("*", "_metadata")

display(df)

'''
Result:
+---------+-----+----------------------------------------------------+
|   name  | age |                 _metadata                          |
+=========+=====+====================================================+
|         |     | {                                                  |
|         |     |    "file_path": "dbfs:/tmp/f0.csv",                |
| Debbie  | 18  |    "file_name": "f0.csv",                          |
|         |     |    "file_size": 12,                                |
|         |     |    "file_block_start": 0,                          |
|         |     |    "file_block_length": 12,                        |
|         |     |    "file_modification_time": "2021-07-02 01:05:21" |
|         |     | }                                                  |
+---------+-----+----------------------------------------------------+
|         |     | {                                                  |
|         |     |    "file_path": "dbfs:/tmp/f1.csv",                |
| Frank   | 24  |    "file_name": "f1.csv",                          |
|         |     |    "file_size": 12,                                |
|         |     |    "file_block_start": 0,                          |
|         |     |    "file_block_length": 12,                        |
|         |     |    "file_modification_time": "2021-12-20 02:06:21" |
|         |     | }                                                  |
+---------+-----+----------------------------------------------------+
'''

Scala

val df = spark.read
  .format("csv")
  .schema(schema)
  .load("dbfs:/tmp/*")
  .select("*", "_metadata")

display(df_population)

/* Result:
+---------+-----+----------------------------------------------------+
|   name  | age |                 _metadata                          |
+=========+=====+====================================================+
|         |     | {                                                  |
|         |     |    "file_path": "dbfs:/tmp/f0.csv",                |
| Debbie  | 18  |    "file_name": "f0.csv",                          |
|         |     |    "file_size": 12,                                |
|         |     |    "file_block_start": 0,                          |
|         |     |    "file_block_length": 12,                        |
|         |     |    "file_modification_time": "2021-07-02 01:05:21" |
|         |     | }                                                  |
+---------+-----+----------------------------------------------------+
|         |     | {                                                  |
|         |     |    "file_path": "dbfs:/tmp/f1.csv",                |
| Frank   | 24  |    "file_name": "f1.csv",                          |
|         |     |    "file_size": 10,                                |
|         |     |    "file_block_start": 0,                          |
|         |     |    "file_block_length": 12,                        |
|         |     |    "file_modification_time": "2021-12-20 02:06:21" |
|         |     | }                                                  |
+---------+-----+----------------------------------------------------+
*/

Pilih bidang tertentu

Python

spark.read \
  .format("csv") \
  .schema(schema) \
  .load("dbfs:/tmp/*") \
  .select("_metadata.file_name", "_metadata.file_size")

Scala

spark.read
  .format("csv")
  .schema(schema)
  .load("dbfs:/tmp/*")
  .select("_metadata.file_name", "_metadata.file_size")

Gunakan dalam filter

Python

spark.read \
  .format("csv") \
  .schema(schema) \
  .load("dbfs:/tmp/*") \
  .select("*") \
  .filter(col("_metadata.file_name") == lit("test.csv"))

Scala

spark.read
  .format("csv")
  .schema(schema)
  .load("dbfs:/tmp/*")
  .select("*")
  .filter(col("_metadata.file_name") === lit("test.csv"))

Gunakan dalam COPY INTO

COPY INTO my_delta_table
FROM (
  SELECT *, _metadata FROM 'abfss://my-container-name@storage-account-name.dfs.core.windows.net/csvData'
)
FILEFORMAT = CSV

Gunakan di Auto Loader

Catatan

Saat menulis _metadata kolom, kami mengganti namanya menjadi source_metadata. Menulisnya seperti _metadata yang akan membuatnya tidak mungkin untuk mengakses kolom metadata dalam tabel target, karena jika sumber data berisi kolom bernama _metadata, kueri akan mengembalikan kolom dari sumber data, dan bukan metadata file.

Python

spark.readStream \
  .format("cloudFiles") \
  .option("cloudFiles.format", "csv") \
  .schema(schema) \
  .load("abfss://my-container-name@storage-account-name.dfs.core.windows.net/csvData") \
  .selectExpr("*", "_metadata as source_metadata") \
  .writeStream \
  .format("delta") \
  .option("checkpointLocation", checkpointLocation) \
  .start(targetTable)

Scala

spark.readStream
  .format("cloudFiles")
  .option("cloudFiles.format", "csv")
  .schema(schema)
  .load("abfss://my-container-name@storage-account-name.dfs.core.windows.net/csvData")
  .selectExpr("*", "_metadata as source_metadata")
  .writeStream
  .format("delta")
  .option("checkpointLocation", checkpointLocation)
  .start(targetTable)

Kolom metadata file

Metadata yang didukung

Contoh

Gunakan dalam pembaca sumber data berbasis file dasar

Python

Scala

Pilih bidang tertentu

Python

Scala

Gunakan dalam filter

Python

Scala

Gunakan dalam COPY INTO

Gunakan di Auto Loader

Python

Scala

Artikel terkait

Sumber Daya Tambahan: