Dosya meta veri sütunu

Makale
08/14/2024

Giriş dosyaları için meta veri bilgilerini sütunuyla _metadata alabilirsiniz. Sütun _metadata gizli bir sütundur ve tüm giriş dosyası biçimleri için kullanılabilir. Sütunu döndürülen DataFrame'e eklemek _metadata için sorgunuzda sütununa açıkça başvurmanız gerekir.

Veri kaynağı adlı _metadatabir sütun içeriyorsa, sorgular sütunu dosya meta verilerinden değil veri kaynağından döndürür.

Uyarı

Gelecek sürümlerde sütuna _metadata yeni alanlar eklenebilir. Sütun güncelleştirilirse _metadata şema evrimi hatalarını önlemek için Databricks sorgularınızdaki sütundan belirli alanların seçilmesini önerir. Örneklere bakın.

Desteklenen meta veriler

Sütun _metadata aşağıdaki alanları içeren bir STRUCT sütundur:

Adı	Tür	Açıklama	Örnek	En Düşük Databricks Runtime sürümü
file_path	`STRING`	Giriş dosyasının dosya yolu.	`file:/tmp/f0.csv`	10.5
file_name	`STRING`	Uzantıyla birlikte giriş dosyasının adı.	`f0.csv`	10.5
file_size	`LONG`	Giriş dosyasının bayt cinsinden uzunluğu.	628	10.5
file_modification_time	`TIMESTAMP`	Giriş dosyasının son değişiklik zaman damgası.	`2021-12-20 20:05:21`	10.5
file_block_start	`LONG`	Okunan bloğun bayt cinsinden uzaklığını başlatın.	0	13.0
file_block_length	`LONG`	Okunan bloğun bayt cinsinden uzunluğu.	628	13.0

Örnekler

Temel dosya tabanlı veri kaynağı okuyucuda kullanma

Python

df = spark.read \
  .format("csv") \
  .schema(schema) \
  .load("dbfs:/tmp/*") \
  .select("*", "_metadata")

display(df)

'''
Result:
+---------+-----+----------------------------------------------------+
|   name  | age |                 _metadata                          |
+=========+=====+====================================================+
|         |     | {                                                  |
|         |     |    "file_path": "dbfs:/tmp/f0.csv",                |
| Debbie  | 18  |    "file_name": "f0.csv",                          |
|         |     |    "file_size": 12,                                |
|         |     |    "file_block_start": 0,                          |
|         |     |    "file_block_length": 12,                        |
|         |     |    "file_modification_time": "2021-07-02 01:05:21" |
|         |     | }                                                  |
+---------+-----+----------------------------------------------------+
|         |     | {                                                  |
|         |     |    "file_path": "dbfs:/tmp/f1.csv",                |
| Frank   | 24  |    "file_name": "f1.csv",                          |
|         |     |    "file_size": 12,                                |
|         |     |    "file_block_start": 0,                          |
|         |     |    "file_block_length": 12,                        |
|         |     |    "file_modification_time": "2021-12-20 02:06:21" |
|         |     | }                                                  |
+---------+-----+----------------------------------------------------+
'''

Scala

val df = spark.read
  .format("csv")
  .schema(schema)
  .load("dbfs:/tmp/*")
  .select("*", "_metadata")

display(df_population)

/* Result:
+---------+-----+----------------------------------------------------+
|   name  | age |                 _metadata                          |
+=========+=====+====================================================+
|         |     | {                                                  |
|         |     |    "file_path": "dbfs:/tmp/f0.csv",                |
| Debbie  | 18  |    "file_name": "f0.csv",                          |
|         |     |    "file_size": 12,                                |
|         |     |    "file_block_start": 0,                          |
|         |     |    "file_block_length": 12,                        |
|         |     |    "file_modification_time": "2021-07-02 01:05:21" |
|         |     | }                                                  |
+---------+-----+----------------------------------------------------+
|         |     | {                                                  |
|         |     |    "file_path": "dbfs:/tmp/f1.csv",                |
| Frank   | 24  |    "file_name": "f1.csv",                          |
|         |     |    "file_size": 10,                                |
|         |     |    "file_block_start": 0,                          |
|         |     |    "file_block_length": 12,                        |
|         |     |    "file_modification_time": "2021-12-20 02:06:21" |
|         |     | }                                                  |
+---------+-----+----------------------------------------------------+
*/

Belirli alanları seçme

Python

spark.read \
  .format("csv") \
  .schema(schema) \
  .load("dbfs:/tmp/*") \
  .select("_metadata.file_name", "_metadata.file_size")

Scala

spark.read
  .format("csv")
  .schema(schema)
  .load("dbfs:/tmp/*")
  .select("_metadata.file_name", "_metadata.file_size")

Filtrelerde kullanma

Python

spark.read \
  .format("csv") \
  .schema(schema) \
  .load("dbfs:/tmp/*") \
  .select("*") \
  .filter(col("_metadata.file_name") == lit("test.csv"))

Scala

spark.read
  .format("csv")
  .schema(schema)
  .load("dbfs:/tmp/*")
  .select("*")
  .filter(col("_metadata.file_name") === lit("test.csv"))

COPY INTO'da kullanma

COPY INTO my_delta_table
FROM (
  SELECT *, _metadata FROM 'abfss://my-container-name@storage-account-name.dfs.core.windows.net/csvData'
)
FILEFORMAT = CSV

Otomatik Yükleyici'de kullanma

Not

Sütunu yazarken _metadata olarak yeniden adlandırıyoruz source_metadata. Veri kaynağı adlı _metadatabir sütun içeriyorsa sorgular, dosya meta verilerini değil veri kaynağından sütunu döndüreceğinden, bunu olduğu gibi _metadata yazmak hedef tablodaki meta veri sütununa erişmeyi imkansız hale getirir.

Python

spark.readStream \
  .format("cloudFiles") \
  .option("cloudFiles.format", "csv") \
  .schema(schema) \
  .load("abfss://my-container-name@storage-account-name.dfs.core.windows.net/csvData") \
  .selectExpr("*", "_metadata as source_metadata") \
  .writeStream \
  .option("checkpointLocation", checkpointLocation) \
  .start(targetTable)

Scala

spark.readStream
  .format("cloudFiles")
  .option("cloudFiles.format", "csv")
  .schema(schema)
  .load("abfss://my-container-name@storage-account-name.dfs.core.windows.net/csvData")
  .selectExpr("*", "_metadata as source_metadata")
  .writeStream
  .option("checkpointLocation", checkpointLocation)
  .start(targetTable)

Aracılığıyla paylaş

Dosya meta veri sütunu

Desteklenen meta veriler

Örnekler

Temel dosya tabanlı veri kaynağı okuyucuda kullanma

Python

Scala

Belirli alanları seçme

Python

Scala

Filtrelerde kullanma

Python

Scala

COPY INTO'da kullanma

Otomatik Yükleyici'de kullanma

Python

Scala

Geri Bildirim

Ek kaynaklar

Aracılığıyla paylaş

Dosya meta veri sütunu

Desteklenen meta veriler

Örnekler

Temel dosya tabanlı veri kaynağı okuyucuda kullanma

Python

Scala

Belirli alanları seçme

Python

Scala

Filtrelerde kullanma

Python

Scala

COPY INTO'da kullanma

Otomatik Yükleyici'de kullanma

Python

Scala

İlgili makaleler

Geri Bildirim

Ek kaynaklar