عمود بيانات تعريف الملف

مقالة
08/14/2024

يمكنك الحصول على معلومات بيانات التعريف لملفات الإدخال باستخدام _metadata العمود. _metadata العمود عبارة عن عمود مخفي، وهو متوفر لكافة تنسيقات ملفات الإدخال. لتضمين _metadata العمود في DataFrame الذي تم إرجاعه، يجب الإشارة إليه بشكل صريح في الاستعلام الخاص بك.

إذا كان مصدر البيانات يحتوي على عمود يسمى _metadata، فإن الاستعلامات ترجع العمود من مصدر البيانات، وليس بيانات تعريف الملف.

تحذير

قد تتم إضافة حقول جديدة إلى _metadata العمود في الإصدارات المستقبلية. لمنع أخطاء تطور المخطط إذا _metadata تم تحديث العمود، يوصي Databricks بتحديد حقول معينة من العمود في استعلاماتك. راجع الأمثلة.

بيانات التعريف المدعومة

_metadata العمود هو يحتوي STRUCT على الحقول التالية:

Name	كتابة	‏‏الوصف	مثال	الحد الأدنى لإصدار وقت تشغيل Databricks
file_path	`STRING`	مسار ملف ملف الإدخال.	`file:/tmp/f0.csv`	10.5
file_name	`STRING`	اسم ملف الإدخال مع ملحقه.	`f0.csv`	10.5
file_size	`LONG`	طول ملف الإدخال بالبايت.	628	10.5
file_modification_time	`TIMESTAMP`	الطابع الزمني للتعديل الأخير لملف الإدخال.	`2021-12-20 20:05:21`	10.5
file_block_start	`LONG`	بدء إزاحة الكتلة التي تتم قراءتها بالبايت.	0	13.0
file_block_length	`LONG`	طول الكتلة التي تتم قراءتها بالبايت.	628	13.0

امثله

استخدام في قارئ مصدر بيانات أساسي يستند إلى الملفات

Python

df = spark.read \
  .format("csv") \
  .schema(schema) \
  .load("dbfs:/tmp/*") \
  .select("*", "_metadata")

display(df)

'''
Result:
+---------+-----+----------------------------------------------------+
|   name  | age |                 _metadata                          |
+=========+=====+====================================================+
|         |     | {                                                  |
|         |     |    "file_path": "dbfs:/tmp/f0.csv",                |
| Debbie  | 18  |    "file_name": "f0.csv",                          |
|         |     |    "file_size": 12,                                |
|         |     |    "file_block_start": 0,                          |
|         |     |    "file_block_length": 12,                        |
|         |     |    "file_modification_time": "2021-07-02 01:05:21" |
|         |     | }                                                  |
+---------+-----+----------------------------------------------------+
|         |     | {                                                  |
|         |     |    "file_path": "dbfs:/tmp/f1.csv",                |
| Frank   | 24  |    "file_name": "f1.csv",                          |
|         |     |    "file_size": 12,                                |
|         |     |    "file_block_start": 0,                          |
|         |     |    "file_block_length": 12,                        |
|         |     |    "file_modification_time": "2021-12-20 02:06:21" |
|         |     | }                                                  |
+---------+-----+----------------------------------------------------+
'''

Scala

val df = spark.read
  .format("csv")
  .schema(schema)
  .load("dbfs:/tmp/*")
  .select("*", "_metadata")

display(df_population)

/* Result:
+---------+-----+----------------------------------------------------+
|   name  | age |                 _metadata                          |
+=========+=====+====================================================+
|         |     | {                                                  |
|         |     |    "file_path": "dbfs:/tmp/f0.csv",                |
| Debbie  | 18  |    "file_name": "f0.csv",                          |
|         |     |    "file_size": 12,                                |
|         |     |    "file_block_start": 0,                          |
|         |     |    "file_block_length": 12,                        |
|         |     |    "file_modification_time": "2021-07-02 01:05:21" |
|         |     | }                                                  |
+---------+-----+----------------------------------------------------+
|         |     | {                                                  |
|         |     |    "file_path": "dbfs:/tmp/f1.csv",                |
| Frank   | 24  |    "file_name": "f1.csv",                          |
|         |     |    "file_size": 10,                                |
|         |     |    "file_block_start": 0,                          |
|         |     |    "file_block_length": 12,                        |
|         |     |    "file_modification_time": "2021-12-20 02:06:21" |
|         |     | }                                                  |
+---------+-----+----------------------------------------------------+
*/

تحديد حقول معينة

Python

spark.read \
  .format("csv") \
  .schema(schema) \
  .load("dbfs:/tmp/*") \
  .select("_metadata.file_name", "_metadata.file_size")

Scala

spark.read
  .format("csv")
  .schema(schema)
  .load("dbfs:/tmp/*")
  .select("_metadata.file_name", "_metadata.file_size")

استخدام في عوامل التصفية

Python

spark.read \
  .format("csv") \
  .schema(schema) \
  .load("dbfs:/tmp/*") \
  .select("*") \
  .filter(col("_metadata.file_name") == lit("test.csv"))

Scala

spark.read
  .format("csv")
  .schema(schema)
  .load("dbfs:/tmp/*")
  .select("*")
  .filter(col("_metadata.file_name") === lit("test.csv"))

استخدام في COPY INTO

COPY INTO my_delta_table
FROM (
  SELECT *, _metadata FROM 'abfss://my-container-name@storage-account-name.dfs.core.windows.net/csvData'
)
FILEFORMAT = CSV

الاستخدام في "المحمل التلقائي"

إشعار

عند كتابة _metadata العمود، نقوم بإعادة تسميته إلى source_metadata. إن كتابتها كما _metadata قد تجعل من المستحيل الوصول إلى عمود بيانات التعريف في الجدول الهدف، لأنه إذا كان مصدر البيانات يحتوي على عمود يسمى _metadata، فسترجع الاستعلامات العمود من مصدر البيانات، وليس بيانات تعريف الملف.

Python

spark.readStream \
  .format("cloudFiles") \
  .option("cloudFiles.format", "csv") \
  .schema(schema) \
  .load("abfss://my-container-name@storage-account-name.dfs.core.windows.net/csvData") \
  .selectExpr("*", "_metadata as source_metadata") \
  .writeStream \
  .option("checkpointLocation", checkpointLocation) \
  .start(targetTable)

Scala

spark.readStream
  .format("cloudFiles")
  .option("cloudFiles.format", "csv")
  .schema(schema)
  .load("abfss://my-container-name@storage-account-name.dfs.core.windows.net/csvData")
  .selectExpr("*", "_metadata as source_metadata")
  .writeStream
  .option("checkpointLocation", checkpointLocation)
  .start(targetTable)

مشاركة عبر

عمود بيانات تعريف الملف

بيانات التعريف المدعومة

امثله

استخدام في قارئ مصدر بيانات أساسي يستند إلى الملفات

Python

Scala

تحديد حقول معينة

Python

Scala

استخدام في عوامل التصفية

Python

Scala

استخدام في COPY INTO

الاستخدام في "المحمل التلقائي"

Python

Scala

الملاحظات

الموارد الإضافية

مشاركة عبر

عمود بيانات تعريف الملف

بيانات التعريف المدعومة

امثله

استخدام في قارئ مصدر بيانات أساسي يستند إلى الملفات

Python

Scala

تحديد حقول معينة

Python

Scala

استخدام في عوامل التصفية

Python

Scala

استخدام في COPY INTO

الاستخدام في "المحمل التلقائي"

Python

Scala

المقالات ذات الصلة

الملاحظات

الموارد الإضافية