ما هو المحمل التلقائي؟

مقالة
03/01/2024

يقوم التحميل التلقائي بمعالجة ملفات البيانات الجديدة بشكل متزايد وفعال عند وصولها إلى التخزين السحابي دون أي إعداد إضافي.

كيف يعمل "المحمل التلقائي"؟

يقوم التحميل التلقائي بمعالجة ملفات البيانات الجديدة بشكل متزايد وفعال عند وصولها إلى التخزين السحابي. يمكن للتحميل التلقائي تحميل ملفات البيانات من AWS S3 (s3://)، وAzure Data Lake Storage Gen2 (ADLS Gen2، abfss://)، وGoogle Cloud Storage (GCS، gs://)، وAzure Blob Storage (wasbs://)، وADDLS Gen1 (adl://)، ونظام ملفات Databricks (DBFS، dbfs:/). يمكن لأداة التحميل التلقائي استيعاب JSONAVROCSVPARQUETORCXMLTEXTتنسيقات الملفات و و.BINARYFILE

إشعار

تم إهمال برنامج تشغيل Windows Azure Storage Blob القديم (WASB). ABFS له فوائد عديدة على WASB. راجع وثائق Azure على ABFS. للحصول على وثائق للعمل مع برنامج تشغيل WASB القديم، راجع الاتصال إلى Azure Blob Storage مع WASB (قديم).
أعلنت Azure عن إيقاف Azure Data Lake Storage Gen1 المعلق. توصي Databricks بترحيل جميع البيانات من Azure Data Lake Storage Gen1 إلى Azure Data Lake Storage Gen2. إذا لم تكن قد قمت بالترحيل بعد، فشاهد الوصول إلى Azure Data Lake Storage Gen1 من Azure Databricks.

يوفر Loader التلقائي مصدر تدفق منظم يسمى cloudFiles. نظرا لمسار دليل الإدخال على تخزين الملفات السحابية، cloudFiles يقوم المصدر تلقائيا بمعالجة الملفات الجديدة عند وصولها، مع خيار معالجة الملفات الموجودة في هذا الدليل أيضا. يحتوي التحميل التلقائي على دعم لكل من Python وSQL في Delta Live Tables.

يمكنك استخدام "المحمل التلقائي" لمعالجة مليارات الملفات لترحيل جدول أو إعادة تعبئةه. تحجيم أداة التحميل التلقائي لدعم استيعاب ملايين الملفات في الساعة تقريبا في الوقت الفعلي.

كيف يتعقب برنامج التحميل التلقائي تقدم الاستيعاب؟

عند اكتشاف الملفات، تستمر بيانات التعريف الخاصة بها في مخزن قيم مفاتيح قابل للتطوير (RocksDB) في موقع نقطة التحقق لمسار التحميل التلقائي. يضمن مخزن قيمة المفتاح هذا معالجة البيانات مرة واحدة بالضبط.

في حالة الفشل، يمكن للتحميل التلقائي استئناف من حيث توقفت بواسطة المعلومات المخزنة في موقع نقطة التحقق والاستمرار في توفير ضمانات مرة واحدة بالضبط عند كتابة البيانات في Delta Lake. لا تحتاج إلى الحفاظ على أي حالة أو إدارتها بنفسك لتحقيق التسامح مع الخطأ أو دلالات مرة واحدة بالضبط.

الاستيعاب التزايدي باستخدام أداة التحميل التلقائي مع جداول Delta Live

توصي Databricks بالتحميل التلقائي في Delta Live Tables لاستيعاب البيانات المتزايدة. توسع Delta Live Tables الوظائف في Apache Spark Structured Streaming وتسمح لك بكتابة بضعة أسطر فقط من Python أو SQL التعريفية لنشر مسار بيانات بجودة الإنتاج باستخدام:

بنية الحوسبة الأساسية للتحجيم التلقائي لتحقيق وفورات في التكاليف
عمليات التحقق من جودة البيانات مع التوقعات
معالجة تطور المخطط التلقائي
المراقبة عبر المقاييس في سجل الأحداث

لا تحتاج إلى توفير مخطط أو موقع نقطة تحقق لأن Delta Live Tables تدير تلقائيا هذه الإعدادات للبنية الأساسية لبرنامج ربط العمليات التجارية الخاصة بك. راجع تحميل البيانات باستخدام جداول Delta Live.

توصي Databricks أيضا بالتحميل التلقائي كلما استخدمت Apache Spark Structured Streaming لاستيعاب البيانات من تخزين كائن السحابة. تتوفر واجهات برمجة التطبيقات في Python وSc scala.

بدء استخدام Databricks Auto Loader

راجع المقالات التالية للبدء في تكوين استيعاب البيانات المتزايدة باستخدام أداة التحميل التلقائي باستخدام Delta Live Tables:

أمثلة: أنماط المحمل التلقائي الشائعة

للحصول على أمثلة لأنماط التحميل التلقائي الشائعة، راجع أنماط تحميل البيانات الشائعة.

تكوين خيارات التحميل التلقائي

يمكنك ضبط أداة التحميل التلقائي استنادا إلى حجم البيانات وتنوعها وسرعتها.

للحصول على قائمة كاملة بخيارات التحميل التلقائي، راجع:

خيارات التحميل التلقائي

إذا واجهت أداء غير متوقع، فشاهد الأسئلة المتداولة.

تكوين أوضاع الكشف عن ملف التحميل التلقائي

يدعم "التحميل التلقائي" وضعين للكشف عن الملفات. راجع:

فوائد التحميل التلقائي عبر استخدام Structured Streaming مباشرة على الملفات

في Apache Spark، يمكنك قراءة الملفات بشكل متزايد باستخدام spark.readStream.format(fileFormat).load(directory). يوفر Auto Loader المزايا التالية عبر مصدر الملف:

قابلية التوسع: يمكن لأداة التحميل التلقائي اكتشاف مليارات الملفات بكفاءة. يمكن إجراء ملفات التصفية الخلفية بشكل غير متزامن لتجنب إضاعة أي موارد حسابية.
الأداء: تكلفة اكتشاف الملفات باستخدام أداة التحميل التلقائي تتدرج بعدد الملفات التي يتم استيعابها بدلا من عدد الدلائل التي قد تصل إليها الملفات. راجع ما هو وضع سرد دليل التحميل التلقائي؟.
استدلال المخطط ودعم التطور: يمكن لأداة التحميل التلقائي الكشف عن انحرافات المخطط، وإعلامك عند حدوث تغييرات في المخطط، وبيانات الإنقاذ التي كان سيتم تجاهلها أو فقدانها. راجع كيف يعمل استدلال مخطط التحميل التلقائي؟.
التكلفة: يستخدم برنامج التحميل التلقائي واجهات برمجة التطبيقات السحابية الأصلية للحصول على قوائم الملفات الموجودة في التخزين. بالإضافة إلى ذلك، يمكن أن يساعد وضع إعلام ملف التحميل التلقائي في تقليل تكاليف السحابة بشكل أكبر عن طريق تجنب سرد الدليل تماما. يمكن للمحمل التلقائي إعداد خدمات إعلام الملفات تلقائيا على التخزين لجعل اكتشاف الملفات أرخص بكثير.