ما هو المحمل التلقائي؟

يقوم التحميل التلقائي بمعالجة ملفات البيانات الجديدة بشكل متزايد وفعال عند وصولها إلى التخزين السحابي دون أي إعداد إضافي.

كيف يعمل "المحمل التلقائي"؟

يقوم التحميل التلقائي بمعالجة ملفات البيانات الجديدة بشكل متزايد وفعال عند وصولها إلى التخزين السحابي. يمكن للتحميل التلقائي تحميل ملفات البيانات من AWS S3 (s3://)، وAzure Data Lake Storage Gen2 (ADLS Gen2، abfss://)، وGoogle Cloud Storage (GCS، gs://)، وAzure Blob Storage (wasbs://)، وADDLS Gen1 (adl://)، ونظام ملفات Databricks (DBFS، dbfs:/). يمكن لأداة التحميل التلقائي استيعاب JSONAVROCSVPARQUETORCXMLTEXTتنسيقات الملفات و و.BINARYFILE

إشعار

يوفر Loader التلقائي مصدر تدفق منظم يسمى cloudFiles. نظرا لمسار دليل الإدخال على تخزين الملفات السحابية، cloudFiles يقوم المصدر تلقائيا بمعالجة الملفات الجديدة عند وصولها، مع خيار معالجة الملفات الموجودة في هذا الدليل أيضا. يحتوي التحميل التلقائي على دعم لكل من Python وSQL في Delta Live Tables.

يمكنك استخدام "المحمل التلقائي" لمعالجة مليارات الملفات لترحيل جدول أو إعادة تعبئةه. تحجيم أداة التحميل التلقائي لدعم استيعاب ملايين الملفات في الساعة تقريبا في الوقت الفعلي.

كيف يتعقب برنامج التحميل التلقائي تقدم الاستيعاب؟

عند اكتشاف الملفات، تستمر بيانات التعريف الخاصة بها في مخزن قيم مفاتيح قابل للتطوير (RocksDB) في موقع نقطة التحقق لمسار التحميل التلقائي. يضمن مخزن قيمة المفتاح هذا معالجة البيانات مرة واحدة بالضبط.

في حالة الفشل، يمكن للتحميل التلقائي استئناف من حيث توقفت بواسطة المعلومات المخزنة في موقع نقطة التحقق والاستمرار في توفير ضمانات مرة واحدة بالضبط عند كتابة البيانات في Delta Lake. لا تحتاج إلى الحفاظ على أي حالة أو إدارتها بنفسك لتحقيق التسامح مع الخطأ أو دلالات مرة واحدة بالضبط.

الاستيعاب التزايدي باستخدام أداة التحميل التلقائي مع جداول Delta Live

توصي Databricks بالتحميل التلقائي في Delta Live Tables لاستيعاب البيانات المتزايدة. توسع Delta Live Tables الوظائف في Apache Spark Structured Streaming وتسمح لك بكتابة بضعة أسطر فقط من Python أو SQL التعريفية لنشر مسار بيانات بجودة الإنتاج باستخدام:

لا تحتاج إلى توفير مخطط أو موقع نقطة تحقق لأن Delta Live Tables تدير تلقائيا هذه الإعدادات للبنية الأساسية لبرنامج ربط العمليات التجارية الخاصة بك. راجع تحميل البيانات باستخدام جداول Delta Live.

توصي Databricks أيضا بالتحميل التلقائي كلما استخدمت Apache Spark Structured Streaming لاستيعاب البيانات من تخزين كائن السحابة. تتوفر واجهات برمجة التطبيقات في Python وSc scala.

بدء استخدام Databricks Auto Loader

راجع المقالات التالية للبدء في تكوين استيعاب البيانات المتزايدة باستخدام أداة التحميل التلقائي باستخدام Delta Live Tables:

أمثلة: أنماط المحمل التلقائي الشائعة

للحصول على أمثلة لأنماط التحميل التلقائي الشائعة، راجع أنماط تحميل البيانات الشائعة.

تكوين خيارات التحميل التلقائي

يمكنك ضبط أداة التحميل التلقائي استنادا إلى حجم البيانات وتنوعها وسرعتها.

للحصول على قائمة كاملة بخيارات التحميل التلقائي، راجع:

إذا واجهت أداء غير متوقع، فشاهد الأسئلة المتداولة.

تكوين أوضاع الكشف عن ملف التحميل التلقائي

يدعم "التحميل التلقائي" وضعين للكشف عن الملفات. راجع:

فوائد التحميل التلقائي عبر استخدام Structured Streaming مباشرة على الملفات

في Apache Spark، يمكنك قراءة الملفات بشكل متزايد باستخدام spark.readStream.format(fileFormat).load(directory). يوفر Auto Loader المزايا التالية عبر مصدر الملف:

  • قابلية التوسع: يمكن لأداة التحميل التلقائي اكتشاف مليارات الملفات بكفاءة. يمكن إجراء ملفات التصفية الخلفية بشكل غير متزامن لتجنب إضاعة أي موارد حسابية.
  • الأداء: تكلفة اكتشاف الملفات باستخدام أداة التحميل التلقائي تتدرج بعدد الملفات التي يتم استيعابها بدلا من عدد الدلائل التي قد تصل إليها الملفات. راجع ما هو وضع سرد دليل التحميل التلقائي؟.
  • استدلال المخطط ودعم التطور: يمكن لأداة التحميل التلقائي الكشف عن انحرافات المخطط، وإعلامك عند حدوث تغييرات في المخطط، وبيانات الإنقاذ التي كان سيتم تجاهلها أو فقدانها. راجع كيف يعمل استدلال مخطط التحميل التلقائي؟.
  • التكلفة: يستخدم برنامج التحميل التلقائي واجهات برمجة التطبيقات السحابية الأصلية للحصول على قوائم الملفات الموجودة في التخزين. بالإضافة إلى ذلك، يمكن أن يساعد وضع إعلام ملف التحميل التلقائي في تقليل تكاليف السحابة بشكل أكبر عن طريق تجنب سرد الدليل تماما. يمكن للمحمل التلقائي إعداد خدمات إعلام الملفات تلقائيا على التخزين لجعل اكتشاف الملفات أرخص بكثير.