إشعار
يتطلب الوصول إلى هذه الصفحة تخويلاً. يمكنك محاولة تسجيل الدخول أو تغيير الدلائل.
يتطلب الوصول إلى هذه الصفحة تخويلاً. يمكنك محاولة تغيير الدلائل.
تسرد هذه المقالة الطرق التي يمكنك من خلالها تكوين الاستيعاب التزايدي من تخزين كائن السحابة.
إضافة واجهة مستخدم البيانات
لمعرفة كيفية استخدام واجهة مستخدم إضافة بيانات لإنشاء جدول مدار من البيانات في تخزين كائن السحابة، راجع تحميل البيانات باستخدام موقع خارجي لكتالوج Unity.
دفتر الملاحظات أو محرر SQL
يصف هذا القسم خيارات تكوين الاستيعاب التزايدي من تخزين كائن السحابة باستخدام دفتر ملاحظات أو محرر Databricks SQL.
محمل تلقائي
يقوم التحميل التلقائي بمعالجة ملفات البيانات الجديدة بشكل متزايد وفعال عند وصولها إلى التخزين السحابي دون إعداد إضافي. يوفر Loader التلقائي مصدر تدفق منظم يسمى cloudFiles. نظرا لمسار دليل الإدخال على تخزين الملفات السحابية، cloudFiles يقوم المصدر تلقائيا بمعالجة الملفات الجديدة عند وصولها، مع خيار معالجة الملفات الموجودة في هذا الدليل أيضا.
COPY INTO
باستخدام COPY INTO، يمكن لمستخدمي SQL استيعاب البيانات بشكل متكرر وتدريجي من تخزين كائن السحابة إلى جداول Delta. يمكنك استخدام COPY INTO في Databricks SQL ودفاتر الملاحظات ووظائف Databricks.
متى تستخدم COPY INTO ومتى تستخدم "المحمل التلقائي"
فيما يلي بعض الأشياء التي يجب مراعاتها عند الاختيار بين أداة التحميل التلقائي و COPY INTO:
إذا كنت تريد استيعاب الملفات بترتيب الآلاف بمرور الوقت، يمكنك استخدام
COPY INTO. إذا كنت تتوقع ملفات بترتيب الملايين أو أكثر بمرور الوقت، فاستخدم Auto Loader. يتطلب "المحمل التلقائي" عددا أقل من العمليات الإجمالية لاكتشاف الملفات مقارنةCOPY INTOب ويمكنه تقسيم المعالجة إلى دفعات متعددة، ما يعني أن "المحمل التلقائي" أقل تكلفة وأكثر كفاءة على نطاق واسع.إذا كان مخطط البيانات الخاص بك سيتطور بشكل متكرر، فإن Auto Loader يوفر أنواع بيانات بدائية أفضل حول استنتاج المخطط وتطوره. راجع تكوين استنتاج المخطط وتطوره في Auto Loader لمزيد من التفاصيل.
يمكن أن يكون تحميل مجموعة فرعية من الملفات المعاد تحميلها أسهل قليلا في الإدارة باستخدام
COPY INTO. باستخدام Auto Loader، من الصعب إعادة معالجة مجموعة فرعية محددة من الملفات. ومع ذلك، يمكنك استخدامCOPY INTOلإعادة تحميل المجموعة الفرعية من الملفات أثناء تشغيل دفق التحميل التلقائي في وقت واحد.للحصول على تجربة استيعاب ملفات أكثر قابلية للتطوير وقوة، يمكن التحميل التلقائي مستخدمي SQL من الاستفادة من جداول الدفق. راجع تحميل البيانات باستخدام جداول الدفق في Databricks SQL.
للحصول على نظرة عامة موجزة والعرض التوضيحي ل Auto Loader و COPY INTO، شاهد فيديو YouTube التالي (دقيقتان).
أتمتة ETL باستخدام جداول Delta Live وأداة التحميل التلقائي
يمكنك تبسيط توزيع البنية الأساسية القابلة للتطوير والاستيعاب التزايدي باستخدام أداة التحميل التلقائي وجداول Delta Live. لا تستخدم Delta Live Tables التنفيذ التفاعلي القياسي الموجود في دفاتر الملاحظات، بل تؤكد على نشر البنية الأساسية الجاهزة للإنتاج.
أدوات الاستيعاب التابعة لجهات خارجية
تتحقق Databricks من صحة تكاملات شركاء التكنولوجيا التي تمكنك من استيعاب من مصادر مختلفة، بما في ذلك تخزين الكائنات السحابية. تتيح عمليات التكامل هذه استيعاب بيانات منخفضة التعليمات البرمجية وقابلة للتطوير من مجموعة متنوعة من المصادر في Azure Databricks. راجع شركاء التكنولوجيا. يتم عرض بعض شركاء التكنولوجيا في ما المقصود ب Databricks Partner Connect؟، والذي يوفر واجهة مستخدم تبسط توصيل أدوات الجهات الخارجية ببيانات مستودعك.