الدفق على Azure Databricks

مقالة
03/01/2024

يمكنك استخدام Azure Databricks لاستيعاب البيانات في الوقت الفعلي تقريبا ومعالجتها والتعلم الآلي الذكاء الاصطناعي لتدفق البيانات.

يقدم Azure Databricks العديد من الاشتراكات للتدفق والمعالجة المتزايدة. بالنسبة لمعظم مهام تدفق البيانات أو معالجة البيانات المتزايدة أو ETL، توصي Databricks ب Delta Live Tables. راجع ما هي جداول Delta Live؟.

يتم تشغيل معظم أحمال العمل المتزايدة والمتدفقة على Azure Databricks بواسطة Structured Streaming، بما في ذلك Delta Live Tables وAuto Loader. راجع ما هو المحمل التلقائي؟.

يتمتع كل من Delta Lake و Structured Streaming بتكامل محكم لتشغيل المعالجة التزايدية في مستودع Databricks. راجع قراءات وكتابات دفق جدول Delta.

لخدمة النموذج في الوقت الحقيقي، راجع خدمة النموذج مع Azure Databricks.

لمعرفة المزيد حول إنشاء حلول الدفق على النظام الأساسي Azure Databricks، راجع صفحة منتج تدفق البيانات.

يحتوي Azure Databricks على ميزات محددة للعمل مع حقول البيانات شبه المنظمة المضمنة في Avro والمخازن المؤقتة للبروتوكول وحمولة بيانات JSON. لمعرفة المزيد، راجع:

ما هو Structured Streaming؟

Apache Spark Structured Streaming هو محرك معالجة شبه حقيقي يوفر التسامح مع الخطأ من طرف إلى طرف مع ضمانات معالجة لمرة واحدة بالضبط باستخدام واجهات برمجة تطبيقات Spark المألوفة. يتيح لك Structured Streaming التعبير عن الحساب على دفق البيانات بنفس الطريقة التي تعبر بها عن حساب دفعي على البيانات الثابتة. يقوم محرك Structured Streaming بإجراء الحساب بشكل متزايد ويحدث النتيجة باستمرار مع وصول بيانات الدفق.

إذا كنت جديدا على Structured Streaming، فشاهد تشغيل أول حمل عمل Structured Streaming.

للحصول على معلومات حول استخدام Structured Streaming مع كتالوج Unity، راجع استخدام كتالوج Unity مع Structured Streaming.

ما هي مصادر البث والمتلقيات التي يدعمها Azure Databricks؟

توصي Databricks باستخدام أداة التحميل التلقائي لاستيعاب أنواع الملفات المدعومة من تخزين الكائنات السحابية إلى Delta Lake. بالنسبة إلى مسارات ETL، توصي Databricks باستخدام جداول Delta Live (التي تستخدم جداول دلتا والتدفق المنظم). يمكنك أيضا تكوين أحمال عمل ETL التزايدية عن طريق الدفق من جداول Delta Lake وإلتها.

بالإضافة إلى Delta Lake وAuto Loader، يمكن ل Structured Streaming الاتصال بخدمات المراسلة مثل Apache Kafka.

يمكنك أيضا استخدام foreachBatch للكتابة إلى متلقي البيانات العشوائية.

الموارد الإضافية

يوفر Apache Spark دليل برمجة دفق منظم يحتوي على مزيد من المعلومات حول الدفق المنظم.

للحصول على معلومات مرجعية حول Structured Streaming، توصي Databricks بمراجع Apache Spark API التالية: