الدفق على Azure Databricks
يمكنك استخدام Azure Databricks لاستيعاب البيانات في الوقت الفعلي تقريبا ومعالجتها والتعلم الآلي الذكاء الاصطناعي لتدفق البيانات.
يقدم Azure Databricks العديد من التحسينات للتدفق والمعالجة المتزايدة، بما في ذلك ما يلي:
- توفر Delta Live Tables بناء جملة تعريفيا للمعالجة المتزايدة. راجع ما هي جداول Delta Live؟.
- يعمل التحميل التلقائي على تبسيط الاستيعاب التزايدي من تخزين كائن السحابة. راجع ما هو المحمل التلقائي؟.
- يضيف كتالوج Unity إدارة البيانات إلى أحمال العمل المتدفقة. راجع استخدام كتالوج Unity مع الدفق المنظم.
يوفر Delta Lake طبقة التخزين لهذه التكاملات. راجع قراءات وكتابات دفق جدول Delta.
لخدمة النموذج في الوقت الحقيقي، راجع خدمة النموذج مع Azure Databricks.
-
تعرف على أساسيات المعالجة في الوقت الفعلي تقريبا والمعالجة المتزايدة باستخدام Structured Streaming على Azure Databricks.
-
تعرف على المفاهيم الأساسية لتكوين أحمال العمل التزايدية والتقريبية في الوقت الحقيقي باستخدام Structured Streaming.
-
يمكن أن تساعد إدارة معلومات الحالة المتوسطة من استعلامات الدفق المنظم ذات الحالة في منع حدوث مشكلات غير متوقعة في زمن الانتقال والإنتاج.
-
تحتوي هذه المقالة على توصيات لتكوين أحمال عمل المعالجة المتزايدة للإنتاج باستخدام Structured Streaming على Azure Databricks لتلبية متطلبات زمن الانتقال والتكلفة للتطبيقات في الوقت الفعلي أو الدفعات.
-
تعرف على كيفية مراقبة تطبيقات الدفق المنظم على Azure Databricks.
-
تعرف على كيفية الاستفادة من كتالوج Unity بالاقتران مع Structured Streaming على Azure Databricks.
-
تعرف على كيفية استخدام جداول Delta Lake كمصادر تدفق ومتلقين.
-
راجع أمثلة على استخدام Spark Structured Streaming مع Cassandra وAzure Synapse Analytics ودفاتر ملاحظات Python ودفاتر ملاحظات Scala في Azure Databricks.
يحتوي Azure Databricks على ميزات محددة للعمل مع حقول البيانات شبه المنظمة المضمنة في Avro والمخازن المؤقتة للبروتوكول وحمولة بيانات JSON. لمعرفة المزيد، راجع:
الموارد الإضافية
يوفر Apache Spark دليل برمجة دفق منظم يحتوي على مزيد من المعلومات حول الدفق المنظم.
للحصول على معلومات مرجعية حول Structured Streaming، توصي Databricks بمراجع Apache Spark API التالية: