مفاهيم الدفق المنظم

توفر هذه المقالة مقدمة إلى Structured Streaming على Azure Databricks.

ما هو Structured Streaming؟

Apache Spark Structured Streaming هو محرك معالجة قريب من الوقت الحقيقي يوفر التسامح مع الخطأ من طرف إلى طرف مع ضمانات المعالجة مرة واحدة بالضبط باستخدام واجهات برمجة تطبيقات Spark المألوفة. يتيح لك Structured Streaming التعبير عن الحساب على دفق البيانات بنفس الطريقة التي تعبر بها عن حساب دفعي على البيانات الثابتة. يقوم محرك Structured Streaming بإجراء الحساب بشكل متزايد ويحدث النتيجة باستمرار مع وصول بيانات الدفق.

القراءة من دفق البيانات

يمكنك استخدام Structured Streaming لاستيعاب البيانات بشكل متزايد من مصادر البيانات المدعومة. تتضمن مصادر البيانات الشائعة ما يلي:

ملفات البيانات في تخزين كائن السحابة. راجع ما هو المحمل التلقائي؟.
حافلات الرسائل وقوائم الانتظار. راجع تكوين مصادر بيانات الدفق.
Delta Lake. راجع قراءات وكتابات دفق جدول Delta.

يوفر كل مصدر بيانات عددا من الخيارات لتحديد كيفية تحميل دفعات من البيانات. أثناء تكوين القارئ، قد تحتاج إلى تكوين خيارات للقيام بما يلي:

حدد مصدر البيانات أو تنسيقها (على سبيل المثال، نوع الملف والمحددات والمخطط).
تكوين الوصول إلى أنظمة المصدر (على سبيل المثال، إعدادات المنفذ وبيانات الاعتماد).
حدد مكان البدء في دفق (على سبيل المثال، إزاحات Kafka أو قراءة جميع الملفات الموجودة).
التحكم في مقدار البيانات التي تتم معالجتها في كل دفعة (على سبيل المثال، الحد الأقصى للإزاحات أو الملفات أو وحدات البايت لكل دفعة). راجع تكوين حجم دفعة Structured Streaming على Azure Databricks.

الكتابة إلى متلقي بيانات

مصدر البيانات هو الهدف من عملية الكتابة المتدفقة. تتضمن المتلقيات الشائعة المستخدمة في أحمال عمل تدفق Azure Databricks ما يلي:

Delta Lake
حافلات الرسائل وقوائم الانتظار
قواعد بيانات القيمة الرئيسية

كما هو الحال مع مصادر البيانات، توفر معظم متلقي البيانات عددا من الخيارات للتحكم في كيفية كتابة البيانات إلى النظام الهدف. أثناء تكوين الكاتب، يمكنك تحديد الخيارات التالية:

وضع الإخراج (إلحاق بشكل افتراضي). راجع تحديد وضع إخراج ل Structured Streaming.
موقع نقطة فحص (مطلوب لكل كاتب). راجع نقاط التحقق المتدفقة المنظمة.
الفواصل الزمنية المشغلة. راجع تكوين فواصل مشغل Structured Streaming.
الخيارات التي تحدد مصدر البيانات أو تنسيقها (على سبيل المثال، نوع الملف والمحددات والمخطط).
الخيارات التي تقوم بتكوين الوصول إلى الأنظمة المستهدفة (على سبيل المثال، إعدادات المنفذ وبيانات الاعتماد).

الملاحظات

هل كانت هذه الصفحة مفيدة؟

Last updated on 2024-10-05