استكشاف الدفق المنظم ل Apache Spark
تلميح
راجع علامة التبويب النص والصور لمزيد من التفاصيل!
أباتشي سبارك هو محرك قوي لمعالجة البيانات مصمم للتعامل مع كميات كبيرة جدا من البيانات بسرعة. بدلا من معالجة البيانات على جهاز كمبيوتر واحد، يقوم Spark بتقسيم العمل عبر عدة أجهزة ( عنقود) بحيث يعمل كل شيء بالتوازي. يمكنك استخدام Spark على Microsoft Azure في الخدمات التالية:
- Microsoft Fabric
- Azure Databricks
يدعم Spark الكود المكتوب بلغة Python أو Scala، أو Java، ويمكنه التعامل مع كل من المعالجة الدفعية ومعالجة التدفق.
سبارك التدفق المنظم
Spark Structured Streaming هو مكتبة مدمجة في Spark تجعل من السهل التعامل مع بيانات التدفق مباشرة. فكر فيه كطريقة لمعالجة تدفق بيانات حي بنفس الطريقة التي تعمل بها مع جدول في جدول بيانات — إلا أن الجدول يستمر في النمو في الوقت الحقيقي مع وصول بيانات جديدة.
إليك كيف يعمل الأمر عمليا:
- تتصل بمصدر stream source—على سبيل المثال، قائمة انتظار رسائل مثل مراكز أحداث Azure، مجلد ملفات، أو تغذية الشبكة.
- يقرأ Spark البيانات الواردة في إطار بيانات — وهو في الأساس جدول من الصفوف والأعمدة يمتلئ باستمرار ببيانات جديدة مع وصول الأحداث.
- تكتب استعلاما على ذلك الإطار البيانات—على سبيل المثال، لحساب الأحداث في الدقيقة أو حساب متوسط مستمر.
- تكتب نتائج الاستعلام إلى مخرج (مغذ)، مثل ملف أو قاعدة بيانات أو لوحة بيانات.
Spark Structured Streaming خيار جيد عندما تكون بالفعل تستخدم Spark لمعالجة البيانات وترغب في توسيع هذا العمل ليشمل تدفقات البيانات في الوقت الحقيقي.
إشعار
لمزيد من المعلومات حول Spark Structured Streaming، راجع دليل برمجة Spark Structured Streaming.
بحيرة دلتا
دلتا ليك هو تنسيق تخزين مفتوح المصدر يحسن طريقة تخزين البيانات في بحيرة البيانات. افتراضيا، بحيرة البيانات هي مجرد مجموعة من الملفات—لا توجد طريقة مدمجة لضمان أن البيانات كاملة أو متسقة أو منظمة بشكل صحيح. تضيف دلتا ليك هذه الضمانات، مما يجعل تخزين بحيرة البيانات يتصرف بشكل أشبه بقاعدة بيانات تقليدية.
تشمل الفوائد الرئيسية لبحيرة دلتا:
- الموثوقية: يتم تتبع التغييرات في البيانات، لذا الكتابة الجزئية أو الفاشلة لا تفسد بياناتك.
- تطبيق المخطط: يجب أن تتطابق البيانات مع هيكل محدد قبل قبولها، مما يمنع السجلات الفوضوية أو غير المتوافقة من الدخول.
- الدفعة والبث الموحد: يمكن لنفس جدول دلتا أن يعمل كمخزن للبث (البيانات المكتوبة عليه في الوقت الحقيقي) ومصدر للاستعلامات الدفعية — لذا لا تحتاج إلى تخزين منفصل للبيانات التاريخية والحية.
تتضمن أوقات تشغيل Spark في Microsoft Fabric و Azure Databricks دعما مدمجا ل Delta Lake.
دلتا ليك مع Spark Structured Streaming هو حل جيد عندما تريد مخزن بيانات واحد ومتسق يعمل لكل من الإدخال في الوقت الحقيقي والتحليل التاريخي.
إشعار
لمزيد من المعلومات حول Delta Lake، راجع جداول Lakehouse وDelta Lake.