اعتبارات الإنتاج للبث المنظم

تحتوي هذه المقالة على توصيات لتكوين أحمال عمل المعالجة المتزايدة للإنتاج باستخدام Structured Streaming على Azure Databricks لتلبية متطلبات زمن الانتقال والتكلفة للتطبيقات في الوقت الفعلي أو الدفعات. يمكن أن يساعدك فهم المفاهيم الرئيسية للتدفق المنظم على Azure Databricks على تجنب المزالق الشائعة أثناء زيادة حجم البيانات وسرعتها والانتقال من التطوير إلى الإنتاج.

قدمت Azure Databricks جداول Delta Live لتقليل تعقيدات إدارة البنية الأساسية للإنتاج لأحمال عمل الدفق المنظم. توصي Databricks باستخدام Delta Live Tables للبنية الأساسية لبرنامج ربط العمليات التجارية الجديدة للتدفق المنظم؛ راجع ما هي جداول Delta Live؟.

إشعار

يحتوي التحجيم التلقائي للحساب على قيود على تقليص حجم نظام المجموعة لأحمال عمل Structured Streaming. توصي Databricks باستخدام Delta Live Tables مع التحجيم التلقائي المحسن لأحمال العمل المتدفقة. راجع تحسين استخدام نظام المجموعة لخطوط أنابيب Delta Live Tables باستخدام التحجيم التلقائي المحسن.

استخدام دفاتر الملاحظات لأحمال عمل Structured Streaming

يتطلب التطوير التفاعلي مع دفاتر ملاحظات Databricks إرفاق دفاتر الملاحظات الخاصة بك بمجموعة من أجل تنفيذ الاستعلامات يدويا. يمكنك جدولة دفاتر ملاحظات Databricks للتوزيع التلقائي والاسترداد التلقائي من فشل الاستعلام باستخدام مهام سير العمل.

يمكنك تصور استعلامات Structured Streaming في دفاتر الملاحظات أثناء التطوير التفاعلي، أو للمراقبة التفاعلية لأحمال عمل الإنتاج. يجب عليك تصور استعلام Structured Streaming في الإنتاج فقط إذا كان الإنسان سيراقب إخراج دفتر الملاحظات بانتظام. في trigger حين أن المعلمات و checkpointLocation اختيارية، توصي Databricks، كأفضل ممارسة، بتحديدها دائما في الإنتاج.

التحكم في حجم الدفعة وتكرار الدفق المنظم على Azure Databricks

يحتوي الدفق المنظم على Azure Databricks على خيارات محسنة للمساعدة في التحكم في التكاليف وزمن الانتقال أثناء الدفق باستخدام أداة التحميل التلقائي و Delta Lake.

ما هو الدفق ذي الحالة؟

يتطلب استعلام Structured Streaming ذي الحالة تحديثات تزايدية لمعلومات الحالة المتوسطة، بينما يتعقب استعلام الدفق المنظم عديم الحالة المعلومات حول الصفوف التي تمت معالجتها من المصدر إلى المتلقي فقط.

تتضمن العمليات ذات الحالة تجميع الدفق والدفق dropDuplicatesوربط دفق الدفق و mapGroupsWithStateو.flatMapGroupsWithState

يمكن أن تؤدي معلومات الحالة الوسيطة المطلوبة لاستعلامات الدفق المنظم ذات الحالة إلى حدوث مشكلات غير متوقعة في زمن الانتقال والإنتاج إذا لم يتم تكوينها بشكل صحيح.

في Databricks Runtime 13.3 LTS وما فوق، يمكنك تمكين نقاط التحقق changelog باستخدام RocksDB لتقليل مدة نقطة التحقق وزمن الانتقال من طرف إلى طرف لأحمال عمل Structured Streaming. توصي Databricks بتمكين نقاط التحقق changelog لجميع استعلامات Structured Streaming ذات الحالة. راجع تمكين التحقق من سجل التغيير.