اعتبارات الإنتاج للبث المنظم
تحتوي هذه المقالة على توصيات لتكوين أحمال عمل المعالجة المتزايدة للإنتاج باستخدام Structured Streaming على Azure Databricks لتلبية متطلبات زمن الانتقال والتكلفة للتطبيقات في الوقت الفعلي أو الدفعات. يمكن أن يساعدك فهم المفاهيم الرئيسية للتدفق المنظم على Azure Databricks على تجنب المزالق الشائعة أثناء زيادة حجم البيانات وسرعتها والانتقال من التطوير إلى الإنتاج.
قدمت Azure Databricks جداول Delta Live لتقليل تعقيدات إدارة البنية الأساسية للإنتاج لأحمال عمل الدفق المنظم. توصي Databricks باستخدام Delta Live Tables للبنية الأساسية لبرنامج ربط العمليات التجارية الجديدة للتدفق المنظم؛ راجع ما هي جداول Delta Live؟.
إشعار
يحتوي التحجيم التلقائي للحساب على قيود على تقليص حجم نظام المجموعة لأحمال عمل Structured Streaming. توصي Databricks باستخدام Delta Live Tables مع التحجيم التلقائي المحسن لأحمال العمل المتدفقة. راجع تحسين استخدام نظام المجموعة لخطوط أنابيب Delta Live Tables باستخدام التحجيم التلقائي المحسن.
استخدام دفاتر الملاحظات لأحمال عمل Structured Streaming
يتطلب التطوير التفاعلي مع دفاتر ملاحظات Databricks إرفاق دفاتر الملاحظات الخاصة بك بمجموعة من أجل تنفيذ الاستعلامات يدويا. يمكنك جدولة دفاتر ملاحظات Databricks للتوزيع التلقائي والاسترداد التلقائي من فشل الاستعلام باستخدام مهام سير العمل.
- الاسترداد من فشل استعلام Structured Streaming مع مهام سير العمل
- مراقبة استعلامات الدفق المنظم على Azure Databricks
- استخدام تجمعات المجدول لأحمال عمل دفق متعددة
يمكنك تصور استعلامات Structured Streaming في دفاتر الملاحظات أثناء التطوير التفاعلي، أو للمراقبة التفاعلية لأحمال عمل الإنتاج. يجب عليك تصور استعلام Structured Streaming في الإنتاج فقط إذا كان الإنسان سيراقب إخراج دفتر الملاحظات بانتظام. في trigger
حين أن المعلمات و checkpointLocation
اختيارية، توصي Databricks، كأفضل ممارسة، بتحديدها دائما في الإنتاج.
التحكم في حجم الدفعة وتكرار الدفق المنظم على Azure Databricks
يحتوي الدفق المنظم على Azure Databricks على خيارات محسنة للمساعدة في التحكم في التكاليف وزمن الانتقال أثناء الدفق باستخدام أداة التحميل التلقائي و Delta Lake.
ما هو الدفق ذي الحالة؟
يتطلب استعلام Structured Streaming ذي الحالة تحديثات تزايدية لمعلومات الحالة المتوسطة، بينما يتعقب استعلام الدفق المنظم عديم الحالة المعلومات حول الصفوف التي تمت معالجتها من المصدر إلى المتلقي فقط.
تتضمن العمليات ذات الحالة تجميع الدفق والدفق dropDuplicates
وربط دفق الدفق و mapGroupsWithState
و.flatMapGroupsWithState
يمكن أن تؤدي معلومات الحالة الوسيطة المطلوبة لاستعلامات الدفق المنظم ذات الحالة إلى حدوث مشكلات غير متوقعة في زمن الانتقال والإنتاج إذا لم يتم تكوينها بشكل صحيح.
في Databricks Runtime 13.3 LTS وما فوق، يمكنك تمكين نقاط التحقق changelog باستخدام RocksDB لتقليل مدة نقطة التحقق وزمن الانتقال من طرف إلى طرف لأحمال عمل Structured Streaming. توصي Databricks بتمكين نقاط التحقق changelog لجميع استعلامات Structured Streaming ذات الحالة. راجع تمكين التحقق من سجل التغيير.