إشعار
يتطلب الوصول إلى هذه الصفحة تخويلاً. يمكنك محاولة تسجيل الدخول أو تغيير الدلائل.
يتطلب الوصول إلى هذه الصفحة تخويلاً. يمكنك محاولة تغيير الدلائل.
تقدم هذه المقالة الدلالات العامة للتجميع وتناقش الاختلافات بين النتائج المحسوبة باستخدام استعلامات الدفعات وطرق العرض المجسدة والتدفق.
تجميعات الدفعات
تجميع الدفعات هو السلوك الافتراضي الملاحظ عند تشغيل استعلام مخصص في SQL أو معالجة البيانات باستخدام Apache Spark DataFrames.
يحسب استعلام تجميعي مكتوب مقابل جدول أو مصدر بيانات الإحصائيات الإجمالية لجميع السجلات في مصدر البيانات. يستفيد Azure Databricks من التحسينات وبيانات التعريف كلما أمكن لتحسين هذه الاستعلامات، ويمكنه حساب العديد من التجميعات بشكل جيد لمجموعات البيانات الكبيرة.
يمكن أن يزيد زمن انتقال تجميع الدفعات وتكاليف الحوسبة مع زيادة حجم البيانات، ويمكن أن توفر القيم التجميعية المشار إليها بشكل متكرر والمحسوبة مسبقا للمستخدمين قدرا كبيرا من الوقت والمال. توصي Databricks باستخدام طرق العرض المجسدة لتحديث القيم التجميعية بشكل متزايد. راجع التجميعات المتزايدة.
تجميعات ذات حالة
التجميعات المحددة في أحمال العمل المتدفقة ذات حالة. تتبع التجميعات ذات الحالة السجلات المرصودة بمرور الوقت وتعيد حساب النتائج عند معالجة البيانات الجديدة.
يجب استخدام العلامات المائية عند حساب التجميعات ذات الحالة. يؤدي حذف علامة مائية من استعلام تجميعي ذي حالة إلى إنشاء معلومات الحالة بشكل لا نهائي بمرور الوقت. يؤدي هذا إلى معالجة التباطؤ ويمكن أن يؤدي إلى أخطاء نفاد الذاكرة.
يجب عدم استخدام تجميع ذي حالة لحساب الإحصائيات عبر مجموعة بيانات بأكملها. توصي Databricks باستخدام طرق العرض المجسدة للحساب التجميعي المتزايد على مجموعة بيانات بأكملها. راجع التجميعات المتزايدة.
يتطلب تكوين أحمال العمل التي تحسب التجميعات ذات الحالة بكفاءة وصحيح فهم كيفية وصول البيانات من أنظمة المصدر وكيفية استخدام Azure Databricks للعلامات المائية وأوضاع الإخراج وفواصل التشغيل للتحكم في حالة الاستعلام واحسب النتائج.
التجميعات المتزايدة
يمكنك استخدام طرق العرض المجسدة لحساب العديد من القيم التجميعية بشكل متزايد. تتعقب طرق العرض المجسدة تلقائيا التغييرات في مصدر البيانات وتطبق التحديثات المناسبة لتجميع القيم عند التحديث. النتائج التي يتم إرجاعها بواسطة طريقة عرض مادية تعادل تلك التي يتم إرجاعها عن طريق إعادة حساب النتائج المجمعة على البيانات المصدر مع مهمة دفعية أو استعلام مخصص.
التجميعات التقريبية
بينما يتفوق Azure Databricks في الحوسبة على مجموعات البيانات الكبيرة للغاية، يمكن أن يؤدي استخدام التقريب للتجاميع إلى تسريع معالجة الاستعلام وتقليل التكاليف عندما لا تحتاج إلى نتائج دقيقة.
يعد استخدام LIMIT العبارات في بعض الأحيان جيدا بما يكفي للحصول على لقطة سريعة من البيانات، ولكنه لا يقدم عشوائية، أو يضمن توزيع أخذ العينات عبر مجموعة البيانات.
يحتوي Spark SQL على الطرق الأصلية التالية للتجميعات التقريبية على البيانات الرقمية أو الفئوية:
يمكنك أيضا تحديد عينة النسبة المئوية لإنشاء TABLESAMPLE عينة عشوائية من مجموعة بيانات وحساب التجميعات التقريبية. راجع عبارة TABLESAMPLE.
مراقبة مجموعات البيانات باستخدام الإحصائيات التجميعية
تستخدم Lakehouse Monitoring الإحصائيات الإجمالية وتوزيعات البيانات لتتبع جودة البيانات بمرور الوقت. يمكنك إنشاء تقارير لتصور الاتجاهات وجدولة التنبيهات لوضع علامة على التغييرات غير المتوقعة في البيانات. راجع مقدمة إلى Databricks Lakehouse Monitoring.