مقدمة إلى Databricks Lakehouse Monitoring

2024-11-07

توضح هذه المقالة Databricks Lakehouse Monitoring. وهو يغطي فوائد مراقبة بياناتك ويعطي نظرة عامة على مكونات واستخدام Databricks Lakehouse Monitoring.

تتيح لك Databricks Lakehouse Monitoring مراقبة الخصائص الإحصائية وجودة البيانات في جميع الجداول في حسابك. يمكنك أيضا استخدامه لتتبع أداء نماذج التعلم الآلي ونقاط نهاية خدمة النماذج من خلال مراقبة جداول الاستدلال التي تحتوي على مدخلات النموذج والتنبؤات. يوضح الرسم التخطيطي تدفق البيانات من خلال البيانات وتدفقات التعلم الآلي في Databricks، وكيف يمكنك استخدام المراقبة لتتبع جودة البيانات وأداء النموذج باستمرار.

نظرة عامة على Databricks Lakehouse Monitoring

لماذا تستخدم Databricks Lakehouse Monitoring؟

للحصول على رؤى مفيدة من بياناتك، يجب أن تكون لديك ثقة في جودة بياناتك. توفر مراقبة بياناتك مقاييس كمية تساعدك على تتبع جودة بياناتك واتساقها وتأكيدها بمرور الوقت. عند اكتشاف التغييرات في توزيع بيانات الجدول أو أداء النموذج المقابل، يمكن للجداول التي تم إنشاؤها بواسطة Databricks Lakehouse Monitoring التقاط التغيير وتنبيهك إليه ويمكن أن تساعدك على تحديد السبب.

يساعدك Databricks Lakehouse Monitoring على الإجابة عن أسئلة مثل ما يلي:

كيف تبدو تكامل البيانات، وكيف تتغير بمرور الوقت؟ على سبيل المثال، ما هو جزء القيم الخالية أو الصفرية في البيانات الحالية، وقد زاد؟
كيف يبدو التوزيع الإحصائي للبيانات وكيف يتغير بمرور الوقت؟ على سبيل المثال، ما هي النسبة المئوية 90 للعمود الرقمي؟ أو، ما هو توزيع القيم في عمود فئوي، وكيف يختلف عن الأمس؟
هل هناك انحراف بين البيانات الحالية وأساس معروف، أو بين نوافذ زمنية متتالية للبيانات؟
كيف يبدو التوزيع الإحصائي أو انحراف مجموعة فرعية أو شريحة من البيانات؟
كيف تتغير مدخلات نموذج التعلم الآلي والتنبؤات بمرور الوقت؟
كيف يتجه أداء النموذج بمرور الوقت؟ هل يعمل إصدار النموذج A بشكل أفضل من الإصدار B؟

بالإضافة إلى ذلك، يتيح لك Databricks Lakehouse Monitoring التحكم في دقة الوقت للملاحظات وإعداد مقاييس مخصصة.

المتطلبات

فيما يلي مطلوب لاستخدام Databricks Lakehouse Monitoring:

يجب تمكين مساحة العمل لكتالوج Unity ويجب أن يكون لديك حق الوصول إلى Databricks SQL.
يتم اعتماد جداول دلتا فقط للمراقبة، ويجب أن يكون الجدول أحد أنواع الجداول التالية: الجداول المدارة أو الجداول الخارجية أو طرق العرض أو طرق العرض المجسدة أو جداول البث.
لا تدعم الشاشات التي تم إنشاؤها عبر طرق العرض المجسدة وجداول الدفق المعالجة المتزايدة.
لا يتم دعم جميع المناطق. للحصول على الدعم الإقليمي، راجع العمود حساب بلا خادم لدفاتر الملاحظات ومهام سير العمل في الجدول ميزات ذات توفر إقليمي محدود.

إشعار

تستخدم Databricks Lakehouse Monitoring الحوسبة بلا خادم للوظائف. للحصول على معلومات حول تتبع نفقات مراقبة Lakehouse، راجع عرض نفقات مراقبة Lakehouse.

كيف يعمل Lakehouse Monitoring على Databricks

لمراقبة جدول في Databricks، يمكنك إنشاء جهاز عرض مرفق بالجدول. لمراقبة أداء نموذج التعلم الآلي، يمكنك إرفاق جهاز العرض بجدول استدلال يحتوي على مدخلات النموذج والتنبؤات المقابلة.

يوفر Databricks Lakehouse Monitoring الأنواع التالية من التحليل: السلاسل الزمنية واللقطة والاستدلال.

نوع ملف التعريف	‏‏الوصف
السلاسل الزمنية	استخدم للجداول التي تحتوي على مجموعة بيانات سلسلة زمنية استنادا إلى عمود الطابع الزمني. تحسب المراقبة مقاييس جودة البيانات عبر النوافذ المستندة إلى الوقت للسلسلة الزمنية.
الاستدلال	استخدم للجداول التي تحتوي على سجل الطلب لنموذج. كل صف هو طلب، مع أعمدة للطابع الزمني، ومدخلات النموذج، والتنبؤ المقابل، وتسمية الحقيقة الأرضية (اختياري). تقارن المراقبة أداء النموذج ومقاييس جودة البيانات عبر النوافذ المستندة إلى الوقت لسجل الطلب.
اللقطة	يستخدم لكافة أنواع الجداول الأخرى. تحسب المراقبة مقاييس جودة البيانات على جميع البيانات في الجدول. تتم معالجة الجدول الكامل مع كل تحديث.

يصف هذا القسم بإيجاز جداول الإدخال المستخدمة من قبل Databricks Lakehouse Monitoring والجداول القياسية التي تنتجها. يوضح الرسم التخطيطي العلاقة بين جداول الإدخال وجداول القياس والشاشة ولوحة المعلومات.

رسم تخطيطي لمراقبة Databricks Lakehouse

الجدول الأساسي وجدول الأساس

بالإضافة إلى الجدول الذي سيتم مراقبته، ويسمى "الجدول الأساسي"، يمكنك اختياريا تحديد جدول أساسي لاستخدامه كمرجع لقياس الانحراف، أو التغيير في القيم بمرور الوقت. يكون الجدول الأساسي مفيدا عندما يكون لديك عينة لما تتوقع أن تبدو عليه بياناتك. الفكرة هي أن الانحراف يتم حسابه بعد ذلك بالنسبة إلى قيم البيانات والتوزيعات المتوقعة.

يجب أن يحتوي الجدول الأساسي على مجموعة بيانات تعكس الجودة المتوقعة لبيانات الإدخال، من حيث التوزيعات الإحصائية وتوزيعات الأعمدة الفردية والقيم المفقودة والخصائص الأخرى. يجب أن يتطابق مع مخطط الجدول المراقب. الاستثناء هو عمود الطابع الزمني للجداول المستخدمة مع السلاسل الزمنية أو ملفات تعريف الاستدلال. إذا كانت الأعمدة مفقودة في الجدول الأساسي أو الجدول الأساسي، فإن المراقبة تستخدم أفضل استدلال جهد لحساب مقاييس الإخراج.

بالنسبة للشاشات التي تستخدم ملف تعريف لقطة، يجب أن يحتوي جدول الأساس على لقطة للبيانات حيث يمثل التوزيع معيار جودة مقبولا. على سبيل المثال، في بيانات توزيع الدرجات، قد يقوم المرء بتعيين الأساس إلى فصل سابق حيث تم توزيع الدرجات بالتساوي.

بالنسبة إلى أجهزة العرض التي تستخدم ملف تعريف سلسلة زمنية، يجب أن يحتوي الجدول الأساسي على بيانات تمثل نافذة (نوافذ) زمنية حيث تمثل توزيعات البيانات معيار جودة مقبولا. على سبيل المثال، في بيانات الطقس، يمكنك تعيين الأساس إلى أسبوع أو شهر أو سنة حيث كانت درجة الحرارة قريبة من درجات الحرارة العادية المتوقعة.

بالنسبة للشاشات التي تستخدم ملف تعريف الاستدلال، فإن الاختيار الجيد للأساس هو البيانات التي تم استخدامها لتدريب النموذج الذي تتم مراقبته أو التحقق من صحته. بهذه الطريقة، يمكن تنبيه المستخدمين عندما تنجرف البيانات بالنسبة لما تم تدريب النموذج والتحقق من صحته. يجب أن يحتوي هذا الجدول على نفس أعمدة الميزة مثل الجدول الأساسي، ويجب أن يكون له بالإضافة إلى ذلك نفس الذي model_id_col تم تحديده ل InferenceLog للجدول الأساسي بحيث يتم تجميع البيانات باستمرار. من الناحية المثالية، يجب استخدام مجموعة الاختبار أو التحقق من الصحة المستخدمة لتقييم النموذج لضمان مقاييس جودة النموذج القابلة للمقارنة.

جداول القياس ولوحة المعلومات

تقوم شاشة الجدول بإنشاء جدولين قياسيين ولوحة معلومات. يتم حساب قيم القياس للجدول بأكمله، وللنوافذ الزمنية ومجموعات البيانات الفرعية (أو "الشرائح") التي تحددها عند إنشاء جهاز العرض. بالإضافة إلى ذلك، لتحليل الاستدلال، يتم حساب المقاييس لكل معرف نموذج. لمزيد من التفاصيل حول جداول القياس، راجع مراقبة جداول القياس.

يحتوي جدول قياس ملف التعريف على إحصائيات ملخصة. راجع مخطط جدول مقاييس ملف التعريف.
يحتوي جدول مقاييس الانحراف على إحصائيات تتعلق انحراف البيانات بمرور الوقت. إذا تم توفير جدول أساسي، تتم مراقبة الانحراف أيضا بالنسبة إلى قيم الأساس. راجع مخطط جدول مقاييس الانجراف.

جداول القياس هي جداول Delta ويتم تخزينها في مخطط كتالوج Unity الذي تحدده. يمكنك عرض هذه الجداول باستخدام واجهة مستخدم Databricks، والاستعلام عنها باستخدام Databricks SQL، وإنشاء لوحات المعلومات والتنبيهات استنادا إليها.

لكل جهاز عرض، يقوم Databricks تلقائيا بإنشاء لوحة معلومات لمساعدتك في تصور نتائج جهاز العرض وتقديمها. لوحة المعلومات قابلة للتخصيص بالكامل مثل أي لوحة معلومات قديمة أخرى.

بدء استخدام Lakehouse Monitoring على Databricks

راجع المقالات التالية للبدء:

إنشاء جهاز عرض باستخدام واجهة مستخدم Databricks.
إنشاء جهاز عرض باستخدام واجهة برمجة التطبيقات.
فهم جداول قياس المراقبة.
العمل مع لوحة معلومات جهاز العرض.
إنشاء تنبيهات SQL استنادا إلى جهاز عرض.
إنشاء مقاييس مخصصة.
مراقبة نقاط نهاية خدمة النموذج.
مراقبة الإنصاف والتحيز لنماذج التصنيف.
راجع المادة المرجعية لواجهة برمجة تطبيقات مراقبة Databricks Lakehouse.
مثال على دفاتر الملاحظات.