تحليل البيانات الاستكشافية على Azure Databricks: الأدوات والتقنيات

توضح هذه المقالة الأدوات والتقنيات لتحليل البيانات الاستكشافية (EDA) على Azure Databricks.

ما هي EDA ولماذا هي مفيدة؟

يتضمن تحليل البيانات الاستكشافية (EDA) أساليب لاستكشاف مجموعات البيانات لتلخيص خصائصها الرئيسية وتحديد أي مشكلات في البيانات. باستخدام الأساليب الإحصائية والمرئيات، يمكنك التعرف على مجموعة بيانات لتحديد استعدادها للتحليل وإعلام التقنيات التي يجب تطبيقها لإعداد البيانات. يمكن أن تؤثر EDA أيضا على الخوارزميات التي تختارها لتطبيقها لتدريب نماذج التعلم الآلي.

ما هي أدوات EDA في Azure Databricks؟

يحتوي Azure Databricks على أدوات تحليل وتصور مضمنة في كل من Databricks SQL وفي Databricks Runtime. للحصول على قائمة توضيحية وأنواع المرئيات المتوفرة في Azure Databricks، راجع أنواع المرئيات.

EDA في Databricks SQL

فيما يلي بعض المقالات المفيدة حول أدوات تصور البيانات والاستكشاف في Databricks SQL:

EDA في وقت تشغيل Databricks

يوفر Databricks Runtime بيئة تم إنشاؤها مسبقا تحتوي على مكتبات استكشاف البيانات الشائعة المثبتة بالفعل. يمكنك مشاهدة قائمة المكتبات المضمنة في ملاحظات الإصدار.

بالإضافة إلى ذلك، تعرض المقالات التالية أمثلة على أدوات المرئيات في Databricks Runtime:

في دفتر ملاحظات Databricks Python، يمكنك دمج SQL وPython لاستكشاف البيانات. عند تشغيل التعليمات البرمجية في خلية لغة SQL في دفتر ملاحظات Python، يتم توفير نتائج الجدول تلقائيا ك Python DataFrame. للحصول على التفاصيل، راجع استكشاف نتائج خلية SQL في دفاتر ملاحظات Python.