تصور البيانات في دفتر ملاحظات Spark

مكتمل

تتمثل إحدى الطرق الأكثر سهولة لتحليل نتائج استعلامات البيانات في تصورها كمخططات. توفر دفاتر الملاحظات في Microsoft Fabric بعض إمكانيات التخطيط الأساسية في واجهة المستخدم، وعندما لا توفر هذه الوظيفة ما تحتاجه، يمكنك استخدام إحدى مكتبات رسومات Python العديدة لإنشاء مرئيات البيانات وعرضها في دفتر الملاحظات.

استخدام مخططات دفتر الملاحظات المضمنة

عند عرض إطار بيانات أو تشغيل استعلام SQL في دفتر ملاحظات Spark، يتم عرض النتائج ضمن خلية التعليمات البرمجية. بشكل افتراضي، يتم عرض النتائج كجدول، ولكن يمكنك أيضاً تغيير طريقة عرض النتائج إلى مخطط واستخدام خصائص المخطط لتخصيص كيفية تصور المخطط للبيانات، كما هو موضح هنا:

لقطة شاشة لمخطط دفتر الملاحظات لحسابات المنتجات حسب الفئة.

تكون وظيفة المخطط المضمنة في دفاتر الملاحظات مفيدة عندما تريد تلخيص البيانات بسرعة بشكل مرئي. عندما تريد الحصول على مزيد من التحكم في كيفية تنسيق البيانات، يجب أن تفكر في استخدام حزمة رسومات لإنشاء المرئيات الخاصة بك.

استخدام حزم الرسومات في التعليمات البرمجية

هناك العديد من حزم الرسومات التي يمكنك استخدامها لإنشاء مرئيات البيانات في التعليمات البرمجية. على وجه الخصوص، تدعم Python مجموعة كبيرة من الحزم؛ معظمها مبني على مكتبة Matplotlib الأساسية. يمكن عرض الإخراج من مكتبة الرسومات في دفتر ملاحظات، مما يسهل دمج التعليمات البرمجية لاستيعاب البيانات ومعالجتها باستخدام مرئيات البيانات المضمنة وخلايا markdown لتوفير التعليق.

على سبيل المثال، يمكنك استخدام التعليمات البرمجية PySpark التالية لتجميع البيانات من بيانات المنتجات الافتراضية التي تم استكشافها سابقا في هذه الوحدة النمطية، واستخدام Matplotlib لإنشاء مخطط من البيانات المجمعة.

from matplotlib import pyplot as plt

# Get the data as a Pandas dataframe
data = spark.sql("SELECT Category, COUNT(ProductID) AS ProductCount \
                  FROM products \
                  GROUP BY Category \
                  ORDER BY Category").toPandas()

# Clear the plot area
plt.clf()

# Create a Figure
fig = plt.figure(figsize=(12,8))

# Create a bar plot of product counts by category
plt.bar(x=data['Category'], height=data['ProductCount'], color='orange')

# Customize the chart
plt.title('Product Counts by Category')
plt.xlabel('Category')
plt.ylabel('Products')
plt.grid(color='#95a5a6', linestyle='--', linewidth=2, axis='y', alpha=0.7)
plt.xticks(rotation=70)

# Show the plot area
plt.show()

تتطلب مكتبة Matplotlib أن تكون البيانات في إطار بيانات Pandas بدلاً من إطار بيانات Spark، لذلك يتم استخدام أسلوب toPandas لتحويله. ثم تقوم التعليمات البرمجية بإنشاء رسم توضيحي بحجم محدد ورسم مخطط شريطي مع بعض تكوين الخاصية المخصصة قبل إظهار الرسم الناتج.

سيبدو المخطط الذي تنتجه التعليمات البرمجية مشابهاً للصورة التالية:

لقطة شاشة لمخطط شريطي يعرض عدد المنتجات حسب الفئة.

يمكنك استخدام مكتبة Matplotlib لإنشاء العديد من أنواع المخططات؛ أو إذا كنت تفضل ذلك، يمكنك استخدام مكتبات أخرى مثل Seaborn لإنشاء مخططات مخصصة للغاية.