הצג נתונים באופן חזותי
אחת הדרכים האינטואיטיבית ביותר לניתוח התוצאות של שאילתות נתונים היא להציג אותן באופן חזותי כתרשימים. מחברות ב- Azure Databricks מספקות יכולות יצירת תרשימים בממשק המשתמש, וכשפונקציונליות זו אינה מספקת את מה שאתה צריך, באפשרותך להשתמש באחת מספריות הגרפיקה הרבות של Python כדי ליצור ולהציג פריטים חזותיים של נתונים במחברת.
שימוש בתרשימי מחברת מוכללים
בעת הצגת מסגרת נתונים או הפעלת שאילתת SQL במחברת Spark ב- Azure Databricks, התוצאות מוצגות תחת תא הקוד. כברירת מחדל, התוצאות מעובדות כטבלה, אך באפשרותך גם להציג את התוצאות כפריטים חזותיים ולהתאים אישית את האופן שבו התרשים מציג את הנתונים, כפי שמוצג כאן:
פונקציונליות הפריט החזותי המוכלל במחברות שימושית כאשר ברצונך לסכם במהירות את הנתונים באופן חזותי. כאשר ברצונך לקבל שליטה רבה יותר על האופן שבו הנתונים מעוצבים, או כדי להציג ערכים שכבר צבורת בשאילתה, שקול להשתמש בחבילה גרפית כדי ליצור פריטים חזותיים משלך.
שימוש בחבילות גרפיקה בקוד
קיימות חבילות גרפיקה רבות שניתן להשתמש בהן כדי ליצור פריטים חזותיים של נתונים בקוד. בפרט, Python תומך ב מבחר גדול של חבילות; רובם בנויים על ספריית Matplotlib הבסיסית . ניתן לעבד את הפלט מספריית גרפיקה במחברת, כך שניתן לשלב בקלות קוד כדי לעבד ולטפל בנתונים עם פריטים חזותיים של נתונים מוטבעים ותאי סימון כדי לספק הערות.
לדוגמה, באפשרותך להשתמש בקוד PySpark הבא כדי לצבור נתונים מתוך נתוני המוצרים ההיפותטיים שנסיירו קודם לכן במודול זה, ולהשתמש ב- Matplotlib כדי ליצור תרשים מהנתונים המצטברים.
from matplotlib import pyplot as plt
# Get the data as a Pandas dataframe
data = spark.sql("SELECT Category, COUNT(ProductID) AS ProductCount \
FROM products \
GROUP BY Category \
ORDER BY Category").toPandas()
# Clear the plot area
plt.clf()
# Create a Figure
fig = plt.figure(figsize=(12,8))
# Create a bar plot of product counts by category
plt.bar(x=data['Category'], height=data['ProductCount'], color='orange')
# Customize the chart
plt.title('Product Counts by Category')
plt.xlabel('Category')
plt.ylabel('Products')
plt.grid(color='#95a5a6', linestyle='--', linewidth=2, axis='y', alpha=0.7)
plt.xticks(rotation=70)
# Show the plot area
plt.show()
ספריית Matplotlib דורשת שנתונים יהיו ב- Dataframe של Pandas במקום ב- Spark dataframe, כך ששיטה toPandas משמשת להמרה. לאחר מכן הקוד יוצר איור עם גודל שצוין, ומתווה תרשים עמודות עם תצורת מאפיין מותאם אישית מסוימת לפני הצגת התוויית הנתונים המתוויית התוצאה.
התרשים שיוצר הקוד ייראה דומה לתמונה הבאה:
באפשרותך להשתמש בספריית Matplotlib כדי ליצור סוגים רבים של תרשים; או אם אתה מועדף, באפשרותך להשתמש בספריות אחרות כגון סיבורן כדי ליצור תרשימים מותאמים אישית.
הערה
ייתכן שהספריות Matplotlib ו- Seaborn כבר מותקנות באשכולות Databricks, בהתאם ל- Databricks Runtime עבור האשכול. אם לא, או אם ברצונך להשתמש בספריה אחרת שלא מותקנת עדיין, באפשרותך להוסיף אותה לאשכול. ראה ספריות אשכולות בתיעוד של Azure Databricks לקבלת פרטים.