מבוא
Azure Databricks מציע פלטפורמה מדורגת ביותר לניתוח נתונים ולבעיבוד באמצעות Apache Spark.
Spark היא פלטפורמה גמישה התומכת בשפות תיכנות ובממשקי API רבים ושונות. על-ידי הגדרת סביבת עבודה של Databricks ופריסה של אשכולות Spark, המשתמשים יכולים בקלות להוסיף נתונים ממקורות שונים, כגון Azure Data Lake או Cosmos DB לתוך Spark DataFrames. במחברות האינטראקטיביות של Databricks, המשתמשים יכולים לבצע המרות נתונים מורכבות באמצעות ה- API של DataFrame של Spark, הכולל פעולות כגון סינון, קיבוץ וצבירה. ניתן לבצע את רוב משימות עיבוד הנתונים והניתוח באמצעות ה- API של Dataframe , שבו נתמקד במודול זה.
במודול זה, תלמד כיצד:
- תאר רכיבים עיקריים של ארכיטקטורת Apache Spark.
- צור וקבע תצורה של אשכול Spark.
- תאר מקרי שימוש עבור Spark.
- השתמש ב- Spark כדי לעבד ולנתח נתונים המאוחסנים בקבצים.
- השתמש ב- Spark כדי להציג נתונים באופן חזותי.