עיצוב ומימוש מודלינג נתונים עם Azure Databricks
ביניים
מהנדס נתונים
Azure Databricks
מידול נתונים אפקטיבי מהווה את הבסיס לפלטפורמת נתונים מתפקדת וניתנת לתחזוקה. מודול זה בוחן כיצד לעצב לוגיקת קליטה, לבחור כלים ופורמטים מתאימים לטבלאות, ליישם סכמות חלוקה, לנהל ממדים משתנים לאט, לבחור פירוטיות נתונים מתאימה, ולייעל ביצועי טבלאות באמצעות אסטרטגיות אשכול ב-Azure Databricks עם קטלוג Unity.
מטרות הלמידה
עד סוף מודול זה, תוכל:
- עצב לוגיקת קליטת נתונים והגדר חיבורי מקור נתונים
- בחר את כלי קליטת הנתונים המתאים לתרחיש שלך
- בחר בין Delta Lake, Apache Iceberg ופורמטים אחרים של טבלאות
- תכנון ויישום שיטות חלוקה יעילות של נתונים
- בחר ומיישם סוגי ממדים המשתנים לאט
- עיצוב ויישום טבלאות זמניות למעקב שינויים וביקורת
- בחר פירוטיות נתונים מתאימה לטבלאות עובדות ומימדים
- עיצוב ויישום אסטרטגיות אשכול לאופטימיזציה של שאילתות
- העריך מתי להשתמש בטבלאות מנוהלות לעומת טבלאות חיצוניות
דרישות מוקדמות
יש להשלים את הדרישות המקדימות הבאות:
- הבנה בסיסית של סביבות העבודה של Azure Databricks וקטלוג Unity
- היכרות עם מושגי SQL ומחסן נתונים
- ידע ביסודות דלתא לייק