יצירת אשכול Spark
באפשרותך ליצור אשכול אחד או יותר בסביבת העבודה של Azure Databricks באמצעות פורטל Azure Databricks.
בעת יצירת האשכול, באפשרותך לציין הגדרות תצורה, כולל:
- שם עבור האשכול.
- מצב אשכול, אשר יכול להיות:
- רגיל: מתאים עבור עומסי עבודה של משתמש יחיד הדורשים צמתים עובדים מרובים.
- התרחשות בו-זמנית גבוהה: מתאים עומסי עבודה שבהם משתמשים מרובים ישתמשו באשכול בו-זמנית.
- צומת יחיד: מתאים עומסי עבודה קטנים או בדיקות, כאשר נדרש צומת עובד יחיד בלבד.
- גירסת Databricks Runtime לשימוש באשכול; אשר מכתיב את הגירסה של Spark ורכיבים בודדים כגון Python, Scala ואחרים המותקנים.
- סוג המחשב הווירטואלי (VM) המשמש עבור צמתי רכיב עובד באשכול.
- המספר המינימלי והמקסימום של צמתי עובד באשכול.
- סוג המחשב הווירטואלי המשמש עבור צומת מנהל ההתקן באשכול.
- אם האשכול תומך בשינוי קנה צורה אוטומטי כדי לשנות את גודל האשכול באופן דינאמי.
- משך הזמן שבו האשכול יכול להישאר לא פעיל לפני כיבוי אוטומטי.
כיצד Azure מנהל משאבי אשכולות
בעת יצירת סביבת עבודה של Azure Databricks, מכשיר Databricks נפרס כמקור Azure במנוי שלך. בעת יצירת אשכול בסביבת העבודה, אתה מציין את הסוגים והגדלים של המחשבים הווירטואליים (VM) לשימוש הן עבור מנהלי ההתקנים והן עבור צמתים של רכיב עובד, ואפשרויות תצורה אחרות, אך Azure Databricks מנהל את כל ההיבטים האחרים של האשכול.
המכשיר Databricks נפרס ב- Azure כקבוצת משאבים מנוהלים בתוך המנוי שלך. קבוצת משאבים זו מכילה את מנהלי ההתקנים והמחשבים הווירטואליים של העובד עבור האשכולות שלך, יחד עם משאבים נדרשים אחרים, כולל רשת וירטואלית, קבוצת אבטחה וחשבון אחסון. כל המטה-נתונים עבור האשכול שלך, כגון משימות מתוזמנות, מאוחסנים במסד נתונים של Azure עם שכפול גיאוגרפי עבור עמידות בפני תקלות.
באופן פנימי, Azure Kubernetes Service (AKS) משמש להפעלת מישור הבקרה של Azure Databricks ומטוסי הנתונים באמצעות גורמים מכילים שפועלים בדור האחרון של חומרה Azure (מחשבים וירטואליים של Dv3), עם SSD של NvMe שמסוגלים להשהות 100Us במהירות במחשבים וירטואליים של Azure בעלי ביצועים גבוהים עם עבודה ברשת מואצת. Azure Databricks משתמש בתכונות אלה של Azure כדי לשפר עוד יותר את ביצועי Spark. לאחר שהשירותים בקבוצת המשאבים המנוהלת שלך יהיו מוכנים, תוכל לנהל את אשכול Databricks באמצעות ממשק המשתמש של Azure Databricks ובתכונות כגון שינוי קנה מידה אוטומטי ותסתיים אוטומטיים.
הערה
יש לך גם אפשרות לצרף את האשכול למא מאגר של צמתים לא פעילים כדי לצמצם את זמן האתחול של האשכול. לקבלת מידע נוסף, ראה מאגרים בתיעוד של Azure Databricks.