תכנון שילוב נתונים ופתרון אנליטי באמצעות Azure Databricks
Azure Databricks היא פלטפורמת Big Data ולמידת מכונה המנוהלת במלואה ומבוססת הענן, המעצימה מפתחים כדי להאיץ בינה מלאכותית וחדשנות. Azure Databricks מספק צוותי מדעי נתונים והנדסיים עם פלטפורמה אחת לעיבוד נתונים גדול ולמידת מכונה. פלטפורמת Apache Spark המנוהלת של Azure Databricks מקלה עליך להפעיל עומסי עבודה בקנה מידה גדול של Spark.
דברים שכדאי לדעת על Azure Databricks
Azure Databricks מבוסס לחלוטין על Apache Spark, והוא כלי נהדר למשתמשים שכבר מכירים את מסגרת מיחשוב האשכולות של קוד פתוח. Databricks מיועד במיוחד לעיבוד נתונים גדולים. מדעני נתונים יכולים לנצל את ה- API המרכזי המוכלל עבור שפות ליבה כגון SQL, Java, Python, R ו- Scala.
ל- Azure Databricks יש מטוס בקרה ומטוס Data:
- בקרת מישור: Hosts Databricks jobs, מחברות עם תוצאות שאילתה, ומנהל האשכולות. המטוס Control כולל גם את יישום האינטרנט, Metastore של כוורת ורשימות בקרת גישה לאבטחה (ACL) והפעלות משתמש. Microsoft מנהלת רכיבים אלה בשיתוף פעולה עם Azure Databricks.
- נתוניםנתונים : מכיל את כל אשכולות זמן הריצה של Azure Databricks המתארחים בתוך סביבת העבודה. כל עיבוד הנתונים והאחסון קיימים בתוך מנוי הלקוח. לא מתבצע עיבוד נתונים בתוך המנוי המנוהל על-ידי Microsoft/Databricks.
Azure Databricks מציע שלוש סביבת פיתוח יישומים אינטנסיביים של נתונים.
- Databricks SQL: Azure Databricks SQL מספק פלטפורמה קלה לשימוש עבור אנליסטים ה רוצים להפעיל שאילתות SQL באגם הנתונים שלהם. באפשרותך ליצור סוגי פריטים חזותיים מרובים כדי לבחון תוצאות שאילתה מנקודות מבט שונות, ולבנות ולשתף לוחות מחוונים.
- Databricks Data Science & Engineering: Azure Databricks Data Science & Engineering היא סביבת עבודה אינטראקטיבית של המאפשרת שיתוף פעולה בין מהנדסי נתונים, מדעני נתונים ומהנדסי למידת מכונה. עבור צינור נתונים גדול, הנתונים (גולמיים או מובנים) מוכללים ב- Azure באמצעות Azure Data Factory באצוות, או מוזרמים ליד זמן אמת באמצעות Apache Kafka, Azure Event Hub או Azure IoT Hub. הנתונים נוחתים באגם נתונים לאחסון עקבי לטווח ארוך בתוך Azure Blob Storage או Azure Data Lake Storage. כחלק מזרימת העבודה של הניתוח שלך, השתמש ב- Azure Databricks כדי לקרוא נתונים ממקורות נתונים מרובים וכיצד להפוך אותם לתובנות פורצות דרך באמצעות Spark.
- Databricks Machine Learning: Azure Databricks Machine Learning היא סביבת למידת מכונה משולבת מקצה לקצה. היא משלבת שירותים מנוהלים למעקב אחר ניסויים, הדרכת מודלים, פיתוח וניהול תכונות וגישת תכונות ומודלים.
תרחיש עסקי
בוא ננתח תרחיש עבור Tailwind Traders בחטיבת הייצור של מכונות כבדות. Tailwind Traders משתמשת ב- Azure Cloud Services לצרכי הנתונים הגדולים שלהם. הם עובדים הן עם נתוני אצווה והן עם נתוני זרימה. החטיבה משתמשת מהנדסי נתונים, מדעני נתונים ואנליסטים של נתונים המשתפים פעולה כדי להפיק דיווח מהיר בעל תובנות עבור בעלי עניין רבים. כדי לעמוד בדרישות הנתונים הבאות, בכוונתך להמליץ על Azure Databricks וליישם את סביבת מדעי הנתונים וההנדסה.
בוא נעיין מדוע Azure Databricks יכול להיות הבחירה הנכונה לעמוד בדרישות אלה.
- Azure Databricks מספק סביבת עבודה משולבת של ניתוח המבוססת Apache Spark המאפשרת שיתוף פעולה בין משתמשים שונים.
- באמצעות רכיבי Spark כגון Spark SQL ו- Dataframes, Azure Databricks יכול לטפל בנתונים מובנים. הוא משתלב עם כלי עיבוד נתונים בזמן אמת, כגון Kafka ו- Flume לעיבוד נתוני זרימה.
- יכולות שילוב נתונים מאובטחות המבוססות על Spark מאפשרות לך לרכז את הנתונים שלך ללא צורך ברכזות. מדעני נתונים יכולים להציג נתונים באופן חזותי בכמה שלבים ולהשתמש בכלים מוכרים כגון Matplotlib, ggplot או d3.
- זמן הריצה של Azure Databricks מפשט את מורכבות התשתית ואת הצורך במומחיות מיוחדת כדי להגדיר ולהגדיר את תשתית הנתונים שלך. המשתמשים יכולים להשתמש במיומנויות שפה קיימות עבור Python, Scala ו- R ולחקור את הנתונים.
- Azure Databricks משתלב באופן עמוק עם מסדי נתונים וחנויות של Azure, כגון Azure Synapse Analytics, Azure Cosmos DB, Azure Data Lake Storage ו- Azure Blob Storage. הוא תומך בפלטפורמות מגוונות של מאגר נתונים, אשר עונה על צרכי אחסון הנתונים הגדולים של Tailwind Traders.
- שילוב עם Power BI מאפשר תובנות מהירות ובעלות משמעות, שהיא דרישה עבור Tailwind Traders.
- Azure Databricks SQL אינו הבחירה הנכונה מאחר שהוא אינו יכול לטפל בנתונים לא ברורים.
- למידת מכונה של Azure Databricks אינה הבחירה הנכונה בסביבה, מכיוון שלמידת מכונה אינה דרישה בתרחיש זה.
דברים שיש לשקול בעת שימוש ב- Azure Databricks
באפשרותך להשתמש ב- Azure Databricks כפתרון עבור תרחישים מרובים. שקול כיצד השירות יכול להוסיף תועלת לפתרון שילוב הנתונים שלך עבור Tailwind Traders.
- שקול להכין את מדעי הנתונים. צור, שכפל וערוך אשכולות של נתונים מורכבים ולא ברורים. הפוך את אשכולות הנתונים למשימות ספציפיות. ספק את התוצאות למדענים ולאנליסטים של נתונים לסקירה.
- לשקול תובנות בטבלת. יישם את Azure Databricks כדי לבנות מנועי המלצה, ניתוח צ'ורן וזיהוי הפרעה.
- לשקול פרודוקטיביות בין צוותי נתונים וניתוחים. צור סביבה שיתופית וסביבות עבודה משותפות עבור מהנדסי נתונים, אנליסטים ומדענים. Teams יכול לעבוד יחד לאורך מחזור החיים של מדעי הנתונים עם סביבות עבודה משותפות, מה שמסייע לחסוך זמן ומשאבים יקרי ערך.
- שקול עומסי עבודה גדולים. פעל ב- Azure Data Lake ובמנוע כדי לקבל את הביצועים והמהימנות הטובים ביותר עבור עומסי העבודה הגדולים שלך בנתונים. צור קווי צינור של נתונים מרובי שלבים ללא טרחה.
- שקול תוכניות למידת מכונה. נצל את הסביבה המשולבת של למידת מכונה מקצה לקצה. היא משלבת שירותים מנוהלים למעקב אחר ניסויים, הדרכת מודלים, פיתוח וניהול תכונות וגישת תכונות ומודלים.