תרגיל - השתמש בהמרה לחישוב בתוך Azure Data Factory

הושלם

במקרים מסוימים, ייתכן שהטרנספורמציה ללא קוד בקנה מידה לא עומדת בדרישות שלך. באפשרותך להשתמש ב- Azure Data Factory כדי להוסיף נתונים גולמיים שנאספו ממקורות שונים ולעבוד עם מגוון משאבי חישוב כגון Azure Databricks, Azure HDInsight או משאבי מחשוב אחרים כדי ליצור אותם מחדש בהתאם לדרישותיך.

ADF ו- Azure Databricks

לדוגמה, השילוב של Azure Databricks עם ADF מאפשר לך להוסיף מחברות Databricks בתוך קו צינור של ADF כדי למנף את יכולות האנליטיות ושינוי הנתונים של Databricks. באפשרותך להוסיף מחברת בתוך זרימת העבודה של הנתונים שלך כדי ליצור מבנה ולהמיר נתונים גולמיים שנטענו ל- ADF ממקורות שונים. לאחר המרת הנתונים באמצעות Databricks, תוכל לטעון אותם לכל מקור מחסן נתונים.

איסוף נתונים ושינוי באמצעות היכולות הקולקטיביות של ADF ו- Azure Databricks כוללות למעשה את השלבים הבאים:

  1. יצירת חשבון אחסון של Azure - השלב הראשון הוא ליצור חשבון אחסון של Azure כדי לאחסן את הנתונים שמקורם בנתונים שהושתו.

  2. צור Azure Data Factory - לאחר הגדרת חשבון האחסון שלך, עליך ליצור את Azure Data Factory באמצעות פורטל Azure.

  3. יצירת צינור זרימת עבודה של נתונים - לאחר שהאחסון ו- ADF פועלים, אתה מתחיל ביצירת צינור, כאשר השלב הראשון הוא להעתיק נתונים מהמקור באמצעות פעילות ההעתקה של ADF. 'העתק פעילות' מאפשר לך להעתיק נתונים ממקורות מקומיים ומקורות ענן שונים.

  4. הוסף את המחברת Databricks לצינור - לאחר שהנתונים שלך יועתקו ל- ADF, תוסיף את המחברת של Databricks לצינור, לאחר פעילות ההעתקה. מחברת זו עשויה להכיל תחביר וקוד כדי להמיר ולנקות נתונים גולמיים לפי הצורך.

  5. בצע ניתוח על נתונים - כעת, לאחר ניקוי ומבנה הנתונים בתבנית הנדרשת, באפשרותך להשתמש במחברות Databricks כדי להמשיך לאמן או לנתח אותם כדי ליצור פלט של התוצאות הנדרשות.

למדת מהו Azure Data Factory וכיצד השילוב שלו עם Azure Databricks עוזר לך לטעון ולהמיר את הנתונים שלך. כעת ניצור זרימת עבודה של נתונים לדוגמה מקצה לקצה.

שילוב מחברות של Azure Databricks עם צינור Azure Data Factory

יש לבצע מספר משימות כדי לשלב מחברות של Azure Databricks עם צינור Azure Data Factory באופן הבא:

  1. צור אסימון גישה של Databricks.

  2. צור מחברת Databricks

  3. יצירת שירותים מקושרים

  4. צור צינור המשתמש בפעילות מחברת Databricks.

  5. הפעל צינור.

    הערה

    השלבים הבאים נכתבו מתוך ההנחה שכבר מוקצה אשכול Azure Databricks

משימה 1: צור אסימון גישה של Databricks.

  1. בפורטל Azure, לחץ על קבוצות משאבים ולאחר מכן לחץ על awrgstudxx ולאחר מכן לחץ על awdbwsstudxx כאשר xx הם ראשי התיבות של שמך.

  2. לחץ על סביבת עבודה של הפעלה

  3. לחץ על הגדרות המשתמש בפינה הימנית התחתונה של סביבת העבודה Databricks שלך.

  4. לחץ על הגדרות משתמש.

  5. עבור אל הכרטיסיה אסימוני גישה ולחץ על לחצן צור אסימון חדש.

  6. הזן תיאור בהערה "עבור שילוב ADF" והגדר את משך החיים של 10 ימים ולחץ על צור

  7. העתק את האסימון שנוצר ואחסן אותו ב'פנקס רשימות' ולאחר מכן לחץ על סיום.

משימה 2: יצירת מחברת Databricks

  1. בצד הימני של המסך, לחץ על סמל סביבת עבודה ולאחר מכן לחץ על החץ לצד המילה סביבת עבודה, לחץ על צור ולאחר מכן לחץ על תיקיה. תן שם לתיקיה adftutorial ולחץ על צור תיקיה. התיקיה adftutorial מופיעה בסביבת העבודה.

  2. לחץ על החץ הנפתח לצד adftutorial ולאחר מכן לחץ על צור ולאחר מכן לחץ על מחברת.

  3. בתיבת הדו-שיח יצירת מחברת, הקלד את שם ה- mynotebook וודא שהשפה מציינת את Python ולאחר מכן לחץ על צור. המחברת עם הכותרת של mynotebook מופיעה/

  4. במחברת החדשה שנוצרה ,"mynotebook", הוסף את הקוד הבא:

    # Creating widgets for leveraging parameters, and printing the parameters
    
    dbutils.widgets.text("input", "","")
    dbutils.widgets.get("input")
    y = getArgument("input")
    print ("Param -\'input':")
    print (y)
    

    הערה

    שנתיב המחברת הוא /adftutorial/mynotebook

משימה 3: יצירת שירותים מקושרים

  1. ב- Microsoft Edge, לחץ על הכרטיסיה של הפורטל בפורטל Azure, וחזור ל- Azure Data Factory ולחץ על Open Azure Data Factory Studio.

  2. בצד הימני של המסך, לחץ על סמל נהל.

  3. תחת חיבורים, לחץ על שירותים מקושרים.

  4. בשירות המקושר, בחלק העליון של המסך, לחץ על + חדש,

  5. לחץ על הכרטיסיה חישוב , לחץ על Azure Databricks ולאחר מכן לחץ על המשך.

  6. במסך שירות מקושר חדש (Azure Databricks), מלא את הפרטים הבאים ולחץ על סיום

    • שם: xx_dbls, כאשר xx הם ראשי התיבות שלך
    • Databricks Workspace: awdbwsstudxx, כאשר xx הם ראשי התיבות שלך
    • בחר אשכול: השתמש בקיימות
    • תחום/ אזור: יש לאכלס
    • אסימון גישה: העתק את אסימון הגישה מתוך פנקס רשימות והדבק בשדה זה
    • בחר מתוך אשכול קיים: awdbclstudxx, כאשר xx הם ראשי התיבות שלך
    • השארת אפשרויות אחרות בהגדרות ברירת המחדל שלהן

    הערה

    כאשר אתה לוחץ על סיום, אתה מוחזר למסך מחבר & צג שבו נוצר xx_dbls, עם שירותים מקושרים אחרים שנוצרו ב- exercize הקודם.

משימה 4: צור צינור המשתמש בפעילות מחברת Databricks.

  1. בצד הימני של המסך, לחץ על סמל מחבר ולאחר מכן לחץ על קו צינור. פעולה זו פותחת כרטיסיה עם מעצב צינור.

  2. בחלק התחתון של מעצב הצינור, לחץ על הכרטיסיה פרמטרים ולאחר מכן לחץ על + חדש

  3. יצירת פרמטר עם שם השם, עם סוג מחרוזת

  4. תחת התפריט פעילויות , הרחב את Databricks.

  5. לחץ וגרור את מחברת אל בד הציור.

  6. במאפיינים של החלון Notebook1 בחלק התחתון, בצע את השלבים הבאים:

    • עבור לכרטיסיה Azure Databricks .

    • בחר xx_dbls שבחרת בהליך הקודם.

    • עבור לכרטיסיה הגדרות והעבר את /adftutorial/mynotebook בנתיב המחברת.

    • הרחב את Base Parameters ולאחר מכן לחץ על + New

    • יצירת פרמטר עם שם הקלט, עם ערך של @pipeline().parameters.name

  7. במחברת1, לחץ על אמת, לצד לחצן שמור כתבנית. כאשר מופיע חלון בצדו הימני של המסך המציין "צינור הצינור שלך אומת. לא נמצאו שגיאות." לחץ על כדי >> לסגור את החלון.

  8. לחץ על פרסם הכל כדי לפרסם את השירות וצבר הצינור המקושרים.

    הערה

    תופיע הודעה המציימת שהפריסה הצליחה.

משימה 5: הפעלת צינור

  1. במחברת1, לחץ על הוסף גורם מפעיל ולחץ על גורם מפעיל כעת לצד לחצן איתור באגים.

  2. תיבת הדו-שיח הפעלת צינור מבקש את פרמטר השם. השתמש ב- /path/filename בפרמטר כאן. לחץ על סיום. עיגול אדום מופיע מעל הפעילות במחברת1 בבד הציור.

פעילות 6: ניטור קו הצינור

  1. בצד הימני של המסך, לחץ על הכרטיסיה צג . ודא שאתה רואה קו צינור רץ. יצירת אשכול משימות Databricks אורכת כ- 5-8 דקות, שבו המחברת מבוצעת.

  2. בחר רענן מעת לעת כדי לבדוק את מצב הפעלת קו הצינור.

  3. כדי לראות את הפעלות הפעילות המשויכות לצינור שהופעל, בחר הצג פעילות פועלתבעמודה פעולות.

משימה 7: אימות הפלט

  1. ב- Microsoft Edge, לחץ על הכרטיסיה mynotebook - Databricks

  2. בסביבת העבודה Azure Databricks , לחץ על אשכולות ובאפשרותך לראות את מצב המשימה כביצוע, הפעלה או סיום ממתינים.

  3. לחץ על awdbclstudxx של האשכול ולאחר מכן לחץ על יומן האירועים כדי להציג את הפעילויות.

    הערה

    אתה אמור לראות סוג אירוע של התחלה עם הזמן שבו הפעלת את קו הצינור.