إنشاء سير العمل الأول باستخدام وظيفة Azure Databricks

توضح هذه المقالة مهمة Azure Databricks التي تنسق المهام لقراءة مجموعة بيانات نموذجية ومعالجتها. في هذه البداية السريعة، قمت بـ:

  1. إنشاء دفتر ملاحظات جديد وإضافة تعليمة برمجية لاسترداد عينة مجموعة بيانات تحتوي على أسماء الأطفال الشائعة حسب السنة.
  2. احفظ عينة مجموعة البيانات إلى كتالوج Unity.
  3. إنشاء دفتر ملاحظات جديد وإضافة تعليمة برمجية لقراءة مجموعة البيانات من كتالوج Unity، وتصفيتها حسب السنة، وعرض النتائج.
  4. إنشاء مهمة جديدة وتكوين مهمتين باستخدام دفاتر الملاحظات.
  5. قم بتشغيل المهمة وعرض النتائج.

المتطلبات

إذا كانت مساحة العمل الخاصة بك ممكنة كتالوج Unity وتم تمكين المهام بلا خادم، بشكل افتراضي، يتم تشغيل المهمة على حساب بلا خادم. لا تحتاج إلى إذن إنشاء نظام المجموعة لتشغيل وظيفتك باستخدام حساب بلا خادم.

وإلا، يجب أن يكون لديك إذن إنشاء نظام المجموعة لإنشاء حساب مهمة أو أذونات لموارد الحوسبة لجميع الأغراض.

يجب أن يكون لديك وحدة تخزين في كتالوج Unity. تستخدم هذه المقالة وحدة تخزين مسماة my-volume في مخطط مسمى default ضمن كتالوج يسمى main. أيضا، يجب أن يكون لديك الأذونات التالية في كتالوج Unity:

  • READ VOLUME و، WRITE VOLUMEأو ALL PRIVILEGES، لوحدات my-volume التخزين.
  • USE SCHEMA أو ALL PRIVILEGES للمخطط default .
  • USE CATALOG أو ALL PRIVILEGES للكتالوج main .

لتعيين هذه الأذونات، راجع امتيازات مسؤول Databricks أو كتالوج Unity والعناصر القابلة للتأمين.

إنشاء دفاتر الملاحظات

استرداد البيانات وحفظها

لإنشاء دفتر ملاحظات لاسترداد عينة مجموعة البيانات وحفظها في كتالوج Unity:

  1. انتقل إلى الصفحة المقصودة ل Azure Databricks وانقر فوق أيقونة جديدة جديد في الشريط الجانبي وحدد دفتر الملاحظات. ينشئ Databricks دفتر ملاحظات فارغا جديدا ويفتحه في المجلد الافتراضي. اللغة الافتراضية هي اللغة التي استخدمتها مؤخرا، ويتم إرفاق دفتر الملاحظات تلقائيا بمورد الحساب الذي استخدمته مؤخرا.

  2. إذا لزم الأمر، قم بتغيير اللغة الافتراضية إلى Python.

  3. انسخ التعليمة البرمجية ل Python التالية والصقها في الخلية الأولى من دفتر الملاحظات.

    import requests
    
    response = requests.get('https://health.data.ny.gov/api/views/jxy9-yhdk/rows.csv')
    csvfile = response.content.decode('utf-8')
    dbutils.fs.put("/Volumes/main/default/my-volume/babynames.csv", csvfile, True)
    

قراءة البيانات المصفاة وعرضها

لإنشاء دفتر ملاحظات لقراءة البيانات وتقديمها للتصفية:

  1. انتقل إلى الصفحة المقصودة ل Azure Databricks وانقر فوق أيقونة جديدة جديد في الشريط الجانبي وحدد دفتر الملاحظات. ينشئ Databricks دفتر ملاحظات فارغا جديدا ويفتحه في المجلد الافتراضي. اللغة الافتراضية هي اللغة التي استخدمتها مؤخرا، ويتم إرفاق دفتر الملاحظات تلقائيا بمورد الحساب الذي استخدمته مؤخرا.

  2. إذا لزم الأمر، قم بتغيير اللغة الافتراضية إلى Python.

  3. انسخ التعليمة البرمجية ل Python التالية والصقها في الخلية الأولى من دفتر الملاحظات.

    babynames = spark.read.format("csv").option("header", "true").option("inferSchema", "true").load("/Volumes/main/default/my-volume/babynames.csv")
    babynames.createOrReplaceTempView("babynames_table")
    years = spark.sql("select distinct(Year) from babynames_table").toPandas()['Year'].tolist()
    years.sort()
    dbutils.widgets.dropdown("year", "2014", [str(x) for x in years])
    display(babynames.filter(babynames.Year == dbutils.widgets.get("year")))
    

قم بإنشاء وظيفة

  1. انقر فوق أيقونة مهام سير العمل مهام سير العمل في الشريط الجانبي.

  2. انقر فوق الزر .

    تظهر علامة التبويب المهام مع مربع الحوار إنشاء مهمة.

    إنشاء مربع حوار المهمة الأولى

  3. استبدل إضافة اسم لمهمتك... باسم وظيفتك.

  4. في حقل اسم المهمة، أدخل اسما للمهمة؛ على سبيل المثال، استرداد أسماء الأطفال.

  5. في القائمة المنسدلة النوع ، حدد دفتر الملاحظات.

  6. استخدم مستعرض الملفات للعثور على دفتر الملاحظات الأول الذي أنشأته، وانقر فوق اسم دفتر الملاحظات، ثم انقر فوق تأكيد.

  7. انقر فوق إنشاء مهمة.

  8. انقر الزر أسفل المهمة التي أنشأتها للتو لإضافة مهمة أخرى.

  9. في حقل اسم المهمة، أدخل اسما للمهمة؛ على سبيل المثال، filter-baby-names.

  10. في القائمة المنسدلة النوع ، حدد دفتر الملاحظات.

  11. استخدم مستعرض الملفات للعثور على دفتر الملاحظات الثاني الذي أنشأته، وانقر فوق اسم دفتر الملاحظات، ثم انقر فوق تأكيد.

  12. انقر فوق Add ضمن Parameters. في حقل المفتاح ، أدخل year. في حقل القيمة ، أدخل 2014.

  13. انقر فوق إنشاء مهمة.

تشغيل المهمة

لتشغيل المهمة على الفور، انقر الزر في الزاوية العلوية اليسرى. يمكنك أيضا تشغيل المهمة بالنقر فوق علامة التبويب Run والنقر فوق Run now في جدول Active Runs .

عرض تفاصيل التشغيل

  1. انقر فوق علامة التبويب تشغيل وانقر فوق الارتباط الخاص بالتشغيل في جدول عمليات التشغيل النشطة أو في جدول عمليات التشغيل المكتملة (خلال 60 يوما الماضية).

  2. انقر فوق أي من المهمةين لمشاهدة الإخراج والتفاصيل. على سبيل المثال، انقر فوق مهمة filter-baby-names لعرض الإخراج وتشغيل التفاصيل لمهمة التصفية:

    عرض نتائج أسماء عوامل التصفية

تشغيل باستخدام معلمات مختلفة

لإعادة تشغيل الوظيفة وتصفية أسماء الأطفال لسنة مختلفة:

  1. انقر إلى علامة إقطفاء زرقاء لأسفلجانب Run now وحدد Run now with different parameters أو انقر فوق Run now with different parameters في جدول Active Runs.
  2. في حقل القيمة ، أدخل 2015.
  3. انقر فوق تشغيل.