إنشاء سير العمل الأول باستخدام وظيفة Azure Databricks
توضح هذه المقالة مهمة Azure Databricks التي تنسق المهام لقراءة مجموعة بيانات نموذجية ومعالجتها. في هذه البداية السريعة، قمت بـ:
- إنشاء دفتر ملاحظات جديد وإضافة تعليمة برمجية لاسترداد عينة مجموعة بيانات تحتوي على أسماء الأطفال الشائعة حسب السنة.
- احفظ عينة مجموعة البيانات إلى كتالوج Unity.
- إنشاء دفتر ملاحظات جديد وإضافة تعليمة برمجية لقراءة مجموعة البيانات من كتالوج Unity، وتصفيتها حسب السنة، وعرض النتائج.
- إنشاء مهمة جديدة وتكوين مهمتين باستخدام دفاتر الملاحظات.
- قم بتشغيل المهمة وعرض النتائج.
المتطلبات
إذا كانت مساحة العمل الخاصة بك ممكنة كتالوج Unity وتم تمكين المهام بلا خادم، بشكل افتراضي، يتم تشغيل المهمة على حساب بلا خادم. لا تحتاج إلى إذن إنشاء نظام المجموعة لتشغيل وظيفتك باستخدام حساب بلا خادم.
وإلا، يجب أن يكون لديك إذن إنشاء نظام المجموعة لإنشاء حساب مهمة أو أذونات لموارد الحوسبة لجميع الأغراض.
يجب أن يكون لديك وحدة تخزين في كتالوج Unity. تستخدم هذه المقالة وحدة تخزين مسماة my-volume
في مخطط مسمى default
ضمن كتالوج يسمى main
. أيضا، يجب أن يكون لديك الأذونات التالية في كتالوج Unity:
READ VOLUME
و،WRITE VOLUME
أوALL PRIVILEGES
، لوحداتmy-volume
التخزين.USE SCHEMA
أوALL PRIVILEGES
للمخططdefault
.USE CATALOG
أوALL PRIVILEGES
للكتالوجmain
.
لتعيين هذه الأذونات، راجع امتيازات مسؤول Databricks أو كتالوج Unity والعناصر القابلة للتأمين.
إنشاء دفاتر الملاحظات
استرداد البيانات وحفظها
لإنشاء دفتر ملاحظات لاسترداد عينة مجموعة البيانات وحفظها في كتالوج Unity:
انتقل إلى الصفحة المقصودة ل Azure Databricks وانقر فوق جديد في الشريط الجانبي وحدد دفتر الملاحظات. ينشئ Databricks دفتر ملاحظات فارغا جديدا ويفتحه في المجلد الافتراضي. اللغة الافتراضية هي اللغة التي استخدمتها مؤخرا، ويتم إرفاق دفتر الملاحظات تلقائيا بمورد الحساب الذي استخدمته مؤخرا.
إذا لزم الأمر، قم بتغيير اللغة الافتراضية إلى Python.
انسخ التعليمة البرمجية ل Python التالية والصقها في الخلية الأولى من دفتر الملاحظات.
import requests response = requests.get('https://health.data.ny.gov/api/views/jxy9-yhdk/rows.csv') csvfile = response.content.decode('utf-8') dbutils.fs.put("/Volumes/main/default/my-volume/babynames.csv", csvfile, True)
قراءة البيانات المصفاة وعرضها
لإنشاء دفتر ملاحظات لقراءة البيانات وتقديمها للتصفية:
انتقل إلى الصفحة المقصودة ل Azure Databricks وانقر فوق جديد في الشريط الجانبي وحدد دفتر الملاحظات. ينشئ Databricks دفتر ملاحظات فارغا جديدا ويفتحه في المجلد الافتراضي. اللغة الافتراضية هي اللغة التي استخدمتها مؤخرا، ويتم إرفاق دفتر الملاحظات تلقائيا بمورد الحساب الذي استخدمته مؤخرا.
إذا لزم الأمر، قم بتغيير اللغة الافتراضية إلى Python.
انسخ التعليمة البرمجية ل Python التالية والصقها في الخلية الأولى من دفتر الملاحظات.
babynames = spark.read.format("csv").option("header", "true").option("inferSchema", "true").load("/Volumes/main/default/my-volume/babynames.csv") babynames.createOrReplaceTempView("babynames_table") years = spark.sql("select distinct(Year) from babynames_table").toPandas()['Year'].tolist() years.sort() dbutils.widgets.dropdown("year", "2014", [str(x) for x in years]) display(babynames.filter(babynames.Year == dbutils.widgets.get("year")))
قم بإنشاء وظيفة
انقر فوق مهام سير العمل في الشريط الجانبي.
انقر فوق .
تظهر علامة التبويب المهام مع مربع الحوار إنشاء مهمة.
استبدل إضافة اسم لمهمتك... باسم وظيفتك.
في حقل اسم المهمة، أدخل اسما للمهمة؛ على سبيل المثال، استرداد أسماء الأطفال.
في القائمة المنسدلة النوع ، حدد دفتر الملاحظات.
استخدم مستعرض الملفات للعثور على دفتر الملاحظات الأول الذي أنشأته، وانقر فوق اسم دفتر الملاحظات، ثم انقر فوق تأكيد.
انقر فوق إنشاء مهمة.
انقر أسفل المهمة التي أنشأتها للتو لإضافة مهمة أخرى.
في حقل اسم المهمة، أدخل اسما للمهمة؛ على سبيل المثال، filter-baby-names.
في القائمة المنسدلة النوع ، حدد دفتر الملاحظات.
استخدم مستعرض الملفات للعثور على دفتر الملاحظات الثاني الذي أنشأته، وانقر فوق اسم دفتر الملاحظات، ثم انقر فوق تأكيد.
انقر فوق Add ضمن Parameters. في حقل المفتاح ، أدخل
year
. في حقل القيمة ، أدخل2014
.انقر فوق إنشاء مهمة.
تشغيل المهمة
لتشغيل المهمة على الفور، انقر في الزاوية العلوية اليسرى. يمكنك أيضا تشغيل المهمة بالنقر فوق علامة التبويب Run والنقر فوق Run now في جدول Active Runs .
عرض تفاصيل التشغيل
انقر فوق علامة التبويب تشغيل وانقر فوق الارتباط الخاص بالتشغيل في جدول عمليات التشغيل النشطة أو في جدول عمليات التشغيل المكتملة (خلال 60 يوما الماضية).
انقر فوق أي من المهمةين لمشاهدة الإخراج والتفاصيل. على سبيل المثال، انقر فوق مهمة filter-baby-names لعرض الإخراج وتشغيل التفاصيل لمهمة التصفية:
تشغيل باستخدام معلمات مختلفة
لإعادة تشغيل الوظيفة وتصفية أسماء الأطفال لسنة مختلفة:
- انقر إلى جانب Run now وحدد Run now with different parameters أو انقر فوق Run now with different parameters في جدول Active Runs.
- في حقل القيمة ، أدخل
2015
. - انقر فوق تشغيل.