تحويل البيانات عن طريق تشغيل نشاط Python في Azure Databricks

ينطبق على: Azure Data Factory Azure Synapse Analytics

تلميح

جرب Data Factory في Microsoft Fabric، وهو حل تحليلي متكامل للمؤسسات. يغطي Microsoft Fabric كل شيء بدءا من حركة البيانات إلى علم البيانات والتحليلات في الوقت الحقيقي والمعلومات المهنية وإعداد التقارير. تعرف على كيفية بدء إصدار تجريبي جديد مجانا!

يُشغل نشاط Azure Databricks Python في التدفق ملف Python في نظام مجموعة Azure Databricks. تعتمد هذه المقالة على مقالة أنشطة تحويل البيانات، والتي تقدم نظرة عامة على تحويل البيانات وأنشطة التحويل المدعومة. يُعد Azure Databricks نظاماً أساسياً مُداراً لتشغيل Apache Spark.

للحصول على مقدمة لمدة إحدى عشرة دقيقة وعرض توضيحي لهذه الميزة، شاهد الفيديو التالي:

إضافة نشاط Python لـ Azure Databricks إلى بنية أساسية لبرنامج ربط العمليات التجارية باستخدام واجهة المستخدم

لاستخدام نشاط Python لـ Azure Databricks في بنية أساسية لبرنامج ربط العمليات التجارية، أكمل الخطوات التالية:

  1. ابحث عن Python في جزء أنشطة البنية الأساسية لبرنامج ربط العمليات التجارية، واسحب نشاط Python إلى لوحة البنية الأساسية لبرنامج ربط العمليات التجارية.

  2. حدد نشاط Python الجديد على اللوحة إذا لم يكن محددًا بالفعل.

  3. حدد علامة التبويب Azure Databricks لتحديد أو إنشاء خدمة جديدة مرتبطة بـ Azure Databricks ستنفذ نشاط Python.

    يعرض واجهة المستخدم لنشاط Python.

  4. حدد علامة التبويب الإعدادات وحدد المسار داخل Azure Databricks إلى ملف Python ليتم تنفيذه والمعلمات الاختيارية التي سيتم تمريرها وأي مكتبات إضافية يتم تثبيتها على المجموعة لتنفيذ المهمة.

    يعرض واجهة المستخدم لعلامة التبويب

تعريف نشاط Databricks Python

فيما يلي نموذج تعريف JSON لنشاط Databricks Python:

{
    "activity": {
        "name": "MyActivity",
        "description": "MyActivity description",
        "type": "DatabricksSparkPython",
        "linkedServiceName": {
            "referenceName": "MyDatabricksLinkedService",
            "type": "LinkedServiceReference"
        },
        "typeProperties": {
            "pythonFile": "dbfs:/docs/pi.py",
            "parameters": [
                "10"
            ],
            "libraries": [
                {
                    "pypi": {
                        "package": "tensorflow"
                    }
                }
            ]
        }
    }
}

خصائص نشاط Databricks Python

يصف الجدول التالي خصائص JSON المستخدمة في تعريف JSON:

الخاصية الوصف مطلوب
الاسم اسم النشاط في التدفق. ‏‏نعم‬
الوصف نص يصف ما يفعله النشاط. لا
النوع بالنسبة إلى نشاط Databricks Python، يكون نوع النشاط هو DatabricksSparkPython. ‏‏نعم‬
linkedServiceName اسم خدمة ربط Databricks التي يعمل عليها نشاط Python. للتعرف على هذه الخدمة المرتبطة، راجع مقالة خدمات الحوسبة المرتبطة. ‏‏نعم‬
pythonFile سيتم تنفيذ عنوان URI لملف Python. يتم دعم مسارات DBFS فقط. ‏‏نعم‬
المعلمات معلمات سطر الأوامر التي سيتم تمريرها إلى ملف Python. هذه مصفوفة من السلاسل. لا
المصادقة قائمة بالمكتبات التي سيتم تثبيتها على نظام المجموعة الذي سيقوم بتنفيذ المهمة. يمكن أن تكون مصفوفة <سلسلة، عنصر> لا

المكتبات المدعومة لأنشطة Databricks

في تعريف نشاط Databricks أعلاه، يمكنك تحديد أنواع هذه المكتبات: jar، وegg، وmaven، وpypi، وcran.

{
    "libraries": [
        {
            "jar": "dbfs:/mnt/libraries/library.jar"
        },
        {
            "egg": "dbfs:/mnt/libraries/library.egg"
        },
        {
            "maven": {
                "coordinates": "org.jsoup:jsoup:1.7.2",
                "exclusions": [ "slf4j:slf4j" ]
            }
        },
        {
            "pypi": {
                "package": "simplejson",
                "repo": "http://my-pypi-mirror.com"
            }
        },
        {
            "cran": {
                "package": "ada",
                "repo": "https://cran.us.r-project.org"
            }
        }
    ]
}

لمزيد من التفاصيل، راجع وثائق Databricks لأنواع المكتبات.

كيفية تحميل مكتبة في Databricks

يمكنك استخدام واجهة مستخدم مساحة العمل:

  1. استخدام واجهة مستخدم مساحة عمل Databricks

  2. يمكنك استخدام Databricks CLI لحصول على مسار dbfs من المكتبة المضافة باستخدام واجهة المستخدم.

    عادةً ما يتم تخزين مكتبات Jar في الدليل dbfs:/FileStore/jars أثناء استخدام واجهة المستخدم. يمكنك سردها بالكامل من خلال CLI: databricks fs ls dbfs:/FileStore/job-jars

أو يمكنك استخدام Databricks CLI:

  1. اتبع نسخ المكتبة باستخدام Databricks CLI

  2. استخدام Databricks CLI (خطوات التثبيت)

    على سبيل المثال، لنسخ JAR إلى dbfs: dbfs cp SparkPi-assembly-0.1.jar dbfs:/docs/sparkpi.jar