تحويل البيانات عن طريق تشغيل نشاط Python في Azure Databricks
ينطبق على: Azure Data Factory
Azure Synapse Analytics
تلميح
جرب Data Factory في Microsoft Fabric، وهو حل تحليلي متكامل للمؤسسات. يغطي Microsoft Fabric كل شيء بدءا من حركة البيانات إلى علم البيانات والتحليلات في الوقت الحقيقي والمعلومات المهنية وإعداد التقارير. تعرف على كيفية بدء إصدار تجريبي جديد مجانا!
يُشغل نشاط Azure Databricks Python في التدفق ملف Python في نظام مجموعة Azure Databricks. تعتمد هذه المقالة على مقالة أنشطة تحويل البيانات، والتي تقدم نظرة عامة على تحويل البيانات وأنشطة التحويل المدعومة. يُعد Azure Databricks نظاماً أساسياً مُداراً لتشغيل Apache Spark.
للحصول على مقدمة لمدة إحدى عشرة دقيقة وعرض توضيحي لهذه الميزة، شاهد الفيديو التالي:
إضافة نشاط Python لـ Azure Databricks إلى بنية أساسية لبرنامج ربط العمليات التجارية باستخدام واجهة المستخدم
لاستخدام نشاط Python لـ Azure Databricks في بنية أساسية لبرنامج ربط العمليات التجارية، أكمل الخطوات التالية:
ابحث عن Python في جزء أنشطة البنية الأساسية لبرنامج ربط العمليات التجارية، واسحب نشاط Python إلى لوحة البنية الأساسية لبرنامج ربط العمليات التجارية.
حدد نشاط Python الجديد على اللوحة إذا لم يكن محددًا بالفعل.
حدد علامة التبويب Azure Databricks لتحديد أو إنشاء خدمة جديدة مرتبطة بـ Azure Databricks ستنفذ نشاط Python.
حدد علامة التبويب الإعدادات وحدد المسار داخل Azure Databricks إلى ملف Python ليتم تنفيذه والمعلمات الاختيارية التي سيتم تمريرها وأي مكتبات إضافية يتم تثبيتها على المجموعة لتنفيذ المهمة.
تعريف نشاط Databricks Python
فيما يلي نموذج تعريف JSON لنشاط Databricks Python:
{
"activity": {
"name": "MyActivity",
"description": "MyActivity description",
"type": "DatabricksSparkPython",
"linkedServiceName": {
"referenceName": "MyDatabricksLinkedService",
"type": "LinkedServiceReference"
},
"typeProperties": {
"pythonFile": "dbfs:/docs/pi.py",
"parameters": [
"10"
],
"libraries": [
{
"pypi": {
"package": "tensorflow"
}
}
]
}
}
}
خصائص نشاط Databricks Python
يصف الجدول التالي خصائص JSON المستخدمة في تعريف JSON:
الخاصية | الوصف | مطلوب |
---|---|---|
الاسم | اسم النشاط في التدفق. | نعم |
الوصف | نص يصف ما يفعله النشاط. | لا |
النوع | بالنسبة إلى نشاط Databricks Python، يكون نوع النشاط هو DatabricksSparkPython. | نعم |
linkedServiceName | اسم خدمة ربط Databricks التي يعمل عليها نشاط Python. للتعرف على هذه الخدمة المرتبطة، راجع مقالة خدمات الحوسبة المرتبطة. | نعم |
pythonFile | سيتم تنفيذ عنوان URI لملف Python. يتم دعم مسارات DBFS فقط. | نعم |
المعلمات | معلمات سطر الأوامر التي سيتم تمريرها إلى ملف Python. هذه مصفوفة من السلاسل. | لا |
المصادقة | قائمة بالمكتبات التي سيتم تثبيتها على نظام المجموعة الذي سيقوم بتنفيذ المهمة. يمكن أن تكون مصفوفة <سلسلة، عنصر> | لا |
المكتبات المدعومة لأنشطة Databricks
في تعريف نشاط Databricks أعلاه، يمكنك تحديد أنواع هذه المكتبات: jar، وegg، وmaven، وpypi، وcran.
{
"libraries": [
{
"jar": "dbfs:/mnt/libraries/library.jar"
},
{
"egg": "dbfs:/mnt/libraries/library.egg"
},
{
"maven": {
"coordinates": "org.jsoup:jsoup:1.7.2",
"exclusions": [ "slf4j:slf4j" ]
}
},
{
"pypi": {
"package": "simplejson",
"repo": "http://my-pypi-mirror.com"
}
},
{
"cran": {
"package": "ada",
"repo": "https://cran.us.r-project.org"
}
}
]
}
لمزيد من التفاصيل، راجع وثائق Databricks لأنواع المكتبات.
كيفية تحميل مكتبة في Databricks
يمكنك استخدام واجهة مستخدم مساحة العمل:
يمكنك استخدام Databricks CLI لحصول على مسار dbfs من المكتبة المضافة باستخدام واجهة المستخدم.
عادةً ما يتم تخزين مكتبات Jar في الدليل dbfs:/FileStore/jars أثناء استخدام واجهة المستخدم. يمكنك سردها بالكامل من خلال CLI: databricks fs ls dbfs:/FileStore/job-jars
أو يمكنك استخدام Databricks CLI:
استخدام Databricks CLI (خطوات التثبيت)
على سبيل المثال، لنسخ JAR إلى dbfs:
dbfs cp SparkPi-assembly-0.1.jar dbfs:/docs/sparkpi.jar
الملاحظات
https://aka.ms/ContentUserFeedback.
قريبًا: خلال عام 2024، سنتخلص تدريجيًا من GitHub Issues بوصفها آلية إرسال ملاحظات للمحتوى ونستبدلها بنظام ملاحظات جديد. لمزيد من المعلومات، راجعإرسال الملاحظات وعرضها المتعلقة بـ