واجهة برمجة تطبيقات الوظائف 2.0
هام
توثق هذه المقالة الإصدار 2.0 من واجهة برمجة تطبيقات الوظائف. ومع ذلك، توصي Databricks باستخدام Jobs API 2.1 للعملاء والبرامج النصية الجديدة والحالية. للحصول على تفاصيل حول التغييرات من الإصدارات 2.0 إلى 2.1، راجع التحديث من Jobs API 2.0 إلى 2.1.
تتيح لك واجهة برمجة تطبيقات الوظائف إنشاء الوظائف وتحريرها وحذفها. الحد الأقصى المسموح به لحجم الطلب إلى واجهة برمجة تطبيقات الوظائف هو 10 ميغابايت.
للحصول على تفاصيل حول تحديثات واجهة برمجة تطبيقات الوظائف التي تدعم تنسيق مهام متعددة باستخدام وظائف Azure Databricks، راجع التحديث من Jobs API 2.0 إلى 2.1.
تحذير
يجب ألا تقوم أبدا بتخزين البيانات السرية للتعليمات البرمجية الثابتة أو تخزينها في نص عادي. استخدم واجهة برمجة تطبيقات الأسرار لإدارة الأسرار في Databricks CLI. استخدم الأداة المساعدة Secrets (dbutils.secrets) للإشارة إلى الأسرار في دفاتر الملاحظات والمهام.
إشعار
إذا تلقيت خطأ على مستوى 500 عند إجراء طلبات واجهة برمجة تطبيقات الوظائف، يوصي Databricks بإعادة محاولة الطلبات لمدة تصل إلى 10 دقائق (مع فاصل زمني 30 ثانية كحد أدنى بين عمليات إعادة المحاولة).
هام
للوصول إلى واجهات برمجة تطبيقات Databricks REST، يجب عليك المصادقة.
خلق
نقطة النهاية | أسلوب HTTP |
---|---|
2.0/jobs/create |
POST |
إنشاء وظيفة جديدة.
مثال
ينشئ هذا المثال مهمة تقوم بتشغيل مهمة JAR في الساعة 10:15 مساء كل ليلة.
طلب
curl --netrc --request POST \
https://<databricks-instance>/api/2.0/jobs/create \
--data @create-job.json \
| jq .
create-job.json
:
{
"name": "Nightly model training",
"new_cluster": {
"spark_version": "7.3.x-scala2.12",
"node_type_id": "Standard_D3_v2",
"num_workers": 10
},
"libraries": [
{
"jar": "dbfs:/my-jar.jar"
},
{
"maven": {
"coordinates": "org.jsoup:jsoup:1.7.2"
}
}
],
"timeout_seconds": 3600,
"max_retries": 1,
"schedule": {
"quartz_cron_expression": "0 15 22 * * ?",
"timezone_id": "America/Los_Angeles"
},
"spark_jar_task": {
"main_class_name": "com.databricks.ComputeModels"
}
}
استبدل:
<databricks-instance>
مع اسم مثيل مساحة عمل Azure Databricks، على سبيل المثالadb-1234567890123456.7.azuredatabricks.net
.- محتويات
create-job.json
مع الحقول المناسبة للحل الخاص بك.
يستخدم هذا المثال ملف .netrc وjq.
استجابة
{
"job_id": 1
}
بنية الطلب
هام
- عند تشغيل وظيفة على مجموعة وظائف جديدة، يتم التعامل مع الوظيفة على أنها حمل عمل حساب الوظائف (التلقائي) الخاضع لتسعير حساب الوظائف.
- عند تشغيل وظيفة على مجموعة موجودة لجميع الأغراض، يتم التعامل معها على أنها حمل عمل حسابي (تفاعلي) لجميع الأغراض يخضع لتسعير الحوسبة لجميع الأغراض.
اسم الحقل | النوع | الوصف |
---|---|---|
existing_cluster_id أو new_cluster |
STRING OR NewCluster |
إذا existing_cluster_id، معرف مجموعة موجودة سيتم استخدامها لجميع عمليات تشغيل هذه المهمة. عند تشغيل المهام على نظام مجموعة موجود، قد تحتاج إلى إعادة تشغيل نظام المجموعة يدويا إذا توقف عن الاستجابة. نقترح تشغيل الوظائف على مجموعات جديدة لمزيد من الموثوقية. إذا new_cluster، وصف نظام مجموعة سيتم إنشاؤه لكل تشغيل. إذا كان تحديد PipelineTask، يمكن أن يكون هذا الحقل فارغا. |
notebook_task OR spark_jar_task ORspark_python_task OR spark_submit_task ORpipeline_task أو run_job_task |
NotebookTask أو SparkJarTask أو SparkPythonTask أو SparkSubmitTask OR PipelineTask أو RunJobTask | إذا notebook_task، يشير إلى أن هذه المهمة يجب أن تشغل دفتر ملاحظات. قد لا يتم تحديد هذا الحقل بالاقتران مع spark_jar_task. إذا spark_jar_task، يشير إلى أن هذه المهمة يجب أن تشغل JAR. إذا spark_python_task، يشير إلى أن هذه المهمة يجب أن تشغل ملف Python. إذا spark_submit_task، يشير إلى أنه يجب تشغيل هذه المهمة بواسطة البرنامج النصي لإرسال spark. إذا pipeline_task، يشير إلى أن هذه المهمة يجب أن تشغل مسار Delta Live Tables. إذا run_job_task، يشير إلى أن هذه الوظيفة يجب أن تشغل وظيفة أخرى. |
name |
STRING |
اسم اختياري للوظيفة. القيمة الافتراضية هي Untitled . |
libraries |
صفيف من المكتبة | قائمة اختيارية من المكتبات التي سيتم تثبيتها على نظام المجموعة التي ستقوم بتنفيذ المهمة. القيمة الافتراضية هي قائمة فارغة. |
email_notifications |
تعليقات البريد الإلكتروني للوظيفة | يتم إعلام مجموعة اختيارية من عناوين البريد الإلكتروني عند بدء تشغيل هذه المهمة واكتمالها وعند حذف هذه المهمة. السلوك الافتراضي هو عدم إرسال أي رسائل بريد إلكتروني. |
webhook_notifications |
إخطار على الويبالتعليقات التوضيحية | مجموعة اختيارية من وجهات النظام لإعلامها عند بدء تشغيل هذه المهمة أو اكتمالها أو فشلها. |
notification_settings |
إعدادات التعليقات التوضيحية للوظيفة | إعدادات الإعلام الاختيارية التي يتم استخدامها عند إرسال إعلامات إلى كل من email_notifications و webhook_notifications لهذه المهمة. |
timeout_seconds |
INT32 |
مهلة اختيارية مطبقة على كل تشغيل لهذه المهمة. السلوك الافتراضي هو عدم وجود مهلة. |
max_retries |
INT32 |
عدد أقصى اختياري من المرات لإعادة محاولة تشغيل غير ناجح. يعتبر التشغيل غير ناجح إذا اكتمل مع FAILED result_state أوINTERNAL_ERROR life_cycle_state . تعني القيمة -1 إعادة المحاولة إلى أجل غير مسمى والقيمة 0 تعني عدم إعادة المحاولة أبدا. السلوك الافتراضي هو عدم إعادة المحاولة أبدا. |
min_retry_interval_millis |
INT32 |
فاصل زمني اختياري الحد الأدنى بالمللي ثانية بين بداية التشغيل الفاشل وتشغيل إعادة المحاولة اللاحقة. السلوك الافتراضي هو إعادة محاولة عمليات التشغيل غير الناجحة على الفور. |
retry_on_timeout |
BOOL |
نهج اختياري لتحديد ما إذا كنت تريد إعادة محاولة مهمة عندما تنتهي مهلتها. السلوك الافتراضي هو عدم إعادة المحاولة في المهلة. |
schedule |
جدول كرون | جدول دوري اختياري لهذه الوظيفة. السلوك الافتراضي هو أن المهمة يتم تشغيلها عند تشغيلها بالنقر فوق تشغيل الآن في واجهة مستخدم الوظائف أو إرسال طلب واجهة برمجة التطبيقات إلى runNow . |
max_concurrent_runs |
INT32 |
الحد الأقصى الاختياري المسموح به لعدد عمليات التشغيل المتزامنة للوظيفة. قم بتعيين هذه القيمة إذا كنت تريد أن تكون قادرا على تنفيذ عمليات تشغيل متعددة لنفس المهمة بشكل متزامن. هذا مفيد على سبيل المثال إذا قمت بتشغيل وظيفتك وفقا لجدول زمني متكرر وتريد السماح بتراكب عمليات التشغيل المتتالية مع بعضها البعض، أو إذا كنت تريد تشغيل عمليات تشغيل متعددة تختلف حسب معلمات الإدخال الخاصة بهم. يؤثر هذا الإعداد على عمليات التشغيل الجديدة فقط. على سبيل المثال، افترض أن تزامن المهمة هو 4 وهناك 4 عمليات تشغيل نشطة متزامنة. ثم لن يؤدي تعيين التزامن إلى 3 إلى إنهاء أي من عمليات التشغيل النشطة. ومع ذلك، من ذلك الحين فصاعدا، يتم تخطي عمليات التشغيل الجديدة ما لم يكن هناك أقل من 3 عمليات تشغيل نشطة. لا يمكن أن تتجاوز هذه القيمة 1000. يؤدي تعيين هذه القيمة إلى 0 إلى تخطي جميع عمليات التشغيل الجديدة. السلوك الافتراضي هو السماح بتشغيل متزامن واحد فقط. |
بنية الاستجابة
اسم الحقل | النوع | الوصف |
---|---|---|
job_id |
INT64 |
المعرف المتعارف عليه للوظيفة التي تم إنشاؤها حديثا. |
قائمة
نقطة النهاية | أسلوب HTTP |
---|---|
2.0/jobs/list |
GET |
سرد جميع المهام.
مثال
Request
curl --netrc --request GET \
https://<databricks-instance>/api/2.0/jobs/list \
| jq .
استبدل <databricks-instance>
باسم مثيل مساحة عمل Azure Databricks، على سبيل المثال adb-1234567890123456.7.azuredatabricks.net
.
يستخدم هذا المثال ملف .netrc وjq.
استجابة
{
"jobs": [
{
"job_id": 1,
"settings": {
"name": "Nightly model training",
"new_cluster": {
"spark_version": "7.3.x-scala2.12",
"node_type_id": "Standard_D3_v2",
"num_workers": 10
},
"libraries": [
{
"jar": "dbfs:/my-jar.jar"
},
{
"maven": {
"coordinates": "org.jsoup:jsoup:1.7.2"
}
}
],
"timeout_seconds": 100000000,
"max_retries": 1,
"schedule": {
"quartz_cron_expression": "0 15 22 * * ?",
"timezone_id": "America/Los_Angeles",
"pause_status": "UNPAUSED"
},
"spark_jar_task": {
"main_class_name": "com.databricks.ComputeModels"
}
},
"created_time": 1457570074236
}
]
}
بنية الاستجابة
اسم الحقل | النوع | الوصف |
---|---|---|
jobs |
صفيف من الوظائف | قائمة الوظائف. |
حذف
نقطة النهاية | أسلوب HTTP |
---|---|
2.0/jobs/delete |
POST |
احذف وظيفة وأرسل بريدا إلكترونيا إلى العناوين المحددة في JobSettings.email_notifications
. لا يحدث أي إجراء إذا تمت إزالة الوظيفة بالفعل. بعد إزالة الوظيفة، لا تظهر تفاصيلها ولا محفوظات التشغيل الخاصة بها في واجهة مستخدم الوظائف أو واجهة برمجة التطبيقات. يتم ضمان إزالة الوظيفة عند الانتهاء من هذا الطلب. ومع ذلك، قد لا تزال عمليات التشغيل التي كانت نشطة قبل استلام هذا الطلب نشطة. سيتم إنهاؤها بشكل غير متزامن.
مثال
curl --netrc --request POST \
https://<databricks-instance>/api/2.0/jobs/delete \
--data '{ "job_id": <job-id> }'
استبدل:
<databricks-instance>
مع اسم مثيل مساحة عمل Azure Databricks، على سبيل المثالadb-1234567890123456.7.azuredatabricks.net
.<job-id>
بمعرف الوظيفة، على سبيل المثال123
.
يستخدم هذا المثال ملف .netrc .
بنية الطلب
اسم الحقل | النوع | الوصف |
---|---|---|
job_id |
INT64 |
المعرف المتعارف عليه للوظيفة المراد حذفها. هذا الحقل مطلوب. |
حصل
نقطة النهاية | أسلوب HTTP |
---|---|
2.0/jobs/get |
GET |
استرداد معلومات حول وظيفة واحدة.
مثال
Request
curl --netrc --request GET \
'https://<databricks-instance>/api/2.0/jobs/get?job_id=<job-id>' \
| jq .
أو:
curl --netrc --get \
https://<databricks-instance>/api/2.0/jobs/get \
--data job_id=<job-id> \
| jq .
استبدل:
<databricks-instance>
مع اسم مثيل مساحة عمل Azure Databricks، على سبيل المثالadb-1234567890123456.7.azuredatabricks.net
.<job-id>
بمعرف الوظيفة، على سبيل المثال123
.
يستخدم هذا المثال ملف .netrc وjq.
استجابة
{
"job_id": 1,
"settings": {
"name": "Nightly model training",
"new_cluster": {
"spark_version": "7.3.x-scala2.12",
"node_type_id": "Standard_D3_v2",
"num_workers": 10
},
"libraries": [
{
"jar": "dbfs:/my-jar.jar"
},
{
"maven": {
"coordinates": "org.jsoup:jsoup:1.7.2"
}
}
],
"timeout_seconds": 100000000,
"max_retries": 1,
"schedule": {
"quartz_cron_expression": "0 15 22 * * ?",
"timezone_id": "America/Los_Angeles",
"pause_status": "UNPAUSED"
},
"spark_jar_task": {
"main_class_name": "com.databricks.ComputeModels"
}
},
"created_time": 1457570074236
}
بنية الطلب
اسم الحقل | النوع | الوصف |
---|---|---|
job_id |
INT64 |
المعرف المتعارف عليه للوظيفة لاسترداد معلومات عنها. هذا الحقل مطلوب. |
بنية الاستجابة
اسم الحقل | النوع | الوصف |
---|---|---|
job_id |
INT64 |
المعرف المتعارف عليه لهذه الوظيفة. |
creator_user_name |
STRING |
اسم مستخدم المنشئ. لن يتم تضمين هذا الحقل في الاستجابة إذا تم حذف المستخدم. |
settings |
إعدادات الوظيفة | إعدادات هذه الوظيفة وجميع عمليات التشغيل الخاصة بها. يمكن تحديث هذه الإعدادات باستخدام نقاط النهاية إعادة تعيين أو تحديث . |
created_time |
INT64 |
الوقت الذي تم فيه إنشاء هذه الوظيفة بالمللي ثانية (مللي ثانية منذ 1/1/1970 بالتوقيت العالمي المتفق عليه). |
اعاده تعيين
نقطة النهاية | أسلوب HTTP |
---|---|
2.0/jobs/reset |
POST |
الكتابة فوق كافة الإعدادات لوظيفة معينة. استخدم نقطة نهاية التحديث لتحديث إعدادات المهمة جزئيا.
مثال
يجعل طلب المثال هذا المهمة 2 مطابقة للوظيفة 1 في مثال الإنشاء .
curl --netrc --request POST \
https://<databricks-instance>/api/2.0/jobs/reset \
--data @reset-job.json \
| jq .
reset-job.json
:
{
"job_id": 2,
"new_settings": {
"name": "Nightly model training",
"new_cluster": {
"spark_version": "7.3.x-scala2.12",
"node_type_id": "Standard_D3_v2",
"num_workers": 10
},
"libraries": [
{
"jar": "dbfs:/my-jar.jar"
},
{
"maven": {
"coordinates": "org.jsoup:jsoup:1.7.2"
}
}
],
"timeout_seconds": 100000000,
"max_retries": 1,
"schedule": {
"quartz_cron_expression": "0 15 22 * * ?",
"timezone_id": "America/Los_Angeles",
"pause_status": "UNPAUSED"
},
"spark_jar_task": {
"main_class_name": "com.databricks.ComputeModels"
}
}
}
استبدل:
<databricks-instance>
مع اسم مثيل مساحة عمل Azure Databricks، على سبيل المثالadb-1234567890123456.7.azuredatabricks.net
.- محتويات
reset-job.json
مع الحقول المناسبة للحل الخاص بك.
يستخدم هذا المثال ملف .netrc وjq.
بنية الطلب
اسم الحقل | النوع | الوصف |
---|---|---|
job_id |
INT64 |
المعرف المتعارف عليه للمهمة المراد إعادة تعيينها. هذا الحقل مطلوب. |
new_settings |
إعدادات الوظيفة | الإعدادات الجديدة للوظيفة. تحل هذه الإعدادات تماما محل الإعدادات القديمة. يتم تطبيق التغييرات على الحقل JobSettings.timeout_seconds على عمليات التشغيل النشطة. يتم تطبيق التغييرات على الحقول الأخرى على عمليات التشغيل المستقبلية فقط. |
تحديث
نقطة النهاية | أسلوب HTTP |
---|---|
2.0/jobs/update |
POST |
إضافة إعدادات معينة لوظيفة موجودة أو تغييرها أو إزالتها. استخدم نقطة النهاية إعادة تعيين للكتابة فوق كافة إعدادات المهمة.
مثال
يزيل طلب المثال هذا المكتبات ويضيف إعدادات إعلام البريد الإلكتروني إلى المهمة 1 المحددة في مثال الإنشاء .
curl --netrc --request POST \
https://<databricks-instance>/api/2.0/jobs/update \
--data @update-job.json \
| jq .
update-job.json
:
{
"job_id": 1,
"new_settings": {
"existing_cluster_id": "1201-my-cluster",
"email_notifications": {
"on_start": [ "someone@example.com" ],
"on_success": [],
"on_failure": []
}
},
"fields_to_remove": ["libraries"]
}
استبدل:
<databricks-instance>
مع اسم مثيل مساحة عمل Azure Databricks، على سبيل المثالadb-1234567890123456.7.azuredatabricks.net
.- محتويات
update-job.json
مع الحقول المناسبة للحل الخاص بك.
يستخدم هذا المثال ملف .netrc وjq.
بنية الطلب
اسم الحقل | النوع | الوصف |
---|---|---|
job_id |
INT64 |
المعرف المتعارف عليه للوظيفة المراد تحديثها. هذا الحقل مطلوب. |
new_settings |
إعدادات الوظيفة | الإعدادات الجديدة للوظيفة. يتم استبدال حقول المستوى الأعلى المحددة في new_settings ، باستثناء الصفائف، تماما. يتم دمج الصفائف استنادا إلى حقول المفتاح المعنية، مثل task_key أوjob_cluster_key ، ويتم استبدال إدخالات الصفيف بنفس المفتاح تماما. باستثناء دمج الصفيف، لا يتم دعم تحديث الحقول المتداخلة جزئيا.يتم تطبيق التغييرات على الحقل JobSettings.timeout_seconds على عمليات التشغيل النشطة. يتم تطبيق التغييرات على الحقول الأخرى على عمليات التشغيل المستقبلية فقط. |
fields_to_remove |
صفيف من STRING |
إزالة حقول المستوى الأعلى في إعدادات الوظيفة. إزالة الحقول المتداخلة غير معتمدة، باستثناء الإدخالات من tasks الصفائف و job_clusters . على سبيل المثال، ما يلي هو وسيطة صالحة لهذا الحقل:["libraries", "schedule", "tasks/task_1", "job_clusters/Default"] هذا الحقل اختياري. |
التشغيل الآن
هام
- تقتصر مساحة العمل على 1000 تشغيل مهمة متزامنة.
429 Too Many Requests
يتم إرجاع استجابة عند طلب تشغيل لا يمكن بدء تشغيله على الفور. - يقتصر عدد المهام التي يمكن لمساحة العمل إنشاؤها في ساعة على 10000 (بما في ذلك "إرسال عمليات التشغيل"). يؤثر هذا الحد أيضا على المهام التي تم إنشاؤها بواسطة واجهة برمجة تطبيقات REST ومهام سير عمل دفتر الملاحظات.
- يمكن أن تحتوي مساحة العمل على ما يصل إلى 12000 وظيفة محفوظة.
- يمكن أن تحتوي الوظيفة على ما يصل إلى 100 مهمة.
نقطة النهاية | أسلوب HTTP |
---|---|
2.0/jobs/run-now |
POST |
قم بتشغيل مهمة الآن وإرجاع run_id
التشغيل الذي تم تشغيله.
تلميح
إذا قمت باستدعاء Create مع Run now، يمكنك استخدام نقطة نهاية إرسال Runs بدلا من ذلك، والتي تسمح لك بإرسال حمل العمل الخاص بك مباشرة دون الحاجة إلى إنشاء وظيفة.
مثال
curl --netrc --request POST \
https://<databricks-instance>/api/2.0/jobs/run-now \
--data @run-job.json \
| jq .
run-job.json
:
مثال على طلب مهمة دفتر ملاحظات:
{
"job_id": 1,
"notebook_params": {
"name": "john doe",
"age": "35"
}
}
طلب مثال لوظيفة JAR:
{
"job_id": 2,
"jar_params": [ "john doe", "35" ]
}
استبدل:
<databricks-instance>
مع اسم مثيل مساحة عمل Azure Databricks، على سبيل المثالadb-1234567890123456.7.azuredatabricks.net
.- محتويات
run-job.json
مع الحقول المناسبة للحل الخاص بك.
يستخدم هذا المثال ملف .netrc وjq.
بنية الطلب
اسم الحقل | النوع | الوصف |
---|---|---|
job_id |
INT64 |
|
jar_params |
صفيف من STRING |
قائمة المعلمات للوظائف ذات مهام JAR، على سبيل المثال "jar_params": ["john doe", "35"] . سيتم استخدام المعلمات لاستدعاء الدالة الرئيسية للفئة الرئيسية المحددة في مهمة Spark JAR. إذا لم يتم تحديده في run-now ، تعيينه افتراضيا إلى قائمة فارغة. لا يمكن تحديد jar_params بالاقتران مع notebook_params. لا يمكن أن يتجاوز تمثيل JSON لهذا الحقل (أي {"jar_params":["john doe","35"]} ) 10000 بايت. |
notebook_params |
خريطة ParamPair | خريطة من المفاتيح إلى قيم المهام ذات مهمة دفتر الملاحظات، على سبيل المثال."notebook_params": {"name": "john doe", "age": "35"} . يتم تمرير الخريطة إلى دفتر الملاحظات ويمكن الوصول إليها من خلال وظيفة dbutils.widgets.get .إذا لم يتم تحديده على run-now ، يستخدم التشغيل المشغل المعلمات الأساسية للوظيفة.لا يمكنك تحديد notebook_params بالتزامن مع jar_params. تمثيل JSON لهذا الحقل (على سبيل المثال. {"notebook_params":{"name":"john doe","age":"35"}} ) لا يمكن أن يتجاوز 10,000 بايت. |
python_params |
صفيف من STRING |
قائمة المعلمات للوظائف ذات مهام Python، على سبيل المثال "python_params": ["john doe", "35"] . سيتم تمرير المعلمات إلى ملف Python كمعلمات سطر الأوامر. إذا تم تحديده على run-now ، فإنه سيستبدل المعلمات المحددة في إعداد الوظيفة. لا يمكن أن يتجاوز تمثيل JSON لهذا الحقل (أي {"python_params":["john doe","35"]} ) 10000 بايت. |
spark_submit_params |
صفيف من STRING |
قائمة المعلمات للوظائف ذات مهمة إرسال spark، على سبيل المثال."spark_submit_params": ["--class", "org.apache.spark.examples.SparkPi"] . سيتم تمرير المعلمات إلى البرنامج النصي spark-submit كمعلمات سطر الأوامر. إذا تم تحديده على run-now ، فإنه سيستبدل المعلمات المحددة في إعداد الوظيفة. لا يمكن أن يتجاوز تمثيل JSON لهذا الحقل 10000 بايت. |
idempotency_token |
STRING |
رمز مميز اختياري لضمان تكبد طلبات تشغيل الوظيفة. إذا كان هناك تشغيل مع الرمز المميز المقدم موجود بالفعل، لا ينشئ الطلب تشغيلا جديدا ولكنه يرجع معرف التشغيل الموجود بدلا من ذلك. إذا تم حذف تشغيل مع الرمز المميز المقدم، يتم إرجاع خطأ. إذا قمت بتحديد الرمز المميز للتكتم، عند الفشل يمكنك إعادة المحاولة حتى ينجح الطلب. يضمن Azure Databricks تشغيل تشغيل واحد بالضبط باستخدام هذا الرمز المميز للتكبد. يجب أن يحتوي هذا الرمز المميز على 64 حرفا على الأكثر. لمزيد من المعلومات، راجع كيفية ضمان التكرار للوظائف. |
بنية الاستجابة
اسم الحقل | النوع | الوصف |
---|---|---|
run_id |
INT64 |
المعرف الفريد عالميا للتشغيل الذي تم تشغيله حديثا. |
number_in_job |
INT64 |
رقم تسلسل هذا التشغيل بين جميع عمليات تشغيل المهمة. |
إرسال عمليات التشغيل
هام
- تقتصر مساحة العمل على 1000 تشغيل مهمة متزامنة.
429 Too Many Requests
يتم إرجاع استجابة عند طلب تشغيل لا يمكن بدء تشغيله على الفور. - يقتصر عدد المهام التي يمكن لمساحة العمل إنشاؤها في ساعة على 10000 (بما في ذلك "إرسال عمليات التشغيل"). يؤثر هذا الحد أيضا على المهام التي تم إنشاؤها بواسطة واجهة برمجة تطبيقات REST ومهام سير عمل دفتر الملاحظات.
- يمكن أن تحتوي مساحة العمل على ما يصل إلى 12000 وظيفة محفوظة.
- يمكن أن تحتوي الوظيفة على ما يصل إلى 100 مهمة.
نقطة النهاية | أسلوب HTTP |
---|---|
2.0/jobs/runs/submit |
POST |
إرسال تشغيل لمرة واحدة. تسمح لك نقطة النهاية هذه بإرسال حمل عمل مباشرة دون إنشاء وظيفة. jobs/runs/get
استخدم واجهة برمجة التطبيقات للتحقق من حالة التشغيل بعد إرسال المهمة.
مثال
Request
curl --netrc --request POST \
https://<databricks-instance>/api/2.0/jobs/runs/submit \
--data @submit-job.json \
| jq .
submit-job.json
:
{
"run_name": "my spark task",
"new_cluster": {
"spark_version": "7.3.x-scala2.12",
"node_type_id": "Standard_D3_v2",
"num_workers": 10
},
"libraries": [
{
"jar": "dbfs:/my-jar.jar"
},
{
"maven": {
"coordinates": "org.jsoup:jsoup:1.7.2"
}
}
],
"spark_jar_task": {
"main_class_name": "com.databricks.ComputeModels"
}
}
استبدل:
<databricks-instance>
مع اسم مثيل مساحة عمل Azure Databricks، على سبيل المثالadb-1234567890123456.7.azuredatabricks.net
.- محتويات
submit-job.json
مع الحقول المناسبة للحل الخاص بك.
يستخدم هذا المثال ملف .netrc وjq.
استجابة
{
"run_id": 123
}
بنية الطلب
هام
- عند تشغيل وظيفة على مجموعة وظائف جديدة، يتم التعامل مع الوظيفة على أنها حمل عمل حساب الوظائف (التلقائي) الخاضع لتسعير حساب الوظائف.
- عند تشغيل وظيفة على مجموعة موجودة لجميع الأغراض، يتم التعامل معها على أنها حمل عمل حسابي (تفاعلي) لجميع الأغراض يخضع لتسعير الحوسبة لجميع الأغراض.
اسم الحقل | النوع | الوصف |
---|---|---|
existing_cluster_id أو new_cluster |
STRING OR NewCluster |
إذا existing_cluster_id، معرف مجموعة موجودة سيتم استخدامها لجميع عمليات تشغيل هذه المهمة. عند تشغيل المهام على نظام مجموعة موجود، قد تحتاج إلى إعادة تشغيل نظام المجموعة يدويا إذا توقف عن الاستجابة. نقترح تشغيل الوظائف على مجموعات جديدة لمزيد من الموثوقية. إذا new_cluster، وصف نظام مجموعة سيتم إنشاؤه لكل تشغيل. إذا كان تحديد PipelineTask، يمكن أن يكون هذا الحقل فارغا. |
notebook_task OR spark_jar_task ORspark_python_task OR spark_submit_task ORpipeline_task أو run_job_task |
NotebookTask أو SparkJarTask أو SparkPythonTask أو SparkSubmitTask OR PipelineTask أو RunJobTask | إذا notebook_task، يشير إلى أن هذه المهمة يجب أن تشغل دفتر ملاحظات. قد لا يتم تحديد هذا الحقل بالاقتران مع spark_jar_task. إذا spark_jar_task، يشير إلى أن هذه المهمة يجب أن تشغل JAR. إذا spark_python_task، يشير إلى أن هذه المهمة يجب أن تشغل ملف Python. إذا spark_submit_task، يشير إلى أنه يجب تشغيل هذه المهمة بواسطة البرنامج النصي لإرسال spark. إذا pipeline_task، يشير إلى أن هذه المهمة يجب أن تشغل مسار Delta Live Tables. إذا run_job_task، يشير إلى أن هذه الوظيفة يجب أن تشغل وظيفة أخرى. |
run_name |
STRING |
اسم اختياري للتشغيل. القيمة الافتراضية هي Untitled . |
webhook_notifications |
إخطار على الويبالتعليقات التوضيحية | مجموعة اختيارية من وجهات النظام لإعلامها عند بدء تشغيل هذه المهمة أو اكتمالها أو فشلها. |
notification_settings |
إعدادات التعليقات التوضيحية للوظيفة | إعدادات الإعلام الاختيارية التي يتم استخدامها عند إرسال إعلامات إلى كل من webhook_notifications لهذا التشغيل. |
libraries |
صفيف من المكتبة | قائمة اختيارية من المكتبات التي سيتم تثبيتها على نظام المجموعة التي ستقوم بتنفيذ المهمة. القيمة الافتراضية هي قائمة فارغة. |
timeout_seconds |
INT32 |
مهلة اختيارية مطبقة على كل تشغيل لهذه المهمة. السلوك الافتراضي هو عدم وجود مهلة. |
idempotency_token |
STRING |
رمز مميز اختياري لضمان تكبد طلبات تشغيل الوظيفة. إذا كان هناك تشغيل مع الرمز المميز المقدم موجود بالفعل، لا ينشئ الطلب تشغيلا جديدا ولكنه يرجع معرف التشغيل الموجود بدلا من ذلك. إذا تم حذف تشغيل مع الرمز المميز المقدم، يتم إرجاع خطأ. إذا قمت بتحديد الرمز المميز للتكتم، عند الفشل يمكنك إعادة المحاولة حتى ينجح الطلب. يضمن Azure Databricks تشغيل تشغيل واحد بالضبط باستخدام هذا الرمز المميز للتكبد. يجب أن يحتوي هذا الرمز المميز على 64 حرفا على الأكثر. لمزيد من المعلومات، راجع كيفية ضمان التكرار للوظائف. |
بنية الاستجابة
اسم الحقل | النوع | الوصف |
---|---|---|
run_id |
INT64 |
المعرف المتعارف عليه للتشغيل المرسل حديثا. |
قائمة عمليات التشغيل
نقطة النهاية | أسلوب HTTP |
---|---|
2.0/jobs/runs/list |
GET |
يتم تشغيل القائمة بترتيب تنازلي حسب وقت البدء.
إشعار
تتم إزالة عمليات التشغيل تلقائيا بعد 60 يوما. إذا كنت تريد الرجوع إليها بعد 60 يوما، يجب حفظ نتائج التشغيل القديمة قبل انتهاء صلاحيتها. للتصدير باستخدام واجهة المستخدم، راجع تصدير نتائج تشغيل المهمة. للتصدير باستخدام واجهة برمجة تطبيقات الوظائف، راجع تشغيل التصدير.
مثال
Request
curl --netrc --request GET \
'https://<databricks-instance>/api/2.0/jobs/runs/list?job_id=<job-id>&active_only=<true-false>&offset=<offset>&limit=<limit>&run_type=<run-type>' \
| jq .
أو:
curl --netrc --get \
https://<databricks-instance>/api/2.0/jobs/runs/list \
--data 'job_id=<job-id>&active_only=<true-false>&offset=<offset>&limit=<limit>&run_type=<run-type>' \
| jq .
استبدل:
<databricks-instance>
مع اسم مثيل مساحة عمل Azure Databricks، على سبيل المثالadb-1234567890123456.7.azuredatabricks.net
.<job-id>
بمعرف الوظيفة، على سبيل المثال123
.- "
<true-false>
معtrue
أوfalse
". <offset>
بالقيمةoffset
.<limit>
بالقيمةlimit
.<run-type>
بالقيمةrun_type
.
يستخدم هذا المثال ملف .netrc وjq.
استجابة
{
"runs": [
{
"job_id": 1,
"run_id": 452,
"number_in_job": 5,
"state": {
"life_cycle_state": "RUNNING",
"state_message": "Performing action"
},
"task": {
"notebook_task": {
"notebook_path": "/Users/donald@duck.com/my-notebook"
}
},
"cluster_spec": {
"existing_cluster_id": "1201-my-cluster"
},
"cluster_instance": {
"cluster_id": "1201-my-cluster",
"spark_context_id": "1102398-spark-context-id"
},
"overriding_parameters": {
"jar_params": ["param1", "param2"]
},
"start_time": 1457570074236,
"end_time": 1457570075149,
"setup_duration": 259754,
"execution_duration": 3589020,
"cleanup_duration": 31038,
"run_duration": 3879812,
"trigger": "PERIODIC"
}
],
"has_more": true
}
بنية الطلب
اسم الحقل | النوع | الوصف |
---|---|---|
active_only أو completed_only |
BOOL أو BOOL |
إذا كان active_only هو true ، يتم تضمين عمليات التشغيل النشطة فقط في النتائج؛ وإلا، فإنه يسرد كل من عمليات التشغيل النشطة والمكتملة. التشغيل النشط هو تشغيل في PENDING أو RUNNING أو TERMINATING RunLifecycleState. لا يمكن أن يكون true هذا الحقل عندما يكون completed_only هو true .إذا كان completed_only هو true ، يتم تضمين عمليات التشغيل المكتملة فقط في النتائج؛ وإلا، يسرد كل من عمليات التشغيل النشطة والمكتملة. لا يمكن أن يكون true هذا الحقل عندما يكون active_only هو true . |
job_id |
INT64 |
يتم تشغيل المهمة التي يتم سردها. إذا تم حذفها، سيتم تشغيل قائمة خدمة الوظائف من جميع الوظائف. |
offset |
INT32 |
إزاحة التشغيل الأول الذي سيتم إرجاعه، بالنسبة لأحدث تشغيل. |
limit |
INT32 |
عدد عمليات التشغيل التي يجب إرجاعها. يجب أن تكون هذه القيمة أكبر من 0 وأقل من 1000. القيمة الافتراضية هي 20. إذا حدد الطلب حدا قدره 0، فستستخدم الخدمة الحد الأقصى بدلا من ذلك. |
run_type |
STRING |
نوع عمليات التشغيل التي يجب إرجاعها. للحصول على وصف أنواع التشغيل، راجع تشغيل. |
بنية الاستجابة
اسم الحقل | النوع | الوصف |
---|---|---|
runs |
صفيف تشغيل | قائمة عمليات التشغيل، من الأحدث التي بدأت إلى الأقل. |
has_more |
BOOL |
إذا كان صحيحا، تتوفر عمليات تشغيل إضافية مطابقة لعامل التصفية المتوفر للإدراج. |
الحصول على عمليات التشغيل
نقطة النهاية | أسلوب HTTP |
---|---|
2.0/jobs/runs/get |
GET |
استرداد بيانات التعريف الخاصة بالتشغيل.
إشعار
تتم إزالة عمليات التشغيل تلقائيا بعد 60 يوما. إذا كنت تريد الرجوع إليها بعد 60 يوما، يجب حفظ نتائج التشغيل القديمة قبل انتهاء صلاحيتها. للتصدير باستخدام واجهة المستخدم، راجع تصدير نتائج تشغيل المهمة. للتصدير باستخدام واجهة برمجة تطبيقات الوظائف، راجع تشغيل التصدير.
مثال
Request
curl --netrc --request GET \
'https://<databricks-instance>/api/2.0/jobs/runs/get?run_id=<run-id>' \
| jq .
أو:
curl --netrc --get \
https://<databricks-instance>/api/2.0/jobs/runs/get \
--data run_id=<run-id> \
| jq .
استبدل:
<databricks-instance>
مع اسم مثيل مساحة عمل Azure Databricks، على سبيل المثالadb-1234567890123456.7.azuredatabricks.net
.<run-id>
بمعرف التشغيل، على سبيل المثال123
.
يستخدم هذا المثال ملف .netrc وjq.
استجابة
{
"job_id": 1,
"run_id": 452,
"number_in_job": 5,
"state": {
"life_cycle_state": "RUNNING",
"state_message": "Performing action"
},
"task": {
"notebook_task": {
"notebook_path": "/Users/someone@example.com/my-notebook"
}
},
"cluster_spec": {
"existing_cluster_id": "1201-my-cluster"
},
"cluster_instance": {
"cluster_id": "1201-my-cluster",
"spark_context_id": "1102398-spark-context-id"
},
"overriding_parameters": {
"jar_params": ["param1", "param2"]
},
"start_time": 1457570074236,
"end_time": 1457570075149,
"setup_duration": 259754,
"execution_duration": 3589020,
"cleanup_duration": 31038,
"run_duration": 3879812,
"trigger": "PERIODIC"
}
بنية الطلب
اسم الحقل | النوع | الوصف |
---|---|---|
run_id |
INT64 |
المعرف المتعارف عليه للتشغيل الذي سيتم استرداد بيانات التعريف له. هذا الحقل مطلوب. |
بنية الاستجابة
اسم الحقل | النوع | الوصف |
---|---|---|
job_id |
INT64 |
المعرف المتعارف عليه للوظيفة التي تحتوي على هذا التشغيل. |
run_id |
INT64 |
المعرف المتعارف عليه للتشغيل. هذا المعرف فريد عبر جميع عمليات تشغيل جميع الوظائف. |
number_in_job |
INT64 |
رقم تسلسل هذا التشغيل بين جميع عمليات تشغيل المهمة. تبدأ هذه القيمة من 1. |
original_attempt_run_id |
INT64 |
إذا كان هذا التشغيل عبارة عن إعادة محاولة تشغيل سابقة، يحتوي هذا الحقل على run_id المحاولة الأصلية؛ وإلا، فإنه هو نفس run_id. |
state |
حالة التشغيل | حالات النتيجة ودورة الحياة للتشغيل. |
schedule |
جدول كرون | جدول cron الذي قام بتشغيل هذا التشغيل إذا تم تشغيله بواسطة المجدول الدوري. |
task |
مهمة الوظيفة | المهمة التي يتم تنفيذها بواسطة التشغيل، إن وجدت. |
cluster_spec |
ClusterSpec | لقطة لمواصفات نظام مجموعة الوظيفة عند إنشاء هذا التشغيل. |
cluster_instance |
ClusterInstance | نظام المجموعة المستخدم لهذا التشغيل. إذا تم تحديد التشغيل لاستخدام نظام مجموعة جديد، تعيين هذا الحقل بمجرد أن تطلب خدمة Jobs نظام مجموعة للتشغيل. |
overriding_parameters |
RunParameters | المعلمات المستخدمة لهذا التشغيل. |
start_time |
INT64 |
الوقت الذي بدأ فيه هذا التشغيل بالمللي ثانية في فترة (مللي ثانية منذ 1/1/1970 بالتوقيت العالمي المتفق عليه). قد لا يكون هذا هو الوقت الذي تبدأ فيه مهمة الوظيفة في التنفيذ، على سبيل المثال، إذا كانت المهمة مجدولة للتشغيل على نظام مجموعة جديد، فهذا هو الوقت الذي يتم فيه إصدار استدعاء إنشاء نظام المجموعة. |
end_time |
INT64 |
الوقت الذي انتهى فيه هذا التشغيل بالمللي ثانية (مللي ثانية منذ 1/1/1970 بالتوقيت العالمي المتفق عليه). سيتم تعيين هذا الحقل إلى 0 إذا كانت المهمة لا تزال قيد التشغيل. |
setup_duration |
INT64 |
الوقت بالمللي ثانية الذي استغرقه إعداد نظام المجموعة. بالنسبة إلى عمليات التشغيل التي تعمل على مجموعات جديدة، هذا هو وقت إنشاء نظام المجموعة، بالنسبة إلى عمليات التشغيل التي تعمل على المجموعات الموجودة هذه المرة يجب أن تكون قصيرة جدا. المدة الإجمالية للتشغيل هي مجموع setup_duration ،execution_duration ، و cleanup_duration . setup_duration يتم تعيين الحقل إلى 0 لتشغيل المهام المتعددة. المدة الإجمالية لتشغيل مهمة متعددة هي قيمةrun_duration ميدان. |
execution_duration |
INT64 |
الوقت بالمللي ثانية الذي استغرقه تنفيذ الأوامر في JAR أو دفتر الملاحظات حتى تكتمل أو تفشل أو انتهت مهلتها أو تم إلغاؤها أو واجهت خطأ غير متوقع. المدة الإجمالية للتشغيل هي مجموع setup_duration و execution_duration وcleanup_duration . execution_duration يتم تعيين الحقل إلى 0 لتشغيل المهام المتعددة. المدة الإجمالية لتشغيل مهمة متعددة المهام هي قيمة run_duration الحقل. |
cleanup_duration |
INT64 |
الوقت بالمللي ثانية المستغرق لإنهاء المجموعة وتنظيف أي بيانات اصطناعية مرتبطة. المدة الإجمالية للتشغيل هي مجموع setup_duration و execution_duration و.cleanup_duration cleanup_duration يتم تعيين الحقل إلى 0 لتشغيل المهام المتعددة. المدة الإجمالية لتشغيل مهمة متعددة المهام هي قيمة run_duration الحقل. |
run_duration |
INT64 |
الوقت بالمللي ثانية استغرق تشغيل المهمة وجميع إصلاحاتها للانتهاء. يتم تعيين هذا الحقل فقط لتشغيل المهام المتعددة وليس تشغيل المهام. مدة تشغيل المهمة هي مجموعsetup_duration و execution_duration و و cleanup_duration . |
trigger |
نوع المشغل | نوع المشغل الذي قام بتشغيل هذا التشغيل. |
creator_user_name |
STRING |
اسم مستخدم المنشئ. لن يتم تضمين هذا الحقل في الاستجابة إذا تم حذف المستخدم |
run_page_url |
STRING |
عنوان URL لصفحة التفاصيل الخاصة بالتشغيل. |
تشغيل التصدير
نقطة النهاية | أسلوب HTTP |
---|---|
2.0/jobs/runs/export |
GET |
تصدير مهمة تشغيل المهمة واستردادها.
إشعار
يمكن تصدير عمليات تشغيل دفتر الملاحظات فقط بتنسيق HTML. سيفشل تصدير عمليات تشغيل من أنواع أخرى.
مثال
Request
curl --netrc --request GET \
'https://<databricks-instance>/api/2.0/jobs/runs/export?run_id=<run-id>' \
| jq .
أو:
curl --netrc --get \
https://<databricks-instance>/api/2.0/jobs/runs/export \
--data run_id=<run-id> \
| jq .
استبدل:
<databricks-instance>
مع اسم مثيل مساحة عمل Azure Databricks، على سبيل المثالadb-1234567890123456.7.azuredatabricks.net
.<run-id>
بمعرف التشغيل، على سبيل المثال123
.
يستخدم هذا المثال ملف .netrc وjq.
استجابة
{
"views": [ {
"content": "<!DOCTYPE html><html><head>Head</head><body>Body</body></html>",
"name": "my-notebook",
"type": "NOTEBOOK"
} ]
}
لاستخراج دفتر ملاحظات HTML من استجابة JSON، قم بتنزيل وتشغيل برنامج Python النصي هذا.
إشعار
يتم ترميز نص دفتر الملاحظات في __DATABRICKS_NOTEBOOK_MODEL
الكائن.
بنية الطلب
اسم الحقل | النوع | الوصف |
---|---|---|
run_id |
INT64 |
المعرف المتعارف عليه للتشغيل. هذا الحقل مطلوب. |
views_to_export |
ViewsToExport | طرق العرض المراد تصديرها (التعليمات البرمجية أو لوحات المعلومات أو الكل). الإعدادات الافتراضية للتعليمات البرمجية. |
بنية الاستجابة
اسم الحقل | النوع | الوصف |
---|---|---|
views |
صفيف ViewItem | المحتوى الذي تم تصديره بتنسيق HTML (واحد لكل عنصر عرض). |
إلغاء التشغيل
نقطة النهاية | أسلوب HTTP |
---|---|
2.0/jobs/runs/cancel |
POST |
إلغاء تشغيل مهمة. نظرا لإلغاء التشغيل بشكل غير متزامن، قد لا يزال التشغيل قيد التشغيل عند اكتمال هذا الطلب. سيتم إنهاء التشغيل قريبا. إذا كان التشغيل بالفعل في محطة طرفية life_cycle_state
، فإن هذا الأسلوب ليس عملية.
تتحقق نقطة النهاية هذه من صحة المعلمة run_id
وبالنسبة للمعلمات غير الصالحة، ترجع رمز حالة HTTP 400.
مثال
curl --netrc --request POST \
https://<databricks-instance>/api/2.0/jobs/runs/cancel \
--data '{ "run_id": <run-id> }'
استبدل:
<databricks-instance>
مع اسم مثيل مساحة عمل Azure Databricks، على سبيل المثالadb-1234567890123456.7.azuredatabricks.net
.<run-id>
بمعرف التشغيل، على سبيل المثال123
.
يستخدم هذا المثال ملف .netrc .
بنية الطلب
اسم الحقل | النوع | الوصف |
---|---|---|
run_id |
INT64 |
المعرف المتعارف عليه للتشغيل للإلغاء. هذا الحقل مطلوب. |
تشغيل إلغاء الكل
نقطة النهاية | أسلوب HTTP |
---|---|
2.0/jobs/runs/cancel-all |
POST |
إلغاء جميع عمليات التشغيل النشطة لوظيفة ما. نظرا لإلغاء التشغيل بشكل غير متزامن، فإنه لا يمنع بدء التشغيل الجديد.
تتحقق نقطة النهاية هذه من صحة المعلمة job_id
وبالنسبة للمعلمات غير الصالحة، ترجع رمز حالة HTTP 400.
مثال
curl --netrc --request POST \
https://<databricks-instance>/api/2.0/jobs/runs/cancel-all \
--data '{ "job_id": <job-id> }'
استبدل:
<databricks-instance>
مع اسم مثيل مساحة عمل Azure Databricks، على سبيل المثالadb-1234567890123456.7.azuredatabricks.net
.<job-id>
بمعرف الوظيفة، على سبيل المثال123
.
يستخدم هذا المثال ملف .netrc .
بنية الطلب
اسم الحقل | النوع | الوصف |
---|---|---|
job_id |
INT64 |
المعرف المتعارف عليه للوظيفة لإلغاء جميع عمليات التشغيل. هذا الحقل مطلوب. |
تحصل عمليات التشغيل على الإخراج
نقطة النهاية | أسلوب HTTP |
---|---|
2.0/jobs/runs/get-output |
GET |
استرداد الإخراج وبيانات التعريف لتشغيل مهمة واحدة. عندما تقوم مهمة دفتر ملاحظات بإرجاع قيمة من خلال استدعاء dbutils.notebook.exit() ، يمكنك استخدام نقطة النهاية هذه لاسترداد تلك القيمة. يقيد Azure Databricks واجهة برمجة التطبيقات هذه لإرجاع أول 5 ميغابايت من الإخراج. لإرجاع نتيجة أكبر، يمكنك تخزين نتائج المهمة في خدمة تخزين سحابية.
تتحقق نقطة النهاية هذه من صحة المعلمة run_id
وبالنسبة للمعلمات غير الصالحة، ترجع رمز حالة HTTP 400.
تتم إزالة عمليات التشغيل تلقائيا بعد 60 يوما. إذا كنت تريد الرجوع إليها بعد 60 يوما، يجب حفظ نتائج التشغيل القديمة قبل انتهاء صلاحيتها. للتصدير باستخدام واجهة المستخدم، راجع تصدير نتائج تشغيل المهمة. للتصدير باستخدام واجهة برمجة تطبيقات الوظائف، راجع تشغيل التصدير.
مثال
Request
curl --netrc --request GET \
'https://<databricks-instance>/api/2.0/jobs/runs/get-output?run_id=<run-id>' \
| jq .
أو:
curl --netrc --get \
https://<databricks-instance>/api/2.0/jobs/runs/get-output \
--data run_id=<run-id> \
| jq .
استبدل:
<databricks-instance>
مع اسم مثيل مساحة عمل Azure Databricks، على سبيل المثالadb-1234567890123456.7.azuredatabricks.net
.<run-id>
بمعرف التشغيل، على سبيل المثال123
.
يستخدم هذا المثال ملف .netrc وjq.
استجابة
{
"metadata": {
"job_id": 1,
"run_id": 452,
"number_in_job": 5,
"state": {
"life_cycle_state": "TERMINATED",
"result_state": "SUCCESS",
"state_message": ""
},
"task": {
"notebook_task": {
"notebook_path": "/Users/someone@example.com/my-notebook"
}
},
"cluster_spec": {
"existing_cluster_id": "1201-my-cluster"
},
"cluster_instance": {
"cluster_id": "1201-my-cluster",
"spark_context_id": "1102398-spark-context-id"
},
"overriding_parameters": {
"jar_params": ["param1", "param2"]
},
"start_time": 1457570074236,
"setup_duration": 259754,
"execution_duration": 3589020,
"cleanup_duration": 31038,
"run_duration": 3879812,
"trigger": "PERIODIC"
},
"notebook_output": {
"result": "the maybe truncated string passed to dbutils.notebook.exit()"
}
}
بنية الطلب
اسم الحقل | النوع | الوصف |
---|---|---|
run_id |
INT64 |
المعرف المتعارف عليه للتشغيل. بالنسبة لوظيفة ذات مهام تكميلية run_id ، هذا هو تشغيل مهمة. راجع تشغيل الحصول على الإخراج. هذا الحقل مطلوب. |
بنية الاستجابة
اسم الحقل | النوع | الوصف |
---|---|---|
notebook_output أو error |
NotebookOutput OR STRING |
إذا notebook_output، فإن إخراج مهمة دفتر ملاحظات، إذا كان متوفرا. مهمة دفتر ملاحظات تنتهي (إما بنجاح أو بفشل) دون استدعاءdbutils.notebook.exit() يعتبر أن يكون له إخراج فارغ. سيتم تعيين هذا الحقل ولكن قيمة نتيجته ستكون فارغة.إذا حدث خطأ، فرسالة خطأ تشير إلى سبب عدم توفر الإخراج. الرسالة غير منظمة، وتنسيقها الدقيق عرضة للتغيير. |
metadata |
ركض | جميع تفاصيل التشغيل باستثناء مخرجاته. |
تشغيل الحذف
نقطة النهاية | أسلوب HTTP |
---|---|
2.0/jobs/runs/delete |
POST |
حذف تشغيل غير نشط. إرجاع خطأ إذا كان التشغيل نشطا.
مثال
curl --netrc --request POST \
https://<databricks-instance>/api/2.0/jobs/runs/delete \
--data '{ "run_id": <run-id> }'
استبدل:
<databricks-instance>
مع اسم مثيل مساحة عمل Azure Databricks، على سبيل المثالadb-1234567890123456.7.azuredatabricks.net
.<run-id>
بمعرف التشغيل، على سبيل المثال123
.
يستخدم هذا المثال ملف .netrc .
بنية الطلب
اسم الحقل | النوع | الوصف |
---|---|---|
run_id |
INT64 |
المعرف المتعارف عليه للتشغيل الذي سيتم استرداد بيانات التعريف له. |
بنيات البيانات
في هذا القسم:
- ABFSSStorageInfo
- التحجيم التلقائي
- AzureAttributes
- AzureAvailability
- ClusterInstance
- ClusterLogConf
- ClusterSpec
- ClusterTag
- جدول كرون
- DbfsStorageInfo
- FileStorageInfo
- معلومات InitScript
- الوظيفة
- تعليقات البريد الإلكتروني للوظيفة
- إعدادات التعليقات التوضيحية للوظيفة
- إعدادات الوظيفة
- مهمة الوظيفة
- JobsHealthRule
- قواعد الصحة الوظيفية
- مكتبة
- MavenLibrary
- NewCluster
- NotebookOutput
- NotebookTask
- ParamPair
- PipelineTask
- PythonPyPiLibrary
- RCranLibrary
- ركض
- RunJobTask
- RunLifeCycleState
- RunParameters
- RunResultState
- حالة التشغيل
- SparkConfPair
- SparkEnvPair
- SparkJarTask
- SparkPythonTask
- SparkSubmitTask
- نوع المشغل
- ViewItem
- نوع العرض
- ViewsToExport
- إخطار على الويب
- إخطار على الويبالتعليقات التوضيحية
- WorkspaceStorageInfo
ABFSSStorageInfo
معلومات تخزين Azure Data Lake Storage (ADLS).
اسم الحقل | النوع | الوصف |
---|---|---|
destination |
STRING |
وجهة الملف. مثال: abfss://... |
التحجيم التلقائي
النطاق الذي يحدد الحد الأدنى والحد الأقصى لعدد العاملين في نظام المجموعة.
اسم الحقل | النوع | الوصف |
---|---|---|
min_workers |
INT32 |
الحد الأدنى لعدد العاملين الذين يمكن لنظام المجموعة تقليصه عند نقص استخدامهم. وهو أيضا العدد الأولي للعمال الذين ستمتلكهم المجموعة بعد الإنشاء. |
max_workers |
INT32 |
الحد الأقصى لعدد العاملين الذين يمكن لنظام المجموعة توسيع نطاقه عند التحميل الزائد. يجب أن تكون max_workers أكبر تماما من min_workers. |
AzureAttributes
السمات التي تم تعيينها أثناء إنشاء نظام المجموعة المتعلقة ب Azure.
اسم الحقل | النوع | الوصف |
---|---|---|
first_on_demand |
INT32 |
سيتم وضع العقد الأولى first_on_demand من نظام المجموعة على مثيلات عند الطلب. يجب أن تكون هذه القيمة أكبر من 0، وإلا فشل التحقق من صحة إنشاء نظام المجموعة. إذا كانت هذه القيمة أكبر من أو تساوي حجم نظام المجموعة الحالي، وضع جميع العقد على مثيلات عند الطلب. إذا كانت هذه القيمة أقل من حجم نظام المجموعة الحالي، first_on_demand وضع العقد على مثيلات عند الطلب وسيتم وضع الباقي على مثيلات التوفر. لا تؤثر هذه القيمة على حجم نظام المجموعة ولا يمكن تغييرها على مدى مدة بقاء نظام المجموعة. |
availability |
AzureAvailability | نوع التوفر المستخدم لجميع العقد اللاحقة بعد first_on_demand تلك. |
spot_bid_max_price |
DOUBLE |
الحد الأقصى لسعر العرض المستخدم لمثيلات Azure الفورية. يمكنك تعيين هذا إلى أكبر من أو يساوي السعر الفوري الحالي. يمكنك أيضا تعيين هذا إلى -1 (الافتراضي)، والذي يحدد أنه لا يمكن إخلاء المثيل على أساس السعر. سيكون سعر المثيل هو السعر الحالي للمثيلات الموضعية أو سعر المثيل القياسي. يمكنك عرض الأسعار التاريخية ومعدلات الإخلاء في مدخل Microsoft Azure. |
AzureAvailability
سلوك نوع توفر مثيل Azure.
النوع | الوصف |
---|---|
SPOT_AZURE |
استخدم المثيلات الموضعية. |
ON_DEMAND_AZURE |
استخدم المثيلات عند الطلب. |
SPOT_WITH_FALLBACK_AZURE |
يفضل استخدام المثيلات الموضعية، ولكن الرجوع إلى المثيلات عند الطلب إذا تعذر الحصول على المثيلات الموضعية (على سبيل المثال، إذا كانت الأسعار الموضعية ل Azure مرتفعة جدا أو خارج الحصة النسبية). لا ينطبق على توفر التجمع. |
ClusterInstance
معرفات نظام المجموعة وسياق Spark المستخدم بواسطة التشغيل. تحدد هاتان القيمتان معا سياق التنفيذ طوال الوقت.
اسم الحقل | النوع | الوصف |
---|---|---|
cluster_id |
STRING |
المعرف المتعارف عليه للمجموعة المستخدمة بواسطة تشغيل. يتوفر هذا الحقل دائما للشغل على المجموعات الموجودة. بالنسبة إلى التشغيل على مجموعات جديدة، يصبح متاحا بمجرد إنشاء نظام المجموعة. يمكن استخدام هذه القيمة لعرض السجلات عن طريق الاستعراض إلى /#setting/sparkui/$cluster_id/driver-logs . ستظل السجلات متوفرة بعد اكتمال التشغيل.لن تتضمن الاستجابة هذا الحقل إذا لم يكن المعرف متوفرا بعد. |
spark_context_id |
STRING |
المعرف المتعارف عليه لسياق Spark المستخدم بواسطة تشغيل. سيتم ملء هذا الحقل بمجرد بدء تشغيل التنفيذ. يمكن استخدام هذه القيمة لعرض واجهة مستخدم Spark عن طريق الاستعراض إلى /#setting/sparkui/$cluster_id/$spark_context_id . ستستمر واجهة مستخدم Spark في التوفر بعد اكتمال التشغيل.لن تتضمن الاستجابة هذا الحقل إذا لم يكن المعرف متوفرا بعد. |
ClusterLogConf
المسار إلى سجل نظام المجموعة.
اسم الحقل | النوع | الوصف |
---|---|---|
dbfs |
DbfsStorageInfo | موقع DBFS لسجل نظام المجموعة. يجب توفير الوجهة. على سبيل المثال،{ "dbfs" : { "destination" : "dbfs:/home/cluster_log" } } |
ClusterSpec
هام
- عند تشغيل وظيفة على مجموعة وظائف جديدة، يتم التعامل مع الوظيفة على أنها حمل عمل حساب الوظائف (التلقائي) الخاضع لتسعير حساب الوظائف.
- عند تشغيل وظيفة على مجموعة موجودة لجميع الأغراض، يتم التعامل معها على أنها حمل عمل حسابي (تفاعلي) لجميع الأغراض يخضع لتسعير الحوسبة لجميع الأغراض.
اسم الحقل | النوع | الوصف |
---|---|---|
existing_cluster_id أو new_cluster |
STRING OR NewCluster |
إذا existing_cluster_id، معرف مجموعة موجودة سيتم استخدامها لجميع عمليات تشغيل هذه المهمة. عند تشغيل المهام على نظام مجموعة موجود، قد تحتاج إلى إعادة تشغيل نظام المجموعة يدويا إذا توقف عن الاستجابة. نقترح تشغيل الوظائف على مجموعات جديدة لمزيد من الموثوقية. إذا new_cluster، وصف نظام مجموعة سيتم إنشاؤه لكل تشغيل. إذا كان تحديد PipelineTask، يمكن أن يكون هذا الحقل فارغا. |
libraries |
صفيف من المكتبة | قائمة اختيارية من المكتبات التي سيتم تثبيتها على نظام المجموعة التي ستقوم بتنفيذ المهمة. القيمة الافتراضية هي قائمة فارغة. |
ClusterTag
تعريف علامة نظام المجموعة.
النوع | الوصف |
---|---|
STRING |
مفتاح العلامة. يجب أن يكون المفتاح: - أن يتراوح طوله بين 1 و512 حرفا - لا يحتوي على أي من الأحرف <>%*&+?\\/ - لا تبدأ ب azure أو microsoft أو windows |
STRING |
قيمة العلامة. يجب أن يكون طول القيمة أقل من أو يساوي 256 حرفا من UTF-8. |
جدول كرون
اسم الحقل | النوع | الوصف |
---|---|---|
quartz_cron_expression |
STRING |
تعبير Cron يستخدم بناء جملة Quartz الذي يصف الجدول الزمني لوظيفة. راجع Cron Trigger للحصول على التفاصيل. هذا الحقل مطلوب. |
timezone_id |
STRING |
معرف المنطقة الزمنية Java. سيتم حل جدول الوظيفة فيما يتعلق بهذه المنطقة الزمنية. راجع Java TimeZone للحصول على التفاصيل. هذا الحقل مطلوب. |
pause_status |
STRING |
الإشارة إلى ما إذا كان هذا الجدول متوقفا مؤقتا أم لا. إما "متوقف مؤقتا" أو "غير مستخدم". |
DbfsStorageInfo
معلومات تخزين DBFS.
اسم الحقل | النوع | الوصف |
---|---|---|
destination |
STRING |
وجهة DBFS. مثال: dbfs:/my/path |
FileStorageInfo
معلومات تخزين الملفات.
إشعار
يتوفر نوع الموقع هذا فقط للمجموعات التي تم إعدادها باستخدام Databricks Container Services.
اسم الحقل | النوع | الوصف |
---|---|---|
destination |
STRING |
وجهة الملف. مثال: file:/my/file.sh |
معلومات InitScript
المسار إلى برنامج نصي init.
للحصول على إرشادات حول استخدام البرامج النصية init مع Databricks Container Services، راجع استخدام برنامج نصي init.
إشعار
يتوفر نوع تخزين الملف (اسم الحقل: file
) فقط للمجموعات التي تم إعدادها باستخدام Databricks Container Services. راجع FileStorageInfo.
اسم الحقل | النوع | الوصف |
---|---|---|
workspace أوdbfs (مهمل)OR abfss |
WorkspaceStorageInfo DbfsStorageInfo (مهمل) ABFSSStorageInfo |
موقع مساحة العمل للبرنامج النصي init. يجب توفير الوجهة. على سبيل المثال،{ "workspace" : { "destination" : "/Users/someone@domain.com/init_script.sh" } } (مهمل) موقع DBFS للبرنامج النصي init. يجب توفير الوجهة. على سبيل المثال، { "dbfs" : { "destination" : "dbfs:/home/init_script" } } موقع Azure Data Lake Storage (ADLS) للبرنامج النصي init. يجب توفير الوجهة. على سبيل المثال، { "abfss": { "destination" : "abfss://..." } } |
مهمة
اسم الحقل | النوع | الوصف |
---|---|---|
job_id |
INT64 |
المعرف المتعارف عليه لهذه الوظيفة. |
creator_user_name |
STRING |
اسم مستخدم المنشئ. لن يتم تضمين هذا الحقل في الاستجابة إذا تم حذف المستخدم بالفعل. |
run_as |
STRING |
اسم المستخدم الذي سيتم تشغيل الوظيفة عليه. run_as يستند إلى إعدادات الوظيفة الحالية، ويتم تعيينه إلى منشئ الوظيفة إذا تم تعطيل التحكم في الوصول إلى الوظيفة، أو is_owner الإذن إذا تم تمكين التحكم في الوصول إلى الوظيفة. |
settings |
إعدادات الوظيفة | إعدادات هذه الوظيفة وجميع عمليات التشغيل الخاصة بها. يمكن تحديث هذه الإعدادات باستخدام resetJob الأسلوب . |
created_time |
INT64 |
الوقت الذي تم فيه إنشاء هذه الوظيفة بالمللي ثانية (مللي ثانية منذ 1/1/1970 بالتوقيت العالمي المتفق عليه). |
تعليقات البريد الإلكتروني للوظيفة
هام
تقبل الحقول on_start on_success on_failure الأحرف اللاتينية فقط (مجموعة أحرف ASCII). سيؤدي استخدام أحرف غير ASCII إلى إرجاع خطأ. ومن الأمثلة على الأحرف غير الصالحة وغير التابعة ل ASCII الرموز التعبيرية والرموز التعبيرية الصينية واليابانية.
اسم الحقل | النوع | الوصف |
---|---|---|
on_start |
صفيف من STRING |
قائمة بعناوين البريد الإلكتروني التي سيتم إعلامك بها عند بدء التشغيل. إذا لم يتم تحديدها عند إنشاء مهمة أو إعادة تعيينها أو تحديثها، تكون القائمة فارغة ولا يتم إرسال الإعلامات. |
on_success |
صفيف من STRING |
قائمة بعناوين البريد الإلكتروني التي سيتم إعلامك بها عند اكتمال التشغيل بنجاح. يعتبر التشغيل قد اكتمل بنجاح إذا انتهى ب TERMINATED life_cycle_state و SUCCESSFUL result_state . إذا لم يتم تحديدها عند إنشاء مهمة أو إعادة تعيينها أو تحديثها، تكون القائمة فارغة ولا يتم إرسال الإعلامات. |
on_failure |
صفيف من STRING |
قائمة بعناوين البريد الإلكتروني التي سيتم إعلامك بها عند اكتمال التشغيل دون جدوى. يعتبر التشغيل قد اكتمل بشكل غير ناجح إذا انتهى ب INTERNAL_ERROR life_cycle_state SKIPPED أو ، FAILED أو ، أو TIMED_OUT result_state. إذا لم يتم تحديد ذلك عند إنشاء الوظيفة، فإن إعادة تعيين القائمة أو تحديثها فارغة، ولا يتم إرسال الإعلامات. |
on_duration_warning_threshold_exceeded |
صفيف من STRING |
قائمة بعناوين البريد الإلكتروني التي سيتم إعلامها عندما تتجاوز مدة التشغيل الحد المحدد للمقياس RUN_DURATION_SECONDS في health الحقل. إذا لم يتم تحديد قاعدة للمقياس RUN_DURATION_SECONDS في health حقل المهمة، فلن يتم إرسال الإعلامات. |
no_alert_for_skipped_runs |
BOOL |
إذا كان صحيحا، فلا ترسل بريدا إلكترونيا إلى المستلمين المحددين في on_failure إذا تم تخطي التشغيل. |
اسم الحقل | النوع | الوصف |
---|---|---|
on_start |
صفيف من الإخطارات على الويب | قائمة اختيارية لوجهات النظام التي سيتم إعلامها عند بدء التشغيل. إذا لم يتم تحديدها عند إنشاء مهمة أو إعادة تعيينها أو تحديثها، تكون القائمة فارغة ولا يتم إرسال الإعلامات. يمكن تحديد 3 وجهات كحد أقصى للخاصية on_start . |
on_success |
صفيف من الإخطارات على الويب | قائمة اختيارية لوجهات النظام التي سيتم إعلامها عند اكتمال التشغيل بنجاح. يعتبر التشغيل قد اكتمل بنجاح إذا انتهى ب TERMINATED life_cycle_state و SUCCESSFUL result_state . إذا لم يتم تحديدها عند إنشاء مهمة أو إعادة تعيينها أو تحديثها، تكون القائمة فارغة ولا يتم إرسال الإعلامات. يمكن تحديد 3 وجهات كحد أقصى للخاصية on_success . |
on_failure |
صفيف من الإخطارات على الويب | قائمة اختيارية لوجهات النظام التي سيتم إعلامها عند اكتمال التشغيل دون جدوى. يعتبر التشغيل قد اكتمل بشكل غير ناجح إذا انتهى ب INTERNAL_ERROR life_cycle_state SKIPPED أو ، FAILED أو ، أو TIMED_OUT result_state. إذا لم يتم تحديد ذلك عند إنشاء الوظيفة، فإن إعادة تعيين القائمة أو تحديثها فارغة، ولا يتم إرسال الإعلامات. يمكن تحديد 3 وجهات كحد أقصى للخاصية on_failure . |
on_duration_warning_threshold_exceeded |
صفيف من الإخطارات على الويب | قائمة اختيارية لوجهات النظام التي سيتم إعلامها عندما تتجاوز مدة التشغيل الحد المحدد للمقياس RUN_DURATION_SECONDS في health الحقل. يمكن تحديد 3 وجهات كحد أقصى للخاصية on_duration_warning_threshold_exceeded . |
إعدادات التعليقات التوضيحية للوظيفة
اسم الحقل | النوع | الوصف |
---|---|---|
no_alert_for_skipped_runs |
BOOL |
إذا كان صحيحا، فلا ترسل إعلامات إلى المستلمين المحددين في on_failure إذا تم تخطي التشغيل. |
no_alert_for_canceled_runs |
BOOL |
إذا كان صحيحا، فلا ترسل إعلامات إلى المستلمين المحددين في on_failure إذا تم إلغاء التشغيل. |
alert_on_last_attempt |
BOOL |
إذا كان صحيحا، فلا ترسل إعلامات إلى المستلمين المحددين في on_start لتشغيل إعادة المحاولة ولا ترسل إعلامات إلى المستلمين المحددين في on_failure حتى آخر إعادة محاولة للتشغيل. |
إعدادات الوظيفة
هام
- عند تشغيل وظيفة على مجموعة وظائف جديدة، يتم التعامل مع الوظيفة على أنها حمل عمل حساب الوظائف (التلقائي) الخاضع لتسعير حساب الوظائف.
- عند تشغيل وظيفة على مجموعة موجودة لجميع الأغراض، يتم التعامل معها على أنها حمل عمل حسابي (تفاعلي) لجميع الأغراض يخضع لتسعير الحوسبة لجميع الأغراض.
إعدادات الوظيفة. يمكن تحديث هذه الإعدادات باستخدام resetJob
الأسلوب .
اسم الحقل | النوع | الوصف |
---|---|---|
existing_cluster_id أو new_cluster |
STRING OR NewCluster |
إذا existing_cluster_id، معرف مجموعة موجودة سيتم استخدامها لجميع عمليات تشغيل هذه المهمة. عند تشغيل المهام على نظام مجموعة موجود، قد تحتاج إلى إعادة تشغيل نظام المجموعة يدويا إذا توقف عن الاستجابة. نقترح تشغيل الوظائف على مجموعات جديدة لمزيد من الموثوقية. إذا new_cluster، وصف نظام مجموعة سيتم إنشاؤه لكل تشغيل. إذا كان تحديد PipelineTask، يمكن أن يكون هذا الحقل فارغا. |
notebook_task OR spark_jar_task ORspark_python_task OR spark_submit_task ORpipeline_task أو run_job_task |
NotebookTask أو SparkJarTask أو SparkPythonTask أو SparkSubmitTask OR PipelineTask أو RunJobTask | إذا notebook_task، يشير إلى أن هذه المهمة يجب أن تشغل دفتر ملاحظات. قد لا يتم تحديد هذا الحقل بالاقتران مع spark_jar_task. إذا spark_jar_task، يشير إلى أن هذه المهمة يجب أن تشغل JAR. إذا spark_python_task، يشير إلى أن هذه المهمة يجب أن تشغل ملف Python. إذا spark_submit_task، يشير إلى أنه يجب تشغيل هذه المهمة بواسطة البرنامج النصي لإرسال spark. إذا pipeline_task، يشير إلى أن هذه المهمة يجب أن تشغل مسار Delta Live Tables. إذا run_job_task، يشير إلى أن هذه الوظيفة يجب أن تشغل وظيفة أخرى. |
name |
STRING |
اسم اختياري للوظيفة. القيمة الافتراضية هي Untitled . |
libraries |
صفيف من المكتبة | قائمة اختيارية من المكتبات التي سيتم تثبيتها على نظام المجموعة التي ستقوم بتنفيذ المهمة. القيمة الافتراضية هي قائمة فارغة. |
email_notifications |
تعليقات البريد الإلكتروني للوظيفة | مجموعة اختيارية من عناوين البريد الإلكتروني التي سيتم إعلامها عند بدء تشغيل هذه المهمة أو اكتمالها وكذلك عند حذف هذه المهمة. السلوك الافتراضي هو عدم إرسال أي رسائل بريد إلكتروني. |
webhook_notifications |
إخطار على الويبالتعليقات التوضيحية | مجموعة اختيارية من وجهات النظام لإعلامها عند بدء تشغيل هذه المهمة أو اكتمالها أو فشلها. |
notification_settings |
إعدادات التعليقات التوضيحية للوظيفة | إعدادات الإعلام الاختيارية التي يتم استخدامها عند إرسال إعلامات إلى كل من email_notifications و webhook_notifications لهذه المهمة. |
timeout_seconds |
INT32 |
مهلة اختيارية مطبقة على كل تشغيل لهذه المهمة. السلوك الافتراضي هو عدم وجود مهلة. |
max_retries |
INT32 |
عدد أقصى اختياري من المرات لإعادة محاولة تشغيل غير ناجح. يعتبر التشغيل غير ناجح إذا اكتمل مع FAILED result_state أوINTERNAL_ERROR life_cycle_state . تعني القيمة -1 إعادة المحاولة إلى أجل غير مسمى والقيمة 0 تعني عدم إعادة المحاولة أبدا. السلوك الافتراضي هو عدم إعادة المحاولة أبدا. |
min_retry_interval_millis |
INT32 |
فاصل زمني اختياري الحد الأدنى بالمللي ثانية بين المحاولات. السلوك الافتراضي هو إعادة محاولة عمليات التشغيل غير الناجحة على الفور. |
retry_on_timeout |
BOOL |
نهج اختياري لتحديد ما إذا كنت تريد إعادة محاولة مهمة عندما تنتهي مهلتها. السلوك الافتراضي هو عدم إعادة المحاولة في المهلة. |
schedule |
جدول كرون | جدول دوري اختياري لهذه الوظيفة. السلوك الافتراضي هو أن المهمة سيتم تشغيلها فقط عند تشغيلها بالنقر فوق "تشغيل الآن" في واجهة مستخدم الوظائف أو إرسال طلب واجهة برمجة التطبيقات إلىrunNow . |
max_concurrent_runs |
INT32 |
الحد الأقصى الاختياري المسموح به لعدد عمليات التشغيل المتزامنة للوظيفة. قم بتعيين هذه القيمة إذا كنت تريد أن تكون قادرا على تنفيذ عمليات تشغيل متعددة لنفس المهمة بشكل متزامن. هذا مفيد على سبيل المثال إذا قمت بتشغيل وظيفتك وفقا لجدول زمني متكرر وتريد السماح بتراكب عمليات التشغيل المتتالية مع بعضها البعض، أو إذا كنت تريد تشغيل عمليات تشغيل متعددة تختلف حسب معلمات الإدخال الخاصة بهم. يؤثر هذا الإعداد على عمليات التشغيل الجديدة فقط. على سبيل المثال، افترض أن تزامن المهمة هو 4 وهناك 4 عمليات تشغيل نشطة متزامنة. ثم لن يؤدي تعيين التزامن إلى 3 إلى إنهاء أي من عمليات التشغيل النشطة. ومع ذلك، من ذلك الحين فصاعدا، سيتم تخطي عمليات التشغيل الجديدة ما لم يكن هناك أقل من 3 عمليات تشغيل نشطة. لا يمكن أن تتجاوز هذه القيمة 1000. يؤدي تعيين هذه القيمة إلى 0 إلى تخطي جميع عمليات التشغيل الجديدة. السلوك الافتراضي هو السماح بتشغيل متزامن واحد فقط. |
health |
قواعد الصحة الوظيفية | مجموعة اختيارية من القواعد الصحية المحددة للوظيفة. |
مهمة الوظيفة
اسم الحقل | النوع | الوصف |
---|---|---|
notebook_task OR spark_jar_task ORspark_python_task OR spark_submit_task ORpipeline_task أو run_job_task |
NotebookTask أو SparkJarTask أو SparkPythonTask أو SparkSubmitTask OR PipelineTask أو RunJobTask | إذا notebook_task، يشير إلى أن هذه المهمة يجب أن تشغل دفتر ملاحظات. قد لا يتم تحديد هذا الحقل بالاقتران مع spark_jar_task. إذا spark_jar_task، يشير إلى أن هذه المهمة يجب أن تشغل JAR. إذا spark_python_task، يشير إلى أن هذه المهمة يجب أن تشغل ملف Python. إذا spark_submit_task، يشير إلى أنه يجب تشغيل هذه المهمة بواسطة البرنامج النصي لإرسال spark. إذا pipeline_task، يشير إلى أن هذه المهمة يجب أن تشغل مسار Delta Live Tables. إذا run_job_task، يشير إلى أن هذه الوظيفة يجب أن تشغل وظيفة أخرى. |
JobsHealthRule
اسم الحقل | النوع | الوصف |
---|---|---|
metric |
STRING |
تحديد مقياس الصحة الذي يتم تقييمه لقاعدة صحية معينة. القيم الصالحة هي RUN_DURATION_SECONDS . |
operator |
STRING |
تحديد عامل التشغيل المستخدم لمقارنة قيمة قياس الصحة بالحد المحدد. القيم الصالحة هي GREATER_THAN . |
value |
INT32 |
تحديد قيمة الحد التي يجب أن يفي بها مقياس الصحة للامتثال لقاعدة الصحة. |
قواعد الصحة الوظيفية
اسم الحقل | النوع | الوصف |
---|---|---|
rules |
صفيف من JobsHealthRule | مجموعة اختيارية من القواعد الصحية التي يمكن تعريفها لوظيفة. |
مكتبة
اسم الحقل | النوع | الوصف |
---|---|---|
jar OR egg OR whl ORpypi OR maven OR cran |
STRING OR STRING OR STRING PythonPyPiLibrary OR MavenLibrary OR RCranLibrary |
إذا كان jar، URI ل JAR ليتم تثبيته. يتم دعم DBFS و ADLS (abfss ) URIs. على سبيل المثال: { "jar": "dbfs:/mnt/databricks/library.jar" } أو{ "jar": "abfss://<container-path>/library.jar" } . إذا تم استخدام ADLS، فتأكد من أن نظام المجموعة لديه حق الوصول للقراءة على المكتبة.إذا البيض، URI من البيض ليتم تثبيتها. يتم دعم DBFS و ADLS URIs. على سبيل المثال: { "egg": "dbfs:/my/egg" } أو{ "egg": "abfss://<container-path>/egg" } .إذا كان whl، URI من wheel أو مضغوط wheels ليتم تثبيته. يتم دعم DBFS و ADLS URIs. على سبيل المثال: { "whl": "dbfs:/my/whl" } أو{ "whl": "abfss://<container-path>/whl" } . إذا تم استخدام ADLS، فتأكد من أن نظام المجموعة لديه حق الوصول للقراءة على المكتبة. wheel أيضا اسم الملف يحتاج إلى استخدام الاصطلاح الصحيح. إذا كان سيتم تثبيت مضغوط wheels ، يجب أن تكون .wheelhouse.zip لاحقة اسم الملف .إذا كانت pypi، فمواصفات مكتبة PyPI ليتم تثبيتها. repo تحديد الحقل اختياري وإذا لم يتم تحديده، يتم استخدام فهرس النقطة الافتراضي. على سبيل المثال:{ "package": "simplejson", "repo": "https://my-repo.com" } إذا كان maven، فمواصفات مكتبة Maven ليتم تثبيتها. على سبيل المثال: { "coordinates": "org.jsoup:jsoup:1.7.2" } إذا كان cran، فمواصفات مكتبة CRAN ليتم تثبيتها. |
MavenLibrary
اسم الحقل | النوع | الوصف |
---|---|---|
coordinates |
STRING |
إحداثيات Maven على غرار Gradle. على سبيل المثال: org.jsoup:jsoup:1.7.2 . هذا الحقل مطلوب. |
repo |
STRING |
Maven repo لتثبيت حزمة Maven من. إذا تم حذفها، يتم البحث في كل من مستودع Maven المركزي وحزم Spark. |
exclusions |
صفيف من STRING |
قائمة الاعتمادات التي يجب استبعادها. على سبيل المثال: ["slf4j:slf4j", "*:hadoop-client"] .استثناءات تبعية Maven: https://maven.apache.org/guides/introduction/introduction-to-optional-and-excludes-dependencies.html. |
NewCluster
اسم الحقل | النوع | الوصف |
---|---|---|
num_workers أو autoscale |
INT32 OR التحجيم التلقائي |
إذا num_workers، عدد العقد العاملة التي يجب أن تحتوي عليها هذه المجموعة. يحتوي نظام المجموعة على برنامج تشغيل Spark واحد ومنفذين num_workers لإجمالي num_workers + 1 عقد Spark. ملاحظة: عند قراءة خصائص نظام المجموعة، يعكس هذا الحقل العدد المطلوب من العمال بدلا من العدد الحالي الفعلي للعمال. على سبيل المثال، إذا تم تغيير حجم نظام مجموعة من 5 إلى 10 عمال، تحديث هذا الحقل على الفور ليعكس الحجم المستهدف ل 10 عمال، بينما يزداد العمال المدرجون في spark_info تدريجيا من 5 إلى 10 مع توفير العقد الجديدة. إذا كان التحجيم التلقائي، فإن المعلمات المطلوبة من أجل توسيع نطاق المجموعات تلقائيا صعودا وهبوطا استنادا إلى التحميل. |
spark_version |
STRING |
إصدار Spark من نظام المجموعة. يمكن استرداد قائمة بإصدارات Spark المتوفرة باستخدام استدعاء GET 2.0/clusters/spark-versions . هذا الحقل مطلوب. |
spark_conf |
SparkConfPair | كائن يحتوي على مجموعة من أزواج قيمة مفتاح تكوين Spark الاختيارية المحددة من قبل المستخدم. يمكنك أيضا تمرير سلسلة من خيارات JVM الإضافية إلى برنامج التشغيل والمنفذين عبرspark.driver.extraJavaOptions وعلى spark.executor.extraJavaOptions التوالي.مثال على تكوينات Spark: {"spark.speculation": true, "spark.streaming.ui.retainedBatches": 5} أو{"spark.driver.extraJavaOptions": "-verbose:gc -XX:+PrintGCDetails"} |
node_type_id |
STRING |
يُرمّز هذا الحقل الموارد المتوفرة لكل عقدة Spark في نظام المجموعة هذا، من خلال قيمة واحدة. على سبيل المثال، يمكن توفير عقد Spark وتحسينها للذاكرة أو حساب أحمال العمل المكثفة يمكن استرداد قائمة أنواع العقد المتوفرة باستخدام استدعاء GET 2.0/clusters/list-node-types . هذا الحقل أو instance_pool_id الحقل أو نهج نظام المجموعة الذي يحدد معرف نوع العقدة أو معرف تجمع المثيل مطلوب. |
driver_node_type_id |
STRING |
نوع العقدة لبرنامج تشغيل Spark. هذا الحقل اختياري؛ إذا تم إلغاء الإعداد، يتم تعيين نوع عقدة برنامج التشغيل كنفس القيمة كما هو node_type_id محدد أعلاه. |
custom_tags |
ClusterTag | كائن يحتوي على مجموعة من العلامات لموارد نظام المجموعة. علامات Databricks جميع موارد نظام المجموعة (مثل الأجهزة الظاهرية) مع هذه العلامات بالإضافة إلى default_tags. ملاحظة: - العلامات غير مدعومة على أنواع العقد القديمة مثل محسنة للحساب ومحسنة للذاكرة - تسمح Databricks على الأكثر ب 45 علامة مخصصة |
cluster_log_conf |
ClusterLogConf | تكوين تسليم سجلات Spark إلى وجهة تخزين طويلة المدى. يمكن تحديد وجهة واحدة فقط لمجموعة واحدة. إذا تم إعطاء التكوين، تسليم السجلات إلى الوجهة كل 5 mins . وجهة سجلات برنامج التشغيل هي <destination>/<cluster-id>/driver ، بينما وجهة سجلات المنفذ هي <destination>/<cluster-id>/executor . |
init_scripts |
صفيف InitScriptInfo | تكوين تخزين البرامج النصية للتهيئة. يمكن تحديد أي عدد من البرامج النصية. يتم تنفيذ البرامج النصية بالتسلسل بالترتيب المقدم. إذا cluster_log_conf تم تحديد، يتم إرسال سجلات البرنامج النصي init إلى<destination>/<cluster-id>/init_scripts . |
spark_env_vars |
SparkEnvPair | كائن يحتوي على مجموعة من أزواج قيم المفاتيح المتغيرة الاختيارية والمحددة من قبل المستخدم للبيئة. يتم تصدير زوج قيم المفاتيح للنموذج (X,Y) كما هو (على سبيل المثال،export X='Y' ) أثناء إطلاق السائق والعمال.لتحديد مجموعة إضافية من SPARK_DAEMON_JAVA_OPTS ، نوصي بإلحاقها كما $SPARK_DAEMON_JAVA_OPTS هو موضح في المثال التالي. وهذا يضمن تضمين جميع المتغيرات البيئية المدارة ل databricks الافتراضية أيضا.مثال على متغيرات بيئة Spark: {"SPARK_WORKER_MEMORY": "28000m", "SPARK_LOCAL_DIRS": "/local_disk0"} أو{"SPARK_DAEMON_JAVA_OPTS": "$SPARK_DAEMON_JAVA_OPTS -Dspark.shuffle.service.enabled=true"} |
enable_elastic_disk |
BOOL |
التخزين المحلي للتحجيم التلقائي: عند تمكينه، يكتسب هذا نظام المجموعة مساحة إضافية على القرص بشكل ديناميكي عندما يكون عمال Spark الخاصون به يشغلون مساحة منخفضة على القرص. راجع تمكين التخزين المحلي للتحجيم التلقائي للحصول على التفاصيل. |
driver_instance_pool_id |
STRING |
المعرف الاختياري لتجمع المثيل لاستخدامه لعقدة برنامج التشغيل. يجب عليك أيضا تحديد instance_pool_id . راجع واجهة برمجة تطبيقات تجمعات المثيلات للحصول على التفاصيل. |
instance_pool_id |
STRING |
المعرف الاختياري لتجمع المثيل لاستخدامه لعقد نظام المجموعة. إذا كان driver_instance_pool_id موجودا،instance_pool_id يستخدم للعقد العاملة فقط. وإلا، يتم استخدامه لكل من عقدة برنامج التشغيل والعقد العاملة. راجع واجهة برمجة تطبيقات تجمعات المثيلات للحصول على التفاصيل. |
NotebookOutput
اسم الحقل | النوع | الوصف |
---|---|---|
result |
STRING |
القيمة التي تم تمريرها إلى dbutils.notebook.exit(). يقيد Azure Databricks واجهة برمجة التطبيقات هذه لإرجاع أول 1 ميغابايت من القيمة. للحصول على نتيجة أكبر، يمكن لمهمتك تخزين النتائج في خدمة تخزين سحابية. سيكون هذا الحقل غائبا إذا dbutils.notebook.exit() لم يتم استدعاؤه أبدا. |
truncated |
BOOLEAN |
ما إذا كان قد تم اقتطاع النتيجة أم لا. |
NotebookTask
تخضع كافة خلايا الإخراج لحجم 8 ميغابايت. إذا كان إخراج خلية بحجم أكبر، إلغاء بقية التشغيل وسيتم وضع علامة على التشغيل على أنه فاشل. في هذه الحالة، قد تكون بعض مخرجات المحتوى من خلايا أخرى مفقودة أيضا.
إذا كنت بحاجة إلى مساعدة في العثور على الخلية التي تتجاوز الحد الأقصى، فقم بتشغيل دفتر الملاحظات مقابل مجموعة متعددة الأغراض واستخدم تقنية الحفظ التلقائي لدفتر الملاحظات هذه.
اسم الحقل | النوع | الوصف |
---|---|---|
notebook_path |
STRING |
المسار المطلق لدفتر الملاحظات الذي سيتم تشغيله في مساحة عمل Azure Databricks. يجب أن يبدأ هذا المسار بشرطة مائلة. هذا الحقل مطلوب. |
revision_timestamp |
LONG |
الطابع الزمني لمراجعة دفتر الملاحظات. |
base_parameters |
خريطة ParamPair | المعلمات الأساسية التي سيتم استخدامها لكل تشغيل لهذه المهمة. إذا تم بدء التشغيل باستدعاء run-now مع تحديد المعلمات، دمج مخططي المعلمات. إذا تم تحديد نفس المفتاح في base_parameters وفي run-now ، سيتم استخدام القيمة من run-now .استخدم ما هو مرجع القيمة الديناميكية؟ لتعيين المعلمات التي تحتوي على معلومات حول تشغيل المهمة. إذا كان دفتر الملاحظات يأخذ معلمة غير محددة في معلمات المهمة base_parameters أو run-now التجاوز، استخدام القيمة الافتراضية من دفتر الملاحظات.استرداد هذه المعلمات في دفتر ملاحظات باستخدام dbutils.widgets.get. |
ParamPair
المعلمات المستندة إلى الاسم للوظائف التي تشغل مهام دفتر الملاحظات.
هام
تقبل الحقول في بنية البيانات هذه الأحرف اللاتينية فقط (مجموعة أحرف ASCII). سيؤدي استخدام أحرف غير ASCII إلى إرجاع خطأ. ومن الأمثلة على الأحرف غير الصالحة وغير التابعة ل ASCII الرموز التعبيرية والرموز التعبيرية الصينية واليابانية.
النوع | الوصف |
---|---|
STRING |
اسم المعلمة. مرر إلى dbutils.widgets.get لاسترداد القيمة. |
STRING |
قيمة المعلمة. |
PipelineTask
اسم الحقل | النوع | الوصف |
---|---|---|
pipeline_id |
STRING |
الاسم الكامل لمهمة البنية الأساسية لبرنامج ربط العمليات التجارية Delta Live Tables المراد تنفيذها. |
PythonPyPiLibrary
اسم الحقل | النوع | الوصف |
---|---|---|
package |
STRING |
اسم حزمة PyPI المراد تثبيتها. يتم أيضا دعم مواصفات الإصدار الدقيق الاختيارية. أمثلة: simplejson و simplejson==3.8.0 . هذا الحقل مطلوب. |
repo |
STRING |
المستودع حيث يمكن العثور على الحزمة. إذا لم يتم تحديده، يتم استخدام فهرس النقطة الافتراضي. |
RCranLibrary
اسم الحقل | النوع | الوصف |
---|---|---|
package |
STRING |
اسم حزمة CRAN المراد تثبيتها. هذا الحقل مطلوب. |
repo |
STRING |
المستودع حيث يمكن العثور على الحزمة. إذا لم يتم تحديده، يتم استخدام مستودع CRAN الافتراضي. |
ركض
جميع المعلومات حول التشغيل باستثناء مخرجاته. يمكن استرداد الإخراج بشكل منفصل باستخدام getRunOutput
الأسلوب .
اسم الحقل | النوع | الوصف |
---|---|---|
job_id |
INT64 |
المعرف المتعارف عليه للوظيفة التي تحتوي على هذا التشغيل. |
run_id |
INT64 |
المعرف المتعارف عليه للتشغيل. هذا المعرف فريد عبر جميع عمليات تشغيل جميع الوظائف. |
creator_user_name |
STRING |
اسم مستخدم المنشئ. لن يتم تضمين هذا الحقل في الاستجابة إذا تم حذف المستخدم بالفعل. |
number_in_job |
INT64 |
رقم تسلسل هذا التشغيل بين جميع عمليات تشغيل المهمة. تبدأ هذه القيمة من 1. |
original_attempt_run_id |
INT64 |
إذا كان هذا التشغيل عبارة عن إعادة محاولة تشغيل سابقة، يحتوي هذا الحقل على run_id المحاولة الأصلية؛ وإلا، فإنه هو نفس run_id. |
state |
حالة التشغيل | حالات النتيجة ودورة الحياة للتشغيل. |
schedule |
جدول كرون | جدول cron الذي قام بتشغيل هذا التشغيل إذا تم تشغيله بواسطة المجدول الدوري. |
task |
مهمة الوظيفة | المهمة التي يتم تنفيذها بواسطة التشغيل، إن وجدت. |
cluster_spec |
ClusterSpec | لقطة لمواصفات نظام مجموعة الوظيفة عند إنشاء هذا التشغيل. |
cluster_instance |
ClusterInstance | نظام المجموعة المستخدم لهذا التشغيل. إذا تم تحديد التشغيل لاستخدام نظام مجموعة جديد، تعيين هذا الحقل بمجرد أن تطلب خدمة Jobs نظام مجموعة للتشغيل. |
overriding_parameters |
RunParameters | المعلمات المستخدمة لهذا التشغيل. |
start_time |
INT64 |
الوقت الذي بدأ فيه هذا التشغيل بالمللي ثانية في فترة (مللي ثانية منذ 1/1/1970 بالتوقيت العالمي المتفق عليه). قد لا يكون هذا هو الوقت الذي تبدأ فيه مهمة الوظيفة في التنفيذ، على سبيل المثال، إذا كانت المهمة مجدولة للتشغيل على نظام مجموعة جديد، فهذا هو الوقت الذي يتم فيه إصدار استدعاء إنشاء نظام المجموعة. |
setup_duration |
INT64 |
الوقت المستغرق لإعداد نظام المجموعة بالمللي ثانية. بالنسبة إلى عمليات التشغيل التي تعمل على مجموعات جديدة، هذا هو وقت إنشاء نظام المجموعة، بالنسبة إلى عمليات التشغيل التي تعمل على المجموعات الموجودة هذه المرة يجب أن تكون قصيرة جدا. |
execution_duration |
INT64 |
الوقت بالمللي ثانية الذي استغرقه تنفيذ الأوامر في JAR أو دفتر الملاحظات حتى تكتمل أو تفشل أو انتهت مهلتها أو تم إلغاؤها أو واجهت خطأ غير متوقع. |
cleanup_duration |
INT64 |
الوقت بالمللي ثانية المستغرق لإنهاء المجموعة وتنظيف أي بيانات اصطناعية مرتبطة. المدة الإجمالية للتشغيل هي مجموع setup_duration execution_duration cleanup_duration. |
end_time |
INT64 |
الوقت الذي انتهى فيه هذا التشغيل بالمللي ثانية (مللي ثانية منذ 1/1/1970 بالتوقيت العالمي المتفق عليه). سيتم تعيين هذا الحقل إلى 0 إذا كانت المهمة لا تزال قيد التشغيل. |
trigger |
نوع المشغل | نوع المشغل الذي قام بتشغيل هذا التشغيل. |
run_name |
STRING |
اسم اختياري للتشغيل. القيمة الافتراضية هي Untitled . الحد الأقصى للطول المسموح به هو 4096 بايت بترميز UTF-8. |
run_page_url |
STRING |
عنوان URL لصفحة التفاصيل الخاصة بالتشغيل. |
run_type |
STRING |
نوع التشغيل. - JOB_RUN - تشغيل مهمة عادية. تشغيل تم إنشاؤه باستخدام Run now.- WORKFLOW_RUN - تشغيل سير العمل. تشغيل تم إنشاؤه باستخدام dbutils.notebook.run.- SUBMIT_RUN - إرسال التشغيل. تشغيل تم إنشاؤه باستخدام Run now. |
attempt_number |
INT32 |
رقم تسلسل محاولة التشغيل هذه لتشغيل مهمة تم تشغيلها. تحتوي المحاولة الأولية للتشغيل على attempt_number من 0. إذا فشلت محاولة التشغيل الأولية، وكان للوظيفة نهج إعادة المحاولة (max_retries > 0)، يتم إنشاء عمليات التشغيل اللاحقة original_attempt_run_id باستخدام معرف المحاولة الأصلية ولزيادة attempt_number . تتم إعادة محاولة التشغيل فقط حتى تنجح، والحد الأقصى attempt_number هو نفس max_retries قيمة المهمة. |
RunJobTask
اسم الحقل | النوع | الوصف |
---|---|---|
job_id |
INT32 |
المعرف الفريد للوظيفة المراد تشغيلها. هذا الحقل مطلوب. |
RunLifeCycleState
حالة دورة حياة التشغيل. انتقالات الحالة المسموح بها هي:
QUEUED
->PENDING
PENDING
- ->RUNNING
->TERMINATING
>TERMINATED
PENDING
->SKIPPED
PENDING
->INTERNAL_ERROR
RUNNING
->INTERNAL_ERROR
TERMINATING
->INTERNAL_ERROR
حالة | الوصف |
---|---|
QUEUED |
تم تشغيل التشغيل ولكن تم وضعه في قائمة الانتظار لأنه وصل إلى أحد الحدود التالية: - الحد الأقصى لعمليات التشغيل النشطة المتزامنة في مساحة العمل. - يتم تشغيل الحد الأقصى للمهمة المتزامنة Run Job في مساحة العمل.- الحد الأقصى لعمليات التشغيل المتزامنة للوظيفة. يجب تمكين قائمة الانتظار للوظيفة أو التشغيل قبل أن تتمكن من الوصول إلى هذه الحالة. |
PENDING |
تم تشغيل التشغيل. إذا تم الوصول بالفعل إلى الحد الأقصى لعمليات التشغيل المتزامنة المكونة للوظيفة، فسينتقل التشغيل على الفور إلى SKIPPED الحالة دون إعداد أي موارد. وإلا، فإن إعداد نظام المجموعة والتنفيذ قيد التنفيذ. |
RUNNING |
يتم تنفيذ مهمة هذا التشغيل. |
TERMINATING |
اكتملت مهمة هذا التشغيل، ويتم تنظيف سياق نظام المجموعة والتنفيذ. |
TERMINATED |
اكتملت مهمة هذا التشغيل، وتم تنظيف سياق نظام المجموعة والتنفيذ. هذه الحالة هي المحطة الطرفية. |
SKIPPED |
تم إجهاض هذا التشغيل لأن تشغيل سابق لنفس المهمة كان نشطا بالفعل. هذه الحالة هي المحطة الطرفية. |
INTERNAL_ERROR |
حالة استثنائية تشير إلى فشل في خدمة الوظائف، مثل فشل الشبكة على مدى فترة طويلة. إذا انتهى التشغيل على نظام مجموعة جديد في INTERNAL_ERROR الحالة، تنهي خدمة Jobs نظام المجموعة في أقرب وقت ممكن. هذه الحالة هي المحطة الطرفية. |
RunParameters
معلمات لهذا التشغيل. يجب تحديد واحد فقط من jar_params python_params
أو أو notebook_params في run-now
الطلب، اعتمادا على نوع المهمة الوظيفية.
تأخذ المهام ذات مهمة Spark JAR أو مهمة Python قائمة بالمعلمات المستندة إلى الموضع، وتأخذ المهام ذات مهام دفتر الملاحظات خريطة قيمة رئيسية.
اسم الحقل | النوع | الوصف |
---|---|---|
jar_params |
صفيف من STRING |
قائمة معلمات الوظائف مع مهام Spark JAR، على سبيل المثال "jar_params": ["john doe", "35"] . سيتم استخدام المعلمات لاستدعاء الدالة الرئيسية للفئة الرئيسية المحددة في مهمة Spark JAR. إذا لم يتم تحديده في run-now ، تعيينه افتراضيا إلى قائمة فارغة. لا يمكن تحديد jar_params بالاقتران مع notebook_params. لا يمكن أن يتجاوز تمثيل JSON لهذا الحقل (أي {"jar_params":["john doe","35"]} ) 10000 بايت.استخدم ما هو مرجع القيمة الديناميكية؟ لتعيين المعلمات التي تحتوي على معلومات حول تشغيل المهمة. |
notebook_params |
خريطة ParamPair | خريطة من المفاتيح إلى قيم المهام ذات مهمة دفتر الملاحظات، على سبيل المثال."notebook_params": {"name": "john doe", "age": "35"} . يتم تمرير الخريطة إلى دفتر الملاحظات ويمكن الوصول إليها من خلال وظيفة dbutils.widgets.get .إذا لم يتم تحديده على run-now ، يستخدم التشغيل المشغل المعلمات الأساسية للوظيفة.لا يمكن تحديد notebook_params بالاقتران مع jar_params. استخدم ما هو مرجع القيمة الديناميكية؟ لتعيين المعلمات التي تحتوي على معلومات حول تشغيل المهمة. تمثيل JSON لهذا الحقل (على سبيل المثال. {"notebook_params":{"name":"john doe","age":"35"}} ) لا يمكن أن يتجاوز 10,000 بايت. |
python_params |
صفيف من STRING |
قائمة المعلمات للوظائف ذات مهام Python، على سبيل المثال "python_params": ["john doe", "35"] . يتم تمرير المعلمات إلى ملف Python كمعلمات سطر الأوامر. إذا تم تحديده على run-now ، فإنه سيستبدل المعلمات المحددة في إعداد الوظيفة. لا يمكن أن يتجاوز تمثيل JSON لهذا الحقل (أي {"python_params":["john doe","35"]} ) 10000 بايت.استخدم ما هو مرجع القيمة الديناميكية؟ لتعيين المعلمات التي تحتوي على معلومات حول تشغيل المهمة. > [! هام] >> تقبل هذه المعلمات الأحرف اللاتينية فقط (مجموعة أحرف ASCII). > سيؤدي استخدام أحرف غير ASCII إلى إرجاع خطأ. ومن الأمثلة على الأحرف غير الصالحة وغير التابعة ل ASCII الرموز > التعبيرية والرموز التعبيرية الصينية واليابانية. |
spark_submit_params |
صفيف من STRING |
قائمة المعلمات للوظائف ذات مهمة إرسال spark، على سبيل المثال."spark_submit_params": ["--class", "org.apache.spark.examples.SparkPi"] . يتم تمرير المعلمات إلى البرنامج النصي spark-submit كمعلمات سطر الأوامر. إذا تم تحديده على run-now ، فإنه سيستبدل المعلمات المحددة في إعداد الوظيفة. لا يمكن أن يتجاوز تمثيل JSON لهذا الحقل (أي {"python_params":["john doe","35"]} ) 10000 بايت.استخدم ما هو مرجع القيمة الديناميكية؟ لتعيين المعلمات التي تحتوي على معلومات حول تشغيل المهمة. > [! هام] >> تقبل هذه المعلمات الأحرف اللاتينية فقط (مجموعة أحرف ASCII). > سيؤدي استخدام أحرف غير ASCII إلى إرجاع خطأ. ومن الأمثلة على الأحرف غير الصالحة وغير التابعة ل ASCII الرموز > التعبيرية والرموز التعبيرية الصينية واليابانية. |
RunResultState
حالة نتيجة التشغيل.
- إذا
life_cycle_state
=TERMINATED
: إذا كان للتشغيل مهمة، فإن النتيجة مضمونة لتكون متوفرة، وتشير إلى نتيجة المهمة. - إذا
life_cycle_state
=PENDING
كانت حالةRUNNING
النتيجة أو أو أوSKIPPED
غير متوفرة. - إذا كانت
life_cycle_state
=TERMINATING
أو دورة الحياة =INTERNAL_ERROR
: تتوفر حالة النتيجة إذا كان التشغيل يحتوي على مهمة وتمكن من بدء تشغيلها.
بمجرد توفرها، لا تتغير حالة النتيجة أبدا.
حالة | الوصف |
---|---|
SUCCESS |
اكتملت المهمة بنجاح. |
FAILED |
اكتملت المهمة بخطأ. |
TIMEDOUT |
تم إيقاف التشغيل بعد الوصول إلى المهلة. |
CANCELED |
تم إلغاء التشغيل بناء على طلب المستخدم. |
حالة التشغيل
اسم الحقل | النوع | الوصف |
---|---|---|
life_cycle_state |
RunLifeCycleState | وصف للموقع الحالي للتشغيل في دورة حياة التشغيل. يتوفر هذا الحقل دائما في الاستجابة. |
result_state |
RunResultState | حالة نتيجة التشغيل. إذا لم يكن متوفرا، فلن تتضمن الاستجابة هذا الحقل. راجع RunResultState للحصول على تفاصيل حول توفر result_state. |
user_cancelled_or_timedout |
BOOLEAN |
ما إذا كان قد تم إلغاء تشغيل يدويا من قبل مستخدم أو من قبل المجدول بسبب انتهاء مهلة التشغيل. |
state_message |
STRING |
رسالة وصفية للحالة الحالية. هذا الحقل غير منظم، ويكون تنسيقه الدقيق عرضة للتغيير. |
SparkConfPair
أزواج قيمة مفتاح تكوين Spark.
النوع | الوصف |
---|---|
STRING |
اسم خاصية التكوين. |
STRING |
قيمة خاصية التكوين. |
SparkEnvPair
أزواج قيم المفاتيح المتغيرة لبيئة Spark.
هام
عند تحديد متغيرات البيئة في مجموعة مهام، تقبل الحقول في بنية البيانات هذه الأحرف اللاتينية فقط (مجموعة أحرف ASCII). سيؤدي استخدام أحرف غير ASCII إلى إرجاع خطأ. ومن الأمثلة على الأحرف غير الصالحة وغير التابعة ل ASCII الرموز التعبيرية والرموز التعبيرية الصينية واليابانية.
النوع | الوصف |
---|---|
STRING |
اسم متغير البيئة. |
STRING |
قيمة متغير البيئة. |
SparkJarTask
اسم الحقل | النوع | الوصف |
---|---|---|
jar_uri |
STRING |
مهمل منذ 04/2016. jar قم بتوفير من خلال libraries الحقل بدلا من ذلك. على سبيل المثال، راجع إنشاء. |
main_class_name |
STRING |
الاسم الكامل للفئة التي تحتوي على الأسلوب الرئيسي الذي سيتم تنفيذه. يجب أن تكون هذه الفئة موجودة في JAR يتم توفيرها كمكتبة. يجب استخدام SparkContext.getOrCreate التعليمات البرمجية للحصول على سياق Spark؛ وإلا، ستفشل عمليات تشغيل المهمة. |
parameters |
صفيف من STRING |
المعلمات التي تم تمريرها إلى الأسلوب الرئيسي. استخدم ما هو مرجع القيمة الديناميكية؟ لتعيين المعلمات التي تحتوي على معلومات حول تشغيل المهمة. |
SparkPythonTask
اسم الحقل | النوع | الوصف |
---|---|---|
python_file |
STRING |
سيتم تنفيذ عنوان URI لملف Python. يتم دعم مسارات DBFS. هذا الحقل مطلوب. |
parameters |
صفيف من STRING |
معلمات سطر الأوامر التي تم تمريرها إلى ملف Python. استخدم ما هو مرجع القيمة الديناميكية؟ لتعيين المعلمات التي تحتوي على معلومات حول تشغيل المهمة. |
SparkSubmitTask
هام
- يمكنك استدعاء مهام إرسال Spark فقط على مجموعات جديدة.
- في مواصفات new_cluster،
libraries
وspark_conf
غير معتمدين. بدلا من ذلك، استخدم--jars
و--py-files
لإضافة مكتبات Java وPython وتعيين--conf
تكوين Spark. master
،deploy-mode
، ويتمexecutor-cores
تكوينها تلقائيا بواسطة Azure Databricks؛ لا يمكنك تحديدها في المعلمات.- بشكل افتراضي، تستخدم مهمة إرسال Spark جميع الذاكرة المتوفرة (باستثناء الذاكرة المحجوزة لخدمات Azure Databricks). يمكنك تعيين
--driver-memory
و--executor-memory
إلى قيمة أصغر لترك بعض المساحة للاستخدام خارج كومة الذاكرة المؤقتة. --jars
تدعم الوسيطات ،--py-files
--files
مسارات DBFS.
على سبيل المثال، بافتراض تحميل JAR إلى DBFS، يمكنك التشغيل SparkPi
عن طريق تعيين المعلمات التالية.
{
"parameters": [
"--class",
"org.apache.spark.examples.SparkPi",
"dbfs:/path/to/examples.jar",
"10"
]
}
اسم الحقل | النوع | الوصف |
---|---|---|
parameters |
صفيف من STRING |
معلمات سطر الأوامر التي تم تمريرها لإرسال spark. استخدم ما هو مرجع القيمة الديناميكية؟ لتعيين المعلمات التي تحتوي على معلومات حول تشغيل المهمة. |
نوع المشغل
هذه هي نوع المشغلات التي يمكن أن تطلق تشغيلا.
النوع | الوصف |
---|---|
PERIODIC |
الجداول الزمنية التي تقوم بتشغيل التشغيل بشكل دوري، مثل مجدول cron. |
ONE_TIME |
مرة واحدة تؤدي إلى تشغيل تشغيل واحد. يحدث هذا قمت بتشغيل تشغيل واحد عند الطلب من خلال واجهة المستخدم أو واجهة برمجة التطبيقات. |
RETRY |
يشير إلى تشغيل يتم تشغيله لإعادة محاولة تشغيل فاشل مسبقا. يحدث هذا عند طلب إعادة تشغيل المهمة في حالة الفشل. |
ViewItem
المحتوى المصدر بتنسيق HTML. على سبيل المثال، إذا كانت طريقة العرض للتصدير هي لوحات المعلومات، يتم إرجاع سلسلة HTML واحدة لكل لوحة معلومات.
اسم الحقل | النوع | الوصف |
---|---|---|
content |
STRING |
محتوى طريقة العرض. |
name |
STRING |
اسم عنصر العرض. في حالة عرض التعليمات البرمجية، اسم دفتر الملاحظات. في حالة عرض لوحة المعلومات، اسم لوحة المعلومات. |
type |
نوع العرض | نوع عنصر العرض. |
نوع العرض
النوع | الوصف |
---|---|
NOTEBOOK |
عنصر طريقة عرض دفتر الملاحظات. |
DASHBOARD |
عنصر عرض لوحة المعلومات. |
ViewsToExport
عرض للتصدير: إما التعليمات البرمجية أو جميع لوحات المعلومات أو الكل.
النوع | الوصف |
---|---|
CODE |
طريقة عرض التعليمات البرمجية لدفتر الملاحظات. |
DASHBOARDS |
كافة طرق عرض لوحة المعلومات لدفتر الملاحظات. |
ALL |
كافة طرق عرض دفتر الملاحظات. |
إخطار على الويب
اسم الحقل | النوع | الوصف |
---|---|---|
id |
STRING |
المعرف يشير إلى وجهة إعلام النظام. هذا الحقل مطلوب. |
إخطار على الويبالتعليقات التوضيحية
اسم الحقل | النوع | الوصف |
---|---|---|
on_start |
صفيف من الإخطارات على الويب | قائمة اختيارية لوجهات النظام التي سيتم إعلامها عند بدء التشغيل. إذا لم يتم تحديدها عند إنشاء مهمة أو إعادة تعيينها أو تحديثها، تكون القائمة فارغة ولا يتم إرسال الإعلامات. يمكن تحديد 3 وجهات كحد أقصى للخاصية on_start . |
on_success |
صفيف من الإخطارات على الويب | قائمة اختيارية لوجهات النظام التي سيتم إعلامها عند اكتمال التشغيل بنجاح. يعتبر التشغيل قد اكتمل بنجاح إذا انتهى ب TERMINATED life_cycle_state و SUCCESSFUL result_state . إذا لم يتم تحديدها عند إنشاء مهمة أو إعادة تعيينها أو تحديثها، تكون القائمة فارغة ولا يتم إرسال الإعلامات. يمكن تحديد 3 وجهات كحد أقصى للخاصية on_success . |
on_failure |
صفيف من الإخطارات على الويب | قائمة اختيارية لوجهات النظام التي سيتم إعلامها عند اكتمال التشغيل دون جدوى. يعتبر التشغيل قد اكتمل بشكل غير ناجح إذا انتهى ب INTERNAL_ERROR life_cycle_state SKIPPED أو أو FAILED أو TIMED_OUT result_state . إذا لم يتم تحديد ذلك عند إنشاء الوظيفة، فإن إعادة تعيين القائمة أو تحديثها فارغة، ولا يتم إرسال الإعلامات. يمكن تحديد 3 وجهات كحد أقصى للخاصية on_failure . |
on_duration_warning_threshold_exceeded |
صفيف من الإخطارات على الويب | قائمة اختيارية لوجهات النظام التي سيتم إعلامها عندما تتجاوز مدة التشغيل الحد المحدد للمقياس RUN_DURATION_SECONDS في health الحقل. يمكن تحديد 3 وجهات كحد أقصى للخاصية on_duration_warning_threshold_exceeded . |
WorkspaceStorageInfo
معلومات تخزين مساحة العمل.
اسم الحقل | النوع | الوصف |
---|---|---|
destination |
STRING |
وجهة الملف. مثال: /Users/someone@domain.com/init_script.sh |