واجهة برمجة تطبيقات الوظائف 2.0

هام

توثق هذه المقالة الإصدار 2.0 من واجهة برمجة تطبيقات الوظائف. ومع ذلك، توصي Databricks باستخدام Jobs API 2.1 للعملاء والبرامج النصية الجديدة والحالية. للحصول على تفاصيل حول التغييرات من الإصدارات 2.0 إلى 2.1، راجع التحديث من Jobs API 2.0 إلى 2.1.

تتيح لك واجهة برمجة تطبيقات الوظائف إنشاء الوظائف وتحريرها وحذفها. الحد الأقصى المسموح به لحجم الطلب إلى واجهة برمجة تطبيقات الوظائف هو 10 ميغابايت.

للحصول على تفاصيل حول تحديثات واجهة برمجة تطبيقات الوظائف التي تدعم تنسيق مهام متعددة باستخدام وظائف Azure Databricks، راجع التحديث من Jobs API 2.0 إلى 2.1.

تحذير

يجب ألا تقوم أبدا بتخزين البيانات السرية للتعليمات البرمجية الثابتة أو تخزينها في نص عادي. استخدم واجهة برمجة تطبيقات الأسرار لإدارة الأسرار في Databricks CLI. استخدم الأداة المساعدة Secrets (dbutils.secrets) للإشارة إلى الأسرار في دفاتر الملاحظات والمهام.

إشعار

إذا تلقيت خطأ على مستوى 500 عند إجراء طلبات واجهة برمجة تطبيقات الوظائف، يوصي Databricks بإعادة محاولة الطلبات لمدة تصل إلى 10 دقائق (مع فاصل زمني 30 ثانية كحد أدنى بين عمليات إعادة المحاولة).

هام

للوصول إلى واجهات برمجة تطبيقات Databricks REST، يجب عليك المصادقة.

خلق

نقطة النهاية أسلوب HTTP
2.0/jobs/create POST

إنشاء وظيفة جديدة.

مثال

ينشئ هذا المثال مهمة تقوم بتشغيل مهمة JAR في الساعة 10:15 مساء كل ليلة.

طلب

curl --netrc --request POST \
https://<databricks-instance>/api/2.0/jobs/create \
--data @create-job.json \
| jq .

create-job.json:

{
  "name": "Nightly model training",
  "new_cluster": {
    "spark_version": "7.3.x-scala2.12",
    "node_type_id": "Standard_D3_v2",
    "num_workers": 10
  },
  "libraries": [
    {
      "jar": "dbfs:/my-jar.jar"
    },
    {
      "maven": {
        "coordinates": "org.jsoup:jsoup:1.7.2"
      }
    }
  ],
  "timeout_seconds": 3600,
  "max_retries": 1,
  "schedule": {
    "quartz_cron_expression": "0 15 22 * * ?",
    "timezone_id": "America/Los_Angeles"
  },
  "spark_jar_task": {
    "main_class_name": "com.databricks.ComputeModels"
  }
}

استبدل:

  • <databricks-instance>مع اسم مثيل مساحة عمل Azure Databricks، على سبيل المثال adb-1234567890123456.7.azuredatabricks.net.
  • محتويات create-job.json مع الحقول المناسبة للحل الخاص بك.

يستخدم هذا المثال ملف .netrc وjq.

استجابة

{
  "job_id": 1
}

بنية الطلب

هام

  • عند تشغيل وظيفة على مجموعة وظائف جديدة، يتم التعامل مع الوظيفة على أنها حمل عمل حساب الوظائف (التلقائي) الخاضع لتسعير حساب الوظائف.
  • عند تشغيل وظيفة على مجموعة موجودة لجميع الأغراض، يتم التعامل معها على أنها حمل عمل حسابي (تفاعلي) لجميع الأغراض يخضع لتسعير الحوسبة لجميع الأغراض.
اسم الحقل النوع ‏‏الوصف
existing_cluster_id أو new_cluster STRING OR NewCluster إذا existing_cluster_id، معرف مجموعة موجودة سيتم استخدامها لجميع عمليات تشغيل هذه المهمة. عند تشغيل المهام على نظام مجموعة موجود، قد تحتاج إلى إعادة تشغيل نظام المجموعة يدويا إذا توقف عن الاستجابة. نقترح تشغيل الوظائف على مجموعات جديدة لمزيد من الموثوقية.

إذا new_cluster، وصف نظام مجموعة سيتم إنشاؤه لكل تشغيل.

إذا كان تحديد PipelineTask، يمكن أن يكون هذا الحقل فارغا.
notebook_task OR spark_jar_task OR
spark_python_task OR spark_submit_task OR
pipeline_task أو run_job_task
NotebookTask أو SparkJarTask أو SparkPythonTask أو SparkSubmitTask OR PipelineTask أو RunJobTask إذا notebook_task، يشير إلى أن هذه المهمة يجب أن تشغل دفتر ملاحظات. قد لا يتم تحديد هذا الحقل بالاقتران مع spark_jar_task.

إذا spark_jar_task، يشير إلى أن هذه المهمة يجب أن تشغل JAR.

إذا spark_python_task، يشير إلى أن هذه المهمة يجب أن تشغل ملف Python.

إذا spark_submit_task، يشير إلى أنه يجب تشغيل هذه المهمة بواسطة البرنامج النصي لإرسال spark.

إذا pipeline_task، يشير إلى أن هذه المهمة يجب أن تشغل مسار Delta Live Tables.

إذا run_job_task، يشير إلى أن هذه الوظيفة يجب أن تشغل وظيفة أخرى.
name STRING اسم اختياري للوظيفة. القيمة الافتراضية هي Untitled.
libraries صفيف من المكتبة قائمة اختيارية من المكتبات التي سيتم تثبيتها على نظام المجموعة التي ستقوم بتنفيذ المهمة. القيمة الافتراضية هي قائمة فارغة.
email_notifications تعليقات البريد الإلكتروني للوظيفة يتم إعلام مجموعة اختيارية من عناوين البريد الإلكتروني عند بدء تشغيل هذه المهمة واكتمالها وعند حذف هذه المهمة. السلوك الافتراضي هو عدم إرسال أي رسائل بريد إلكتروني.
webhook_notifications إخطار على الويبالتعليقات التوضيحية مجموعة اختيارية من وجهات النظام لإعلامها عند بدء تشغيل هذه المهمة أو اكتمالها أو فشلها.
notification_settings إعدادات التعليقات التوضيحية للوظيفة إعدادات الإعلام الاختيارية التي يتم استخدامها عند إرسال إعلامات إلى كل من email_notifications و webhook_notifications لهذه المهمة.
timeout_seconds INT32 مهلة اختيارية مطبقة على كل تشغيل لهذه المهمة. السلوك الافتراضي هو عدم وجود مهلة.
max_retries INT32 عدد أقصى اختياري من المرات لإعادة محاولة تشغيل غير ناجح. يعتبر التشغيل غير ناجح إذا اكتمل مع FAILED result_state أو
INTERNAL_ERROR
life_cycle_state. تعني القيمة -1 إعادة المحاولة إلى أجل غير مسمى والقيمة 0 تعني عدم إعادة المحاولة أبدا. السلوك الافتراضي هو عدم إعادة المحاولة أبدا.
min_retry_interval_millis INT32 فاصل زمني اختياري الحد الأدنى بالمللي ثانية بين بداية التشغيل الفاشل وتشغيل إعادة المحاولة اللاحقة. السلوك الافتراضي هو إعادة محاولة عمليات التشغيل غير الناجحة على الفور.
retry_on_timeout BOOL نهج اختياري لتحديد ما إذا كنت تريد إعادة محاولة مهمة عندما تنتهي مهلتها. السلوك الافتراضي هو عدم إعادة المحاولة في المهلة.
schedule جدول كرون جدول دوري اختياري لهذه الوظيفة. السلوك الافتراضي هو أن المهمة يتم تشغيلها عند تشغيلها بالنقر فوق تشغيل الآن في واجهة مستخدم الوظائف أو إرسال طلب واجهة برمجة التطبيقات إلى runNow.
max_concurrent_runs INT32 الحد الأقصى الاختياري المسموح به لعدد عمليات التشغيل المتزامنة للوظيفة.

قم بتعيين هذه القيمة إذا كنت تريد أن تكون قادرا على تنفيذ عمليات تشغيل متعددة لنفس المهمة بشكل متزامن. هذا مفيد على سبيل المثال إذا قمت بتشغيل وظيفتك وفقا لجدول زمني متكرر وتريد السماح بتراكب عمليات التشغيل المتتالية مع بعضها البعض، أو إذا كنت تريد تشغيل عمليات تشغيل متعددة تختلف حسب معلمات الإدخال الخاصة بهم.

يؤثر هذا الإعداد على عمليات التشغيل الجديدة فقط. على سبيل المثال، افترض أن تزامن المهمة هو 4 وهناك 4 عمليات تشغيل نشطة متزامنة. ثم لن يؤدي تعيين التزامن إلى 3 إلى إنهاء أي من عمليات التشغيل النشطة. ومع ذلك، من ذلك الحين فصاعدا، يتم تخطي عمليات التشغيل الجديدة ما لم يكن هناك أقل من 3 عمليات تشغيل نشطة.

لا يمكن أن تتجاوز هذه القيمة 1000. يؤدي تعيين هذه القيمة إلى 0 إلى تخطي جميع عمليات التشغيل الجديدة. السلوك الافتراضي هو السماح بتشغيل متزامن واحد فقط.

بنية الاستجابة

اسم الحقل النوع ‏‏الوصف
job_id INT64 المعرف المتعارف عليه للوظيفة التي تم إنشاؤها حديثا.

قائمة

نقطة النهاية أسلوب HTTP
2.0/jobs/list GET

سرد جميع المهام.

مثال

Request

curl --netrc --request GET \
https://<databricks-instance>/api/2.0/jobs/list \
| jq .

استبدل <databricks-instance> باسم مثيل مساحة عمل Azure Databricks، على سبيل المثال adb-1234567890123456.7.azuredatabricks.net.

يستخدم هذا المثال ملف .netrc وjq.

استجابة

{
  "jobs": [
    {
      "job_id": 1,
      "settings": {
        "name": "Nightly model training",
        "new_cluster": {
          "spark_version": "7.3.x-scala2.12",
          "node_type_id": "Standard_D3_v2",
          "num_workers": 10
        },
        "libraries": [
          {
            "jar": "dbfs:/my-jar.jar"
          },
          {
            "maven": {
              "coordinates": "org.jsoup:jsoup:1.7.2"
            }
          }
        ],
        "timeout_seconds": 100000000,
        "max_retries": 1,
        "schedule": {
          "quartz_cron_expression": "0 15 22 * * ?",
          "timezone_id": "America/Los_Angeles",
          "pause_status": "UNPAUSED"
        },
        "spark_jar_task": {
          "main_class_name": "com.databricks.ComputeModels"
        }
      },
      "created_time": 1457570074236
    }
  ]
}

بنية الاستجابة

اسم الحقل النوع ‏‏الوصف
jobs صفيف من الوظائف قائمة الوظائف.

حذف

نقطة النهاية أسلوب HTTP
2.0/jobs/delete POST

احذف وظيفة وأرسل بريدا إلكترونيا إلى العناوين المحددة في JobSettings.email_notifications. لا يحدث أي إجراء إذا تمت إزالة الوظيفة بالفعل. بعد إزالة الوظيفة، لا تظهر تفاصيلها ولا محفوظات التشغيل الخاصة بها في واجهة مستخدم الوظائف أو واجهة برمجة التطبيقات. يتم ضمان إزالة الوظيفة عند الانتهاء من هذا الطلب. ومع ذلك، قد لا تزال عمليات التشغيل التي كانت نشطة قبل استلام هذا الطلب نشطة. سيتم إنهاؤها بشكل غير متزامن.

مثال

curl --netrc --request POST \
https://<databricks-instance>/api/2.0/jobs/delete \
--data '{ "job_id": <job-id> }'

استبدل:

  • <databricks-instance>مع اسم مثيل مساحة عمل Azure Databricks، على سبيل المثال adb-1234567890123456.7.azuredatabricks.net.
  • <job-id> بمعرف الوظيفة، على سبيل المثال 123.

يستخدم هذا المثال ملف .netrc .

بنية الطلب

اسم الحقل النوع ‏‏الوصف
job_id INT64 المعرف المتعارف عليه للوظيفة المراد حذفها. هذا الحقل مطلوب.

حصل

نقطة النهاية أسلوب HTTP
2.0/jobs/get GET

استرداد معلومات حول وظيفة واحدة.

مثال

Request

curl --netrc --request GET \
'https://<databricks-instance>/api/2.0/jobs/get?job_id=<job-id>' \
| jq .

أو:

curl --netrc --get \
https://<databricks-instance>/api/2.0/jobs/get \
--data job_id=<job-id> \
| jq .

استبدل:

  • <databricks-instance>مع اسم مثيل مساحة عمل Azure Databricks، على سبيل المثال adb-1234567890123456.7.azuredatabricks.net.
  • <job-id> بمعرف الوظيفة، على سبيل المثال 123.

يستخدم هذا المثال ملف .netrc وjq.

استجابة

{
  "job_id": 1,
  "settings": {
    "name": "Nightly model training",
    "new_cluster": {
      "spark_version": "7.3.x-scala2.12",
      "node_type_id": "Standard_D3_v2",
      "num_workers": 10
    },
    "libraries": [
      {
        "jar": "dbfs:/my-jar.jar"
      },
      {
        "maven": {
          "coordinates": "org.jsoup:jsoup:1.7.2"
        }
      }
    ],
    "timeout_seconds": 100000000,
    "max_retries": 1,
    "schedule": {
      "quartz_cron_expression": "0 15 22 * * ?",
      "timezone_id": "America/Los_Angeles",
      "pause_status": "UNPAUSED"
    },
    "spark_jar_task": {
      "main_class_name": "com.databricks.ComputeModels"
    }
  },
  "created_time": 1457570074236
}

بنية الطلب

اسم الحقل النوع ‏‏الوصف
job_id INT64 المعرف المتعارف عليه للوظيفة لاسترداد معلومات عنها. هذا الحقل مطلوب.

بنية الاستجابة

اسم الحقل النوع ‏‏الوصف
job_id INT64 المعرف المتعارف عليه لهذه الوظيفة.
creator_user_name STRING اسم مستخدم المنشئ. لن يتم تضمين هذا الحقل في الاستجابة إذا تم حذف المستخدم.
settings إعدادات الوظيفة إعدادات هذه الوظيفة وجميع عمليات التشغيل الخاصة بها. يمكن تحديث هذه الإعدادات باستخدام نقاط النهاية إعادة تعيين أو تحديث .
created_time INT64 الوقت الذي تم فيه إنشاء هذه الوظيفة بالمللي ثانية (مللي ثانية منذ 1/1/1970 بالتوقيت العالمي المتفق عليه).

اعاده تعيين

نقطة النهاية أسلوب HTTP
2.0/jobs/reset POST

الكتابة فوق كافة الإعدادات لوظيفة معينة. استخدم نقطة نهاية التحديث لتحديث إعدادات المهمة جزئيا.

مثال

يجعل طلب المثال هذا المهمة 2 مطابقة للوظيفة 1 في مثال الإنشاء .

curl --netrc --request POST \
https://<databricks-instance>/api/2.0/jobs/reset \
--data @reset-job.json \
| jq .

reset-job.json:

{
  "job_id": 2,
  "new_settings": {
    "name": "Nightly model training",
    "new_cluster": {
      "spark_version": "7.3.x-scala2.12",
      "node_type_id": "Standard_D3_v2",
      "num_workers": 10
    },
    "libraries": [
      {
        "jar": "dbfs:/my-jar.jar"
      },
      {
        "maven": {
          "coordinates": "org.jsoup:jsoup:1.7.2"
        }
      }
    ],
    "timeout_seconds": 100000000,
    "max_retries": 1,
    "schedule": {
      "quartz_cron_expression": "0 15 22 * * ?",
      "timezone_id": "America/Los_Angeles",
      "pause_status": "UNPAUSED"
    },
    "spark_jar_task": {
      "main_class_name": "com.databricks.ComputeModels"
    }
  }
}

استبدل:

  • <databricks-instance>مع اسم مثيل مساحة عمل Azure Databricks، على سبيل المثال adb-1234567890123456.7.azuredatabricks.net.
  • محتويات reset-job.json مع الحقول المناسبة للحل الخاص بك.

يستخدم هذا المثال ملف .netrc وjq.

بنية الطلب

اسم الحقل النوع ‏‏الوصف
job_id INT64 المعرف المتعارف عليه للمهمة المراد إعادة تعيينها. هذا الحقل مطلوب.
new_settings إعدادات الوظيفة الإعدادات الجديدة للوظيفة. تحل هذه الإعدادات تماما محل الإعدادات القديمة.

يتم تطبيق التغييرات على الحقل JobSettings.timeout_seconds على عمليات التشغيل النشطة. يتم تطبيق التغييرات على الحقول الأخرى على عمليات التشغيل المستقبلية فقط.

تحديث

نقطة النهاية أسلوب HTTP
2.0/jobs/update POST

إضافة إعدادات معينة لوظيفة موجودة أو تغييرها أو إزالتها. استخدم نقطة النهاية إعادة تعيين للكتابة فوق كافة إعدادات المهمة.

مثال

يزيل طلب المثال هذا المكتبات ويضيف إعدادات إعلام البريد الإلكتروني إلى المهمة 1 المحددة في مثال الإنشاء .

curl --netrc --request POST \
https://<databricks-instance>/api/2.0/jobs/update \
--data @update-job.json \
| jq .

update-job.json:

{
  "job_id": 1,
  "new_settings": {
    "existing_cluster_id": "1201-my-cluster",
    "email_notifications": {
      "on_start": [ "someone@example.com" ],
      "on_success": [],
      "on_failure": []
    }
  },
  "fields_to_remove": ["libraries"]
}

استبدل:

  • <databricks-instance>مع اسم مثيل مساحة عمل Azure Databricks، على سبيل المثال adb-1234567890123456.7.azuredatabricks.net.
  • محتويات update-job.json مع الحقول المناسبة للحل الخاص بك.

يستخدم هذا المثال ملف .netrc وjq.

بنية الطلب

اسم الحقل النوع ‏‏الوصف
job_id INT64 المعرف المتعارف عليه للوظيفة المراد تحديثها. هذا الحقل مطلوب.
new_settings إعدادات الوظيفة الإعدادات الجديدة للوظيفة.

يتم استبدال حقول المستوى الأعلى المحددة في new_settings، باستثناء الصفائف، تماما. يتم دمج الصفائف استنادا إلى حقول المفتاح المعنية، مثل task_key أو
job_cluster_key، ويتم استبدال إدخالات الصفيف بنفس المفتاح تماما. باستثناء دمج الصفيف، لا يتم دعم تحديث الحقول المتداخلة جزئيا.

يتم تطبيق التغييرات على الحقل JobSettings.timeout_seconds على عمليات التشغيل النشطة. يتم تطبيق التغييرات على الحقول الأخرى على عمليات التشغيل المستقبلية فقط.
fields_to_remove صفيف من STRING إزالة حقول المستوى الأعلى في إعدادات الوظيفة. إزالة الحقول المتداخلة غير معتمدة، باستثناء الإدخالات من tasks الصفائف و job_clusters . على سبيل المثال، ما يلي هو وسيطة صالحة لهذا الحقل:
["libraries", "schedule", "tasks/task_1", "job_clusters/Default"]

هذا الحقل اختياري.

التشغيل الآن

هام

  • تقتصر مساحة العمل على 1000 تشغيل مهمة متزامنة. 429 Too Many Requests يتم إرجاع استجابة عند طلب تشغيل لا يمكن بدء تشغيله على الفور.
  • يقتصر عدد المهام التي يمكن لمساحة العمل إنشاؤها في ساعة على 10000 (بما في ذلك "إرسال عمليات التشغيل"). يؤثر هذا الحد أيضا على المهام التي تم إنشاؤها بواسطة واجهة برمجة تطبيقات REST ومهام سير عمل دفتر الملاحظات.
  • يمكن أن تحتوي مساحة العمل على ما يصل إلى 12000 وظيفة محفوظة.
  • يمكن أن تحتوي الوظيفة على ما يصل إلى 100 مهمة.
نقطة النهاية أسلوب HTTP
2.0/jobs/run-now POST

قم بتشغيل مهمة الآن وإرجاع run_id التشغيل الذي تم تشغيله.

تلميح

إذا قمت باستدعاء Create مع Run now، يمكنك استخدام نقطة نهاية إرسال Runs بدلا من ذلك، والتي تسمح لك بإرسال حمل العمل الخاص بك مباشرة دون الحاجة إلى إنشاء وظيفة.

مثال

curl --netrc --request POST \
https://<databricks-instance>/api/2.0/jobs/run-now \
--data @run-job.json \
| jq .

run-job.json:

مثال على طلب مهمة دفتر ملاحظات:

{
  "job_id": 1,
  "notebook_params": {
    "name": "john doe",
    "age": "35"
  }
}

طلب مثال لوظيفة JAR:

{
  "job_id": 2,
  "jar_params": [ "john doe", "35" ]
}

استبدل:

  • <databricks-instance>مع اسم مثيل مساحة عمل Azure Databricks، على سبيل المثال adb-1234567890123456.7.azuredatabricks.net.
  • محتويات run-job.json مع الحقول المناسبة للحل الخاص بك.

يستخدم هذا المثال ملف .netrc وjq.

بنية الطلب

اسم الحقل النوع ‏‏الوصف
job_id INT64
jar_params صفيف من STRING قائمة المعلمات للوظائف ذات مهام JAR، على سبيل المثال "jar_params": ["john doe", "35"]. سيتم استخدام المعلمات لاستدعاء الدالة الرئيسية للفئة الرئيسية المحددة في مهمة Spark JAR. إذا لم يتم تحديده في run-now، تعيينه افتراضيا إلى قائمة فارغة. لا يمكن تحديد jar_params بالاقتران مع notebook_params. لا يمكن أن يتجاوز تمثيل JSON لهذا الحقل (أي {"jar_params":["john doe","35"]}) 10000 بايت.
notebook_params خريطة ParamPair خريطة من المفاتيح إلى قيم المهام ذات مهمة دفتر الملاحظات، على سبيل المثال.
"notebook_params": {"name": "john doe", "age": "35"}. يتم تمرير الخريطة إلى دفتر الملاحظات ويمكن الوصول إليها من خلال وظيفة dbutils.widgets.get .

إذا لم يتم تحديده على run-now، يستخدم التشغيل المشغل المعلمات الأساسية للوظيفة.

لا يمكنك تحديد notebook_params بالتزامن مع jar_params.

تمثيل JSON لهذا الحقل (على سبيل المثال.
{"notebook_params":{"name":"john doe","age":"35"}}) لا يمكن أن يتجاوز 10,000 بايت.
python_params صفيف من STRING قائمة المعلمات للوظائف ذات مهام Python، على سبيل المثال "python_params": ["john doe", "35"]. سيتم تمرير المعلمات إلى ملف Python كمعلمات سطر الأوامر. إذا تم تحديده على run-now، فإنه سيستبدل المعلمات المحددة في إعداد الوظيفة. لا يمكن أن يتجاوز تمثيل JSON لهذا الحقل (أي {"python_params":["john doe","35"]}) 10000 بايت.
spark_submit_params صفيف من STRING قائمة المعلمات للوظائف ذات مهمة إرسال spark، على سبيل المثال.
"spark_submit_params": ["--class", "org.apache.spark.examples.SparkPi"]. سيتم تمرير المعلمات إلى البرنامج النصي spark-submit كمعلمات سطر الأوامر. إذا تم تحديده على run-now، فإنه سيستبدل المعلمات المحددة في إعداد الوظيفة. لا يمكن أن يتجاوز تمثيل JSON لهذا الحقل 10000 بايت.
idempotency_token STRING رمز مميز اختياري لضمان تكبد طلبات تشغيل الوظيفة. إذا كان هناك تشغيل مع الرمز المميز المقدم موجود بالفعل، لا ينشئ الطلب تشغيلا جديدا ولكنه يرجع معرف التشغيل الموجود بدلا من ذلك. إذا تم حذف تشغيل مع الرمز المميز المقدم، يتم إرجاع خطأ.

إذا قمت بتحديد الرمز المميز للتكتم، عند الفشل يمكنك إعادة المحاولة حتى ينجح الطلب. يضمن Azure Databricks تشغيل تشغيل واحد بالضبط باستخدام هذا الرمز المميز للتكبد.

يجب أن يحتوي هذا الرمز المميز على 64 حرفا على الأكثر.

لمزيد من المعلومات، راجع كيفية ضمان التكرار للوظائف.

بنية الاستجابة

اسم الحقل النوع ‏‏الوصف
run_id INT64 المعرف الفريد عالميا للتشغيل الذي تم تشغيله حديثا.
number_in_job INT64 رقم تسلسل هذا التشغيل بين جميع عمليات تشغيل المهمة.

إرسال عمليات التشغيل

هام

  • تقتصر مساحة العمل على 1000 تشغيل مهمة متزامنة. 429 Too Many Requests يتم إرجاع استجابة عند طلب تشغيل لا يمكن بدء تشغيله على الفور.
  • يقتصر عدد المهام التي يمكن لمساحة العمل إنشاؤها في ساعة على 10000 (بما في ذلك "إرسال عمليات التشغيل"). يؤثر هذا الحد أيضا على المهام التي تم إنشاؤها بواسطة واجهة برمجة تطبيقات REST ومهام سير عمل دفتر الملاحظات.
  • يمكن أن تحتوي مساحة العمل على ما يصل إلى 12000 وظيفة محفوظة.
  • يمكن أن تحتوي الوظيفة على ما يصل إلى 100 مهمة.
نقطة النهاية أسلوب HTTP
2.0/jobs/runs/submit POST

إرسال تشغيل لمرة واحدة. تسمح لك نقطة النهاية هذه بإرسال حمل عمل مباشرة دون إنشاء وظيفة. jobs/runs/get استخدم واجهة برمجة التطبيقات للتحقق من حالة التشغيل بعد إرسال المهمة.

مثال

Request

curl --netrc --request POST \
https://<databricks-instance>/api/2.0/jobs/runs/submit \
--data @submit-job.json \
| jq .

submit-job.json:

{
  "run_name": "my spark task",
  "new_cluster": {
    "spark_version": "7.3.x-scala2.12",
    "node_type_id": "Standard_D3_v2",
    "num_workers": 10
  },
  "libraries": [
    {
      "jar": "dbfs:/my-jar.jar"
    },
    {
      "maven": {
        "coordinates": "org.jsoup:jsoup:1.7.2"
      }
    }
  ],
  "spark_jar_task": {
    "main_class_name": "com.databricks.ComputeModels"
  }
}

استبدل:

  • <databricks-instance>مع اسم مثيل مساحة عمل Azure Databricks، على سبيل المثال adb-1234567890123456.7.azuredatabricks.net.
  • محتويات submit-job.json مع الحقول المناسبة للحل الخاص بك.

يستخدم هذا المثال ملف .netrc وjq.

استجابة

{
  "run_id": 123
}

بنية الطلب

هام

  • عند تشغيل وظيفة على مجموعة وظائف جديدة، يتم التعامل مع الوظيفة على أنها حمل عمل حساب الوظائف (التلقائي) الخاضع لتسعير حساب الوظائف.
  • عند تشغيل وظيفة على مجموعة موجودة لجميع الأغراض، يتم التعامل معها على أنها حمل عمل حسابي (تفاعلي) لجميع الأغراض يخضع لتسعير الحوسبة لجميع الأغراض.
اسم الحقل النوع ‏‏الوصف
existing_cluster_id أو new_cluster STRING OR NewCluster إذا existing_cluster_id، معرف مجموعة موجودة سيتم استخدامها لجميع عمليات تشغيل هذه المهمة. عند تشغيل المهام على نظام مجموعة موجود، قد تحتاج إلى إعادة تشغيل نظام المجموعة يدويا إذا توقف عن الاستجابة. نقترح تشغيل الوظائف على مجموعات جديدة لمزيد من الموثوقية.

إذا new_cluster، وصف نظام مجموعة سيتم إنشاؤه لكل تشغيل.

إذا كان تحديد PipelineTask، يمكن أن يكون هذا الحقل فارغا.
notebook_task OR spark_jar_task OR
spark_python_task OR spark_submit_task OR
pipeline_task أو run_job_task
NotebookTask أو SparkJarTask أو SparkPythonTask أو SparkSubmitTask OR PipelineTask أو RunJobTask إذا notebook_task، يشير إلى أن هذه المهمة يجب أن تشغل دفتر ملاحظات. قد لا يتم تحديد هذا الحقل بالاقتران مع spark_jar_task.

إذا spark_jar_task، يشير إلى أن هذه المهمة يجب أن تشغل JAR.

إذا spark_python_task، يشير إلى أن هذه المهمة يجب أن تشغل ملف Python.

إذا spark_submit_task، يشير إلى أنه يجب تشغيل هذه المهمة بواسطة البرنامج النصي لإرسال spark.

إذا pipeline_task، يشير إلى أن هذه المهمة يجب أن تشغل مسار Delta Live Tables.

إذا run_job_task، يشير إلى أن هذه الوظيفة يجب أن تشغل وظيفة أخرى.
run_name STRING اسم اختياري للتشغيل. القيمة الافتراضية هي Untitled.
webhook_notifications إخطار على الويبالتعليقات التوضيحية مجموعة اختيارية من وجهات النظام لإعلامها عند بدء تشغيل هذه المهمة أو اكتمالها أو فشلها.
notification_settings إعدادات التعليقات التوضيحية للوظيفة إعدادات الإعلام الاختيارية التي يتم استخدامها عند إرسال إعلامات إلى كل من webhook_notifications لهذا التشغيل.
libraries صفيف من المكتبة قائمة اختيارية من المكتبات التي سيتم تثبيتها على نظام المجموعة التي ستقوم بتنفيذ المهمة. القيمة الافتراضية هي قائمة فارغة.
timeout_seconds INT32 مهلة اختيارية مطبقة على كل تشغيل لهذه المهمة. السلوك الافتراضي هو عدم وجود مهلة.
idempotency_token STRING رمز مميز اختياري لضمان تكبد طلبات تشغيل الوظيفة. إذا كان هناك تشغيل مع الرمز المميز المقدم موجود بالفعل، لا ينشئ الطلب تشغيلا جديدا ولكنه يرجع معرف التشغيل الموجود بدلا من ذلك. إذا تم حذف تشغيل مع الرمز المميز المقدم، يتم إرجاع خطأ.

إذا قمت بتحديد الرمز المميز للتكتم، عند الفشل يمكنك إعادة المحاولة حتى ينجح الطلب. يضمن Azure Databricks تشغيل تشغيل واحد بالضبط باستخدام هذا الرمز المميز للتكبد.

يجب أن يحتوي هذا الرمز المميز على 64 حرفا على الأكثر.

لمزيد من المعلومات، راجع كيفية ضمان التكرار للوظائف.

بنية الاستجابة

اسم الحقل النوع ‏‏الوصف
run_id INT64 المعرف المتعارف عليه للتشغيل المرسل حديثا.

قائمة عمليات التشغيل

نقطة النهاية أسلوب HTTP
2.0/jobs/runs/list GET

يتم تشغيل القائمة بترتيب تنازلي حسب وقت البدء.

إشعار

تتم إزالة عمليات التشغيل تلقائيا بعد 60 يوما. إذا كنت تريد الرجوع إليها بعد 60 يوما، يجب حفظ نتائج التشغيل القديمة قبل انتهاء صلاحيتها. للتصدير باستخدام واجهة المستخدم، راجع تصدير نتائج تشغيل المهمة. للتصدير باستخدام واجهة برمجة تطبيقات الوظائف، راجع تشغيل التصدير.

مثال

Request

curl --netrc --request GET \
'https://<databricks-instance>/api/2.0/jobs/runs/list?job_id=<job-id>&active_only=<true-false>&offset=<offset>&limit=<limit>&run_type=<run-type>' \
| jq .

أو:

curl --netrc --get \
https://<databricks-instance>/api/2.0/jobs/runs/list \
--data 'job_id=<job-id>&active_only=<true-false>&offset=<offset>&limit=<limit>&run_type=<run-type>' \
| jq .

استبدل:

  • <databricks-instance>مع اسم مثيل مساحة عمل Azure Databricks، على سبيل المثال adb-1234567890123456.7.azuredatabricks.net.
  • <job-id> بمعرف الوظيفة، على سبيل المثال 123.
  • "<true-false> مع true أو false".
  • <offset> بالقيمة offset .
  • <limit> بالقيمة limit .
  • <run-type> بالقيمة run_type .

يستخدم هذا المثال ملف .netrc وjq.

استجابة

{
  "runs": [
    {
      "job_id": 1,
      "run_id": 452,
      "number_in_job": 5,
      "state": {
        "life_cycle_state": "RUNNING",
        "state_message": "Performing action"
      },
      "task": {
        "notebook_task": {
          "notebook_path": "/Users/donald@duck.com/my-notebook"
        }
      },
      "cluster_spec": {
        "existing_cluster_id": "1201-my-cluster"
      },
      "cluster_instance": {
        "cluster_id": "1201-my-cluster",
        "spark_context_id": "1102398-spark-context-id"
      },
      "overriding_parameters": {
        "jar_params": ["param1", "param2"]
      },
      "start_time": 1457570074236,
      "end_time": 1457570075149,
      "setup_duration": 259754,
      "execution_duration": 3589020,
      "cleanup_duration": 31038,
      "run_duration": 3879812,
      "trigger": "PERIODIC"
    }
  ],
  "has_more": true
}

بنية الطلب

اسم الحقل النوع ‏‏الوصف
active_only أو completed_only BOOL أو BOOL إذا كان active_only هو true، يتم تضمين عمليات التشغيل النشطة فقط في النتائج؛ وإلا، فإنه يسرد كل من عمليات التشغيل النشطة والمكتملة. التشغيل النشط هو تشغيل في PENDINGأو RUNNINGأو TERMINATING RunLifecycleState. لا يمكن أن يكون true هذا الحقل عندما يكون completed_only هو true.

إذا كان completed_only هو true، يتم تضمين عمليات التشغيل المكتملة فقط في النتائج؛ وإلا، يسرد كل من عمليات التشغيل النشطة والمكتملة. لا يمكن أن يكون true هذا الحقل عندما يكون active_only هو true.
job_id INT64 يتم تشغيل المهمة التي يتم سردها. إذا تم حذفها، سيتم تشغيل قائمة خدمة الوظائف من جميع الوظائف.
offset INT32 إزاحة التشغيل الأول الذي سيتم إرجاعه، بالنسبة لأحدث تشغيل.
limit INT32 عدد عمليات التشغيل التي يجب إرجاعها. يجب أن تكون هذه القيمة أكبر من 0 وأقل من 1000. القيمة الافتراضية هي 20. إذا حدد الطلب حدا قدره 0، فستستخدم الخدمة الحد الأقصى بدلا من ذلك.
run_type STRING نوع عمليات التشغيل التي يجب إرجاعها. للحصول على وصف أنواع التشغيل، راجع تشغيل.

بنية الاستجابة

اسم الحقل النوع ‏‏الوصف
runs صفيف تشغيل قائمة عمليات التشغيل، من الأحدث التي بدأت إلى الأقل.
has_more BOOL إذا كان صحيحا، تتوفر عمليات تشغيل إضافية مطابقة لعامل التصفية المتوفر للإدراج.

الحصول على عمليات التشغيل

نقطة النهاية أسلوب HTTP
2.0/jobs/runs/get GET

استرداد بيانات التعريف الخاصة بالتشغيل.

إشعار

تتم إزالة عمليات التشغيل تلقائيا بعد 60 يوما. إذا كنت تريد الرجوع إليها بعد 60 يوما، يجب حفظ نتائج التشغيل القديمة قبل انتهاء صلاحيتها. للتصدير باستخدام واجهة المستخدم، راجع تصدير نتائج تشغيل المهمة. للتصدير باستخدام واجهة برمجة تطبيقات الوظائف، راجع تشغيل التصدير.

مثال

Request

curl --netrc --request GET \
'https://<databricks-instance>/api/2.0/jobs/runs/get?run_id=<run-id>' \
| jq .

أو:

curl --netrc --get \
https://<databricks-instance>/api/2.0/jobs/runs/get \
--data run_id=<run-id> \
| jq .

استبدل:

  • <databricks-instance>مع اسم مثيل مساحة عمل Azure Databricks، على سبيل المثال adb-1234567890123456.7.azuredatabricks.net.
  • <run-id> بمعرف التشغيل، على سبيل المثال 123.

يستخدم هذا المثال ملف .netrc وjq.

استجابة

{
  "job_id": 1,
  "run_id": 452,
  "number_in_job": 5,
  "state": {
    "life_cycle_state": "RUNNING",
    "state_message": "Performing action"
  },
  "task": {
    "notebook_task": {
      "notebook_path": "/Users/someone@example.com/my-notebook"
    }
  },
  "cluster_spec": {
    "existing_cluster_id": "1201-my-cluster"
  },
  "cluster_instance": {
    "cluster_id": "1201-my-cluster",
    "spark_context_id": "1102398-spark-context-id"
  },
  "overriding_parameters": {
    "jar_params": ["param1", "param2"]
  },
  "start_time": 1457570074236,
  "end_time": 1457570075149,
  "setup_duration": 259754,
  "execution_duration": 3589020,
  "cleanup_duration": 31038,
  "run_duration": 3879812,
  "trigger": "PERIODIC"
}

بنية الطلب

اسم الحقل النوع ‏‏الوصف
run_id INT64 المعرف المتعارف عليه للتشغيل الذي سيتم استرداد بيانات التعريف له. هذا الحقل مطلوب.

بنية الاستجابة

اسم الحقل النوع ‏‏الوصف
job_id INT64 المعرف المتعارف عليه للوظيفة التي تحتوي على هذا التشغيل.
run_id INT64 المعرف المتعارف عليه للتشغيل. هذا المعرف فريد عبر جميع عمليات تشغيل جميع الوظائف.
number_in_job INT64 رقم تسلسل هذا التشغيل بين جميع عمليات تشغيل المهمة. تبدأ هذه القيمة من 1.
original_attempt_run_id INT64 إذا كان هذا التشغيل عبارة عن إعادة محاولة تشغيل سابقة، يحتوي هذا الحقل على run_id المحاولة الأصلية؛ وإلا، فإنه هو نفس run_id.
state حالة التشغيل حالات النتيجة ودورة الحياة للتشغيل.
schedule جدول كرون جدول cron الذي قام بتشغيل هذا التشغيل إذا تم تشغيله بواسطة المجدول الدوري.
task مهمة الوظيفة المهمة التي يتم تنفيذها بواسطة التشغيل، إن وجدت.
cluster_spec ClusterSpec لقطة لمواصفات نظام مجموعة الوظيفة عند إنشاء هذا التشغيل.
cluster_instance ClusterInstance نظام المجموعة المستخدم لهذا التشغيل. إذا تم تحديد التشغيل لاستخدام نظام مجموعة جديد، تعيين هذا الحقل بمجرد أن تطلب خدمة Jobs نظام مجموعة للتشغيل.
overriding_parameters RunParameters المعلمات المستخدمة لهذا التشغيل.
start_time INT64 الوقت الذي بدأ فيه هذا التشغيل بالمللي ثانية في فترة (مللي ثانية منذ 1/1/1970 بالتوقيت العالمي المتفق عليه). قد لا يكون هذا هو الوقت الذي تبدأ فيه مهمة الوظيفة في التنفيذ، على سبيل المثال، إذا كانت المهمة مجدولة للتشغيل على نظام مجموعة جديد، فهذا هو الوقت الذي يتم فيه إصدار استدعاء إنشاء نظام المجموعة.
end_time INT64 الوقت الذي انتهى فيه هذا التشغيل بالمللي ثانية (مللي ثانية منذ 1/1/1970 بالتوقيت العالمي المتفق عليه). سيتم تعيين هذا الحقل إلى 0 إذا كانت المهمة لا تزال قيد التشغيل.
setup_duration INT64 الوقت بالمللي ثانية الذي استغرقه إعداد نظام المجموعة. بالنسبة إلى عمليات التشغيل التي تعمل على مجموعات جديدة، هذا هو وقت إنشاء نظام المجموعة، بالنسبة إلى عمليات التشغيل التي تعمل على المجموعات الموجودة هذه المرة يجب أن تكون قصيرة جدا. المدة الإجمالية للتشغيل هي مجموع setup_duration،
execution_duration، و cleanup_duration. setup_duration يتم تعيين الحقل إلى 0 لتشغيل المهام المتعددة. المدة الإجمالية لتشغيل مهمة متعددة هي قيمة
run_duration ميدان.
execution_duration INT64 الوقت بالمللي ثانية الذي استغرقه تنفيذ الأوامر في JAR أو دفتر الملاحظات حتى تكتمل أو تفشل أو انتهت مهلتها أو تم إلغاؤها أو واجهت خطأ غير متوقع. المدة الإجمالية للتشغيل هي مجموع setup_durationو execution_durationو
cleanup_duration. execution_duration يتم تعيين الحقل إلى 0 لتشغيل المهام المتعددة. المدة الإجمالية لتشغيل مهمة متعددة المهام هي قيمة run_duration الحقل.
cleanup_duration INT64 الوقت بالمللي ثانية المستغرق لإنهاء المجموعة وتنظيف أي بيانات اصطناعية مرتبطة. المدة الإجمالية للتشغيل هي مجموع setup_durationو execution_durationو.cleanup_duration cleanup_duration يتم تعيين الحقل إلى 0 لتشغيل المهام المتعددة. المدة الإجمالية لتشغيل مهمة متعددة المهام هي قيمة run_duration الحقل.
run_duration INT64 الوقت بالمللي ثانية استغرق تشغيل المهمة وجميع إصلاحاتها للانتهاء. يتم تعيين هذا الحقل فقط لتشغيل المهام المتعددة وليس تشغيل المهام. مدة تشغيل المهمة هي مجموع
setup_durationو execution_durationو و cleanup_duration.
trigger نوع المشغل نوع المشغل الذي قام بتشغيل هذا التشغيل.
creator_user_name STRING اسم مستخدم المنشئ. لن يتم تضمين هذا الحقل في الاستجابة إذا تم حذف المستخدم
run_page_url STRING عنوان URL لصفحة التفاصيل الخاصة بالتشغيل.

تشغيل التصدير

نقطة النهاية أسلوب HTTP
2.0/jobs/runs/export GET

تصدير مهمة تشغيل المهمة واستردادها.

إشعار

يمكن تصدير عمليات تشغيل دفتر الملاحظات فقط بتنسيق HTML. سيفشل تصدير عمليات تشغيل من أنواع أخرى.

مثال

Request

curl --netrc --request GET \
'https://<databricks-instance>/api/2.0/jobs/runs/export?run_id=<run-id>' \
| jq .

أو:

curl --netrc --get \
https://<databricks-instance>/api/2.0/jobs/runs/export \
--data run_id=<run-id> \
| jq .

استبدل:

  • <databricks-instance>مع اسم مثيل مساحة عمل Azure Databricks، على سبيل المثال adb-1234567890123456.7.azuredatabricks.net.
  • <run-id> بمعرف التشغيل، على سبيل المثال 123.

يستخدم هذا المثال ملف .netrc وjq.

استجابة

{
  "views": [ {
    "content": "<!DOCTYPE html><html><head>Head</head><body>Body</body></html>",
    "name": "my-notebook",
    "type": "NOTEBOOK"
  } ]
}

لاستخراج دفتر ملاحظات HTML من استجابة JSON، قم بتنزيل وتشغيل برنامج Python النصي هذا.

إشعار

يتم ترميز نص دفتر الملاحظات في __DATABRICKS_NOTEBOOK_MODEL الكائن.

بنية الطلب

اسم الحقل النوع ‏‏الوصف
run_id INT64 المعرف المتعارف عليه للتشغيل. هذا الحقل مطلوب.
views_to_export ViewsToExport طرق العرض المراد تصديرها (التعليمات البرمجية أو لوحات المعلومات أو الكل). الإعدادات الافتراضية للتعليمات البرمجية.

بنية الاستجابة

اسم الحقل النوع ‏‏الوصف
views صفيف ViewItem المحتوى الذي تم تصديره بتنسيق HTML (واحد لكل عنصر عرض).

إلغاء التشغيل

نقطة النهاية أسلوب HTTP
2.0/jobs/runs/cancel POST

إلغاء تشغيل مهمة. نظرا لإلغاء التشغيل بشكل غير متزامن، قد لا يزال التشغيل قيد التشغيل عند اكتمال هذا الطلب. سيتم إنهاء التشغيل قريبا. إذا كان التشغيل بالفعل في محطة طرفية life_cycle_state، فإن هذا الأسلوب ليس عملية.

تتحقق نقطة النهاية هذه من صحة المعلمة run_id وبالنسبة للمعلمات غير الصالحة، ترجع رمز حالة HTTP 400.

مثال

curl --netrc --request POST \
https://<databricks-instance>/api/2.0/jobs/runs/cancel \
--data '{ "run_id": <run-id> }'

استبدل:

  • <databricks-instance>مع اسم مثيل مساحة عمل Azure Databricks، على سبيل المثال adb-1234567890123456.7.azuredatabricks.net.
  • <run-id> بمعرف التشغيل، على سبيل المثال 123.

يستخدم هذا المثال ملف .netrc .

بنية الطلب

اسم الحقل النوع ‏‏الوصف
run_id INT64 المعرف المتعارف عليه للتشغيل للإلغاء. هذا الحقل مطلوب.

تشغيل إلغاء الكل

نقطة النهاية أسلوب HTTP
2.0/jobs/runs/cancel-all POST

إلغاء جميع عمليات التشغيل النشطة لوظيفة ما. نظرا لإلغاء التشغيل بشكل غير متزامن، فإنه لا يمنع بدء التشغيل الجديد.

تتحقق نقطة النهاية هذه من صحة المعلمة job_id وبالنسبة للمعلمات غير الصالحة، ترجع رمز حالة HTTP 400.

مثال

curl --netrc --request POST \
https://<databricks-instance>/api/2.0/jobs/runs/cancel-all \
--data '{ "job_id": <job-id> }'

استبدل:

  • <databricks-instance>مع اسم مثيل مساحة عمل Azure Databricks، على سبيل المثال adb-1234567890123456.7.azuredatabricks.net.
  • <job-id> بمعرف الوظيفة، على سبيل المثال 123.

يستخدم هذا المثال ملف .netrc .

بنية الطلب

اسم الحقل النوع ‏‏الوصف
job_id INT64 المعرف المتعارف عليه للوظيفة لإلغاء جميع عمليات التشغيل. هذا الحقل مطلوب.

تحصل عمليات التشغيل على الإخراج

نقطة النهاية أسلوب HTTP
2.0/jobs/runs/get-output GET

استرداد الإخراج وبيانات التعريف لتشغيل مهمة واحدة. عندما تقوم مهمة دفتر ملاحظات بإرجاع قيمة من خلال استدعاء dbutils.notebook.exit() ، يمكنك استخدام نقطة النهاية هذه لاسترداد تلك القيمة. يقيد Azure Databricks واجهة برمجة التطبيقات هذه لإرجاع أول 5 ميغابايت من الإخراج. لإرجاع نتيجة أكبر، يمكنك تخزين نتائج المهمة في خدمة تخزين سحابية.

تتحقق نقطة النهاية هذه من صحة المعلمة run_id وبالنسبة للمعلمات غير الصالحة، ترجع رمز حالة HTTP 400.

تتم إزالة عمليات التشغيل تلقائيا بعد 60 يوما. إذا كنت تريد الرجوع إليها بعد 60 يوما، يجب حفظ نتائج التشغيل القديمة قبل انتهاء صلاحيتها. للتصدير باستخدام واجهة المستخدم، راجع تصدير نتائج تشغيل المهمة. للتصدير باستخدام واجهة برمجة تطبيقات الوظائف، راجع تشغيل التصدير.

مثال

Request

curl --netrc --request GET \
'https://<databricks-instance>/api/2.0/jobs/runs/get-output?run_id=<run-id>' \
| jq .

أو:

curl --netrc --get \
https://<databricks-instance>/api/2.0/jobs/runs/get-output \
--data run_id=<run-id> \
| jq .

استبدل:

  • <databricks-instance>مع اسم مثيل مساحة عمل Azure Databricks، على سبيل المثال adb-1234567890123456.7.azuredatabricks.net.
  • <run-id> بمعرف التشغيل، على سبيل المثال 123.

يستخدم هذا المثال ملف .netrc وjq.

استجابة

{
  "metadata": {
    "job_id": 1,
    "run_id": 452,
    "number_in_job": 5,
    "state": {
      "life_cycle_state": "TERMINATED",
      "result_state": "SUCCESS",
      "state_message": ""
    },
    "task": {
      "notebook_task": {
        "notebook_path": "/Users/someone@example.com/my-notebook"
      }
    },
    "cluster_spec": {
      "existing_cluster_id": "1201-my-cluster"
    },
    "cluster_instance": {
      "cluster_id": "1201-my-cluster",
      "spark_context_id": "1102398-spark-context-id"
    },
    "overriding_parameters": {
      "jar_params": ["param1", "param2"]
    },
    "start_time": 1457570074236,
    "setup_duration": 259754,
    "execution_duration": 3589020,
    "cleanup_duration": 31038,
    "run_duration": 3879812,
    "trigger": "PERIODIC"
  },
  "notebook_output": {
    "result": "the maybe truncated string passed to dbutils.notebook.exit()"
  }
}

بنية الطلب

اسم الحقل النوع ‏‏الوصف
run_id INT64 المعرف المتعارف عليه للتشغيل. بالنسبة لوظيفة ذات مهام تكميلية run_id ، هذا هو تشغيل مهمة. راجع تشغيل الحصول على الإخراج. هذا الحقل مطلوب.

بنية الاستجابة

اسم الحقل النوع ‏‏الوصف
notebook_output أو error NotebookOutput OR STRING إذا notebook_output، فإن إخراج مهمة دفتر ملاحظات، إذا كان متوفرا. مهمة دفتر ملاحظات تنتهي (إما بنجاح أو بفشل) دون استدعاء
dbutils.notebook.exit() يعتبر أن يكون له إخراج فارغ. سيتم تعيين هذا الحقل ولكن قيمة نتيجته ستكون فارغة.

إذا حدث خطأ، فرسالة خطأ تشير إلى سبب عدم توفر الإخراج. الرسالة غير منظمة، وتنسيقها الدقيق عرضة للتغيير.
metadata ركض جميع تفاصيل التشغيل باستثناء مخرجاته.

تشغيل الحذف

نقطة النهاية أسلوب HTTP
2.0/jobs/runs/delete POST

حذف تشغيل غير نشط. إرجاع خطأ إذا كان التشغيل نشطا.

مثال

curl --netrc --request POST \
https://<databricks-instance>/api/2.0/jobs/runs/delete \
--data '{ "run_id": <run-id> }'

استبدل:

  • <databricks-instance>مع اسم مثيل مساحة عمل Azure Databricks، على سبيل المثال adb-1234567890123456.7.azuredatabricks.net.
  • <run-id> بمعرف التشغيل، على سبيل المثال 123.

يستخدم هذا المثال ملف .netrc .

بنية الطلب

اسم الحقل النوع ‏‏الوصف
run_id INT64 المعرف المتعارف عليه للتشغيل الذي سيتم استرداد بيانات التعريف له.

بنيات البيانات

في هذا القسم:

ABFSSStorageInfo

معلومات تخزين Azure Data Lake Storage (ADLS).

اسم الحقل النوع ‏‏الوصف
destination STRING وجهة الملف. مثال: abfss://...

التحجيم التلقائي

النطاق الذي يحدد الحد الأدنى والحد الأقصى لعدد العاملين في نظام المجموعة.

اسم الحقل النوع ‏‏الوصف
min_workers INT32 الحد الأدنى لعدد العاملين الذين يمكن لنظام المجموعة تقليصه عند نقص استخدامهم. وهو أيضا العدد الأولي للعمال الذين ستمتلكهم المجموعة بعد الإنشاء.
max_workers INT32 الحد الأقصى لعدد العاملين الذين يمكن لنظام المجموعة توسيع نطاقه عند التحميل الزائد. يجب أن تكون max_workers أكبر تماما من min_workers.

AzureAttributes

السمات التي تم تعيينها أثناء إنشاء نظام المجموعة المتعلقة ب Azure.

اسم الحقل النوع ‏‏الوصف
first_on_demand INT32 سيتم وضع العقد الأولى first_on_demand من نظام المجموعة على مثيلات عند الطلب. يجب أن تكون هذه القيمة أكبر من 0، وإلا فشل التحقق من صحة إنشاء نظام المجموعة. إذا كانت هذه القيمة أكبر من أو تساوي حجم نظام المجموعة الحالي، وضع جميع العقد على مثيلات عند الطلب. إذا كانت هذه القيمة أقل من حجم نظام المجموعة الحالي، first_on_demand وضع العقد على مثيلات عند الطلب وسيتم وضع الباقي على مثيلات التوفر. لا تؤثر هذه القيمة على حجم نظام المجموعة ولا يمكن تغييرها على مدى مدة بقاء نظام المجموعة.
availability AzureAvailability نوع التوفر المستخدم لجميع العقد اللاحقة بعد first_on_demand تلك.
spot_bid_max_price DOUBLE الحد الأقصى لسعر العرض المستخدم لمثيلات Azure الفورية. يمكنك تعيين هذا إلى أكبر من أو يساوي السعر الفوري الحالي. يمكنك أيضا تعيين هذا إلى -1 (الافتراضي)، والذي يحدد أنه لا يمكن إخلاء المثيل على أساس السعر. سيكون سعر المثيل هو السعر الحالي للمثيلات الموضعية أو سعر المثيل القياسي. يمكنك عرض الأسعار التاريخية ومعدلات الإخلاء في مدخل Microsoft Azure.

AzureAvailability

سلوك نوع توفر مثيل Azure.

النوع ‏‏الوصف
SPOT_AZURE استخدم المثيلات الموضعية.
ON_DEMAND_AZURE استخدم المثيلات عند الطلب.
SPOT_WITH_FALLBACK_AZURE يفضل استخدام المثيلات الموضعية، ولكن الرجوع إلى المثيلات عند الطلب إذا تعذر الحصول على المثيلات الموضعية (على سبيل المثال، إذا كانت الأسعار الموضعية ل Azure مرتفعة جدا أو خارج الحصة النسبية). لا ينطبق على توفر التجمع.

ClusterInstance

معرفات نظام المجموعة وسياق Spark المستخدم بواسطة التشغيل. تحدد هاتان القيمتان معا سياق التنفيذ طوال الوقت.

اسم الحقل النوع ‏‏الوصف
cluster_id STRING المعرف المتعارف عليه للمجموعة المستخدمة بواسطة تشغيل. يتوفر هذا الحقل دائما للشغل على المجموعات الموجودة. بالنسبة إلى التشغيل على مجموعات جديدة، يصبح متاحا بمجرد إنشاء نظام المجموعة. يمكن استخدام هذه القيمة لعرض السجلات عن طريق الاستعراض إلى /#setting/sparkui/$cluster_id/driver-logs. ستظل السجلات متوفرة بعد اكتمال التشغيل.

لن تتضمن الاستجابة هذا الحقل إذا لم يكن المعرف متوفرا بعد.
spark_context_id STRING المعرف المتعارف عليه لسياق Spark المستخدم بواسطة تشغيل. سيتم ملء هذا الحقل بمجرد بدء تشغيل التنفيذ. يمكن استخدام هذه القيمة لعرض واجهة مستخدم Spark عن طريق الاستعراض إلى /#setting/sparkui/$cluster_id/$spark_context_id. ستستمر واجهة مستخدم Spark في التوفر بعد اكتمال التشغيل.

لن تتضمن الاستجابة هذا الحقل إذا لم يكن المعرف متوفرا بعد.

ClusterLogConf

المسار إلى سجل نظام المجموعة.

اسم الحقل النوع ‏‏الوصف
dbfs DbfsStorageInfo موقع DBFS لسجل نظام المجموعة. يجب توفير الوجهة. على سبيل المثال،
{ "dbfs" : { "destination" : "dbfs:/home/cluster_log" } }

ClusterSpec

هام

  • عند تشغيل وظيفة على مجموعة وظائف جديدة، يتم التعامل مع الوظيفة على أنها حمل عمل حساب الوظائف (التلقائي) الخاضع لتسعير حساب الوظائف.
  • عند تشغيل وظيفة على مجموعة موجودة لجميع الأغراض، يتم التعامل معها على أنها حمل عمل حسابي (تفاعلي) لجميع الأغراض يخضع لتسعير الحوسبة لجميع الأغراض.
اسم الحقل النوع ‏‏الوصف
existing_cluster_id أو new_cluster STRING OR NewCluster إذا existing_cluster_id، معرف مجموعة موجودة سيتم استخدامها لجميع عمليات تشغيل هذه المهمة. عند تشغيل المهام على نظام مجموعة موجود، قد تحتاج إلى إعادة تشغيل نظام المجموعة يدويا إذا توقف عن الاستجابة. نقترح تشغيل الوظائف على مجموعات جديدة لمزيد من الموثوقية.

إذا new_cluster، وصف نظام مجموعة سيتم إنشاؤه لكل تشغيل.

إذا كان تحديد PipelineTask، يمكن أن يكون هذا الحقل فارغا.
libraries صفيف من المكتبة قائمة اختيارية من المكتبات التي سيتم تثبيتها على نظام المجموعة التي ستقوم بتنفيذ المهمة. القيمة الافتراضية هي قائمة فارغة.

ClusterTag

تعريف علامة نظام المجموعة.

النوع ‏‏الوصف
STRING مفتاح العلامة. يجب أن يكون المفتاح:

- أن يتراوح طوله بين 1 و512 حرفا
- لا يحتوي على أي من الأحرف <>%*&+?\\/
- لا تبدأ ب azureأو microsoftأو windows
STRING قيمة العلامة. يجب أن يكون طول القيمة أقل من أو يساوي 256 حرفا من UTF-8.

جدول كرون

اسم الحقل النوع ‏‏الوصف
quartz_cron_expression STRING تعبير Cron يستخدم بناء جملة Quartz الذي يصف الجدول الزمني لوظيفة. راجع Cron Trigger للحصول على التفاصيل. هذا الحقل مطلوب.
timezone_id STRING معرف المنطقة الزمنية Java. سيتم حل جدول الوظيفة فيما يتعلق بهذه المنطقة الزمنية. راجع Java TimeZone للحصول على التفاصيل. هذا الحقل مطلوب.
pause_status STRING الإشارة إلى ما إذا كان هذا الجدول متوقفا مؤقتا أم لا. إما "متوقف مؤقتا" أو "غير مستخدم".

DbfsStorageInfo

معلومات تخزين DBFS.

اسم الحقل النوع ‏‏الوصف
destination STRING وجهة DBFS. مثال: dbfs:/my/path

FileStorageInfo

معلومات تخزين الملفات.

إشعار

يتوفر نوع الموقع هذا فقط للمجموعات التي تم إعدادها باستخدام Databricks Container Services.

اسم الحقل النوع ‏‏الوصف
destination STRING وجهة الملف. مثال: file:/my/file.sh

معلومات InitScript

المسار إلى برنامج نصي init.

للحصول على إرشادات حول استخدام البرامج النصية init مع Databricks Container Services، راجع استخدام برنامج نصي init.

إشعار

يتوفر نوع تخزين الملف (اسم الحقل: file) فقط للمجموعات التي تم إعدادها باستخدام Databricks Container Services. راجع FileStorageInfo.

اسم الحقل النوع ‏‏الوصف
workspace أو
dbfs (مهمل)

OR
abfss
WorkspaceStorageInfo

DbfsStorageInfo (مهمل)

ABFSSStorageInfo
موقع مساحة العمل للبرنامج النصي init. يجب توفير الوجهة. على سبيل المثال،
{ "workspace" : { "destination" : "/Users/someone@domain.com/init_script.sh" } }

(مهمل) موقع DBFS للبرنامج النصي init. يجب توفير الوجهة. على سبيل المثال،
{ "dbfs" : { "destination" : "dbfs:/home/init_script" } }

موقع Azure Data Lake Storage (ADLS) للبرنامج النصي init. يجب توفير الوجهة. على سبيل المثال، { "abfss": { "destination" : "abfss://..." } }

مهمة

اسم الحقل النوع ‏‏الوصف
job_id INT64 المعرف المتعارف عليه لهذه الوظيفة.
creator_user_name STRING اسم مستخدم المنشئ. لن يتم تضمين هذا الحقل في الاستجابة إذا تم حذف المستخدم بالفعل.
run_as STRING اسم المستخدم الذي سيتم تشغيل الوظيفة عليه. run_as يستند إلى إعدادات الوظيفة الحالية، ويتم تعيينه إلى منشئ الوظيفة إذا تم تعطيل التحكم في الوصول إلى الوظيفة، أو is_owner الإذن إذا تم تمكين التحكم في الوصول إلى الوظيفة.
settings إعدادات الوظيفة إعدادات هذه الوظيفة وجميع عمليات التشغيل الخاصة بها. يمكن تحديث هذه الإعدادات باستخدام resetJob الأسلوب .
created_time INT64 الوقت الذي تم فيه إنشاء هذه الوظيفة بالمللي ثانية (مللي ثانية منذ 1/1/1970 بالتوقيت العالمي المتفق عليه).

تعليقات البريد الإلكتروني للوظيفة

هام

تقبل الحقول on_start on_success on_failure الأحرف اللاتينية فقط (مجموعة أحرف ASCII). سيؤدي استخدام أحرف غير ASCII إلى إرجاع خطأ. ومن الأمثلة على الأحرف غير الصالحة وغير التابعة ل ASCII الرموز التعبيرية والرموز التعبيرية الصينية واليابانية.

اسم الحقل النوع ‏‏الوصف
on_start صفيف من STRING قائمة بعناوين البريد الإلكتروني التي سيتم إعلامك بها عند بدء التشغيل. إذا لم يتم تحديدها عند إنشاء مهمة أو إعادة تعيينها أو تحديثها، تكون القائمة فارغة ولا يتم إرسال الإعلامات.
on_success صفيف من STRING قائمة بعناوين البريد الإلكتروني التي سيتم إعلامك بها عند اكتمال التشغيل بنجاح. يعتبر التشغيل قد اكتمل بنجاح إذا انتهى ب TERMINATED life_cycle_state و SUCCESSFUL result_state. إذا لم يتم تحديدها عند إنشاء مهمة أو إعادة تعيينها أو تحديثها، تكون القائمة فارغة ولا يتم إرسال الإعلامات.
on_failure صفيف من STRING قائمة بعناوين البريد الإلكتروني التي سيتم إعلامك بها عند اكتمال التشغيل دون جدوى. يعتبر التشغيل قد اكتمل بشكل غير ناجح إذا انتهى ب INTERNAL_ERROR
life_cycle_stateSKIPPEDأو ، FAILEDأو ، أو TIMED_OUT result_state. إذا لم يتم تحديد ذلك عند إنشاء الوظيفة، فإن إعادة تعيين القائمة أو تحديثها فارغة، ولا يتم إرسال الإعلامات.
on_duration_warning_threshold_exceeded صفيف من STRING قائمة بعناوين البريد الإلكتروني التي سيتم إعلامها عندما تتجاوز مدة التشغيل الحد المحدد للمقياس RUN_DURATION_SECONDS في health الحقل. إذا لم يتم تحديد قاعدة للمقياس RUN_DURATION_SECONDS في health حقل المهمة، فلن يتم إرسال الإعلامات.
no_alert_for_skipped_runs BOOL إذا كان صحيحا، فلا ترسل بريدا إلكترونيا إلى المستلمين المحددين في on_failure إذا تم تخطي التشغيل.
اسم الحقل النوع ‏‏الوصف
on_start صفيف من الإخطارات على الويب قائمة اختيارية لوجهات النظام التي سيتم إعلامها عند بدء التشغيل. إذا لم يتم تحديدها عند إنشاء مهمة أو إعادة تعيينها أو تحديثها، تكون القائمة فارغة ولا يتم إرسال الإعلامات. يمكن تحديد 3 وجهات كحد أقصى للخاصية on_start .
on_success صفيف من الإخطارات على الويب قائمة اختيارية لوجهات النظام التي سيتم إعلامها عند اكتمال التشغيل بنجاح. يعتبر التشغيل قد اكتمل بنجاح إذا انتهى ب TERMINATED life_cycle_state و SUCCESSFUL result_state. إذا لم يتم تحديدها عند إنشاء مهمة أو إعادة تعيينها أو تحديثها، تكون القائمة فارغة ولا يتم إرسال الإعلامات. يمكن تحديد 3 وجهات كحد أقصى للخاصية on_success .
on_failure صفيف من الإخطارات على الويب قائمة اختيارية لوجهات النظام التي سيتم إعلامها عند اكتمال التشغيل دون جدوى. يعتبر التشغيل قد اكتمل بشكل غير ناجح إذا انتهى ب INTERNAL_ERROR
life_cycle_stateSKIPPEDأو ، FAILEDأو ، أو TIMED_OUT result_state. إذا لم يتم تحديد ذلك عند إنشاء الوظيفة، فإن إعادة تعيين القائمة أو تحديثها فارغة، ولا يتم إرسال الإعلامات. يمكن تحديد 3 وجهات كحد أقصى للخاصية on_failure .
on_duration_warning_threshold_exceeded صفيف من الإخطارات على الويب قائمة اختيارية لوجهات النظام التي سيتم إعلامها عندما تتجاوز مدة التشغيل الحد المحدد للمقياس RUN_DURATION_SECONDS في health الحقل. يمكن تحديد 3 وجهات كحد أقصى للخاصية on_duration_warning_threshold_exceeded .

إعدادات التعليقات التوضيحية للوظيفة

اسم الحقل النوع ‏‏الوصف
no_alert_for_skipped_runs BOOL إذا كان صحيحا، فلا ترسل إعلامات إلى المستلمين المحددين في on_failure إذا تم تخطي التشغيل.
no_alert_for_canceled_runs BOOL إذا كان صحيحا، فلا ترسل إعلامات إلى المستلمين المحددين في on_failure إذا تم إلغاء التشغيل.
alert_on_last_attempt BOOL إذا كان صحيحا، فلا ترسل إعلامات إلى المستلمين المحددين في on_start لتشغيل إعادة المحاولة ولا ترسل إعلامات إلى المستلمين المحددين في on_failure حتى آخر إعادة محاولة للتشغيل.

إعدادات الوظيفة

هام

  • عند تشغيل وظيفة على مجموعة وظائف جديدة، يتم التعامل مع الوظيفة على أنها حمل عمل حساب الوظائف (التلقائي) الخاضع لتسعير حساب الوظائف.
  • عند تشغيل وظيفة على مجموعة موجودة لجميع الأغراض، يتم التعامل معها على أنها حمل عمل حسابي (تفاعلي) لجميع الأغراض يخضع لتسعير الحوسبة لجميع الأغراض.

إعدادات الوظيفة. يمكن تحديث هذه الإعدادات باستخدام resetJob الأسلوب .

اسم الحقل النوع ‏‏الوصف
existing_cluster_id أو new_cluster STRING OR NewCluster إذا existing_cluster_id، معرف مجموعة موجودة سيتم استخدامها لجميع عمليات تشغيل هذه المهمة. عند تشغيل المهام على نظام مجموعة موجود، قد تحتاج إلى إعادة تشغيل نظام المجموعة يدويا إذا توقف عن الاستجابة. نقترح تشغيل الوظائف على مجموعات جديدة لمزيد من الموثوقية.

إذا new_cluster، وصف نظام مجموعة سيتم إنشاؤه لكل تشغيل.

إذا كان تحديد PipelineTask، يمكن أن يكون هذا الحقل فارغا.
notebook_task OR spark_jar_task OR
spark_python_task OR spark_submit_task OR
pipeline_task أو run_job_task
NotebookTask أو SparkJarTask أو SparkPythonTask أو SparkSubmitTask OR PipelineTask أو RunJobTask إذا notebook_task، يشير إلى أن هذه المهمة يجب أن تشغل دفتر ملاحظات. قد لا يتم تحديد هذا الحقل بالاقتران مع spark_jar_task.

إذا spark_jar_task، يشير إلى أن هذه المهمة يجب أن تشغل JAR.

إذا spark_python_task، يشير إلى أن هذه المهمة يجب أن تشغل ملف Python.

إذا spark_submit_task، يشير إلى أنه يجب تشغيل هذه المهمة بواسطة البرنامج النصي لإرسال spark.

إذا pipeline_task، يشير إلى أن هذه المهمة يجب أن تشغل مسار Delta Live Tables.

إذا run_job_task، يشير إلى أن هذه الوظيفة يجب أن تشغل وظيفة أخرى.
name STRING اسم اختياري للوظيفة. القيمة الافتراضية هي Untitled.
libraries صفيف من المكتبة قائمة اختيارية من المكتبات التي سيتم تثبيتها على نظام المجموعة التي ستقوم بتنفيذ المهمة. القيمة الافتراضية هي قائمة فارغة.
email_notifications تعليقات البريد الإلكتروني للوظيفة مجموعة اختيارية من عناوين البريد الإلكتروني التي سيتم إعلامها عند بدء تشغيل هذه المهمة أو اكتمالها وكذلك عند حذف هذه المهمة. السلوك الافتراضي هو عدم إرسال أي رسائل بريد إلكتروني.
webhook_notifications إخطار على الويبالتعليقات التوضيحية مجموعة اختيارية من وجهات النظام لإعلامها عند بدء تشغيل هذه المهمة أو اكتمالها أو فشلها.
notification_settings إعدادات التعليقات التوضيحية للوظيفة إعدادات الإعلام الاختيارية التي يتم استخدامها عند إرسال إعلامات إلى كل من email_notifications و webhook_notifications لهذه المهمة.
timeout_seconds INT32 مهلة اختيارية مطبقة على كل تشغيل لهذه المهمة. السلوك الافتراضي هو عدم وجود مهلة.
max_retries INT32 عدد أقصى اختياري من المرات لإعادة محاولة تشغيل غير ناجح. يعتبر التشغيل غير ناجح إذا اكتمل مع FAILED result_state أو
INTERNAL_ERROR
life_cycle_state. تعني القيمة -1 إعادة المحاولة إلى أجل غير مسمى والقيمة 0 تعني عدم إعادة المحاولة أبدا. السلوك الافتراضي هو عدم إعادة المحاولة أبدا.
min_retry_interval_millis INT32 فاصل زمني اختياري الحد الأدنى بالمللي ثانية بين المحاولات. السلوك الافتراضي هو إعادة محاولة عمليات التشغيل غير الناجحة على الفور.
retry_on_timeout BOOL نهج اختياري لتحديد ما إذا كنت تريد إعادة محاولة مهمة عندما تنتهي مهلتها. السلوك الافتراضي هو عدم إعادة المحاولة في المهلة.
schedule جدول كرون جدول دوري اختياري لهذه الوظيفة. السلوك الافتراضي هو أن المهمة سيتم تشغيلها فقط عند تشغيلها بالنقر فوق "تشغيل الآن" في واجهة مستخدم الوظائف أو إرسال طلب واجهة برمجة التطبيقات إلى
runNow.
max_concurrent_runs INT32 الحد الأقصى الاختياري المسموح به لعدد عمليات التشغيل المتزامنة للوظيفة.

قم بتعيين هذه القيمة إذا كنت تريد أن تكون قادرا على تنفيذ عمليات تشغيل متعددة لنفس المهمة بشكل متزامن. هذا مفيد على سبيل المثال إذا قمت بتشغيل وظيفتك وفقا لجدول زمني متكرر وتريد السماح بتراكب عمليات التشغيل المتتالية مع بعضها البعض، أو إذا كنت تريد تشغيل عمليات تشغيل متعددة تختلف حسب معلمات الإدخال الخاصة بهم.

يؤثر هذا الإعداد على عمليات التشغيل الجديدة فقط. على سبيل المثال، افترض أن تزامن المهمة هو 4 وهناك 4 عمليات تشغيل نشطة متزامنة. ثم لن يؤدي تعيين التزامن إلى 3 إلى إنهاء أي من عمليات التشغيل النشطة. ومع ذلك، من ذلك الحين فصاعدا، سيتم تخطي عمليات التشغيل الجديدة ما لم يكن هناك أقل من 3 عمليات تشغيل نشطة.

لا يمكن أن تتجاوز هذه القيمة 1000. يؤدي تعيين هذه القيمة إلى 0 إلى تخطي جميع عمليات التشغيل الجديدة. السلوك الافتراضي هو السماح بتشغيل متزامن واحد فقط.
health قواعد الصحة الوظيفية مجموعة اختيارية من القواعد الصحية المحددة للوظيفة.

مهمة الوظيفة

اسم الحقل النوع ‏‏الوصف
notebook_task OR spark_jar_task OR
spark_python_task OR spark_submit_task OR
pipeline_task أو run_job_task
NotebookTask أو SparkJarTask أو SparkPythonTask أو SparkSubmitTask OR PipelineTask أو RunJobTask إذا notebook_task، يشير إلى أن هذه المهمة يجب أن تشغل دفتر ملاحظات. قد لا يتم تحديد هذا الحقل بالاقتران مع spark_jar_task.

إذا spark_jar_task، يشير إلى أن هذه المهمة يجب أن تشغل JAR.

إذا spark_python_task، يشير إلى أن هذه المهمة يجب أن تشغل ملف Python.

إذا spark_submit_task، يشير إلى أنه يجب تشغيل هذه المهمة بواسطة البرنامج النصي لإرسال spark.

إذا pipeline_task، يشير إلى أن هذه المهمة يجب أن تشغل مسار Delta Live Tables.

إذا run_job_task، يشير إلى أن هذه الوظيفة يجب أن تشغل وظيفة أخرى.

JobsHealthRule

اسم الحقل النوع ‏‏الوصف
metric STRING تحديد مقياس الصحة الذي يتم تقييمه لقاعدة صحية معينة. القيم الصالحة هي RUN_DURATION_SECONDS.
operator STRING تحديد عامل التشغيل المستخدم لمقارنة قيمة قياس الصحة بالحد المحدد. القيم الصالحة هي GREATER_THAN.
value INT32 تحديد قيمة الحد التي يجب أن يفي بها مقياس الصحة للامتثال لقاعدة الصحة.

قواعد الصحة الوظيفية

اسم الحقل النوع ‏‏الوصف
rules صفيف من JobsHealthRule مجموعة اختيارية من القواعد الصحية التي يمكن تعريفها لوظيفة.

مكتبة

اسم الحقل النوع ‏‏الوصف
jar OR egg OR whl OR
pypi OR maven OR cran
STRING OR STRING OR STRING PythonPyPiLibrary OR MavenLibrary OR RCranLibrary إذا كان jar، URI ل JAR ليتم تثبيته. يتم دعم DBFS و ADLS (abfss) URIs. على سبيل المثال: { "jar": "dbfs:/mnt/databricks/library.jar" } أو
{ "jar": "abfss://<container-path>/library.jar" }. إذا تم استخدام ADLS، فتأكد من أن نظام المجموعة لديه حق الوصول للقراءة على المكتبة.

إذا البيض، URI من البيض ليتم تثبيتها. يتم دعم DBFS و ADLS URIs. على سبيل المثال: { "egg": "dbfs:/my/egg" } أو
{ "egg": "abfss://<container-path>/egg" }.

إذا كان whl، URI من wheel أو مضغوط wheels ليتم تثبيته. يتم دعم DBFS و ADLS URIs. على سبيل المثال: { "whl": "dbfs:/my/whl" } أو
{ "whl": "abfss://<container-path>/whl" }. إذا تم استخدام ADLS، فتأكد من أن نظام المجموعة لديه حق الوصول للقراءة على المكتبة. wheel أيضا اسم الملف يحتاج إلى استخدام الاصطلاح الصحيح. إذا كان سيتم تثبيت مضغوط wheels ، يجب أن تكون .wheelhouse.zipلاحقة اسم الملف .

إذا كانت pypi، فمواصفات مكتبة PyPI ليتم تثبيتها. repo تحديد الحقل اختياري وإذا لم يتم تحديده، يتم استخدام فهرس النقطة الافتراضي. على سبيل المثال:
{ "package": "simplejson", "repo": "https://my-repo.com" }

إذا كان maven، فمواصفات مكتبة Maven ليتم تثبيتها. على سبيل المثال:
{ "coordinates": "org.jsoup:jsoup:1.7.2" }

إذا كان cran، فمواصفات مكتبة CRAN ليتم تثبيتها.

MavenLibrary

اسم الحقل النوع ‏‏الوصف
coordinates STRING إحداثيات Maven على غرار Gradle. على سبيل المثال: org.jsoup:jsoup:1.7.2. هذا الحقل مطلوب.
repo STRING Maven repo لتثبيت حزمة Maven من. إذا تم حذفها، يتم البحث في كل من مستودع Maven المركزي وحزم Spark.
exclusions صفيف من STRING قائمة الاعتمادات التي يجب استبعادها. على سبيل المثال: ["slf4j:slf4j", "*:hadoop-client"].

استثناءات تبعية Maven: https://maven.apache.org/guides/introduction/introduction-to-optional-and-excludes-dependencies.html.

NewCluster

اسم الحقل النوع ‏‏الوصف
num_workers أو autoscale INT32 OR التحجيم التلقائي إذا num_workers، عدد العقد العاملة التي يجب أن تحتوي عليها هذه المجموعة. يحتوي نظام المجموعة على برنامج تشغيل Spark واحد ومنفذين num_workers لإجمالي num_workers + 1 عقد Spark.

ملاحظة: عند قراءة خصائص نظام المجموعة، يعكس هذا الحقل العدد المطلوب من العمال بدلا من العدد الحالي الفعلي للعمال. على سبيل المثال، إذا تم تغيير حجم نظام مجموعة من 5 إلى 10 عمال، تحديث هذا الحقل على الفور ليعكس الحجم المستهدف ل 10 عمال، بينما يزداد العمال المدرجون في spark_info تدريجيا من 5 إلى 10 مع توفير العقد الجديدة.

إذا كان التحجيم التلقائي، فإن المعلمات المطلوبة من أجل توسيع نطاق المجموعات تلقائيا صعودا وهبوطا استنادا إلى التحميل.
spark_version STRING إصدار Spark من نظام المجموعة. يمكن استرداد قائمة بإصدارات Spark المتوفرة باستخدام استدعاء GET 2.0/clusters/spark-versions . هذا الحقل مطلوب.
spark_conf SparkConfPair كائن يحتوي على مجموعة من أزواج قيمة مفتاح تكوين Spark الاختيارية المحددة من قبل المستخدم. يمكنك أيضا تمرير سلسلة من خيارات JVM الإضافية إلى برنامج التشغيل والمنفذين عبر
spark.driver.extraJavaOptions وعلى spark.executor.extraJavaOptions التوالي.

مثال على تكوينات Spark:
{"spark.speculation": true, "spark.streaming.ui.retainedBatches": 5} أو
{"spark.driver.extraJavaOptions": "-verbose:gc -XX:+PrintGCDetails"}
node_type_id STRING يُرمّز هذا الحقل الموارد المتوفرة لكل عقدة Spark في نظام المجموعة هذا، من خلال قيمة واحدة. على سبيل المثال، يمكن توفير عقد Spark وتحسينها للذاكرة أو حساب أحمال العمل المكثفة يمكن استرداد قائمة أنواع العقد المتوفرة باستخدام استدعاء GET 2.0/clusters/list-node-types . هذا الحقل أو instance_pool_id الحقل أو نهج نظام المجموعة الذي يحدد معرف نوع العقدة أو معرف تجمع المثيل مطلوب.
driver_node_type_id STRING نوع العقدة لبرنامج تشغيل Spark. هذا الحقل اختياري؛ إذا تم إلغاء الإعداد، يتم تعيين نوع عقدة برنامج التشغيل كنفس القيمة كما هو node_type_id محدد أعلاه.
custom_tags ClusterTag كائن يحتوي على مجموعة من العلامات لموارد نظام المجموعة. علامات Databricks جميع موارد نظام المجموعة (مثل الأجهزة الظاهرية) مع هذه العلامات بالإضافة إلى default_tags.

ملاحظة:

- العلامات غير مدعومة على أنواع العقد القديمة مثل محسنة للحساب ومحسنة للذاكرة
- تسمح Databricks على الأكثر ب 45 علامة مخصصة
cluster_log_conf ClusterLogConf تكوين تسليم سجلات Spark إلى وجهة تخزين طويلة المدى. يمكن تحديد وجهة واحدة فقط لمجموعة واحدة. إذا تم إعطاء التكوين، تسليم السجلات إلى الوجهة كل 5 mins. وجهة سجلات برنامج التشغيل هي <destination>/<cluster-id>/driver، بينما وجهة سجلات المنفذ هي <destination>/<cluster-id>/executor.
init_scripts صفيف InitScriptInfo تكوين تخزين البرامج النصية للتهيئة. يمكن تحديد أي عدد من البرامج النصية. يتم تنفيذ البرامج النصية بالتسلسل بالترتيب المقدم. إذا cluster_log_conf تم تحديد، يتم إرسال سجلات البرنامج النصي init إلى
<destination>/<cluster-id>/init_scripts.
spark_env_vars SparkEnvPair كائن يحتوي على مجموعة من أزواج قيم المفاتيح المتغيرة الاختيارية والمحددة من قبل المستخدم للبيئة. يتم تصدير زوج قيم المفاتيح للنموذج (X,Y) كما هو (على سبيل المثال،
export X='Y') أثناء إطلاق السائق والعمال.

لتحديد مجموعة إضافية من SPARK_DAEMON_JAVA_OPTS، نوصي بإلحاقها كما $SPARK_DAEMON_JAVA_OPTS هو موضح في المثال التالي. وهذا يضمن تضمين جميع المتغيرات البيئية المدارة ل databricks الافتراضية أيضا.

مثال على متغيرات بيئة Spark:
{"SPARK_WORKER_MEMORY": "28000m", "SPARK_LOCAL_DIRS": "/local_disk0"} أو
{"SPARK_DAEMON_JAVA_OPTS": "$SPARK_DAEMON_JAVA_OPTS -Dspark.shuffle.service.enabled=true"}
enable_elastic_disk BOOL التخزين المحلي للتحجيم التلقائي: عند تمكينه، يكتسب هذا نظام المجموعة مساحة إضافية على القرص بشكل ديناميكي عندما يكون عمال Spark الخاصون به يشغلون مساحة منخفضة على القرص. راجع تمكين التخزين المحلي للتحجيم التلقائي للحصول على التفاصيل.
driver_instance_pool_id STRING المعرف الاختياري لتجمع المثيل لاستخدامه لعقدة برنامج التشغيل. يجب عليك أيضا تحديد instance_pool_id. راجع واجهة برمجة تطبيقات تجمعات المثيلات للحصول على التفاصيل.
instance_pool_id STRING المعرف الاختياري لتجمع المثيل لاستخدامه لعقد نظام المجموعة. إذا كان driver_instance_pool_id موجودا،
instance_pool_id يستخدم للعقد العاملة فقط. وإلا، يتم استخدامه لكل من عقدة برنامج التشغيل والعقد العاملة. راجع واجهة برمجة تطبيقات تجمعات المثيلات للحصول على التفاصيل.

NotebookOutput

اسم الحقل النوع ‏‏الوصف
result STRING القيمة التي تم تمريرها إلى dbutils.notebook.exit(). يقيد Azure Databricks واجهة برمجة التطبيقات هذه لإرجاع أول 1 ميغابايت من القيمة. للحصول على نتيجة أكبر، يمكن لمهمتك تخزين النتائج في خدمة تخزين سحابية. سيكون هذا الحقل غائبا إذا dbutils.notebook.exit() لم يتم استدعاؤه أبدا.
truncated BOOLEAN ما إذا كان قد تم اقتطاع النتيجة أم لا.

NotebookTask

تخضع كافة خلايا الإخراج لحجم 8 ميغابايت. إذا كان إخراج خلية بحجم أكبر، إلغاء بقية التشغيل وسيتم وضع علامة على التشغيل على أنه فاشل. في هذه الحالة، قد تكون بعض مخرجات المحتوى من خلايا أخرى مفقودة أيضا.

إذا كنت بحاجة إلى مساعدة في العثور على الخلية التي تتجاوز الحد الأقصى، فقم بتشغيل دفتر الملاحظات مقابل مجموعة متعددة الأغراض واستخدم تقنية الحفظ التلقائي لدفتر الملاحظات هذه.

اسم الحقل النوع ‏‏الوصف
notebook_path STRING المسار المطلق لدفتر الملاحظات الذي سيتم تشغيله في مساحة عمل Azure Databricks. يجب أن يبدأ هذا المسار بشرطة مائلة. هذا الحقل مطلوب.
revision_timestamp LONG الطابع الزمني لمراجعة دفتر الملاحظات.
base_parameters خريطة ParamPair المعلمات الأساسية التي سيتم استخدامها لكل تشغيل لهذه المهمة. إذا تم بدء التشغيل باستدعاء run-now مع تحديد المعلمات، دمج مخططي المعلمات. إذا تم تحديد نفس المفتاح في base_parameters وفي run-now، سيتم استخدام القيمة من run-now .

استخدم ما هو مرجع القيمة الديناميكية؟ لتعيين المعلمات التي تحتوي على معلومات حول تشغيل المهمة.

إذا كان دفتر الملاحظات يأخذ معلمة غير محددة في معلمات المهمة base_parameters أو run-now التجاوز، استخدام القيمة الافتراضية من دفتر الملاحظات.

استرداد هذه المعلمات في دفتر ملاحظات باستخدام dbutils.widgets.get.

ParamPair

المعلمات المستندة إلى الاسم للوظائف التي تشغل مهام دفتر الملاحظات.

هام

تقبل الحقول في بنية البيانات هذه الأحرف اللاتينية فقط (مجموعة أحرف ASCII). سيؤدي استخدام أحرف غير ASCII إلى إرجاع خطأ. ومن الأمثلة على الأحرف غير الصالحة وغير التابعة ل ASCII الرموز التعبيرية والرموز التعبيرية الصينية واليابانية.

النوع ‏‏الوصف
STRING اسم المعلمة. مرر إلى dbutils.widgets.get لاسترداد القيمة.
STRING قيمة المعلمة.

PipelineTask

اسم الحقل النوع ‏‏الوصف
pipeline_id STRING الاسم الكامل لمهمة البنية الأساسية لبرنامج ربط العمليات التجارية Delta Live Tables المراد تنفيذها.

PythonPyPiLibrary

اسم الحقل النوع ‏‏الوصف
package STRING اسم حزمة PyPI المراد تثبيتها. يتم أيضا دعم مواصفات الإصدار الدقيق الاختيارية. أمثلة: simplejson و simplejson==3.8.0. هذا الحقل مطلوب.
repo STRING المستودع حيث يمكن العثور على الحزمة. إذا لم يتم تحديده، يتم استخدام فهرس النقطة الافتراضي.

RCranLibrary

اسم الحقل النوع ‏‏الوصف
package STRING اسم حزمة CRAN المراد تثبيتها. هذا الحقل مطلوب.
repo STRING المستودع حيث يمكن العثور على الحزمة. إذا لم يتم تحديده، يتم استخدام مستودع CRAN الافتراضي.

ركض

جميع المعلومات حول التشغيل باستثناء مخرجاته. يمكن استرداد الإخراج بشكل منفصل باستخدام getRunOutput الأسلوب .

اسم الحقل النوع ‏‏الوصف
job_id INT64 المعرف المتعارف عليه للوظيفة التي تحتوي على هذا التشغيل.
run_id INT64 المعرف المتعارف عليه للتشغيل. هذا المعرف فريد عبر جميع عمليات تشغيل جميع الوظائف.
creator_user_name STRING اسم مستخدم المنشئ. لن يتم تضمين هذا الحقل في الاستجابة إذا تم حذف المستخدم بالفعل.
number_in_job INT64 رقم تسلسل هذا التشغيل بين جميع عمليات تشغيل المهمة. تبدأ هذه القيمة من 1.
original_attempt_run_id INT64 إذا كان هذا التشغيل عبارة عن إعادة محاولة تشغيل سابقة، يحتوي هذا الحقل على run_id المحاولة الأصلية؛ وإلا، فإنه هو نفس run_id.
state حالة التشغيل حالات النتيجة ودورة الحياة للتشغيل.
schedule جدول كرون جدول cron الذي قام بتشغيل هذا التشغيل إذا تم تشغيله بواسطة المجدول الدوري.
task مهمة الوظيفة المهمة التي يتم تنفيذها بواسطة التشغيل، إن وجدت.
cluster_spec ClusterSpec لقطة لمواصفات نظام مجموعة الوظيفة عند إنشاء هذا التشغيل.
cluster_instance ClusterInstance نظام المجموعة المستخدم لهذا التشغيل. إذا تم تحديد التشغيل لاستخدام نظام مجموعة جديد، تعيين هذا الحقل بمجرد أن تطلب خدمة Jobs نظام مجموعة للتشغيل.
overriding_parameters RunParameters المعلمات المستخدمة لهذا التشغيل.
start_time INT64 الوقت الذي بدأ فيه هذا التشغيل بالمللي ثانية في فترة (مللي ثانية منذ 1/1/1970 بالتوقيت العالمي المتفق عليه). قد لا يكون هذا هو الوقت الذي تبدأ فيه مهمة الوظيفة في التنفيذ، على سبيل المثال، إذا كانت المهمة مجدولة للتشغيل على نظام مجموعة جديد، فهذا هو الوقت الذي يتم فيه إصدار استدعاء إنشاء نظام المجموعة.
setup_duration INT64 الوقت المستغرق لإعداد نظام المجموعة بالمللي ثانية. بالنسبة إلى عمليات التشغيل التي تعمل على مجموعات جديدة، هذا هو وقت إنشاء نظام المجموعة، بالنسبة إلى عمليات التشغيل التي تعمل على المجموعات الموجودة هذه المرة يجب أن تكون قصيرة جدا.
execution_duration INT64 الوقت بالمللي ثانية الذي استغرقه تنفيذ الأوامر في JAR أو دفتر الملاحظات حتى تكتمل أو تفشل أو انتهت مهلتها أو تم إلغاؤها أو واجهت خطأ غير متوقع.
cleanup_duration INT64 الوقت بالمللي ثانية المستغرق لإنهاء المجموعة وتنظيف أي بيانات اصطناعية مرتبطة. المدة الإجمالية للتشغيل هي مجموع setup_duration execution_duration cleanup_duration.
end_time INT64 الوقت الذي انتهى فيه هذا التشغيل بالمللي ثانية (مللي ثانية منذ 1/1/1970 بالتوقيت العالمي المتفق عليه). سيتم تعيين هذا الحقل إلى 0 إذا كانت المهمة لا تزال قيد التشغيل.
trigger نوع المشغل نوع المشغل الذي قام بتشغيل هذا التشغيل.
run_name STRING اسم اختياري للتشغيل. القيمة الافتراضية هي Untitled. الحد الأقصى للطول المسموح به هو 4096 بايت بترميز UTF-8.
run_page_url STRING عنوان URL لصفحة التفاصيل الخاصة بالتشغيل.
run_type STRING نوع التشغيل.

- JOB_RUN - تشغيل مهمة عادية. تشغيل تم إنشاؤه باستخدام Run now.
- WORKFLOW_RUN - تشغيل سير العمل. تشغيل تم إنشاؤه باستخدام dbutils.notebook.run.
- SUBMIT_RUN - إرسال التشغيل. تشغيل تم إنشاؤه باستخدام Run now.
attempt_number INT32 رقم تسلسل محاولة التشغيل هذه لتشغيل مهمة تم تشغيلها. تحتوي المحاولة الأولية للتشغيل على attempt_number من 0. إذا فشلت محاولة التشغيل الأولية، وكان للوظيفة نهج إعادة المحاولة (max_retries> 0)، يتم إنشاء عمليات التشغيل اللاحقة original_attempt_run_id باستخدام معرف المحاولة الأصلية ولزيادة attempt_number. تتم إعادة محاولة التشغيل فقط حتى تنجح، والحد الأقصى attempt_number هو نفس max_retries قيمة المهمة.

RunJobTask

اسم الحقل النوع ‏‏الوصف
job_id INT32 المعرف الفريد للوظيفة المراد تشغيلها. هذا الحقل مطلوب.

RunLifeCycleState

حالة دورة حياة التشغيل. انتقالات الحالة المسموح بها هي:

  • QUEUED ->PENDING
  • PENDING- ->RUNNING ->TERMINATING>TERMINATED
  • PENDING ->SKIPPED
  • PENDING ->INTERNAL_ERROR
  • RUNNING ->INTERNAL_ERROR
  • TERMINATING ->INTERNAL_ERROR
حالة ‏‏الوصف
QUEUED تم تشغيل التشغيل ولكن تم وضعه في قائمة الانتظار لأنه وصل إلى أحد الحدود التالية:

- الحد الأقصى لعمليات التشغيل النشطة المتزامنة في مساحة العمل.
- يتم تشغيل الحد الأقصى للمهمة المتزامنة Run Job في مساحة العمل.
- الحد الأقصى لعمليات التشغيل المتزامنة للوظيفة.

يجب تمكين قائمة الانتظار للوظيفة أو التشغيل قبل أن تتمكن من الوصول إلى هذه الحالة.
PENDING تم تشغيل التشغيل. إذا تم الوصول بالفعل إلى الحد الأقصى لعمليات التشغيل المتزامنة المكونة للوظيفة، فسينتقل التشغيل على الفور إلى SKIPPED الحالة دون إعداد أي موارد. وإلا، فإن إعداد نظام المجموعة والتنفيذ قيد التنفيذ.
RUNNING يتم تنفيذ مهمة هذا التشغيل.
TERMINATING اكتملت مهمة هذا التشغيل، ويتم تنظيف سياق نظام المجموعة والتنفيذ.
TERMINATED اكتملت مهمة هذا التشغيل، وتم تنظيف سياق نظام المجموعة والتنفيذ. هذه الحالة هي المحطة الطرفية.
SKIPPED تم إجهاض هذا التشغيل لأن تشغيل سابق لنفس المهمة كان نشطا بالفعل. هذه الحالة هي المحطة الطرفية.
INTERNAL_ERROR حالة استثنائية تشير إلى فشل في خدمة الوظائف، مثل فشل الشبكة على مدى فترة طويلة. إذا انتهى التشغيل على نظام مجموعة جديد في INTERNAL_ERROR الحالة، تنهي خدمة Jobs نظام المجموعة في أقرب وقت ممكن. هذه الحالة هي المحطة الطرفية.

RunParameters

معلمات لهذا التشغيل. يجب تحديد واحد فقط من jar_params python_paramsأو أو notebook_params في run-now الطلب، اعتمادا على نوع المهمة الوظيفية. تأخذ المهام ذات مهمة Spark JAR أو مهمة Python قائمة بالمعلمات المستندة إلى الموضع، وتأخذ المهام ذات مهام دفتر الملاحظات خريطة قيمة رئيسية.

اسم الحقل النوع ‏‏الوصف
jar_params صفيف من STRING قائمة معلمات الوظائف مع مهام Spark JAR، على سبيل المثال "jar_params": ["john doe", "35"]. سيتم استخدام المعلمات لاستدعاء الدالة الرئيسية للفئة الرئيسية المحددة في مهمة Spark JAR. إذا لم يتم تحديده في run-now، تعيينه افتراضيا إلى قائمة فارغة. لا يمكن تحديد jar_params بالاقتران مع notebook_params. لا يمكن أن يتجاوز تمثيل JSON لهذا الحقل (أي {"jar_params":["john doe","35"]}) 10000 بايت.

استخدم ما هو مرجع القيمة الديناميكية؟ لتعيين المعلمات التي تحتوي على معلومات حول تشغيل المهمة.
notebook_params خريطة ParamPair خريطة من المفاتيح إلى قيم المهام ذات مهمة دفتر الملاحظات، على سبيل المثال.
"notebook_params": {"name": "john doe", "age": "35"}. يتم تمرير الخريطة إلى دفتر الملاحظات ويمكن الوصول إليها من خلال وظيفة dbutils.widgets.get .

إذا لم يتم تحديده على run-now، يستخدم التشغيل المشغل المعلمات الأساسية للوظيفة.

لا يمكن تحديد notebook_params بالاقتران مع jar_params.

استخدم ما هو مرجع القيمة الديناميكية؟ لتعيين المعلمات التي تحتوي على معلومات حول تشغيل المهمة.

تمثيل JSON لهذا الحقل (على سبيل المثال.
{"notebook_params":{"name":"john doe","age":"35"}}) لا يمكن أن يتجاوز 10,000 بايت.
python_params صفيف من STRING قائمة المعلمات للوظائف ذات مهام Python، على سبيل المثال "python_params": ["john doe", "35"]. يتم تمرير المعلمات إلى ملف Python كمعلمات سطر الأوامر. إذا تم تحديده على run-now، فإنه سيستبدل المعلمات المحددة في إعداد الوظيفة. لا يمكن أن يتجاوز تمثيل JSON لهذا الحقل (أي {"python_params":["john doe","35"]}) 10000 بايت.

استخدم ما هو مرجع القيمة الديناميكية؟ لتعيين المعلمات التي تحتوي على معلومات حول تشغيل المهمة.

> [! هام] >> تقبل هذه المعلمات الأحرف اللاتينية فقط (مجموعة أحرف ASCII). > سيؤدي استخدام أحرف غير ASCII إلى إرجاع خطأ. ومن الأمثلة على الأحرف غير الصالحة وغير التابعة ل ASCII الرموز > التعبيرية والرموز التعبيرية الصينية واليابانية.
spark_submit_params صفيف من STRING قائمة المعلمات للوظائف ذات مهمة إرسال spark، على سبيل المثال.
"spark_submit_params": ["--class", "org.apache.spark.examples.SparkPi"]. يتم تمرير المعلمات إلى البرنامج النصي spark-submit كمعلمات سطر الأوامر. إذا تم تحديده على run-now، فإنه سيستبدل المعلمات المحددة في إعداد الوظيفة. لا يمكن أن يتجاوز تمثيل JSON لهذا الحقل (أي {"python_params":["john doe","35"]}) 10000 بايت.

استخدم ما هو مرجع القيمة الديناميكية؟ لتعيين المعلمات التي تحتوي على معلومات حول تشغيل المهمة.

> [! هام] >> تقبل هذه المعلمات الأحرف اللاتينية فقط (مجموعة أحرف ASCII). > سيؤدي استخدام أحرف غير ASCII إلى إرجاع خطأ. ومن الأمثلة على الأحرف غير الصالحة وغير التابعة ل ASCII الرموز > التعبيرية والرموز التعبيرية الصينية واليابانية.

RunResultState

حالة نتيجة التشغيل.

  • إذا life_cycle_state = TERMINATED: إذا كان للتشغيل مهمة، فإن النتيجة مضمونة لتكون متوفرة، وتشير إلى نتيجة المهمة.
  • إذا life_cycle_state = PENDINGكانت حالة RUNNINGالنتيجة أو أو أو SKIPPEDغير متوفرة.
  • إذا كانت life_cycle_state = TERMINATING أو دورة الحياة = INTERNAL_ERROR: تتوفر حالة النتيجة إذا كان التشغيل يحتوي على مهمة وتمكن من بدء تشغيلها.

بمجرد توفرها، لا تتغير حالة النتيجة أبدا.

حالة ‏‏الوصف
SUCCESS اكتملت المهمة بنجاح.
FAILED اكتملت المهمة بخطأ.
TIMEDOUT تم إيقاف التشغيل بعد الوصول إلى المهلة.
CANCELED تم إلغاء التشغيل بناء على طلب المستخدم.

حالة التشغيل

اسم الحقل النوع ‏‏الوصف
life_cycle_state RunLifeCycleState وصف للموقع الحالي للتشغيل في دورة حياة التشغيل. يتوفر هذا الحقل دائما في الاستجابة.
result_state RunResultState حالة نتيجة التشغيل. إذا لم يكن متوفرا، فلن تتضمن الاستجابة هذا الحقل. راجع RunResultState للحصول على تفاصيل حول توفر result_state.
user_cancelled_or_timedout BOOLEAN ما إذا كان قد تم إلغاء تشغيل يدويا من قبل مستخدم أو من قبل المجدول بسبب انتهاء مهلة التشغيل.
state_message STRING رسالة وصفية للحالة الحالية. هذا الحقل غير منظم، ويكون تنسيقه الدقيق عرضة للتغيير.

SparkConfPair

أزواج قيمة مفتاح تكوين Spark.

النوع ‏‏الوصف
STRING اسم خاصية التكوين.
STRING قيمة خاصية التكوين.

SparkEnvPair

أزواج قيم المفاتيح المتغيرة لبيئة Spark.

هام

عند تحديد متغيرات البيئة في مجموعة مهام، تقبل الحقول في بنية البيانات هذه الأحرف اللاتينية فقط (مجموعة أحرف ASCII). سيؤدي استخدام أحرف غير ASCII إلى إرجاع خطأ. ومن الأمثلة على الأحرف غير الصالحة وغير التابعة ل ASCII الرموز التعبيرية والرموز التعبيرية الصينية واليابانية.

النوع ‏‏الوصف
STRING اسم متغير البيئة.
STRING قيمة متغير البيئة.

SparkJarTask

اسم الحقل النوع ‏‏الوصف
jar_uri STRING مهمل منذ 04/2016. jar قم بتوفير من خلال libraries الحقل بدلا من ذلك. على سبيل المثال، راجع إنشاء.
main_class_name STRING الاسم الكامل للفئة التي تحتوي على الأسلوب الرئيسي الذي سيتم تنفيذه. يجب أن تكون هذه الفئة موجودة في JAR يتم توفيرها كمكتبة.

يجب استخدام SparkContext.getOrCreate التعليمات البرمجية للحصول على سياق Spark؛ وإلا، ستفشل عمليات تشغيل المهمة.
parameters صفيف من STRING المعلمات التي تم تمريرها إلى الأسلوب الرئيسي.

استخدم ما هو مرجع القيمة الديناميكية؟ لتعيين المعلمات التي تحتوي على معلومات حول تشغيل المهمة.

SparkPythonTask

اسم الحقل النوع ‏‏الوصف
python_file STRING سيتم تنفيذ عنوان URI لملف Python. يتم دعم مسارات DBFS. هذا الحقل مطلوب.
parameters صفيف من STRING معلمات سطر الأوامر التي تم تمريرها إلى ملف Python.

استخدم ما هو مرجع القيمة الديناميكية؟ لتعيين المعلمات التي تحتوي على معلومات حول تشغيل المهمة.

SparkSubmitTask

هام

  • يمكنك استدعاء مهام إرسال Spark فقط على مجموعات جديدة.
  • في مواصفات new_cluster، libraries و spark_conf غير معتمدين. بدلا من ذلك، استخدم --jars و --py-files لإضافة مكتبات Java وPython وتعيين --conf تكوين Spark.
  • master، deploy-mode، ويتم executor-cores تكوينها تلقائيا بواسطة Azure Databricks؛ لا يمكنك تحديدها في المعلمات.
  • بشكل افتراضي، تستخدم مهمة إرسال Spark جميع الذاكرة المتوفرة (باستثناء الذاكرة المحجوزة لخدمات Azure Databricks). يمكنك تعيين --driver-memoryو --executor-memory إلى قيمة أصغر لترك بعض المساحة للاستخدام خارج كومة الذاكرة المؤقتة.
  • --jarsتدعم الوسيطات ، --py-files--files مسارات DBFS.

على سبيل المثال، بافتراض تحميل JAR إلى DBFS، يمكنك التشغيل SparkPi عن طريق تعيين المعلمات التالية.

{
  "parameters": [
    "--class",
    "org.apache.spark.examples.SparkPi",
    "dbfs:/path/to/examples.jar",
    "10"
  ]
}
اسم الحقل النوع ‏‏الوصف
parameters صفيف من STRING معلمات سطر الأوامر التي تم تمريرها لإرسال spark.

استخدم ما هو مرجع القيمة الديناميكية؟ لتعيين المعلمات التي تحتوي على معلومات حول تشغيل المهمة.

نوع المشغل

هذه هي نوع المشغلات التي يمكن أن تطلق تشغيلا.

النوع ‏‏الوصف
PERIODIC الجداول الزمنية التي تقوم بتشغيل التشغيل بشكل دوري، مثل مجدول cron.
ONE_TIME مرة واحدة تؤدي إلى تشغيل تشغيل واحد. يحدث هذا قمت بتشغيل تشغيل واحد عند الطلب من خلال واجهة المستخدم أو واجهة برمجة التطبيقات.
RETRY يشير إلى تشغيل يتم تشغيله لإعادة محاولة تشغيل فاشل مسبقا. يحدث هذا عند طلب إعادة تشغيل المهمة في حالة الفشل.

ViewItem

المحتوى المصدر بتنسيق HTML. على سبيل المثال، إذا كانت طريقة العرض للتصدير هي لوحات المعلومات، يتم إرجاع سلسلة HTML واحدة لكل لوحة معلومات.

اسم الحقل النوع ‏‏الوصف
content STRING محتوى طريقة العرض.
name STRING اسم عنصر العرض. في حالة عرض التعليمات البرمجية، اسم دفتر الملاحظات. في حالة عرض لوحة المعلومات، اسم لوحة المعلومات.
type نوع العرض نوع عنصر العرض.

نوع العرض

النوع ‏‏الوصف
NOTEBOOK عنصر طريقة عرض دفتر الملاحظات.
DASHBOARD عنصر عرض لوحة المعلومات.

ViewsToExport

عرض للتصدير: إما التعليمات البرمجية أو جميع لوحات المعلومات أو الكل.

النوع ‏‏الوصف
CODE طريقة عرض التعليمات البرمجية لدفتر الملاحظات.
DASHBOARDS كافة طرق عرض لوحة المعلومات لدفتر الملاحظات.
ALL كافة طرق عرض دفتر الملاحظات.

إخطار على الويب

اسم الحقل النوع ‏‏الوصف
id STRING المعرف يشير إلى وجهة إعلام النظام. هذا الحقل مطلوب.

إخطار على الويبالتعليقات التوضيحية

اسم الحقل النوع ‏‏الوصف
on_start صفيف من الإخطارات على الويب قائمة اختيارية لوجهات النظام التي سيتم إعلامها عند بدء التشغيل. إذا لم يتم تحديدها عند إنشاء مهمة أو إعادة تعيينها أو تحديثها، تكون القائمة فارغة ولا يتم إرسال الإعلامات. يمكن تحديد 3 وجهات كحد أقصى للخاصية on_start .
on_success صفيف من الإخطارات على الويب قائمة اختيارية لوجهات النظام التي سيتم إعلامها عند اكتمال التشغيل بنجاح. يعتبر التشغيل قد اكتمل بنجاح إذا انتهى ب TERMINATED life_cycle_state و SUCCESSFUL result_state. إذا لم يتم تحديدها عند إنشاء مهمة أو إعادة تعيينها أو تحديثها، تكون القائمة فارغة ولا يتم إرسال الإعلامات. يمكن تحديد 3 وجهات كحد أقصى للخاصية on_success .
on_failure صفيف من الإخطارات على الويب قائمة اختيارية لوجهات النظام التي سيتم إعلامها عند اكتمال التشغيل دون جدوى. يعتبر التشغيل قد اكتمل بشكل غير ناجح إذا انتهى ب INTERNAL_ERROR
life_cycle_stateSKIPPEDأو أو FAILEDأو TIMED_OUT result_state. إذا لم يتم تحديد ذلك عند إنشاء الوظيفة، فإن إعادة تعيين القائمة أو تحديثها فارغة، ولا يتم إرسال الإعلامات. يمكن تحديد 3 وجهات كحد أقصى للخاصية on_failure .
on_duration_warning_threshold_exceeded صفيف من الإخطارات على الويب قائمة اختيارية لوجهات النظام التي سيتم إعلامها عندما تتجاوز مدة التشغيل الحد المحدد للمقياس RUN_DURATION_SECONDS في health الحقل. يمكن تحديد 3 وجهات كحد أقصى للخاصية on_duration_warning_threshold_exceeded .

WorkspaceStorageInfo

معلومات تخزين مساحة العمل.

اسم الحقل النوع ‏‏الوصف
destination STRING وجهة الملف. مثال: /Users/someone@domain.com/init_script.sh