重要
本文档已过时,将来可能不会更新。
此信息适用于旧版 Databricks CLI 0.18 及更低版本。 Databricks 建议改用较新的 Databricks CLI 0.205 或更高版本。 请参阅 Databricks CLI。 若要查找你的 Databricks CLI 的版本,请运行 databricks -v。
若要从 Databricks CLI 版本 0.18 或更低版本迁移到 Databricks CLI 版本 0.205 或更高版本,请参阅 Databricks CLI 迁移。
可以通过将 Databricks 作业运行 CLI 子命令追加到 databricks runs 来运行这些子命令,通过将 Databricks 作业 CLI 子命令追加到 databricks jobs 来运行相应的子命令。 有关 Databricks 作业 CLI 子命令,请参阅作业 CLI(旧版)。 这些子命令都调用作业 API 和作业 API 2.0。
重要
Databricks 作业运行 CLI 支持调用两个版本的 Databricks 作业 REST API:2.1 和 2.0 版。 (作业运行功能是作业 REST API 的一部分。)版本 2.1 增加了对具有多个任务的作业编排的支持,请参阅 Lakeflow 作业 并了解如何从 作业 API 2.0 更新到 2.1。 Databricks 建议调用 2.1 版,除非有依赖 2.0 版且无法迁移的旧脚本。
除非另有说明,否则本文中描述的编程行为同样适用于 2.1 和 2.0 版。
注意
如果在发出作业运行 CLI 请求时收到 500 级错误,Databricks 建议重试请求最多 10 分钟(每次重试至少间隔 30 秒)。
调用作业 REST API 2.1 的要求
要将 Databricks 作业运行 CLI(以及作业 CLI)配置为调用 Jobs REST API 2.1,请按照以下步骤操作:
执行下列操作之一:
- 运行命令
databricks jobs configure --version=2.1。 这会将设置jobs-api-version = 2.1添加到 Unix、Linux 或 macOS 上的文件~/.databrickscfg,或Windows上的%USERPROFILE%\.databrickscfg。 默认情况下,所有作业运行 CLI(和作业 CLI)子命令都将调用作业 REST API 2.1。 - 在 Unix、Linux 或 macOS 上,手动将设置
jobs-api-version = 2.1添加到文件~/.databrickscfg,或在 Windows 上添加到文件%USERPROFILE%\.databrickscfg。 默认情况下,所有作业运行 CLI(和作业 CLI)子命令都将调用作业 REST API 2.1。 - 将选项
--version=2.1(例如databricks runs list --version=2.1)附加到命令中,以便在该调用中指示作业运行 CLI 调用 Jobs REST API 2.1。
如果未执行上述操作,则作业运行 CLI(和作业 CLI)将默认调用作业 REST API 2.0。
- 运行命令
调用作业 REST API 2.0 的要求
要将 Databricks 作业运行 CLI(以及作业 CLI)配置为调用作业 REST API 2.0,请执行以下其中一项操作:
- 使用低于 0.16.0 的 Databricks CLI 版本,或
-
将 CLI 更新到 0.16.0 或更高版本,然后执行以下任一操作:
- 运行命令
databricks jobs configure --version=2.0。 这会将设置jobs-api-version = 2.0添加到 Unix、Linux 或 macOS 上的文件~/.databrickscfg,或Windows上的%USERPROFILE%\.databrickscfg。 默认情况下,所有“作业运行 CLI”和“作业 CLI”子命令都将调用作业 REST API 2.0。 - 在 Unix、Linux 或 macOS 上手动将设置
jobs-api-version = 2.0添加到文件~/.databrickscfg,或在 Windows 上将设置jobs-api-version = 2.0添加到%USERPROFILE%\.databrickscfg文件中。 默认情况下,所有与作业运行相关的 CLI(以及作业 CLI)子命令都将调用作业 REST API 2.0。 - 附加选项
--version=2.1(例如databricks runs list --version=2.0)以指示作业运行 CLI 仅为该调用调用作业 REST API 2.0。
- 运行命令
如果未执行上述任何操作,则作业运行 CLI(包括作业 CLI)将默认调用作业 REST API 2.0。
子命令和常规用法
databricks runs --help
Usage: databricks runs [OPTIONS] COMMAND [ARGS]...
Utility to interact with jobs runs.
Options:
-v, --version [VERSION]
--debug Debug mode. Shows full stack trace on error.
--profile TEXT CLI connection profile to use. The default profile is
"DEFAULT".
-h, --help Show this message and exit.
Commands:
cancel Cancels the specified run.
get Gets the metadata about a run in JSON form.
get-output Gets the output of a run.
list Lists job runs.
submit Submits a one-time run.
取消运行
若要显示使用情况文档,请运行 databricks runs cancel --help。
databricks runs cancel --run-id 119
{}
获取有关程序运行的信息
若要显示使用情况文档,请运行 databricks runs get --help。
常规用法
databricks runs get --run-id 2785782
作业 CLI 2.1 用法说明和响应示例
请参阅从 Jobs API 2.0 更新到 2.1中的Runs get。
作业命令行界面(CLI)2.0 响应示例
{
"job_id": 1269263,
"run_id": 2785782,
"number_in_job": 1111,
"original_attempt_run_id": 2785782,
"state": {
"life_cycle_state": "TERMINATED",
"result_state": "SUCCESS",
"state_message": ""
},
"task": {
"notebook_task": {
"notebook_path": "/Users/someone@example.com/notebooks/my-notebook.ipynb"
}
},
"cluster_spec": {
"new_cluster": {
"spark_version": "8.1.x-scala2.12",
"node_type_id": "Standard_F16s",
"enable_elastic_disk": true,
"azure_attributes": {
"availability": "ON_DEMAND_AZURE"
},
"num_workers": 8
}
},
"cluster_instance": {
"cluster_id": "1234-567890-abcd123",
"spark_context_id": "1234567890123456789"
},
"start_time": 1620947196985,
"setup_duration": 36000,
"execution_duration": 119000,
"cleanup_duration": 3000,
"end_time": 1620947355499,
"trigger": "ONE_TIME",
"creator_user_name": "someone@example.com",
"run_name": "my-notebook-run",
"run_page_url": "https://adb-1234567890123456.7.azuredatabricks.net/?o=1234567890123456#job/1269263/run/1111",
"run_type": "JOB_RUN",
"attempt_number": 0
}
获取运行的输出
若要显示使用情况文档,请运行 databricks runs get-output --help。
注意
当 notebook_task 从对 dbutils.notebook.exit() 的调用中返回值时,Databricks 将返回值限制为前 5 MB。 若要返回更大的结果,可将作业结果存储在云存储服务中。
常规用法
databricks runs get-output --run-id 2785782
作业 CLI 2.1 用法说明
请参阅从作业 API 2.0 更新到 2.1 中的运行获取输出。
作业命令行界面(CLI)2.0 响应示例
{
"metadata": {
"job_id": 1269263,
"run_id": 2785782,
"number_in_job": 1111,
"original_attempt_run_id": 2785782,
"state": {
"life_cycle_state": "TERMINATED",
"result_state": "SUCCESS",
"state_message": ""
},
"task": {
"notebook_task": {
"notebook_path": "/Users/someone@example.com/notebooks/my-notebook.ipynb"
}
},
"cluster_spec": {
"new_cluster": {
"spark_version": "8.1.x-scala2.12",
"node_type_id": "Standard_F16s",
"enable_elastic_disk": true,
"azure_attributes": {
"availability": "ON_DEMAND_AZURE"
},
"num_workers": 8
}
},
"cluster_instance": {
"cluster_id": "1234-567890-abcd123",
"spark_context_id": "1234567890123456789"
},
"start_time": 1620947196985,
"setup_duration": 36000,
"execution_duration": 119000,
"cleanup_duration": 3000,
"end_time": 1620947355499,
"trigger": "ONE_TIME",
"creator_user_name": "someone@example.com",
"run_name": "my-notebook-run",
"run_page_url": "https://adb-1234567890123456.7.azuredatabricks.net/?o=1234567890123456#job/1269263/run/1111",
"run_type": "JOB_RUN",
"attempt_number": 0
},
"notebook_output": {}
}
获取有关所有运行的信息
若要显示使用情况文档,请运行 databricks runs list --help。
常规用法
databricks runs list --output JSON
作业 CLI 2.1 用法说明和响应示例
请参阅从作业 API 2.0 更新到 2.1 中的运行列表。
作业命令行界面(CLI)2.0 响应示例
{
"runs": [
{
"job_id": 1269263,
"run_id": 2785782,
"number_in_job": 1111,
"original_attempt_run_id": 2785782,
"state": {
"life_cycle_state": "TERMINATED",
"result_state": "SUCCESS",
"state_message": ""
},
"task": {
"notebook_task": {
"notebook_path": "/Users/someone@example.com/notebooks/my-notebook.ipynb"
}
},
"cluster_spec": {
"new_cluster": {
"spark_version": "8.1.x-scala2.12",
"node_type_id": "Standard_F16s",
"enable_elastic_disk": true,
"azure_attributes": {
"availability": "ON_DEMAND_AZURE"
},
"num_workers": 8
}
},
"cluster_instance": {
"cluster_id": "1234-567890-abcd123",
"spark_context_id": "1234567890123456789"
},
"start_time": 1620947196985,
"setup_duration": 36000,
"execution_duration": 119000,
"cleanup_duration": 3000,
"end_time": 1620947355499,
"trigger": "ONE_TIME",
"creator_user_name": "someone@example.com",
"run_name": "my-notebook-run",
"run_page_url": "https://adb-1234567890123456.7.azuredatabricks.net/?o=1234567890123456#job/1269263/run/1111",
"run_type": "JOB_RUN",
"attempt_number": 0
},
...
],
"has_more": false
}
如果 has_more 返回 true,则可以获得有关其他运行的信息。 使用 --offset 选项可返回有关最近一次运行的相关信息。 例如,若要从第十次最近运行开始返回信息,请指定 --offset 10。
使用 --limit 选项可返回有关固定数量的运行的信息。 例如,若要返回最多接下来 5 次运行的信息,请指定 --limit 5。 您可以最多指定 1000 次运行。 如果未指定,则默认值为 20。
提交一次性运行任务
若要显示使用情况文档,请运行 databricks runs submit --help。
常规用法
databricks runs submit --json-file submit-run.json
作业 REST API 2.1 用法说明和请求示例
请参阅从作业 API 2.0 更新到 2.1 中的运行提交。
REST API 2.0 作业请求和响应示例
submit-run.json:
{
"run_name": "my-spark-run",
"new_cluster": {
"spark_version": "8.1.x-scala2.12",
"node_type_id": "Standard_F16s",
"enable_elastic_disk": true,
"azure_attributes": {
"availability": "ON_DEMAND_AZURE"
},
"num_workers": 8
},
"libraries": [
{
"jar": "dbfs:/my-jar.jar"
},
{
"maven": {
"coordinates": "org.jsoup:jsoup:1.7.2"
}
}
],
"spark_jar_task": {
"main_class_name": "com.databricks.ComputeModels"
}
}
{
"run_id": 123
}