databricks_step 模块

包含用于创建 Azure ML 管道步骤的功能,以在 DBFS 上运行 Databricks 笔记本或 Python 脚本。

DatabricksStep

创建 Azure ML 管道步骤,以将 DataBricks 笔记本、Python 脚本或 JAR 添加为节点。

有关使用 DatabricksStep 的示例,请参阅笔记本 https://aka.ms/pl-databricks

创建 Azure ML Pipeline 步骤,将 DataBricks 笔记本、Python 脚本或 JAR 添加为节点。

有关使用 DatabricksStep 的示例,请参阅笔记本 https://aka.ms/pl-databricks

:p aram python_script_name:[必需] 相对于 source_directory的 Python 脚本的名称。 如果脚本采用输入和输出,则会将输入和输出作为参数传递给脚本。 如果指定了 python_script_name,则也必须指定 source_directory

只能指定 notebook_pathpython_script_pathpython_script_namemain_class_name 中的一个。

如果使用 data_reference_name=input1 将 DataReference 对象指定为输入,使用 name=output1 将 PipelineData 对象指定为输出,则输入和输出将作为参数传递给脚本。 这就是它们的外观,你需要分析脚本中的参数以访问每个输入和输出的路径:"-input1","wasbs://test@storagename.blob.core.windows.net/test","-output1", "wasbs://test@storagename.blob.core.windows.net/b3e26de1-87a4-494d-a20f-1988d22b81a2/output1"

此外,在脚本中可以使用以下参数:

  • AZUREML_RUN_TOKEN:用于在 Azure 机器学习中进行身份验证的 AML 令牌。
  • AZUREML_RUN_TOKEN_EXPIRY:AML 令牌过期时间。
  • AZUREML_RUN_ID:此运行的 Azure 机器学习运行 ID。
  • AZUREML_ARM_SUBSCRIPTION:AML 工作区的 Azure 订阅。
  • AZUREML_ARM_RESOURCEGROUP:Azure 机器学习工作区的 Azure 资源组。
  • AZUREML_ARM_WORKSPACE_NAME:Azure 机器学习工作区的名称。
  • AZUREML_ARM_PROJECT_NAME:Azure 机器学习试验的名称。
  • AZUREML_SERVICE_ENDPOINT:AML 服务的终结点 URL。
  • AZUREML_WORKSPACE_ID:Azure 机器学习工作区的 ID。
  • AZUREML_EXPERIMENT_ID:Azure 机器学习试验的 ID。
  • AZUREML_SCRIPT_DIRECTORY_NAME:source_directory 复制到的 DBFS 中的目录路径。
  (This parameter is only populated when `python_script_name` is used.  See more details below.)

使用 DatabricksStep 参数 source_directorypython_script_name 从 Databricks 上你的本地计算机执行 Python 脚本时,source_directory 将复制到 DBFS,DBFS 上的目录路径将在脚本开始执行时作为参数传递给脚本。 此参数标记为 -AZUREML_SCRIPT_DIRECTORY_NAME。 需要在此参数的前面添加字符串前缀“dbfs:/”或“/dbfs/”才能访问 DBFS 中的目录。