azureml.pipeline.steps.databricks_step.DatabricksStep class - Azure Machine Learning Python

name: str

Обязательно

[Обязательно] Имя этапа.

inputs: list[Union[InputPortBinding, DataReference, PortDataReference, PipelineData]]

значение по умолчанию: None

Список входных подключений для данных, потребляемых этим этапом. Получение списка в записной книжке с помощью dbutils.widgets.get("input_name"). Может быть DataReference или PipelineData. Ссылка на данные представляет собой существующий фрагмент данных в хранилище. По сути, это путь к хранилищу данных. DatabricksStep поддерживает хранилища данных, которые инкапсулируют DBFS, большой двоичный объект Azure или ADLS v1. PipelineData представляет промежуточные данные, созданные другим этапом в конвейере.

outputs: list[Union[OutputPortBinding, PipelineOutputAbstractDataset, PipelineData]]

значение по умолчанию: None

Список определений портов вывода для выходных данных, созданных на этом этапе. Получение списка в записной книжке с помощью dbutils.widgets.get("output_name"). Должно быть PipelineData.

existing_cluster_id: str

значение по умолчанию: None

Идентификатор существующего интерактивного кластера в рабочей области Databricks. При передаче этого параметра невозможно передать следующие параметры, которые используются для создания нового кластера:

spark_version
node_type
instance_pool_id
num_workers
min_workers
max_workers
spark_env_variables
spark_conf

Примечание. Для создания нового кластера заданий необходимо передать указанные выше параметры. Вы можете передать эти параметры напрямую или как часть объекта RunConfiguration с использованием параметра runconfig. Передача этих параметров напрямую и через RunConfiguration приведет к ошибке.

spark_version: str

значение по умолчанию: None

Версия Spark для кластера Databricks, например 10.4.x-scala2.12. Дополнительные сведения приведены в описании параметра existing_cluster_id.

node_type: str

значение по умолчанию: None

[Обязательно.] Типы узлов виртуальных машин Azure для кластера Databricks, например: "Standard_D3_v2". Укажите node_type или instance_pool_id. Дополнительные сведения приведены в описании параметра existing_cluster_id.

instance_pool_id: str

значение по умолчанию: None

[Обязательно.] Идентификатор пула экземпляров, к которому необходимо подключить кластер. Укажите node_type или instance_pool_id. Дополнительные сведения приведены в описании параметра existing_cluster_id.

num_workers: int

значение по умолчанию: None

[Обязательно.] Статическое число рабочих ролей для кластера Databricks. Необходимо указать либо num_workers, либо min_workers и max_workers одновременно. Дополнительные сведения приведены в описании параметра existing_cluster_id.

min_workers: int

значение по умолчанию: None

[Обязательно.] Минимальное число рабочих ролей, используемых для автоматического масштабирования кластера Databricks. Необходимо указать либо num_workers, либо min_workers и max_workers одновременно. Дополнительные сведения приведены в описании параметра existing_cluster_id.

max_workers: int

значение по умолчанию: None

[Обязательно.] Максимальное число рабочих ролей, используемых для автоматического масштабирования кластера Databricks. Необходимо указать либо num_workers, либо min_workers и max_workers одновременно. Дополнительные сведения приведены в описании параметра existing_cluster_id.

spark_env_variables: dict

значение по умолчанию: None

Переменные среды Spark для кластера Databricks. Дополнительные сведения приведены в описании параметра existing_cluster_id.

spark_conf: dict

значение по умолчанию: None

Конфигурация Spark для кластера Databricks. Дополнительные сведения приведены в описании параметра existing_cluster_id.

init_scripts: [str]

значение по умолчанию: None

Не рекомендуется. Databricks объявила, что скрипт инициализации, хранящийся в DBFS, прекратит работу после 1 декабря 2023 г. Чтобы устранить эту проблему, 1) используйте глобальные скрипты инициализации в databricks: https://learn.microsoft.com/azure/databricks/init-scripts/global 2) закомментируйте строку init_scripts на шаге AzureML databricks.

cluster_log_dbfs_path: str

значение по умолчанию: None

Пути DBFS доставки журналов кластеров.

notebook_path: str

значение по умолчанию: None

[Обязательно.] Путь к записной книжке в экземпляре Databricks. Этот класс предлагает четыре способа указания кода для выполнения в кластере Databricks.

Чтобы выполнить записную книжку, имеющуюся в рабочей области Databricks, используйте путь: notebook_path=notebook_path, notebook_params={'myparam': 'testparam'}
Для выполнения скрипта Python, присутствующего в DBFS, используйте путь: python_script_path=python_script_dbfs_path, python_script_params={'arg1', 'arg2'}
Для выполнения JAR, присутствующего в DBFS, используйте путь: main_class_name=main_jar_class_name, jar_params={'arg1', 'arg2'}, jar_libraries=[JarLibrary(jar_library_dbfs_path)]
Чтобы выполнить скрипт Python, присутствующий на локальном компьютере, используйте путь: python_script_name=python_script_name, source_directory=source_directory

Укажите только один из notebook_path, python_script_path, python_script_name или main_class_name.

notebook_params: dict[str, Union[str, PipelineParameter]]

значение по умолчанию: None

Словарь параметров для передачи в записную книжку. notebook_params доступны в виде мини-приложений. Вы можете получить значения из этих мини-приложений в записной книжке с помощью dbutils.widgets.get("myparam").

python_script_path: str

значение по умолчанию: None

[Обязательно.] Путь к скрипту Python в DBFS. Укажите только один из notebook_path, python_script_path, python_script_name или main_class_name.

python_script_params: list[str, PipelineParameter]

значение по умолчанию: None

Параметры для скрипта Python.

main_class_name: str

значение по умолчанию: None

[Обязательно.] Имя точки входа в модуле JAR. Укажите только один из notebook_path, python_script_path, python_script_name или main_class_name.

jar_params: list[str, PipelineParameter]

значение по умолчанию: None

Параметры для модуля JAR.

python_script_name: str

значение по умолчанию: None

[Обязательно] Имя скрипта Python (относительно source_directory). Если скрипт принимает входные и выходные данные, они передаются в скрипт в качестве параметров. Если указан python_script_name, то должен быть указан и source_directory.

Укажите только один из notebook_path, python_script_path, python_script_name или main_class_name.

Если указать объект DataReference в качестве входных данных с помощью data_reference_name=input1 и объект PipelineData в качестве выходных данных с помощью name=output1, то входные и выходные данные будут переданы в скрипт в качестве параметров. Они будут выглядеть описанным ниже образом, и при этом необходимо проанализировать аргументы в скрипте для доступа к путям всех входных и выходных данных: "-input1","wasbs://test@storagename.blob.core.windows.net/test","-output1", "wasbs://test@storagename.blob.core.windows.net/b3e26de1-87a4-494d-a20f-1988d22b81a2/output1"

Кроме того, в скрипте будут доступны следующие параметры:

AZUREML_RUN_TOKEN: маркер AML для проверки подлинности с помощью Машинного обучения Azure.
AZUREML_RUN_TOKEN_EXPIRY: время окончания срока действия маркера AML.
AZUREML_RUN_ID: идентификатор выполнения Машинного обучения Azure для этого выполнения.
AZUREML_ARM_SUBSCRIPTION: подписка Azure для рабочей области AML.
AZUREML_ARM_RESOURCEGROUP: группа ресурсов Azure для рабочей области Машинного обучения Azure.
AZUREML_ARM_WORKSPACE_NAME: имя рабочей области Машинного обучения Azure.
AZUREML_ARM_PROJECT_NAME: имя эксперимента Машинного обучения Azure.
AZUREML_SERVICE_ENDPOINT: URL-адрес конечной точки для служб AML.
AZUREML_WORKSPACE_ID: идентификатор рабочей области Машинного обучения Azure.
AZUREML_EXPERIMENT_ID: идентификатор эксперимента Машинного обучения Azure.
AZUREML_SCRIPT_DIRECTORY_NAME: путь к каталогу в DBFS, куда было скопировано source_directory. (Этот параметр заполняется только при python_script_name использовании . Дополнительные сведения см. ниже.)

При выполнении скрипта Python с локального компьютера в Databricks с помощью параметров DatabricksStep source_directory и python_script_name, source_directory копируется в DBFS, а путь к каталогу в DBFS передается в качестве параметра скрипту при начале выполнения. Этот параметр обозначен как –AZUREML_SCRIPT_DIRECTORY_NAME. Необходимо добавить к нему префикс со строкой "dbfs:/" or "/dbfs/" для получения доступа к каталогу в DBFS.

source_directory: str

значение по умолчанию: None

Каталог, содержащий скрипт и другие файлы. Если указан python_script_name, то должен быть указан и source_directory.

hash_paths: [str]

значение по умолчанию: None

НЕ РЕКОМЕНДУЕТСЯ: больше не требуется.

Список путей для хэширования при проверке изменений в содержимом шага. Если изменения не обнаружены, конвейер будет повторно использовать содержимое этапа из предыдущего выполнения. По умолчанию содержимое source_directory хэшируется (кроме файлов, перечисленных в .amlignore или .gitignore).

run_name: str

значение по умолчанию: None

Имя в Databricks для этого запуска.

timeout_seconds: int

значение по умолчанию: None

Время ожидания для выполнения Databricks.

runconfig: RunConfiguration

значение по умолчанию: None

Runconfig для использования.

Примечание. Вы можете передать любое желаемое количество библиотек в качестве зависимостей для задания, используя следующие параметры: maven_libraries, pypi_libraries, egg_libraries, jar_libraries или rcran_libraries. Эти параметры можно передать либо напрямую, как соответствующие параметры, либо в составе объекта RunConfiguration с использованием параметра runconfig, но не обоими способами одновременно.

maven_libraries: list[MavenLibrary]

значение по умолчанию: None

Библиотеки Maven для использования в выполнении Databricks.

pypi_libraries: list[PyPiLibrary]

значение по умолчанию: None

Библиотеки PyPi для использования в выполнении Databricks.

egg_libraries: list[EggLibrary]

значение по умолчанию: None

Библиотеки Egg для использования в выполнении Databricks.

jar_libraries: list[JarLibrary]

значение по умолчанию: None

Библиотеки Jar для использования в выполнении Databricks.

rcran_libraries: list[RCranLibrary]

значение по умолчанию: None

Библиотеки RCran для использования в выполнении Databricks.

compute_target: str, DatabricksCompute

значение по умолчанию: None

[Обязательно.] Вычисление Azure Databricks. Прежде чем использовать DatabricksStep для выполнения скриптов или записных книжек в рабочей области Azure Databricks, необходимо добавить рабочую область Azure Databricks в качестве целевого объекта вычислений в рабочую область Машинного обучения Azure.

allow_reuse: bool

значение по умолчанию: True

Указывает, должен ли этап повторно использовать предыдущие результаты при повторном выполнении с теми же параметрами. Повторное использование включено по умолчанию. Если содержимое этапа (скрипты или зависимости), а также входные данные и параметры не изменяются, выходные данные предыдущего выполнения этого этапа используются повторно. При повторном использовании этапа вместо отправки задания для вычисления немедленно предоставляются результаты предыдущего выполнения для последующих этапов. Если в качестве входных данных используются наборы данных Машинного обучения Azure, то повторное использование зависит от изменения определения набора данных, а не базовых данных.

version: str

значение по умолчанию: None

Необязательный тег версии для обозначения изменения функциональных возможностей этапа.

permit_cluster_restart: bool

значение по умолчанию: None

Если указан existing_cluster_id, этот параметр указывает, можно ли перезапустить кластер от имени пользователя.

name: str

Обязательно

[Обязательно] Имя этапа.

inputs: list[Union[InputPortBinding, DataReference, PortDataReference, PipelineData]]

Обязательно

Список входных подключений для данных, используемых на этом шаге. Получение списка в записной книжке с помощью dbutils.widgets.get("input_name"). Может быть DataReference или PipelineData. Ссылка на данные представляет собой существующий фрагмент данных в хранилище. По сути, это путь к хранилищу данных. DatabricksStep поддерживает хранилища данных, которые инкапсулируют DBFS, BLOB-объект Azure или ADLS версии 1. PipelineData представляет промежуточные данные, созданные другим этапом в конвейере.

outputs: list[Union[OutputPortBinding, <xref:azureml.pipeline.core.pipeline_output_dataset.PipelineOutputDataset>, PipelineData]]

Обязательно

Список определений портов вывода для выходных данных, созданных на этом этапе. Получение списка в записной книжке с помощью dbutils.widgets.get("output_name"). Должно быть PipelineData.

existing_cluster_id: str

Обязательно

Идентификатор существующего интерактивного кластера в рабочей области Databricks. При передаче этого параметра невозможно передать следующие параметры, которые используются для создания нового кластера:

spark_version
node_type
instance_pool_id
num_workers
min_workers
max_workers
spark_env_variables
spark_conf

Примечание. Для создания нового кластера заданий необходимо передать указанные выше параметры. Вы можете передать эти параметры напрямую или как часть объекта RunConfiguration с использованием параметра runconfig. Передача этих параметров напрямую и через RunConfiguration приведет к ошибке.

spark_version: str

Обязательно

Версия Spark для кластера Databricks, например 10.4.x-scala2.12. Дополнительные сведения приведены в описании параметра existing_cluster_id.

node_type: str

Обязательно

[Обязательно.] Типы узлов виртуальных машин Azure для кластера Databricks, например: "Standard_D3_v2". Укажите node_type или instance_pool_id. Дополнительные сведения приведены в описании параметра existing_cluster_id.

instance_pool_id: str

Обязательно

[Обязательно.] Идентификатор пула экземпляров, к которому необходимо подключить кластер. Укажите node_type или instance_pool_id. Дополнительные сведения приведены в описании параметра existing_cluster_id.

num_workers: int

Обязательно

[Обязательно.] Статическое число рабочих ролей для кластера Databricks. Необходимо указать либо num_workers, либо min_workers и max_workers одновременно.

Дополнительные сведения приведены в описании параметра existing_cluster_id.

min_workers: int

Обязательно

[Обязательно.] Минимальное число рабочих ролей, используемых для автоматического масштабирования кластера Databricks. Необходимо указать либо num_workers, либо min_workers и max_workers одновременно.

Дополнительные сведения приведены в описании параметра existing_cluster_id.

max_workers: int

Обязательно

[Обязательно.] Максимальное число рабочих ролей, используемых для автоматического масштабирования кластера Databricks. Необходимо указать либо num_workers, либо min_workers и max_workers одновременно.

Дополнительные сведения приведены в описании параметра existing_cluster_id.

spark_env_variables: dict

Обязательно

Переменные среды Spark для кластера Databricks. Дополнительные сведения приведены в описании параметра existing_cluster_id.

spark_conf: dict

Обязательно

Конфигурация Spark для кластера Databricks. Дополнительные сведения приведены в описании параметра existing_cluster_id.

init_scripts: [str]

Обязательно

Не рекомендуется. Databricks объявила, что скрипт инициализации, хранящийся в DBFS, прекратит работу после 1 декабря 2023 г. Чтобы устранить эту проблему, 1) используйте глобальные скрипты инициализации в databricks: https://learn.microsoft.com/azure/databricks/init-scripts/global 2) закомментируйте строку init_scripts на шаге AzureML databricks.

cluster_log_dbfs_path: str

Обязательно

Пути DBFS доставки журналов кластеров.

notebook_path: str

Обязательно

[Обязательно.] Путь к записной книжке в экземпляре Databricks. Этот класс предлагает четыре способа указания кода для выполнения в кластере Databricks.

Чтобы выполнить записную книжку, имеющуюся в рабочей области Databricks, используйте путь: notebook_path=notebook_path, notebook_params={'myparam': 'testparam'}
Для выполнения скрипта Python, присутствующего в DBFS, используйте путь: python_script_path=python_script_dbfs_path, python_script_params={'arg1', 'arg2'}
Для выполнения JAR, присутствующего в DBFS, используйте путь: main_class_name=main_jar_class_name, jar_params={'arg1', 'arg2'}, jar_libraries=[JarLibrary(jar_library_dbfs_path)]
Чтобы выполнить скрипт Python, присутствующий на локальном компьютере, используйте путь: python_script_name=python_script_name, source_directory=source_directory

Укажите только один из notebook_path, python_script_path, python_script_name или main_class_name.

notebook_params: dict[str, (str или PipelineParameter)]

Обязательно

Словарь параметров для передачи в записную книжку. notebook_params доступны в виде мини-приложений. Вы можете получить значения из этих мини-приложений в записной книжке с помощью dbutils.widgets.get("myparam").

python_script_path: str

Обязательно

[Обязательно.] Путь к скрипту Python в DBFS. Укажите только один из notebook_path, python_script_path, python_script_name или main_class_name.

python_script_params: list[str, PipelineParameter]

Обязательно

Параметры для скрипта Python.

main_class_name: str

Обязательно

[Обязательно.] Имя точки входа в модуле JAR. Укажите только один из notebook_path, python_script_path, python_script_name или main_class_name.

jar_params: list[str, PipelineParameter]

Обязательно

Параметры для модуля JAR.

source_directory: str

Обязательно

Каталог, содержащий скрипт и другие файлы. Если указан python_script_name, то должен быть указан и source_directory.

hash_paths: [str]

Обязательно

НЕ РЕКОМЕНДУЕТСЯ: больше не требуется.

Список путей для хэширования при проверке изменений в содержимом шага. Если изменения не обнаружены, конвейер будет повторно использовать содержимое этапа из предыдущего выполнения. По умолчанию содержимое source_directory хэшируется (кроме файлов, перечисленных в .amlignore или .gitignore).

run_name: str

Обязательно

Имя в Databricks для этого запуска.

timeout_seconds: int

Обязательно

Время ожидания для выполнения Databricks.

runconfig: RunConfiguration

Обязательно

Runconfig для использования.

Примечание. Вы можете передать любое желаемое количество библиотек в качестве зависимостей для задания, используя следующие параметры: maven_libraries, pypi_libraries, egg_libraries, jar_libraries или rcran_libraries. Эти параметры можно передать либо напрямую, как соответствующие параметры, либо в составе объекта RunConfiguration с использованием параметра runconfig, но не обоими способами одновременно.

maven_libraries: list[<xref:azureml.core.runconfig.MavenLibrary>]

Обязательно

Библиотеки Maven для использования в выполнении Databricks. Дополнительные сведения о спецификации библиотек Maven см. в разделе help(azureml.core.runconfig.MavenLibrary).

pypi_libraries: list[<xref:azureml.core.runconfig.PyPiLibrary>]

Обязательно

Библиотеки PyPi для использования в выполнении Databricks. Дополнительные сведения о спецификации библиотек PyPi см. в разделе help(azureml.core.runconfig.PyPiLibrary).

egg_libraries: list[<xref:azureml.core.runconfig.EggLibrary>]

Обязательно

Библиотеки Egg для использования в выполнении Databricks. Дополнительные сведения о спецификации библиотек Egg см. в разделе help(azureml.core.runconfig.EggLibrary).

jar_libraries: list[<xref:azureml.core.runconfig.JarLibrary>]

Обязательно

Библиотеки Jar для использования в выполнении Databricks. Дополнительные сведения о спецификации библиотек JAR см. в разделе help(azureml.core.runconfig.JarLibrary).

rcran_libraries: list[<xref:azureml.core.runconfig.RCranLibrary>]

Обязательно

Библиотеки RCran для использования в выполнении Databricks. Дополнительные сведения о спецификации библиотек RCran см. в разделе help(azureml.core.runconfig.RCranLibrary).

compute_target: str, DatabricksCompute

Обязательно

[Обязательно] Вычисление Azure Databricks. Прежде чем использовать DatabricksStep для выполнения скриптов или записных книжек в рабочей области Azure Databricks, необходимо добавить рабочую область Azure Databricks в качестве целевого объекта вычислений в рабочую область Машинного обучения Azure.

allow_reuse: bool

Обязательно

Указывает, должен ли этап повторно использовать предыдущие результаты при повторном выполнении с теми же параметрами. Повторное использование включено по умолчанию. Если содержимое этапа (скрипты или зависимости), а также входные данные и параметры не изменяются, выходные данные предыдущего выполнения этого этапа используются повторно. При повторном использовании этапа вместо отправки задания для вычисления немедленно предоставляются результаты предыдущего выполнения для последующих этапов. Если в качестве входных данных используются наборы данных Машинного обучения Azure, то повторное использование зависит от изменения определения набора данных, а не базовых данных.

version: str

Обязательно

Необязательный тег версии для обозначения изменения функциональных возможностей этапа.

permit_cluster_restart: bool

Обязательно

Если указан existing_cluster_id, этот параметр указывает, можно ли перезапустить кластер от имени пользователя.

Поделиться через

DatabricksStep Класс

Конструктор

Параметры

Методы

create_node

Параметры

Возвращаемое значение

Возвращаемый тип

Обратная связь

Обратная связь

Дополнительные ресурсы