DatabricksStep Classe

Cria uma etapa do Pipeline do Azure ML para adicionar um notebook do DataBricks, script Python ou JAR como um nó.

Para obter um exemplo de como usar o DatabricksStep, consulte o notebook https://aka.ms/pl-databricks.

Crie uma etapa do Pipeline do Azure ML para adicionar um notebook do DataBricks, um script Python ou o JAR como um nó.

Para obter um exemplo de como usar o DatabricksStep, consulte o notebook https://aka.ms/pl-databricks.

:p aram python_script_name:[Obrigatório] O nome de um script Python relativo a source_directory. Se o script receber entradas e saídas, elas serão passadas para o script como parâmetros. Se python_script_name for especificado, também source_directory deve ser.

Especifique exatamente um de notebook_path, python_script_pathou python_script_namemain_class_name.

Se você especificar um objeto DataReference como entrada com data_reference_name=input1 e um objeto PipelineData como saída com name=output1, as entradas e saídas serão passadas para o script como parâmetros. É assim que eles serão e você precisará analisar os argumentos em seu script para acessar os caminhos de cada entrada e saída: "-input1", "wasbs://test@storagename.blob.core.windows.net/test","-output1", "wasbs://test@storagename.blob.core.windows.net/b3e26de1-87a4-494d-a20f-1988d22b81a2/output1"

Além disso, os seguintes parâmetros estarão disponíveis no script:

AZUREML_RUN_TOKEN: o token AML para autenticação com o Azure Machine Learning.
AZUREML_RUN_TOKEN_EXPIRY: a hora de expiração do token AML.
AZUREML_RUN_ID: ID de execução do Azure Machine Learning para esta execução.
AZUREML_ARM_SUBSCRIPTION: assinatura do Azure para seu workspace AML.
AZUREML_ARM_RESOURCEGROUP: grupo de recursos do Azure para seu workspace do Azure Machine Learning.
AZUREML_ARM_WORKSPACE_NAME: nome do workspace do Azure Machine Learning.
AZUREML_ARM_PROJECT_NAME: nome do experimento do Azure Machine Learning.
AZUREML_SERVICE_ENDPOINT: a URL do ponto de extremidade para serviços AML.
AZUREML_WORKSPACE_ID: ID do workspace do Azure Machine Learning.
AZUREML_EXPERIMENT_ID: ID do experimento do Azure Machine Learning.
AZUREML_SCRIPT_DIRECTORY_NAME: caminho de diretório no DBFS em que source_directory foi copiado.

  (This parameter is only populated when `python_script_name` is used.  See more details below.)

Quando você estiver executando um script Python de seu computador local no Databricks usando parâmetros source_directory DatabricksStep e python_script_nameo source_directory for copiado para o DBFS e o caminho do diretório no DBFS será passado como um parâmetro para o script quando ele iniciar a execução. Esse parâmetro é rotulado como –AZUREML_SCRIPT_DIRECTORY_NAME. Você precisa prefixá-lo com a cadeia de caracteres "dbfs:/" ou "/dbfs/" para acessar o diretório no DBFS.

Construtor

DatabricksStep(name, inputs=None, outputs=None, existing_cluster_id=None, spark_version=None, node_type=None, instance_pool_id=None, num_workers=None, min_workers=None, max_workers=None, spark_env_variables=None, spark_conf=None, init_scripts=None, cluster_log_dbfs_path=None, notebook_path=None, notebook_params=None, python_script_path=None, python_script_params=None, main_class_name=None, jar_params=None, python_script_name=None, source_directory=None, hash_paths=None, run_name=None, timeout_seconds=None, runconfig=None, maven_libraries=None, pypi_libraries=None, egg_libraries=None, jar_libraries=None, rcran_libraries=None, compute_target=None, allow_reuse=True, version=None, permit_cluster_restart=None)

Parâmetros

Nome	Description
name Obrigatório	str [Obrigatório] O nome da etapa.
inputs	list[Union[InputPortBinding, DataReference, PortDataReference, PipelineData]] Uma lista de conexões de entrada para os dados consumidos por esta etapa. Busque isso dentro do notebook usando dbutils.widgets.get("input_name"). Pode ser DataReference ou PipelineData. DataReference representa uma parte existente de dados em um armazenamento de dados. Essencialmente, esse é um caminho em um armazenamento de dados. O DatabricksStep dá suporte a armazenamentos de dados que encapsulam DBFS, blob do Azure ou ADLS v1. PipelineData representa dados intermediários produzidos por outra etapa em um pipeline. Valor padrão: None
outputs	list[Union[OutputPortBinding, PipelineOutputAbstractDataset, PipelineData]] Uma lista de definições de porta de saída para saídas produzidas por esta etapa. Busque isso dentro do notebook usando dbutils.widgets.get("output_name"). Deve ser PipelineData. Valor padrão: None
existing_cluster_id	str Uma ID de cluster de um cluster interativo existente no workspace do Databricks. Se você estiver passando esse parâmetro, não poderá passar nenhum dos seguintes parâmetros usados para criar um novo cluster: spark_version node_type instance_pool_id num_workers min_workers max_workers spark_env_variables spark_conf Observação: para criar um novo cluster de trabalho, você precisará passar os parâmetros acima. Você pode passar esses parâmetros diretamente ou passá-los como parte do objeto RunConfiguration usando o parâmetro runconfig. Passar esses parâmetros diretamente e por meio de RunConfiguration resulta em um erro. Valor padrão: None
spark_version	str A versão do Spark para o cluster de execução do Databricks, por exemplo: "10.4.x-scala2.12". Para obter mais informações, consulte a descrição do `existing_cluster_id` parâmetro. Valor padrão: None
node_type	str [Obrigatório] Os tipos de nó de VM do Azure para o cluster de execução do Databricks, por exemplo: "Standard_D3_v2". Especifique `node_type` ou `instance_pool_id`. Para obter mais informações, consulte a descrição do `existing_cluster_id` parâmetro. Valor padrão: None
instance_pool_id	str [Obrigatório] A ID do pool de instância à qual o cluster precisa ser anexado. Especifique `node_type` ou `instance_pool_id`. Para obter mais informações, consulte a descrição do `existing_cluster_id` parâmetro. Valor padrão: None
num_workers	int [Obrigatório] O número estático de trabalhos para o cluster de execução do Databricks. Você deve especificar ou `num_workers` ambos `min_workers` e `max_workers`. Para obter mais informações, consulte a descrição do `existing_cluster_id` parâmetro. Valor padrão: None
min_workers	int [Obrigatório] O número mínimo de trabalhos a serem usados para dimensionar automaticamente o cluster de execução do Databricks. Você deve especificar ou `num_workers` ambos `min_workers` e `max_workers`. Para obter mais informações, consulte a descrição do `existing_cluster_id` parâmetro. Valor padrão: None
max_workers	int [Obrigatório] O número máximo de trabalhos a serem usados para dimensionar automaticamente o cluster de execução do Databricks. Você deve especificar ou `num_workers` ambos `min_workers` e `max_workers`. Para obter mais informações, consulte a descrição do `existing_cluster_id` parâmetro. Valor padrão: None
spark_env_variables	dict As variáveis de ambiente do Spark para o cluster de execução do Databricks. Para obter mais informações, consulte a descrição do `existing_cluster_id` parâmetro. Valor padrão: None
spark_conf	dict A configuração do Spark para o cluster de execução do Databricks. Para obter mais informações, consulte a descrição do `existing_cluster_id` parâmetro. Valor padrão: None
init_scripts	[str] Preterido. O Databricks anunciou que o script de inicialização armazenado no DBFS interromperá o trabalho após 1º de dezembro de 2023. Para atenuar o problema, use scripts de inicialização globais no databricks após https://learn.microsoft.com/azure/databricks/init-scripts/global 2) comente a linha de init_scripts na etapa do databricks do AzureML. Valor padrão: None
cluster_log_dbfs_path	str Os caminhos DBFS em que os logs de clusters devem ser entregues. Valor padrão: None
notebook_path	str [Obrigatório] O caminho para o notebook na instância do Databricks. Essa classe permite quatro maneiras de especificar o código a ser executado no cluster do Databricks. Para executar um notebook que esteja presente no workspace do Databricks, use: notebook_path=notebook_path, notebook_params={'myparam': 'testparam'} Para executar um script Python que esteja presente no DBFS, use: python_script_path=python_script_dbfs_path, python_script_params={'arg1', 'arg2'} Para executar um JAR que esteja presente no DBFS, use: main_class_name=main_jar_class_name, jar_params={'arg1', 'arg2'}, jar_libraries=[JarLibrary(jar_library_dbfs_path)] Para executar um script Python que esteja presente no computador local, use: python_script_name=python_script_name, source_directory=source_directory Especifique exatamente um de `notebook_path`, `python_script_path`ou `python_script_namemain_class_name`. Valor padrão: None
notebook_params	dict[str, Union[str, PipelineParameter]] Um dicionário de parâmetros a serem passados para o notebook. `notebook_params` estão disponíveis como widgets. Você pode buscar os valores desses widgets dentro do bloco de anotações usando dbutils.widgets.get("myparam"). Valor padrão: None
python_script_path	str [Obrigatório] O caminho para o script python no DBFS. Especifique exatamente um de `notebook_path`, `python_script_path`ou `python_script_namemain_class_name`. Valor padrão: None
python_script_params	list[str, PipelineParameter] Parâmetros para o script Python. Valor padrão: None
main_class_name	str [Obrigatório] O nome do ponto de entrada em um módulo JAR. Especifique exatamente um de `notebook_path`, `python_script_path`ou `python_script_namemain_class_name`. Valor padrão: None
jar_params	list[str, PipelineParameter] Parâmetros para o módulo JAR. Valor padrão: None
python_script_name	str [Obrigatório] O nome de um script Python em relação a `source_directory`. Se o script receber entradas e saídas, elas serão passadas para o script como parâmetros. Se `python_script_name` for especificado, também `source_directory` deve ser. Especifique exatamente um de `notebook_path`, `python_script_path`ou `python_script_namemain_class_name`. Se você especificar um objeto DataReference como entrada com data_reference_name=input1 e um objeto PipelineData como saída com name=output1, as entradas e saídas serão passadas para o script como parâmetros. É assim que eles serão e você precisará analisar os argumentos em seu script para acessar os caminhos de cada entrada e saída: "-input1", "wasbs://test@storagename.blob.core.windows.net/test","-output1", "wasbs://test@storagename.blob.core.windows.net/b3e26de1-87a4-494d-a20f-1988d22b81a2/output1" Além disso, os seguintes parâmetros estarão disponíveis no script: AZUREML_RUN_TOKEN: o token AML para autenticação com o Azure Machine Learning. AZUREML_RUN_TOKEN_EXPIRY: a hora de expiração do token AML. AZUREML_RUN_ID: ID de execução do Azure Machine Learning para esta execução. AZUREML_ARM_SUBSCRIPTION: assinatura do Azure para seu workspace AML. AZUREML_ARM_RESOURCEGROUP: grupo de recursos do Azure para seu workspace do Azure Machine Learning. AZUREML_ARM_WORKSPACE_NAME: nome do workspace do Azure Machine Learning. AZUREML_ARM_PROJECT_NAME: nome do experimento do Azure Machine Learning. AZUREML_SERVICE_ENDPOINT: a URL do ponto de extremidade para serviços AML. AZUREML_WORKSPACE_ID: ID do workspace do Azure Machine Learning. AZUREML_EXPERIMENT_ID: ID do experimento do Azure Machine Learning. AZUREML_SCRIPT_DIRECTORY_NAME: caminho de diretório no DBFS em que source_directory foi copiado. (Esse parâmetro só é preenchido quando `python_script_name` é usado. Veja mais detalhes abaixo.) Quando você estiver executando um script Python de seu computador local no Databricks usando parâmetros `source_directory` DatabricksStep e `python_script_name`o source_directory for copiado para o DBFS e o caminho do diretório no DBFS será passado como um parâmetro para o script quando ele iniciar a execução. Esse parâmetro é rotulado como –AZUREML_SCRIPT_DIRECTORY_NAME. Você precisa prefixá-lo com a cadeia de caracteres "dbfs:/" ou "/dbfs/" para acessar o diretório no DBFS. Valor padrão: None
source_directory	str A pasta que contém o script e outros arquivos. Se `python_script_name` for especificado, também `source_directory` deve ser. Valor padrão: None
hash_paths	[str] PRETERIDO: não é mais necessário. Uma lista de caminhos para o hash ao verificar se há alterações no conteúdo da etapa. Se não houver alterações detectadas, o pipeline reutilizará o conteúdo da etapa de uma execução anterior. Por padrão, o conteúdo é `source_directory` hash, exceto para arquivos listados em .amlignore ou .gitignore. Valor padrão: None
run_name	str O nome no Databricks para esta execução. Valor padrão: None
timeout_seconds	int O tempo limite para a execução do Databricks. Valor padrão: None
runconfig	RunConfiguration A configuração de execução a ser usada. Observação: você pode passar quantas bibliotecas quiser como dependências para seu trabalho usando os seguintes parâmetros: `maven_libraries`, , `pypi_libraries`, `egg_libraries`, `jar_libraries`ou `rcran_libraries`. Passe esses parâmetros diretamente com seus parâmetros correspondentes ou como parte do objeto RunConfiguration usando o `runconfig` parâmetro, mas não ambos. Valor padrão: None
maven_libraries	list[MavenLibrary] Bibliotecas maven a serem usadas para a execução do Databricks. Valor padrão: None
pypi_libraries	list[PyPiLibrary] Bibliotecas de PyPi a serem usadas para a execução do Databricks. Valor padrão: None
egg_libraries	list[EggLibrary] Bibliotecas de ovos a serem usadas para a execução do Databricks. Valor padrão: None
jar_libraries	list[JarLibrary] Bibliotecas jar a serem usadas para a execução do Databricks. Valor padrão: None
rcran_libraries	list[RCranLibrary] Bibliotecas RCran a serem usadas para a execução do Databricks. Valor padrão: None
compute_target	str, DatabricksCompute [Obrigatório] Uma computação do Azure Databricks. Antes de usar o DatabricksStep para executar seus scripts ou notebooks em um workspace do Azure Databricks, você precisa adicionar o workspace do Azure Databricks como um destino de computação ao workspace do Azure Machine Learning. Valor padrão: None
allow_reuse	bool Indica se a etapa deve reutilizar os resultados anteriores ao executar novamente com as mesmas configurações. A reutilização é habilitada por padrão. Se o conteúdo da etapa (scripts/dependências), bem como entradas e parâmetros permanecerem inalterados, a saída da execução anterior desta etapa será reutilizado. Ao reutilizar a etapa, em vez de enviar o trabalho para computação, os resultados da execução anterior são imediatamente disponibilizados para quaisquer etapas subsequentes. Se você usar conjuntos de dados do Azure Machine Learning como entradas, a reutilização será determinada se a definição do conjunto de dados foi alterada, não se os dados subjacentes foram alterados. Valor padrão: True
version	str Uma marca de versão opcional para indicar uma alteração na funcionalidade da etapa. Valor padrão: None
permit_cluster_restart	bool se existing_cluster_id for especificado, esse parâmetro informará se o cluster pode ser reiniciado em nome do usuário. Valor padrão: None
name Obrigatório	str [Obrigatório] O nome da etapa.
inputs Obrigatório	list[Union[InputPortBinding, DataReference, PortDataReference, PipelineData]] Lista de conexões de entrada para dados consumidos por esta etapa. Busque isso dentro do notebook usando dbutils.widgets.get("input_name"). Pode ser DataReference ou PipelineData. DataReference representa uma parte existente de dados em um armazenamento de dados. Essencialmente, esse é um caminho em um armazenamento de dados. O DatabricksStep dá suporte a armazenamentos de dados que encapsulam DBFS, blob do Azure ou ADLS v1. PipelineData representa dados intermediários produzidos por outra etapa em um pipeline.
outputs Obrigatório	list[Union[OutputPortBinding, <xref:azureml.pipeline.core.pipeline_output_dataset.PipelineOutputDataset>, PipelineData]] Uma lista de definições de porta de saída para saídas produzidas por esta etapa. Busque isso dentro do notebook usando dbutils.widgets.get("output_name"). Deve ser PipelineData.
existing_cluster_id Obrigatório	str Uma ID de cluster de um cluster interativo existente no workspace do Databricks. Se você estiver passando esse parâmetro, não poderá passar nenhum dos seguintes parâmetros usados para criar um novo cluster: spark_version node_type instance_pool_id num_workers min_workers max_workers spark_env_variables spark_conf Observação: para criar um novo cluster de trabalho, você precisará passar os parâmetros acima. Você pode passar esses parâmetros diretamente ou passá-los como parte do objeto RunConfiguration usando o parâmetro runconfig. Passar esses parâmetros diretamente e por meio de RunConfiguration resulta em um erro.
spark_version Obrigatório	str A versão do Spark para o cluster de execução do Databricks, por exemplo: "10.4.x-scala2.12". Para obter mais informações, consulte a descrição do `existing_cluster_id` parâmetro.
node_type Obrigatório	str [Obrigatório] Os tipos de nó de VM do Azure para o cluster de execução do Databricks, por exemplo: "Standard_D3_v2". Especifique `node_type` ou `instance_pool_id`. Para obter mais informações, consulte a descrição do `existing_cluster_id` parâmetro.
instance_pool_id Obrigatório	str [Obrigatório] A ID do pool de instância à qual o cluster precisa ser anexado. Especifique `node_type` ou `instance_pool_id`. Para obter mais informações, consulte a descrição do `existing_cluster_id` parâmetro.
num_workers Obrigatório	int [Obrigatório] O número estático de trabalhos para o cluster de execução do Databricks. Você deve especificar ou `num_workers` ambos `min_workers` e `max_workers`. Para obter mais informações, consulte a descrição do `existing_cluster_id` parâmetro.
min_workers Obrigatório	int [Obrigatório] O número mínimo de trabalhos a serem usados para dimensionar automaticamente o cluster de execução do Databricks. Você deve especificar ou `num_workers` ambos `min_workers` e `max_workers`. Para obter mais informações, consulte a descrição do `existing_cluster_id` parâmetro.
max_workers Obrigatório	int [Obrigatório] O número máximo de trabalhos a serem usados para dimensionar automaticamente o cluster de execução do Databricks. Você deve especificar ou `num_workers` ambos `min_workers` e `max_workers`. Para obter mais informações, consulte a descrição do `existing_cluster_id` parâmetro.
spark_env_variables Obrigatório	dict As variáveis de ambiente do Spark para o cluster de execução do Databricks. Para obter mais informações, consulte a descrição do `existing_cluster_id` parâmetro.
spark_conf Obrigatório	dict A configuração do Spark para o cluster de execução do Databricks. Para obter mais informações, consulte a descrição do `existing_cluster_id` parâmetro.
init_scripts Obrigatório	[str] Preterido. O Databricks anunciou que o script de inicialização armazenado no DBFS interromperá o trabalho após 1º de dezembro de 2023. Para atenuar o problema, use scripts de inicialização globais no databricks após https://learn.microsoft.com/azure/databricks/init-scripts/global 2) comente a linha de init_scripts na etapa do databricks do AzureML.
cluster_log_dbfs_path Obrigatório	str Os caminhos DBFS em que os logs de clusters devem ser entregues.
notebook_path Obrigatório	str [Obrigatório] O caminho para o notebook na instância do Databricks. Essa classe permite quatro maneiras de especificar o código a ser executado no cluster do Databricks. Para executar um notebook que esteja presente no workspace do Databricks, use: notebook_path=notebook_path, notebook_params={'myparam': 'testparam'} Para executar um script Python que esteja presente no DBFS, use: python_script_path=python_script_dbfs_path, python_script_params={'arg1', 'arg2'} Para executar um JAR que esteja presente no DBFS, use: main_class_name=main_jar_class_name, jar_params={'arg1', 'arg2'}, jar_libraries=[JarLibrary(jar_library_dbfs_path)] Para executar um script Python que esteja presente no computador local, use: python_script_name=python_script_name, source_directory=source_directory Especifique exatamente um de `notebook_path`, `python_script_path`ou `python_script_namemain_class_name`.
notebook_params Obrigatório	dict[str, (str ou PipelineParameter)] Um dicionário de parâmetros a serem passados para o notebook. `notebook_params` estão disponíveis como widgets. Você pode buscar os valores desses widgets dentro do bloco de anotações usando dbutils.widgets.get("myparam").
python_script_path Obrigatório	str [Obrigatório] O caminho para o script python no DBFS. Especifique exatamente um de `notebook_path`, `python_script_path`ou `python_script_namemain_class_name`.
python_script_params Obrigatório	list[str, PipelineParameter] Parâmetros para o script Python.
main_class_name Obrigatório	str [Obrigatório] O nome do ponto de entrada em um módulo JAR. Especifique exatamente um de `notebook_path`, `python_script_path`ou `python_script_namemain_class_name`.
jar_params Obrigatório	list[str, PipelineParameter] Parâmetros para o módulo JAR.
source_directory Obrigatório	str A pasta que contém o script e outros arquivos. Se `python_script_name` for especificado, também `source_directory` deve ser.
hash_paths Obrigatório	[str] PRETERIDO: não é mais necessário. Uma lista de caminhos para o hash ao verificar se há alterações no conteúdo da etapa. Se não houver alterações detectadas, o pipeline reutilizará o conteúdo da etapa de uma execução anterior. Por padrão, o conteúdo é `source_directory` hash, exceto para arquivos listados em .amlignore ou .gitignore.
run_name Obrigatório	str O nome no Databricks para esta execução.
timeout_seconds Obrigatório	int O tempo limite para a execução do Databricks.
runconfig Obrigatório	RunConfiguration A configuração de execução a ser usada. Observação: você pode passar quantas bibliotecas quiser como dependências para seu trabalho usando os seguintes parâmetros: `maven_libraries`, , `pypi_libraries`, `egg_libraries`, `jar_libraries`ou `rcran_libraries`. Passe esses parâmetros diretamente com seus parâmetros correspondentes ou como parte do objeto RunConfiguration usando o `runconfig` parâmetro, mas não ambos.
maven_libraries Obrigatório	list[<xref:azureml.core.runconfig.MavenLibrary>] Bibliotecas maven a serem usadas para a execução do Databricks. Para obter mais informações sobre a especificação de bibliotecas Maven, consulte `help(azureml.core.runconfig.MavenLibrary)`.
pypi_libraries Obrigatório	list[<xref:azureml.core.runconfig.PyPiLibrary>] Bibliotecas de PyPi a serem usadas para a execução do Databricks. Para obter mais informações sobre a especificação de bibliotecas PyPi, consulte `help(azureml.core.runconfig.PyPiLibrary)`.
egg_libraries Obrigatório	list[<xref:azureml.core.runconfig.EggLibrary>] Bibliotecas de ovos a serem usadas para a execução do Databricks. Para obter mais informações sobre a especificação das bibliotecas egg, consulte `help(azureml.core.runconfig.EggLibrary)`.
jar_libraries Obrigatório	list[<xref:azureml.core.runconfig.JarLibrary>] Bibliotecas jar a serem usadas para a execução do Databricks. Para obter mais informações sobre a especificação das bibliotecas Jar, consulte `help(azureml.core.runconfig.JarLibrary)`.
rcran_libraries Obrigatório	list[<xref:azureml.core.runconfig.RCranLibrary>] Bibliotecas RCran a serem usadas para a execução do Databricks. Para obter mais informações sobre a especificação de bibliotecas RCran, consulte `help(azureml.core.runconfig.RCranLibrary)`.
compute_target Obrigatório	str, DatabricksCompute [Obrigatório] Computação do Azure Databricks. Antes de usar o DatabricksStep para executar seus scripts ou notebooks em um workspace do Azure Databricks, você precisa adicionar o workspace do Azure Databricks como um destino de computação ao workspace do Azure Machine Learning.
allow_reuse Obrigatório	bool Indica se a etapa deve reutilizar os resultados anteriores ao executar novamente com as mesmas configurações. A reutilização é habilitada por padrão. Se o conteúdo da etapa (scripts/dependências), bem como entradas e parâmetros permanecerem inalterados, a saída da execução anterior desta etapa será reutilizado. Ao reutilizar a etapa, em vez de enviar o trabalho para computação, os resultados da execução anterior são imediatamente disponibilizados para quaisquer etapas subsequentes. Se você usar conjuntos de dados do Azure Machine Learning como entradas, a reutilização será determinada se a definição do conjunto de dados foi alterada, não se os dados subjacentes foram alterados.
version Obrigatório	str Uma marca de versão opcional para indicar uma alteração na funcionalidade da etapa.
permit_cluster_restart Obrigatório	bool se existing_cluster_id for especificado, esse parâmetro informará se o cluster pode ser reiniciado em nome do usuário.

Métodos

create_node

Crie um nó a partir da etapa do Databricks e adicione-o ao grafo especificado.

Esse método não se destina a ser usado diretamente. Quando um pipeline é instanciado com essa etapa, o Azure ML passa automaticamente os parâmetros necessários por meio desse método para que essa etapa possa ser adicionada a um grafo de pipeline que representa o fluxo de trabalho.

create_node

Crie um nó a partir da etapa do Databricks e adicione-o ao grafo especificado.

create_node(graph, default_datastore, context)

Parâmetros

Nome	Description
graph Obrigatório	Graph O objeto de grafo ao qual adicionar o nó.
default_datastore Obrigatório	Union[AbstractAzureStorageDatastore, AzureDataLakeDatastore] O armazenamento de dados padrão.
context Obrigatório	<xref:azureml.pipeline.core._GraphContext> O contexto do grafo.

Retornos

Tipo	Description
Node	O nó criado.

Comentários

Esta página foi útil?

Compartilhar via

DatabricksStep Classe

Construtor

Parâmetros

Métodos

create_node

Parâmetros

Retornos

Comentários