Condividi tramite


DatabricksStep Classe

Crea un passaggio della pipeline di Azure ML per aggiungere un notebook di DataBricks, uno script Python o un file JAR come nodo.

Per un esempio di uso di DatabricksStep, vedere il notebook https://aka.ms/pl-databricks.

Creare un passaggio della pipeline di Azure ML per aggiungere un notebook di DataBricks, uno script Python o un file JAR come nodo.

Per un esempio di uso di DatabricksStep, vedere il notebook https://aka.ms/pl-databricks.

:p aram python_script_name:[Obbligatorio] Nome di uno script Python relativo a source_directory. Se lo script accetta input e output, questi verranno passati allo script come parametri. Se python_script_name viene specificato, source_directory deve essere troppo.

Specificare esattamente uno di notebook_path, python_script_path, python_script_nameo main_class_name.

Se si specifica un oggetto DataReference come input con data_reference_name=input1 e un oggetto PipelineData come output con name=output1, gli input e gli output verranno passati allo script come parametri. Questo è il modo in cui saranno simili e sarà necessario analizzare gli argomenti nello script per accedere ai percorsi di ogni input e output: "-input1","wasbs://test@storagename.blob.core.windows.net/test","-output1", "wasbs://test@storagename.blob.core.windows.net/b3e26de1-87a4-494d-a20f-1988d22b81a2/output1"

Inoltre, i parametri seguenti saranno disponibili all'interno dello script:

  • AZUREML_RUN_TOKEN: token AML per l'autenticazione con Azure Machine Learning.
  • AZUREML_RUN_TOKEN_EXPIRY: ora di scadenza del token AML.
  • AZUREML_RUN_ID: ID di esecuzione di Azure Machine Learning per questa esecuzione.
  • AZUREML_ARM_SUBSCRIPTION: sottoscrizione di Azure per l'area di lavoro AML.
  • AZUREML_ARM_RESOURCEGROUP: gruppo di risorse di Azure per l'area di lavoro di Azure Machine Learning.
  • AZUREML_ARM_WORKSPACE_NAME: nome dell'area di lavoro di Azure Machine Learning.
  • AZUREML_ARM_PROJECT_NAME: nome dell'esperimento di Azure Machine Learning.
  • AZUREML_SERVICE_ENDPOINT: URL dell'endpoint per i servizi AML.
  • AZUREML_WORKSPACE_ID: ID dell'area di lavoro di Azure Machine Learning.
  • AZUREML_EXPERIMENT_ID: ID dell'esperimento di Azure Machine Learning.
  • AZUREML_SCRIPT_DIRECTORY_NAME: percorso della directory in DBFS in cui source_directory è stato copiato.
  (This parameter is only populated when `python_script_name` is used.  See more details below.)

Quando si esegue uno script Python dal computer locale in Databricks usando i source_directory parametri DatabricksStep e python_script_name, il source_directory viene copiato in DBFS e il percorso della directory in DBFS viene passato come parametro allo script quando inizia l'esecuzione. Questo parametro viene etichettato come –AZUREML_SCRIPT_DIRECTORY_NAME. È necessario anteporre la stringa "dbfs:/" o "/dbfs/" per accedere alla directory in DBFS.

Ereditarietà
azureml.pipeline.core._databricks_step_base._DatabricksStepBase
DatabricksStep

Costruttore

DatabricksStep(name, inputs=None, outputs=None, existing_cluster_id=None, spark_version=None, node_type=None, instance_pool_id=None, num_workers=None, min_workers=None, max_workers=None, spark_env_variables=None, spark_conf=None, init_scripts=None, cluster_log_dbfs_path=None, notebook_path=None, notebook_params=None, python_script_path=None, python_script_params=None, main_class_name=None, jar_params=None, python_script_name=None, source_directory=None, hash_paths=None, run_name=None, timeout_seconds=None, runconfig=None, maven_libraries=None, pypi_libraries=None, egg_libraries=None, jar_libraries=None, rcran_libraries=None, compute_target=None, allow_reuse=True, version=None, permit_cluster_restart=None)

Parametri

name
str
Necessario

[Obbligatorio] Nome del passaggio.

inputs
list[Union[InputPortBinding, DataReference, PortDataReference, PipelineData]]
valore predefinito: None

Elenco di connessioni di input per i dati utilizzati da questo passaggio. Recuperarlo all'interno del notebook usando dbutils.widgets.get("input_name"). Può essere DataReference o PipelineData. DataReference rappresenta una parte di dati esistente in un archivio dati. Essenzialmente si tratta di un percorso in un archivio dati. DatabricksStep supporta archivi dati che incapsula DBFS, BLOB di Azure o ADLS v1. PipelineData rappresenta i dati intermedi prodotti da un altro passaggio in una pipeline.

outputs
list[Union[OutputPortBinding, PipelineOutputAbstractDataset, PipelineData]]
valore predefinito: None

Elenco delle definizioni delle porte di output per gli output generati da questo passaggio. Recuperarlo all'interno del notebook usando dbutils.widgets.get("output_name"). Deve essere PipelineData.

existing_cluster_id
str
valore predefinito: None

ID cluster di un cluster interattivo esistente nell'area di lavoro di Databricks. Se si passa questo parametro, non è possibile passare uno dei parametri seguenti che vengono usati per creare un nuovo cluster:

  • spark_version
  • Node_type
  • instance_pool_id
  • num_workers
  • min_workers
  • max_workers
  • spark_env_variables
  • spark_conf

Nota: per creare un nuovo cluster di processi, è necessario passare i parametri precedenti. È possibile passare questi parametri direttamente oppure passarli come parte dell'oggetto RunConfiguration usando il parametro runconfig. Il passaggio di questi parametri direttamente e tramite RunConfiguration genera un errore.

spark_version
str
valore predefinito: None

La versione di Spark per il cluster di esecuzione di Databricks, ad esempio: "10.4.x-scala2.12". Per altre informazioni, vedere la descrizione del existing_cluster_id parametro .

node_type
str
valore predefinito: None

[Obbligatorio] I tipi di nodo della macchina virtuale di Azure per il cluster di esecuzione di Databricks, ad esempio "Standard_D3_v2". Specificare node_type o instance_pool_id. Per altre informazioni, vedere la descrizione del existing_cluster_id parametro .

instance_pool_id
str
valore predefinito: None

[Obbligatorio] ID del pool di istanze a cui deve essere collegato il cluster. Specificare node_type o instance_pool_id. Per altre informazioni, vedere la descrizione del existing_cluster_id parametro .

num_workers
int
valore predefinito: None

[Obbligatorio] Numero statico di ruoli di lavoro per il cluster di esecuzione di Databricks. È necessario specificare num_workers o sia min_workers che .max_workers Per altre informazioni, vedere la descrizione del existing_cluster_id parametro .

min_workers
int
valore predefinito: None

[Obbligatorio] Numero minimo di ruoli di lavoro da usare per il ridimensionamento automatico del cluster di esecuzione di Databricks. È necessario specificare num_workers o sia min_workers che .max_workers Per altre informazioni, vedere la descrizione del existing_cluster_id parametro .

max_workers
int
valore predefinito: None

[Obbligatorio] Numero massimo di ruoli di lavoro da usare per il ridimensionamento automatico del cluster di esecuzione di Databricks. È necessario specificare num_workers o sia min_workers che .max_workers Per altre informazioni, vedere la descrizione del existing_cluster_id parametro .

spark_env_variables
dict
valore predefinito: None

Le variabili di ambiente Spark per il cluster di esecuzione di Databricks. Per altre informazioni, vedere la descrizione del existing_cluster_id parametro .

spark_conf
dict
valore predefinito: None

Configurazione spark per il cluster di esecuzione di Databricks. Per altre informazioni, vedere la descrizione del existing_cluster_id parametro .

init_scripts
[str]
valore predefinito: None

Deprecato. Databricks ha annunciato che lo script init archiviato in DBFS smetterà di funzionare dopo il 1° dicembre 2023. Per attenuare il problema, usare script init globali in databricks seguenti https://learn.microsoft.com/azure/databricks/init-scripts/global 2) impostare come commento la riga di init_scripts nel passaggio databricks di AzureML.

cluster_log_dbfs_path
str
valore predefinito: None

Percorsi DBFS in cui devono essere recapitati i log dei cluster.

notebook_path
str
valore predefinito: None

[Obbligatorio] Percorso del notebook nell'istanza di Databricks. Questa classe consente di specificare quattro modi per specificare il codice da eseguire nel cluster Databricks.

  1. Per eseguire un notebook presente nell'area di lavoro di Databricks, usare: notebook_path=notebook_path, notebook_params={'myparam': 'testparam'}

  2. Per eseguire uno script Python presente in DBFS, usare: python_script_path=python_script_dbfs_path, python_script_params={'arg1', 'arg2'}

  3. Per eseguire un file JAR presente in DBFS, usare: main_class_name=main_jar_class_name, jar_params={'arg1', 'arg2'}, jar_libraries=[JarLibrary(jar_library_dbfs_path)]

  4. Per eseguire uno script Python presente nel computer locale, usare: python_script_name=python_script_name, source_directory=source_directory

Specificare esattamente uno di notebook_path, python_script_path, python_script_nameo main_class_name.

notebook_params
dict[str, Union[str, PipelineParameter]]
valore predefinito: None

Dizionario di parametri da passare al notebook. notebook_params sono disponibili come widget. È possibile recuperare i valori da questi widget all'interno del notebook usando dbutils.widgets.get("myparam").

python_script_path
str
valore predefinito: None

[Obbligatorio] Percorso dello script Python in DBFS. Specificare esattamente uno di notebook_path, python_script_path, python_script_nameo main_class_name.

python_script_params
list[str, PipelineParameter]
valore predefinito: None

Parametri per lo script Python.

main_class_name
str
valore predefinito: None

[Obbligatorio] Nome del punto di ingresso in un modulo JAR. Specificare esattamente uno di notebook_path, python_script_path, python_script_nameo main_class_name.

jar_params
list[str, PipelineParameter]
valore predefinito: None

Parametri per il modulo JAR.

python_script_name
str
valore predefinito: None

[Obbligatorio] Nome di uno script Python relativo a source_directory. Se lo script accetta input e output, questi verranno passati allo script come parametri. Se python_script_name viene specificato, source_directory deve essere troppo.

Specificare esattamente uno di notebook_path, python_script_path, python_script_nameo main_class_name.

Se si specifica un oggetto DataReference come input con data_reference_name=input1 e un oggetto PipelineData come output con name=output1, gli input e gli output verranno passati allo script come parametri. Questo è il modo in cui saranno simili e sarà necessario analizzare gli argomenti nello script per accedere ai percorsi di ogni input e output: "-input1","wasbs://test@storagename.blob.core.windows.net/test","-output1", "wasbs://test@storagename.blob.core.windows.net/b3e26de1-87a4-494d-a20f-1988d22b81a2/output1"

Inoltre, i parametri seguenti saranno disponibili all'interno dello script:

  • AZUREML_RUN_TOKEN: token AML per l'autenticazione con Azure Machine Learning.
  • AZUREML_RUN_TOKEN_EXPIRY: ora di scadenza del token AML.
  • AZUREML_RUN_ID: ID di esecuzione di Azure Machine Learning per questa esecuzione.
  • AZUREML_ARM_SUBSCRIPTION: sottoscrizione di Azure per l'area di lavoro AML.
  • AZUREML_ARM_RESOURCEGROUP: gruppo di risorse di Azure per l'area di lavoro di Azure Machine Learning.
  • AZUREML_ARM_WORKSPACE_NAME: nome dell'area di lavoro di Azure Machine Learning.
  • AZUREML_ARM_PROJECT_NAME: nome dell'esperimento di Azure Machine Learning.
  • AZUREML_SERVICE_ENDPOINT: URL dell'endpoint per i servizi AML.
  • AZUREML_WORKSPACE_ID: ID dell'area di lavoro di Azure Machine Learning.
  • AZUREML_EXPERIMENT_ID: ID dell'esperimento di Azure Machine Learning.
  • AZUREML_SCRIPT_DIRECTORY_NAME: percorso della directory in DBFS in cui source_directory è stato copiato. Questo parametro viene popolato solo quando python_script_name viene usato. Vedere altri dettagli di seguito.

Quando si esegue uno script Python dal computer locale in Databricks usando i source_directory parametri DatabricksStep e python_script_name, il source_directory viene copiato in DBFS e il percorso della directory in DBFS viene passato come parametro allo script quando inizia l'esecuzione. Questo parametro viene etichettato come –AZUREML_SCRIPT_DIRECTORY_NAME. È necessario anteporre la stringa "dbfs:/" o "/dbfs/" per accedere alla directory in DBFS.

source_directory
str
valore predefinito: None

Cartella contenente lo script e altri file. Se python_script_name viene specificato, source_directory deve essere troppo.

hash_paths
[str]
valore predefinito: None

DEPRECATO: non più necessario.

Elenco di percorsi di hash durante il controllo delle modifiche apportate al contenuto del passaggio. Se non sono state rilevate modifiche, la pipeline riutilizzerà il contenuto del passaggio da un'esecuzione precedente. Per impostazione predefinita, il contenuto di viene sottoposto a hash, ad eccezione dei source_directory file elencati in .amlignore o .gitignore.

run_name
str
valore predefinito: None

Nome in Databricks per questa esecuzione.

timeout_seconds
int
valore predefinito: None

Timeout per l'esecuzione di Databricks.

runconfig
RunConfiguration
valore predefinito: None

Runconfig da usare.

Nota: è possibile passare tutte le librerie desiderate come dipendenze al processo usando i parametri seguenti: maven_libraries, pypi_libraries, egg_libraries, jar_librarieso rcran_libraries. Passare questi parametri direttamente con i parametri corrispondenti o come parte dell'oggetto RunConfiguration usando il runconfig parametro , ma non entrambi.

maven_libraries
list[MavenLibrary]
valore predefinito: None

Librerie Maven da usare per l'esecuzione di Databricks.

pypi_libraries
list[PyPiLibrary]
valore predefinito: None

Librerie PyPi da usare per l'esecuzione di Databricks.

egg_libraries
list[EggLibrary]
valore predefinito: None

Librerie Egg da usare per l'esecuzione di Databricks.

jar_libraries
list[JarLibrary]
valore predefinito: None

Librerie JAR da usare per l'esecuzione di Databricks.

rcran_libraries
list[RCranLibrary]
valore predefinito: None

Librerie RCran da usare per l'esecuzione di Databricks.

compute_target
str, DatabricksCompute
valore predefinito: None

[Obbligatorio] Un ambiente di calcolo di Azure Databricks. Prima di poter usare DatabricksStep per eseguire gli script o i notebook in un'area di lavoro di Azure Databricks, è necessario aggiungere l'area di lavoro di Azure Databricks come destinazione di calcolo all'area di lavoro di Azure Machine Learning.

allow_reuse
bool
valore predefinito: True

Indica se il passaggio deve riutilizzare i risultati precedenti quando viene eseguito di nuovo con le stesse impostazioni. Il riutilizzo è abilitato per impostazione predefinita. Se il contenuto del passaggio (script/dipendenze) e gli input e i parametri rimangono invariati, l'output dell'esecuzione precedente di questo passaggio viene riutilizzato. Quando si riutilizza il passaggio, anziché inviare il processo al calcolo, i risultati dell'esecuzione precedente vengono immediatamente resi disponibili per tutti i passaggi successivi. Se si usano set di dati di Azure Machine Learning come input, il riutilizzo viene determinato dal fatto che la definizione del set di dati sia stata modificata, non dal fatto che i dati sottostanti siano stati modificati.

version
str
valore predefinito: None

Tag di versione facoltativo per indicare una modifica delle funzionalità per il passaggio.

permit_cluster_restart
bool
valore predefinito: None

se viene specificato existing_cluster_id, questo parametro indica se il cluster può essere riavviato per conto dell'utente.

name
str
Necessario

[Obbligatorio] Nome del passaggio.

inputs
list[Union[InputPortBinding, DataReference, PortDataReference, PipelineData]]
Necessario

Elenco di connessioni di input per i dati utilizzati da questo passaggio. Recuperarlo all'interno del notebook usando dbutils.widgets.get("input_name"). Può essere DataReference o PipelineData. DataReference rappresenta una parte di dati esistente in un archivio dati. Essenzialmente si tratta di un percorso in un archivio dati. DatabricksStep supporta archivi dati che incapsula DBFS, BLOB di Azure o ADLS v1. PipelineData rappresenta i dati intermedi prodotti da un altro passaggio in una pipeline.

outputs
list[Union[OutputPortBinding, <xref:azureml.pipeline.core.pipeline_output_dataset.PipelineOutputDataset>, PipelineData]]
Necessario

Elenco delle definizioni delle porte di output per gli output generati da questo passaggio. Recuperarlo all'interno del notebook usando dbutils.widgets.get("output_name"). Deve essere PipelineData.

existing_cluster_id
str
Necessario

ID cluster di un cluster interattivo esistente nell'area di lavoro di Databricks. Se si passa questo parametro, non è possibile passare uno dei parametri seguenti che vengono usati per creare un nuovo cluster:

  • spark_version
  • Node_type
  • instance_pool_id
  • num_workers
  • min_workers
  • max_workers
  • spark_env_variables
  • spark_conf

Nota: per creare un nuovo cluster di processi, è necessario passare i parametri precedenti. È possibile passare questi parametri direttamente oppure passarli come parte dell'oggetto RunConfiguration usando il parametro runconfig. Il passaggio di questi parametri direttamente e tramite RunConfiguration genera un errore.

spark_version
str
Necessario

La versione di Spark per il cluster di esecuzione di Databricks, ad esempio: "10.4.x-scala2.12". Per altre informazioni, vedere la descrizione del existing_cluster_id parametro .

node_type
str
Necessario

[Obbligatorio] I tipi di nodo della macchina virtuale di Azure per il cluster di esecuzione di Databricks, ad esempio "Standard_D3_v2". Specificare node_type o instance_pool_id. Per altre informazioni, vedere la descrizione del existing_cluster_id parametro .

instance_pool_id
str
Necessario

[Obbligatorio] ID del pool di istanze a cui deve essere collegato il cluster. Specificare node_type o instance_pool_id. Per altre informazioni, vedere la descrizione del existing_cluster_id parametro .

num_workers
int
Necessario

[Obbligatorio] Numero statico di ruoli di lavoro per il cluster di esecuzione di Databricks. È necessario specificare num_workers o sia min_workers che .max_workers

Per altre informazioni, vedere la descrizione del existing_cluster_id parametro .

min_workers
int
Necessario

[Obbligatorio] Numero minimo di ruoli di lavoro da usare per il ridimensionamento automatico del cluster di esecuzione di Databricks. È necessario specificare num_workers o sia min_workers che .max_workers

Per altre informazioni, vedere la descrizione del existing_cluster_id parametro .

max_workers
int
Necessario

[Obbligatorio] Numero massimo di ruoli di lavoro da usare per il ridimensionamento automatico del cluster di esecuzione di Databricks. È necessario specificare num_workers o sia min_workers che .max_workers

Per altre informazioni, vedere la descrizione del existing_cluster_id parametro .

spark_env_variables
dict
Necessario

Le variabili di ambiente Spark per il cluster di esecuzione di Databricks. Per altre informazioni, vedere la descrizione del existing_cluster_id parametro .

spark_conf
dict
Necessario

Configurazione spark per il cluster di esecuzione di Databricks. Per altre informazioni, vedere la descrizione del existing_cluster_id parametro .

init_scripts
[str]
Necessario

Deprecato. Databricks ha annunciato che lo script init archiviato in DBFS smetterà di funzionare dopo il 1° dicembre 2023. Per attenuare il problema, usare script init globali in databricks seguenti https://learn.microsoft.com/azure/databricks/init-scripts/global 2) impostare come commento la riga di init_scripts nel passaggio databricks di AzureML.

cluster_log_dbfs_path
str
Necessario

Percorsi DBFS in cui devono essere recapitati i log dei cluster.

notebook_path
str
Necessario

[Obbligatorio] Percorso del notebook nell'istanza di Databricks. Questa classe consente di specificare quattro modi per specificare il codice da eseguire nel cluster Databricks.

  1. Per eseguire un notebook presente nell'area di lavoro di Databricks, usare: notebook_path=notebook_path, notebook_params={'myparam': 'testparam'}

  2. Per eseguire uno script Python presente in DBFS, usare: python_script_path=python_script_dbfs_path, python_script_params={'arg1', 'arg2'}

  3. Per eseguire un file JAR presente in DBFS, usare: main_class_name=main_jar_class_name, jar_params={'arg1', 'arg2'}, jar_libraries=[JarLibrary(jar_library_dbfs_path)]

  4. Per eseguire uno script Python presente nel computer locale, usare: python_script_name=python_script_name, source_directory=source_directory

Specificare esattamente uno di notebook_path, python_script_path, python_script_nameo main_class_name.

notebook_params
dict[str, (str oppure PipelineParameter)]
Necessario

Dizionario di parametri da passare al notebook. notebook_params sono disponibili come widget. È possibile recuperare i valori da questi widget all'interno del notebook usando dbutils.widgets.get("myparam").

python_script_path
str
Necessario

[Obbligatorio] Percorso dello script Python in DBFS. Specificare esattamente uno di notebook_path, python_script_path, python_script_nameo main_class_name.

python_script_params
list[str, PipelineParameter]
Necessario

Parametri per lo script Python.

main_class_name
str
Necessario

[Obbligatorio] Nome del punto di ingresso in un modulo JAR. Specificare esattamente uno di notebook_path, python_script_path, python_script_nameo main_class_name.

jar_params
list[str, PipelineParameter]
Necessario

Parametri per il modulo JAR.

source_directory
str
Necessario

Cartella contenente lo script e altri file. Se python_script_name viene specificato, source_directory deve essere troppo.

hash_paths
[str]
Necessario

DEPRECATO: non più necessario.

Elenco di percorsi di hash durante il controllo delle modifiche apportate al contenuto del passaggio. Se non sono state rilevate modifiche, la pipeline riutilizzerà il contenuto del passaggio da un'esecuzione precedente. Per impostazione predefinita, il contenuto di viene sottoposto a hash, ad eccezione dei source_directory file elencati in .amlignore o .gitignore.

run_name
str
Necessario

Nome in Databricks per questa esecuzione.

timeout_seconds
int
Necessario

Timeout per l'esecuzione di Databricks.

runconfig
RunConfiguration
Necessario

Runconfig da usare.

Nota: è possibile passare tutte le librerie desiderate come dipendenze al processo usando i parametri seguenti: maven_libraries, pypi_libraries, egg_libraries, jar_librarieso rcran_libraries. Passare questi parametri direttamente con i parametri corrispondenti o come parte dell'oggetto RunConfiguration usando il runconfig parametro , ma non entrambi.

maven_libraries
list[<xref:azureml.core.runconfig.MavenLibrary>]
Necessario

Librerie Maven da usare per l'esecuzione di Databricks. Per altre informazioni sulla specifica delle librerie Maven, vedere help(azureml.core.runconfig.MavenLibrary).

pypi_libraries
list[<xref:azureml.core.runconfig.PyPiLibrary>]
Necessario

Librerie PyPi da usare per l'esecuzione di Databricks. Per altre informazioni sulla specifica delle librerie PyPi, vedere help(azureml.core.runconfig.PyPiLibrary).

egg_libraries
list[<xref:azureml.core.runconfig.EggLibrary>]
Necessario

Librerie Egg da usare per l'esecuzione di Databricks. Per altre informazioni sulla specifica delle librerie Egg, vedere help(azureml.core.runconfig.EggLibrary).

jar_libraries
list[<xref:azureml.core.runconfig.JarLibrary>]
Necessario

Librerie JAR da usare per l'esecuzione di Databricks. Per altre informazioni sulla specifica delle librerie Jar, vedere help(azureml.core.runconfig.JarLibrary).

rcran_libraries
list[<xref:azureml.core.runconfig.RCranLibrary>]
Necessario

Librerie RCran da usare per l'esecuzione di Databricks. Per altre informazioni sulla specifica delle librerie RCran, vedere help(azureml.core.runconfig.RCranLibrary).

compute_target
str, DatabricksCompute
Necessario

[Obbligatorio] Calcolo di Azure Databricks. Prima di poter usare DatabricksStep per eseguire gli script o i notebook in un'area di lavoro di Azure Databricks, è necessario aggiungere l'area di lavoro di Azure Databricks come destinazione di calcolo all'area di lavoro di Azure Machine Learning.

allow_reuse
bool
Necessario

Indica se il passaggio deve riutilizzare i risultati precedenti quando viene eseguito di nuovo con le stesse impostazioni. Il riutilizzo è abilitato per impostazione predefinita. Se il contenuto del passaggio (script/dipendenze) e gli input e i parametri rimangono invariati, l'output dell'esecuzione precedente di questo passaggio viene riutilizzato. Quando si riutilizza il passaggio, anziché inviare il processo al calcolo, i risultati dell'esecuzione precedente vengono immediatamente resi disponibili per tutti i passaggi successivi. Se si usano set di dati di Azure Machine Learning come input, il riutilizzo viene determinato dal fatto che la definizione del set di dati sia stata modificata, non dal fatto che i dati sottostanti siano stati modificati.

version
str
Necessario

Tag di versione facoltativo per indicare una modifica delle funzionalità per il passaggio.

permit_cluster_restart
bool
Necessario

se viene specificato existing_cluster_id, questo parametro indica se il cluster può essere riavviato per conto dell'utente.

Metodi

create_node

Creare un nodo dal passaggio Databricks e aggiungerlo al grafico specificato.

Questo metodo non deve essere usato direttamente. Quando viene creata un'istanza di una pipeline con questo passaggio, Azure ML passa automaticamente i parametri necessari tramite questo metodo in modo che tale passaggio possa essere aggiunto a un grafo della pipeline che rappresenta il flusso di lavoro.

create_node

Creare un nodo dal passaggio Databricks e aggiungerlo al grafico specificato.

Questo metodo non deve essere usato direttamente. Quando viene creata un'istanza di una pipeline con questo passaggio, Azure ML passa automaticamente i parametri necessari tramite questo metodo in modo che tale passaggio possa essere aggiunto a un grafo della pipeline che rappresenta il flusso di lavoro.

create_node(graph, default_datastore, context)

Parametri

graph
Graph
Necessario

Oggetto grafico a cui aggiungere il nodo.

default_datastore
Union[AbstractAzureStorageDatastore, AzureDataLakeDatastore]
Necessario

Archivio dati predefinito.

context
<xref:azureml.pipeline.core._GraphContext>
Necessario

Contesto del grafo.

Restituisce

Nodo creato.

Tipo restituito