DatabricksStep Classe

Riferimento

Crea un passaggio della pipeline di Azure ML per aggiungere un notebook di DataBricks, uno script Python o un file JAR come nodo.

Per un esempio di uso di DatabricksStep, vedere il notebook https://aka.ms/pl-databricks.

Creare un passaggio della pipeline di Azure ML per aggiungere un notebook di DataBricks, uno script Python o un file JAR come nodo.

Per un esempio di uso di DatabricksStep, vedere il notebook https://aka.ms/pl-databricks.

:p aram python_script_name:[Obbligatorio] Nome di uno script Python relativo a source_directory. Se lo script accetta input e output, questi verranno passati allo script come parametri. Se python_script_name viene specificato, source_directory deve essere troppo.

Specificare esattamente uno di notebook_path, python_script_path, python_script_nameo main_class_name.

Se si specifica un oggetto DataReference come input con data_reference_name=input1 e un oggetto PipelineData come output con name=output1, gli input e gli output verranno passati allo script come parametri. Questo è il modo in cui saranno simili e sarà necessario analizzare gli argomenti nello script per accedere ai percorsi di ogni input e output: "-input1","wasbs://test@storagename.blob.core.windows.net/test","-output1", "wasbs://test@storagename.blob.core.windows.net/b3e26de1-87a4-494d-a20f-1988d22b81a2/output1"

Inoltre, i parametri seguenti saranno disponibili all'interno dello script:

AZUREML_RUN_TOKEN: token AML per l'autenticazione con Azure Machine Learning.
AZUREML_RUN_TOKEN_EXPIRY: ora di scadenza del token AML.
AZUREML_RUN_ID: ID di esecuzione di Azure Machine Learning per questa esecuzione.
AZUREML_ARM_SUBSCRIPTION: sottoscrizione di Azure per l'area di lavoro AML.
AZUREML_ARM_RESOURCEGROUP: gruppo di risorse di Azure per l'area di lavoro di Azure Machine Learning.
AZUREML_ARM_WORKSPACE_NAME: nome dell'area di lavoro di Azure Machine Learning.
AZUREML_ARM_PROJECT_NAME: nome dell'esperimento di Azure Machine Learning.
AZUREML_SERVICE_ENDPOINT: URL dell'endpoint per i servizi AML.
AZUREML_WORKSPACE_ID: ID dell'area di lavoro di Azure Machine Learning.
AZUREML_EXPERIMENT_ID: ID dell'esperimento di Azure Machine Learning.
AZUREML_SCRIPT_DIRECTORY_NAME: percorso della directory in DBFS in cui source_directory è stato copiato.

  (This parameter is only populated when `python_script_name` is used.  See more details below.)

Quando si esegue uno script Python dal computer locale in Databricks usando i source_directory parametri DatabricksStep e python_script_name, il source_directory viene copiato in DBFS e il percorso della directory in DBFS viene passato come parametro allo script quando inizia l'esecuzione. Questo parametro viene etichettato come –AZUREML_SCRIPT_DIRECTORY_NAME. È necessario anteporre la stringa "dbfs:/" o "/dbfs/" per accedere alla directory in DBFS.

Ereditarietà: azureml.pipeline.core._databricks_step_base._DatabricksStepBase

DatabricksStep

Costruttore

DatabricksStep(name, inputs=None, outputs=None, existing_cluster_id=None, spark_version=None, node_type=None, instance_pool_id=None, num_workers=None, min_workers=None, max_workers=None, spark_env_variables=None, spark_conf=None, init_scripts=None, cluster_log_dbfs_path=None, notebook_path=None, notebook_params=None, python_script_path=None, python_script_params=None, main_class_name=None, jar_params=None, python_script_name=None, source_directory=None, hash_paths=None, run_name=None, timeout_seconds=None, runconfig=None, maven_libraries=None, pypi_libraries=None, egg_libraries=None, jar_libraries=None, rcran_libraries=None, compute_target=None, allow_reuse=True, version=None, permit_cluster_restart=None)

Parametri

name: str

Necessario

[Obbligatorio] Nome del passaggio.

inputs: list[Union[InputPortBinding, DataReference, PortDataReference, PipelineData]]

valore predefinito: None

Elenco di connessioni di input per i dati utilizzati da questo passaggio. Recuperarlo all'interno del notebook usando dbutils.widgets.get("input_name"). Può essere DataReference o PipelineData. DataReference rappresenta una parte di dati esistente in un archivio dati. Essenzialmente si tratta di un percorso in un archivio dati. DatabricksStep supporta archivi dati che incapsula DBFS, BLOB di Azure o ADLS v1. PipelineData rappresenta i dati intermedi prodotti da un altro passaggio in una pipeline.

outputs: list[Union[OutputPortBinding, PipelineOutputAbstractDataset, PipelineData]]

valore predefinito: None

Elenco delle definizioni delle porte di output per gli output generati da questo passaggio. Recuperarlo all'interno del notebook usando dbutils.widgets.get("output_name"). Deve essere PipelineData.

existing_cluster_id: str

valore predefinito: None

ID cluster di un cluster interattivo esistente nell'area di lavoro di Databricks. Se si passa questo parametro, non è possibile passare uno dei parametri seguenti che vengono usati per creare un nuovo cluster:

spark_version
Node_type
instance_pool_id
num_workers
min_workers
max_workers
spark_env_variables
spark_conf

Nota: per creare un nuovo cluster di processi, è necessario passare i parametri precedenti. È possibile passare questi parametri direttamente oppure passarli come parte dell'oggetto RunConfiguration usando il parametro runconfig. Il passaggio di questi parametri direttamente e tramite RunConfiguration genera un errore.

spark_version: str

valore predefinito: None

La versione di Spark per il cluster di esecuzione di Databricks, ad esempio: "10.4.x-scala2.12". Per altre informazioni, vedere la descrizione del existing_cluster_id parametro .

node_type: str

valore predefinito: None

[Obbligatorio] I tipi di nodo della macchina virtuale di Azure per il cluster di esecuzione di Databricks, ad esempio "Standard_D3_v2". Specificare node_type o instance_pool_id. Per altre informazioni, vedere la descrizione del existing_cluster_id parametro .

instance_pool_id: str

valore predefinito: None

[Obbligatorio] ID del pool di istanze a cui deve essere collegato il cluster. Specificare node_type o instance_pool_id. Per altre informazioni, vedere la descrizione del existing_cluster_id parametro .

num_workers: int

valore predefinito: None

[Obbligatorio] Numero statico di ruoli di lavoro per il cluster di esecuzione di Databricks. È necessario specificare num_workers o sia min_workers che .max_workers Per altre informazioni, vedere la descrizione del existing_cluster_id parametro .

min_workers: int

valore predefinito: None

[Obbligatorio] Numero minimo di ruoli di lavoro da usare per il ridimensionamento automatico del cluster di esecuzione di Databricks. È necessario specificare num_workers o sia min_workers che .max_workers Per altre informazioni, vedere la descrizione del existing_cluster_id parametro .

max_workers: int

valore predefinito: None

[Obbligatorio] Numero massimo di ruoli di lavoro da usare per il ridimensionamento automatico del cluster di esecuzione di Databricks. È necessario specificare num_workers o sia min_workers che .max_workers Per altre informazioni, vedere la descrizione del existing_cluster_id parametro .

spark_env_variables: dict

valore predefinito: None

Le variabili di ambiente Spark per il cluster di esecuzione di Databricks. Per altre informazioni, vedere la descrizione del existing_cluster_id parametro .

spark_conf: dict

valore predefinito: None

Configurazione spark per il cluster di esecuzione di Databricks. Per altre informazioni, vedere la descrizione del existing_cluster_id parametro .

init_scripts: [str]

valore predefinito: None

Deprecato. Databricks ha annunciato che lo script init archiviato in DBFS smetterà di funzionare dopo il 1° dicembre 2023. Per attenuare il problema, usare script init globali in databricks seguenti https://learn.microsoft.com/azure/databricks/init-scripts/global 2) impostare come commento la riga di init_scripts nel passaggio databricks di AzureML.

cluster_log_dbfs_path: str

valore predefinito: None

Percorsi DBFS in cui devono essere recapitati i log dei cluster.

notebook_path: str

valore predefinito: None

[Obbligatorio] Percorso del notebook nell'istanza di Databricks. Questa classe consente di specificare quattro modi per specificare il codice da eseguire nel cluster Databricks.

Per eseguire un notebook presente nell'area di lavoro di Databricks, usare: notebook_path=notebook_path, notebook_params={'myparam': 'testparam'}
Per eseguire uno script Python presente in DBFS, usare: python_script_path=python_script_dbfs_path, python_script_params={'arg1', 'arg2'}
Per eseguire un file JAR presente in DBFS, usare: main_class_name=main_jar_class_name, jar_params={'arg1', 'arg2'}, jar_libraries=[JarLibrary(jar_library_dbfs_path)]
Per eseguire uno script Python presente nel computer locale, usare: python_script_name=python_script_name, source_directory=source_directory

Specificare esattamente uno di notebook_path, python_script_path, python_script_nameo main_class_name.

notebook_params: dict[str, Union[str, PipelineParameter]]

valore predefinito: None

Dizionario di parametri da passare al notebook. notebook_params sono disponibili come widget. È possibile recuperare i valori da questi widget all'interno del notebook usando dbutils.widgets.get("myparam").

python_script_path: str

valore predefinito: None

[Obbligatorio] Percorso dello script Python in DBFS. Specificare esattamente uno di notebook_path, python_script_path, python_script_nameo main_class_name.

python_script_params: list[str, PipelineParameter]

valore predefinito: None

Parametri per lo script Python.

main_class_name: str

valore predefinito: None

[Obbligatorio] Nome del punto di ingresso in un modulo JAR. Specificare esattamente uno di notebook_path, python_script_path, python_script_nameo main_class_name.

jar_params: list[str, PipelineParameter]

valore predefinito: None

Parametri per il modulo JAR.

python_script_name: str

valore predefinito: None

[Obbligatorio] Nome di uno script Python relativo a source_directory. Se lo script accetta input e output, questi verranno passati allo script come parametri. Se python_script_name viene specificato, source_directory deve essere troppo.

Specificare esattamente uno di notebook_path, python_script_path, python_script_nameo main_class_name.

Inoltre, i parametri seguenti saranno disponibili all'interno dello script:

AZUREML_RUN_TOKEN: token AML per l'autenticazione con Azure Machine Learning.
AZUREML_RUN_TOKEN_EXPIRY: ora di scadenza del token AML.
AZUREML_RUN_ID: ID di esecuzione di Azure Machine Learning per questa esecuzione.
AZUREML_ARM_SUBSCRIPTION: sottoscrizione di Azure per l'area di lavoro AML.
AZUREML_ARM_RESOURCEGROUP: gruppo di risorse di Azure per l'area di lavoro di Azure Machine Learning.
AZUREML_ARM_WORKSPACE_NAME: nome dell'area di lavoro di Azure Machine Learning.
AZUREML_ARM_PROJECT_NAME: nome dell'esperimento di Azure Machine Learning.
AZUREML_SERVICE_ENDPOINT: URL dell'endpoint per i servizi AML.
AZUREML_WORKSPACE_ID: ID dell'area di lavoro di Azure Machine Learning.
AZUREML_EXPERIMENT_ID: ID dell'esperimento di Azure Machine Learning.
AZUREML_SCRIPT_DIRECTORY_NAME: percorso della directory in DBFS in cui source_directory è stato copiato. Questo parametro viene popolato solo quando python_script_name viene usato. Vedere altri dettagli di seguito.

source_directory: str

valore predefinito: None

Cartella contenente lo script e altri file. Se python_script_name viene specificato, source_directory deve essere troppo.

hash_paths: [str]

valore predefinito: None

DEPRECATO: non più necessario.

Elenco di percorsi di hash durante il controllo delle modifiche apportate al contenuto del passaggio. Se non sono state rilevate modifiche, la pipeline riutilizzerà il contenuto del passaggio da un'esecuzione precedente. Per impostazione predefinita, il contenuto di viene sottoposto a hash, ad eccezione dei source_directory file elencati in .amlignore o .gitignore.

run_name: str

valore predefinito: None

Nome in Databricks per questa esecuzione.

timeout_seconds: int

valore predefinito: None

Timeout per l'esecuzione di Databricks.

runconfig: RunConfiguration

valore predefinito: None

Runconfig da usare.

Nota: è possibile passare tutte le librerie desiderate come dipendenze al processo usando i parametri seguenti: maven_libraries, pypi_libraries, egg_libraries, jar_librarieso rcran_libraries. Passare questi parametri direttamente con i parametri corrispondenti o come parte dell'oggetto RunConfiguration usando il runconfig parametro , ma non entrambi.

maven_libraries: list[MavenLibrary]

valore predefinito: None

Librerie Maven da usare per l'esecuzione di Databricks.

pypi_libraries: list[PyPiLibrary]

valore predefinito: None

Librerie PyPi da usare per l'esecuzione di Databricks.

egg_libraries: list[EggLibrary]

valore predefinito: None

Librerie Egg da usare per l'esecuzione di Databricks.

jar_libraries: list[JarLibrary]

valore predefinito: None

Librerie JAR da usare per l'esecuzione di Databricks.

rcran_libraries: list[RCranLibrary]

valore predefinito: None

Librerie RCran da usare per l'esecuzione di Databricks.

compute_target: str, DatabricksCompute

valore predefinito: None

[Obbligatorio] Un ambiente di calcolo di Azure Databricks. Prima di poter usare DatabricksStep per eseguire gli script o i notebook in un'area di lavoro di Azure Databricks, è necessario aggiungere l'area di lavoro di Azure Databricks come destinazione di calcolo all'area di lavoro di Azure Machine Learning.

allow_reuse: bool

valore predefinito: True

Indica se il passaggio deve riutilizzare i risultati precedenti quando viene eseguito di nuovo con le stesse impostazioni. Il riutilizzo è abilitato per impostazione predefinita. Se il contenuto del passaggio (script/dipendenze) e gli input e i parametri rimangono invariati, l'output dell'esecuzione precedente di questo passaggio viene riutilizzato. Quando si riutilizza il passaggio, anziché inviare il processo al calcolo, i risultati dell'esecuzione precedente vengono immediatamente resi disponibili per tutti i passaggi successivi. Se si usano set di dati di Azure Machine Learning come input, il riutilizzo viene determinato dal fatto che la definizione del set di dati sia stata modificata, non dal fatto che i dati sottostanti siano stati modificati.

version: str

valore predefinito: None

Tag di versione facoltativo per indicare una modifica delle funzionalità per il passaggio.

permit_cluster_restart: bool

valore predefinito: None

se viene specificato existing_cluster_id, questo parametro indica se il cluster può essere riavviato per conto dell'utente.

name: str

Necessario

[Obbligatorio] Nome del passaggio.

inputs: list[Union[InputPortBinding, DataReference, PortDataReference, PipelineData]]

Necessario

outputs: list[Union[OutputPortBinding, <xref:azureml.pipeline.core.pipeline_output_dataset.PipelineOutputDataset>, PipelineData]]

Necessario

Elenco delle definizioni delle porte di output per gli output generati da questo passaggio. Recuperarlo all'interno del notebook usando dbutils.widgets.get("output_name"). Deve essere PipelineData.

existing_cluster_id: str

Necessario

spark_version
Node_type
instance_pool_id
num_workers
min_workers
max_workers
spark_env_variables
spark_conf

spark_version: str

Necessario

La versione di Spark per il cluster di esecuzione di Databricks, ad esempio: "10.4.x-scala2.12". Per altre informazioni, vedere la descrizione del existing_cluster_id parametro .

node_type: str

Necessario

instance_pool_id: str

Necessario

num_workers: int

Necessario

[Obbligatorio] Numero statico di ruoli di lavoro per il cluster di esecuzione di Databricks. È necessario specificare num_workers o sia min_workers che .max_workers

Per altre informazioni, vedere la descrizione del existing_cluster_id parametro .

min_workers: int

Necessario

Per altre informazioni, vedere la descrizione del existing_cluster_id parametro .

max_workers: int

Necessario

Per altre informazioni, vedere la descrizione del existing_cluster_id parametro .

spark_env_variables: dict

Necessario

Le variabili di ambiente Spark per il cluster di esecuzione di Databricks. Per altre informazioni, vedere la descrizione del existing_cluster_id parametro .

spark_conf: dict

Necessario

Configurazione spark per il cluster di esecuzione di Databricks. Per altre informazioni, vedere la descrizione del existing_cluster_id parametro .

init_scripts: [str]

Necessario

cluster_log_dbfs_path: str

Necessario

Percorsi DBFS in cui devono essere recapitati i log dei cluster.

notebook_path: str

Necessario

[Obbligatorio] Percorso del notebook nell'istanza di Databricks. Questa classe consente di specificare quattro modi per specificare il codice da eseguire nel cluster Databricks.

Per eseguire un notebook presente nell'area di lavoro di Databricks, usare: notebook_path=notebook_path, notebook_params={'myparam': 'testparam'}
Per eseguire uno script Python presente in DBFS, usare: python_script_path=python_script_dbfs_path, python_script_params={'arg1', 'arg2'}
Per eseguire un file JAR presente in DBFS, usare: main_class_name=main_jar_class_name, jar_params={'arg1', 'arg2'}, jar_libraries=[JarLibrary(jar_library_dbfs_path)]
Per eseguire uno script Python presente nel computer locale, usare: python_script_name=python_script_name, source_directory=source_directory

Specificare esattamente uno di notebook_path, python_script_path, python_script_nameo main_class_name.

notebook_params: dict[str, (str oppure PipelineParameter)]

Necessario

python_script_path: str

Necessario

[Obbligatorio] Percorso dello script Python in DBFS. Specificare esattamente uno di notebook_path, python_script_path, python_script_nameo main_class_name.

python_script_params: list[str, PipelineParameter]

Necessario

Parametri per lo script Python.

main_class_name: str

Necessario

[Obbligatorio] Nome del punto di ingresso in un modulo JAR. Specificare esattamente uno di notebook_path, python_script_path, python_script_nameo main_class_name.

jar_params: list[str, PipelineParameter]

Necessario

Parametri per il modulo JAR.

source_directory: str

Necessario

Cartella contenente lo script e altri file. Se python_script_name viene specificato, source_directory deve essere troppo.

hash_paths: [str]

Necessario

DEPRECATO: non più necessario.

run_name: str

Necessario

Nome in Databricks per questa esecuzione.

timeout_seconds: int

Necessario

Timeout per l'esecuzione di Databricks.

runconfig: RunConfiguration

Necessario

Runconfig da usare.

maven_libraries: list[<xref:azureml.core.runconfig.MavenLibrary>]

Necessario

Librerie Maven da usare per l'esecuzione di Databricks. Per altre informazioni sulla specifica delle librerie Maven, vedere help(azureml.core.runconfig.MavenLibrary).

pypi_libraries: list[<xref:azureml.core.runconfig.PyPiLibrary>]

Necessario

Librerie PyPi da usare per l'esecuzione di Databricks. Per altre informazioni sulla specifica delle librerie PyPi, vedere help(azureml.core.runconfig.PyPiLibrary).

egg_libraries: list[<xref:azureml.core.runconfig.EggLibrary>]

Necessario

Librerie Egg da usare per l'esecuzione di Databricks. Per altre informazioni sulla specifica delle librerie Egg, vedere help(azureml.core.runconfig.EggLibrary).

jar_libraries: list[<xref:azureml.core.runconfig.JarLibrary>]

Necessario

Librerie JAR da usare per l'esecuzione di Databricks. Per altre informazioni sulla specifica delle librerie Jar, vedere help(azureml.core.runconfig.JarLibrary).

rcran_libraries: list[<xref:azureml.core.runconfig.RCranLibrary>]

Necessario

Librerie RCran da usare per l'esecuzione di Databricks. Per altre informazioni sulla specifica delle librerie RCran, vedere help(azureml.core.runconfig.RCranLibrary).

compute_target: str, DatabricksCompute

Necessario

[Obbligatorio] Calcolo di Azure Databricks. Prima di poter usare DatabricksStep per eseguire gli script o i notebook in un'area di lavoro di Azure Databricks, è necessario aggiungere l'area di lavoro di Azure Databricks come destinazione di calcolo all'area di lavoro di Azure Machine Learning.

allow_reuse: bool

Necessario

version: str

Necessario

Tag di versione facoltativo per indicare una modifica delle funzionalità per il passaggio.

permit_cluster_restart: bool

Necessario

se viene specificato existing_cluster_id, questo parametro indica se il cluster può essere riavviato per conto dell'utente.

Metodi

create_node

Creare un nodo dal passaggio Databricks e aggiungerlo al grafico specificato.

Questo metodo non deve essere usato direttamente. Quando viene creata un'istanza di una pipeline con questo passaggio, Azure ML passa automaticamente i parametri necessari tramite questo metodo in modo che tale passaggio possa essere aggiunto a un grafo della pipeline che rappresenta il flusso di lavoro.

create_node

Creare un nodo dal passaggio Databricks e aggiungerlo al grafico specificato.

create_node(graph, default_datastore, context)

Parametri

graph: Graph

Necessario

Oggetto grafico a cui aggiungere il nodo.

default_datastore: Union[AbstractAzureStorageDatastore, AzureDataLakeDatastore]

Necessario

Archivio dati predefinito.

context: <xref:azureml.pipeline.core._GraphContext>

Necessario

Contesto del grafo.

Restituisce

Nodo creato.

Tipo restituito

Node

Condividi tramite

DatabricksStep Classe

Costruttore

Parametri

Metodi

create_node

Parametri

Restituisce

Tipo restituito

Commenti e suggerimenti

Commenti e suggerimenti

Risorse aggiuntive