DatabricksStep Classe

Crée une étape de pipeline Azure Machine Learning pour ajouter un notebook DataBricks, un script Python ou un fichier JAR en tant que nœud.

Pour obtenir un exemple d’utilisation de DatabricksStep, consultez le notebook https://aka.ms/pl-databricks.

Créez une étape Azure ML Pipeline pour ajouter un notebook DataBricks, un script Python ou JAR en tant que nœud.

Pour obtenir un exemple d’utilisation de DatabricksStep, consultez le notebook https://aka.ms/pl-databricks.

:p aram python_script_name :[Obligatoire] Nom d’un script Python relatif à source_directory. Si le script prend des entrées et des sorties, celles-ci sont passées au script en tant que paramètres. Si python_script_name est spécifié, source_directory doit l’être également.

Spécifiez exactement une valeur de notebook_path, python_script_path, python_script_name ou main_class_name.

Si vous spécifiez un objet DataReference comme entrée avec data_reference_name=input1 et un objet PipelineData en tant que sortie avec name=output1, alors les entrées et sorties sont passées au script en tant que paramètres. Voici à quoi elles ressemblent. Vous devez analyser les arguments dans votre script pour accéder aux chemins de chaque entrée et sortie : "-input1","wasbs://test@storagename.blob.core.windows.net/test","-output1", "wasbs://test@storagename.blob.core.windows.net/b3e26de1-87a4-494d-a20f-1988d22b81a2/output1"

En outre, les paramètres suivants sont disponibles dans le script :

  • AZUREML_RUN_TOKEN : jeton AML pour l’authentification auprès d’Azure Machine Learning.
  • AZUREML_RUN_TOKEN_EXPIRY : délai d’expiration du jeton AML.
  • AZUREML_RUN_ID : ID d’exécution Azure Machine Learning de cette exécution.
  • AZUREML_ARM_SUBSCRIPTION : abonnement Azure de votre espace de travail AML.
  • AZUREML_ARM_RESOURCEGROUP : groupe de ressources Azure de votre espace de travail Azure Machine Learning.
  • AZUREML_ARM_WORKSPACE_NAME : nom de votre espace de travail Azure Machine Learning.
  • AZUREML_ARM_PROJECT_NAME : nom de votre expérience Azure Machine Learning.
  • AZUREML_SERVICE_ENDPOINT : URL de point de terminaison pour les services AML.
  • AZUREML_WORKSPACE_ID : ID de votre espace de travail Azure Machine Learning.
  • AZUREML_EXPERIMENT_ID : ID de votre expérience travail Azure Machine Learning.
  • AZUREML_SCRIPT_DIRECTORY_NAME : chemin d’accès au répertoire dans DBFS où source_directory a été copié.
  (This parameter is only populated when `python_script_name` is used.  See more details below.)

Quand vous exécutez un script Python à partir de votre ordinateur local sur Databricks à l’aide des paramètres DatabricksStep source_directory et python_script_name, votre source_directory est copié sur le système DBFS et le chemin d’accès au répertoire sur DBFS est transmis en tant que paramètre à votre script au début de l’exécution. Ce paramètre est étiqueté comme –AZUREML_SCRIPT_DIRECTORY_NAME. Vous devez ajouter le préfixe de la chaîne « dbfs:/ » ou « /dbfs/ » pour accéder au répertoire dans DBFS.

Héritage
azureml.pipeline.core._databricks_step_base._DatabricksStepBase
DatabricksStep

Constructeur

DatabricksStep(name, inputs=None, outputs=None, existing_cluster_id=None, spark_version=None, node_type=None, instance_pool_id=None, num_workers=None, min_workers=None, max_workers=None, spark_env_variables=None, spark_conf=None, init_scripts=None, cluster_log_dbfs_path=None, notebook_path=None, notebook_params=None, python_script_path=None, python_script_params=None, main_class_name=None, jar_params=None, python_script_name=None, source_directory=None, hash_paths=None, run_name=None, timeout_seconds=None, runconfig=None, maven_libraries=None, pypi_libraries=None, egg_libraries=None, jar_libraries=None, rcran_libraries=None, compute_target=None, allow_reuse=True, version=None, permit_cluster_restart=None)

Paramètres

name
str
Obligatoire

[Obligatoire] Nom de l’étape.

inputs
list[Union[InputPortBinding, DataReference, PortDataReference, PipelineData]]
valeur par défaut: None

Liste des connexions d’entrée pour les données consommées par cette étape. Récupérez (fetch) ce contenu dans le notebook à l’aide de dbutils.widgets.get("input_name"). Peut être DataReference ou PipelineData. DataReference représente une donnée existante sur un magasin de données. Il s’agit essentiellement s’agit d’un chemin sur un magasin de données. DatabricksStep prend en charge les magasins de données qui encapsulent DBFS, Azure Blob ou ADLS v1. PipelineData représente des données intermédiaires produites par une autre étape dans un pipeline.

outputs
list[Union[OutputPortBinding, PipelineOutputAbstractDataset, PipelineData]]
valeur par défaut: None

Liste des définitions de port de sortie pour les sorties produites par cette étape. Récupérez (fetch) ce contenu dans le notebook à l’aide de dbutils.widgets.get("output_name"). Doit être PipelineData.

existing_cluster_id
str
valeur par défaut: None

ID de cluster d’un cluster interactif existant dans l’espace de travail Databricks. Si vous passez ce paramètre, vous ne pouvez pas passer les paramètres suivants utilisés pour créer un cluster :

  • spark_version
  • node_type
  • instance_pool_id
  • num_workers
  • min_workers
  • max_workers
  • spark_env_variables
  • spark_conf

Remarque : Pour créer un cluster de travail, vous avez besoin de passer les paramètres ci-dessus. Vous pouvez passer ces paramètres directement ou dans le cadre de l’objet RunConfiguration à l’aide du paramètre runconfig. Le passage direct et par le biais de RunConfiguration de ces paramètres génère une erreur.

spark_version
str
valeur par défaut: None

Version de Spark pour le cluster d’exécution Databricks, par exemple : « 10.4.x-scala2.12 ». Pour plus d’informations, consultez la description du paramètre existing_cluster_id.

node_type
str
valeur par défaut: None

[Obligatoire] Types de nœuds de machine virtuelle Azure pour le cluster d’exécution Databricks, par exemple : « Standard_D3_v2 ». Spécifiez node_type ou instance_pool_id. Pour plus d’informations, consultez la description du paramètre existing_cluster_id.

instance_pool_id
str
valeur par défaut: None

[Obligatoire] ID du pool d’instances auquel le cluster doit être joint. Spécifiez node_type ou instance_pool_id. Pour plus d’informations, consultez la description du paramètre existing_cluster_id.

num_workers
int
valeur par défaut: None

[Obligatoire] Nombre statique de Workers pour le cluster d’exécution Databricks. Vous devez spécifier soit num_workers, soit min_workers et max_workers. Pour plus d’informations, consultez la description du paramètre existing_cluster_id.

min_workers
int
valeur par défaut: None

[Obligatoire] Nombre minimal de Workers à utiliser pour la mise à l’échelle automatique du cluster d’exécution Databricks. Vous devez spécifier soit num_workers, soit min_workers et max_workers. Pour plus d’informations, consultez la description du paramètre existing_cluster_id.

max_workers
int
valeur par défaut: None

[Obligatoire] Nombre maximal de Workers à utiliser pour la mise à l’échelle automatique du cluster d’exécution Databricks. Vous devez spécifier soit num_workers, soit min_workers et max_workers. Pour plus d’informations, consultez la description du paramètre existing_cluster_id.

spark_env_variables
dict
valeur par défaut: None

Variables d’environnement Spark pour le cluster d’exécution Databricks. Pour plus d’informations, consultez la description du paramètre existing_cluster_id.

spark_conf
dict
valeur par défaut: None

Configuration Spark pour le cluster d’exécution Databricks. Pour plus d’informations, consultez la description du paramètre existing_cluster_id.

init_scripts
[str]
valeur par défaut: None

Action déconseillée. Databricks a annoncé que le script init stocké dans DBFS cessera de fonctionner après le 1er décembre 2023. Pour atténuer le problème, veuillez 1) utiliser des scripts init globaux dans databricks https://learn.microsoft.com/azure/databricks/init-scripts/global 2) commentez la ligne de init_scripts dans votre étape AzureML databricks.

cluster_log_dbfs_path
str
valeur par défaut: None

Chemins DBFS où les journaux de cluster doivent être remis.

notebook_path
str
valeur par défaut: None

[Obligatoire] Chemin du notebook dans l’instance Databricks. Cette classe permet de spécifier le code à exécuter sur le cluster Databricks de quatre manières.

  1. Pour exécuter un notebook présent dans l’espace de travail Databricks, utilisez : notebook_path=notebook_path, notebook_params={'myparam': 'testparam'}

  2. Pour exécuter un script Python présent dans DBFS, utilisez : python_script_path=python_script_dbfs_path, python_script_params={'arg1', 'arg2'}

  3. Pour exécuter un fichier JAR présent dans DBFS, utilisez : main_class_name=main_jar_class_name, jar_params={'arg1', 'arg2'}, jar_libraries=[JarLibrary(jar_library_dbfs_path)]

  4. Pour exécuter un script Python présent sur votre ordinateur local, utilisez : python_script_name=python_script_name, source_directory=source_directory

Spécifiez exactement une valeur de notebook_path, python_script_path, python_script_name ou main_class_name.

notebook_params
dict[str, Union[str, PipelineParameter]]
valeur par défaut: None

Dictionnaire des paramètres à passer au notebook. Les notebook_params sont disponibles en tant que widgets. Vous pouvez récupérer (fetch) les valeurs de ces widgets à l’intérieur de votre notebook à l’aide de dbutils.widgets.get("myparam").

python_script_path
str
valeur par défaut: None

[Obligatoire] Chemin du script Python dans le système DBFS. Spécifiez exactement une valeur de notebook_path, python_script_path, python_script_name ou main_class_name.

python_script_params
list[str, PipelineParameter]
valeur par défaut: None

Paramètres du script Python.

main_class_name
str
valeur par défaut: None

[Obligatoire] Nom du point d’entrée dans un module JAR. Spécifiez exactement une valeur de notebook_path, python_script_path, python_script_name ou main_class_name.

jar_params
list[str, PipelineParameter]
valeur par défaut: None

Paramètres du module JAR.

python_script_name
str
valeur par défaut: None

[Obligatoire] Nom d’un script Python relatif à source_directory. Si le script prend des entrées et des sorties, celles-ci sont passées au script en tant que paramètres. Si python_script_name est spécifié, source_directory doit l’être également.

Spécifiez exactement une valeur de notebook_path, python_script_path, python_script_name ou main_class_name.

Si vous spécifiez un objet DataReference comme entrée avec data_reference_name=input1 et un objet PipelineData en tant que sortie avec name=output1, alors les entrées et sorties sont passées au script en tant que paramètres. Voici à quoi elles ressemblent. Vous devez analyser les arguments dans votre script pour accéder aux chemins de chaque entrée et sortie : "-input1","wasbs://test@storagename.blob.core.windows.net/test","-output1", "wasbs://test@storagename.blob.core.windows.net/b3e26de1-87a4-494d-a20f-1988d22b81a2/output1"

En outre, les paramètres suivants sont disponibles dans le script :

  • AZUREML_RUN_TOKEN : jeton AML pour l’authentification auprès d’Azure Machine Learning.
  • AZUREML_RUN_TOKEN_EXPIRY : délai d’expiration du jeton AML.
  • AZUREML_RUN_ID : ID d’exécution Azure Machine Learning de cette exécution.
  • AZUREML_ARM_SUBSCRIPTION : abonnement Azure de votre espace de travail AML.
  • AZUREML_ARM_RESOURCEGROUP : groupe de ressources Azure de votre espace de travail Azure Machine Learning.
  • AZUREML_ARM_WORKSPACE_NAME : nom de votre espace de travail Azure Machine Learning.
  • AZUREML_ARM_PROJECT_NAME : nom de votre expérience Azure Machine Learning.
  • AZUREML_SERVICE_ENDPOINT : URL de point de terminaison pour les services AML.
  • AZUREML_WORKSPACE_ID : ID de votre espace de travail Azure Machine Learning.
  • AZUREML_EXPERIMENT_ID : ID de votre expérience travail Azure Machine Learning.
  • AZUREML_SCRIPT_DIRECTORY_NAME : chemin d’accès au répertoire dans DBFS où source_directory a été copié. (Ce paramètre est renseigné uniquement quand python_script_name est utilisé. Voir plus d’informations ci-dessous.)

Quand vous exécutez un script Python à partir de votre ordinateur local sur Databricks à l’aide des paramètres DatabricksStep source_directory et python_script_name, votre source_directory est copié sur le système DBFS et le chemin d’accès au répertoire sur DBFS est transmis en tant que paramètre à votre script au début de l’exécution. Ce paramètre est étiqueté comme –AZUREML_SCRIPT_DIRECTORY_NAME. Vous devez ajouter le préfixe de la chaîne « dbfs:/ » ou « /dbfs/ » pour accéder au répertoire dans DBFS.

source_directory
str
valeur par défaut: None

Dossier qui contient le script et d’autres fichiers. Si python_script_name est spécifié, source_directory doit l’être également.

hash_paths
[str]
valeur par défaut: None

DÉPRÉCIÉ : n’est plus nécessaire.

Liste de chemins à hacher lors de la recherche des modifications apportées au contenu de l’étape. Si aucune modification n’est détectée, le pipeline réutilise le contenu de l’étape d’une exécution précédente. Par défaut, le contenu de source_directory est haché (à l’exception des fichiers listés dans.amlignore ou .gitignore).

run_name
str
valeur par défaut: None

Nom dans Databricks pour cette exécution.

timeout_seconds
int
valeur par défaut: None

Délai d’expiration de l’exécution Databricks.

runconfig
RunConfiguration
valeur par défaut: None

Runconfig à utiliser.

Remarque : Vous pouvez passer autant de bibliothèques que vous le souhaitez en tant que dépendances à votre travail à l’aide des paramètres suivants : maven_libraries, pypi_libraries, egg_libraries, jar_libraries ou rcran_libraries. Passez ces paramètres soit directement avec leurs paramètres correspondants, soit dans le cadre de l’objet RunConfiguration à l’aide du paramètre runconfig, mais pas avec les deux méthodes.

maven_libraries
list[MavenLibrary]
valeur par défaut: None

Bibliothèques Maven à utiliser pour l’exécution Databricks.

pypi_libraries
list[PyPiLibrary]
valeur par défaut: None

Bibliothèques PyPi à utiliser pour l’exécution Databricks.

egg_libraries
list[EggLibrary]
valeur par défaut: None

Bibliothèques Egg à utiliser pour l’exécution Databricks.

jar_libraries
list[JarLibrary]
valeur par défaut: None

Bibliothèques Jar à utiliser pour l’exécution Databricks.

rcran_libraries
list[RCranLibrary]
valeur par défaut: None

Bibliothèques RCran à utiliser pour l’exécution Databricks.

compute_target
str, DatabricksCompute
valeur par défaut: None

[Obligatoire] Calcul Azure Databricks. Avant de pouvoir utiliser DatabricksStep pour exécuter vos scripts ou notebooks sur un espace de travail Azure Databricks, vous devez ajouter l’espace de travail Azure Databricks en tant que cible de calcul à votre espace de travail Azure Machine Learning.

allow_reuse
bool
valeur par défaut: True

Indique si l’étape doit réutiliser les résultats précédents lorsqu’elle est exécutée avec les mêmes paramètres. La réutilisation est activée par défaut. Si le contenu de l’étape (scripts/dépendances) ainsi que les entrées et les paramètres restent inchangés, la sortie de l’exécution précédente de cette étape est réutilisée. Lors de la réutilisation de l’étape, au lieu de soumettre le travail au calcul, les résultats de l’exécution précédente sont immédiatement mis à la disposition des étapes suivantes. Si vous utilisez des jeux de données Azure Machine Learning comme entrées, la réutilisation est déterminée par le fait que la définition du jeu de données a changé ou pas, non par la modification éventuelle des données sous-jacentes.

version
str
valeur par défaut: None

Étiquette de version facultative pour indiquer une modification de fonctionnalité pour l’étape.

permit_cluster_restart
bool
valeur par défaut: None

Si existing_cluster_id est spécifié, ce paramètre indique si le cluster peut être redémarré pour le compte de l’utilisateur.

name
str
Obligatoire

[Obligatoire] Nom de l’étape.

inputs
list[Union[InputPortBinding, DataReference, PortDataReference, PipelineData]]
Obligatoire

Liste des connexions d’entrée pour les données consommées par cette étape. Récupérez (fetch) ce contenu dans le notebook à l’aide de dbutils.widgets.get("input_name"). Peut être DataReference ou PipelineData. DataReference représente une donnée existante sur un magasin de données. Il s’agit essentiellement s’agit d’un chemin sur un magasin de données. DatabricksStep prend en charge les magasins de données qui encapsulent DBFS, Azure Blob ou ADLS v1. PipelineData représente des données intermédiaires produites par une autre étape dans un pipeline.

outputs
list[Union[OutputPortBinding, <xref:azureml.pipeline.core.pipeline_output_dataset.PipelineOutputDataset>, PipelineData]]
Obligatoire

Liste des définitions de port de sortie pour les sorties produites par cette étape. Récupérez (fetch) ce contenu dans le notebook à l’aide de dbutils.widgets.get("output_name"). Doit être PipelineData.

existing_cluster_id
str
Obligatoire

ID de cluster d’un cluster interactif existant dans l’espace de travail Databricks. Si vous passez ce paramètre, vous ne pouvez pas passer les paramètres suivants utilisés pour créer un cluster :

  • spark_version
  • node_type
  • instance_pool_id
  • num_workers
  • min_workers
  • max_workers
  • spark_env_variables
  • spark_conf

Remarque : Pour créer un cluster de travail, vous avez besoin de passer les paramètres ci-dessus. Vous pouvez passer ces paramètres directement ou dans le cadre de l’objet RunConfiguration à l’aide du paramètre runconfig. Le passage direct et par le biais de RunConfiguration de ces paramètres génère une erreur.

spark_version
str
Obligatoire

Version de Spark pour le cluster d’exécution Databricks, par exemple : « 10.4.x-scala2.12 ». Pour plus d’informations, consultez la description du paramètre existing_cluster_id.

node_type
str
Obligatoire

[Obligatoire] Types de nœuds de machine virtuelle Azure pour le cluster d’exécution Databricks, par exemple : « Standard_D3_v2 ». Spécifiez node_type ou instance_pool_id. Pour plus d’informations, consultez la description du paramètre existing_cluster_id.

instance_pool_id
str
Obligatoire

[Obligatoire] ID du pool d’instances auquel le cluster doit être joint. Spécifiez node_type ou instance_pool_id. Pour plus d’informations, consultez la description du paramètre existing_cluster_id.

num_workers
int
Obligatoire

[Obligatoire] Nombre statique de Workers pour le cluster d’exécution Databricks. Vous devez spécifier soit num_workers, soit min_workers et max_workers.

Pour plus d’informations, consultez la description du paramètre existing_cluster_id.

min_workers
int
Obligatoire

[Obligatoire] Nombre minimal de Workers à utiliser pour la mise à l’échelle automatique du cluster d’exécution Databricks. Vous devez spécifier soit num_workers, soit min_workers et max_workers.

Pour plus d’informations, consultez la description du paramètre existing_cluster_id.

max_workers
int
Obligatoire

[Obligatoire] Nombre maximal de Workers à utiliser pour la mise à l’échelle automatique du cluster d’exécution Databricks. Vous devez spécifier soit num_workers, soit min_workers et max_workers.

Pour plus d’informations, consultez la description du paramètre existing_cluster_id.

spark_env_variables
dict
Obligatoire

Variables d’environnement Spark pour le cluster d’exécution Databricks. Pour plus d’informations, consultez la description du paramètre existing_cluster_id.

spark_conf
dict
Obligatoire

Configuration Spark pour le cluster d’exécution Databricks. Pour plus d’informations, consultez la description du paramètre existing_cluster_id.

init_scripts
[str]
Obligatoire

Action déconseillée. Databricks a annoncé que le script init stocké dans DBFS cessera de fonctionner après le 1er décembre 2023. Pour atténuer le problème, 1) utilisez des scripts init globaux dans databricks suivant https://learn.microsoft.com/azure/databricks/init-scripts/global 2) commentez la ligne de init_scripts dans votre étape AzureML databricks.

cluster_log_dbfs_path
str
Obligatoire

Chemins DBFS où les journaux de cluster doivent être remis.

notebook_path
str
Obligatoire

[Obligatoire] Chemin du notebook dans l’instance Databricks. Cette classe permet de spécifier le code à exécuter sur le cluster Databricks de quatre manières.

  1. Pour exécuter un notebook présent dans l’espace de travail Databricks, utilisez : notebook_path=notebook_path, notebook_params={'myparam': 'testparam'}

  2. Pour exécuter un script Python présent dans DBFS, utilisez : python_script_path=python_script_dbfs_path, python_script_params={'arg1', 'arg2'}

  3. Pour exécuter un fichier JAR présent dans DBFS, utilisez : main_class_name=main_jar_class_name, jar_params={'arg1', 'arg2'}, jar_libraries=[JarLibrary(jar_library_dbfs_path)]

  4. Pour exécuter un script Python présent sur votre ordinateur local, utilisez : python_script_name=python_script_name, source_directory=source_directory

Spécifiez exactement une valeur de notebook_path, python_script_path, python_script_name ou main_class_name.

notebook_params
dict[str, (str ou PipelineParameter)]
Obligatoire

Dictionnaire des paramètres à passer au notebook. Les notebook_params sont disponibles en tant que widgets. Vous pouvez récupérer (fetch) les valeurs de ces widgets à l’intérieur de votre notebook à l’aide de dbutils.widgets.get("myparam").

python_script_path
str
Obligatoire

[Obligatoire] Chemin du script Python dans le système DBFS. Spécifiez exactement une valeur de notebook_path, python_script_path, python_script_name ou main_class_name.

python_script_params
list[str, PipelineParameter]
Obligatoire

Paramètres du script Python.

main_class_name
str
Obligatoire

[Obligatoire] Nom du point d’entrée dans un module JAR. Spécifiez exactement une valeur de notebook_path, python_script_path, python_script_name ou main_class_name.

jar_params
list[str, PipelineParameter]
Obligatoire

Paramètres du module JAR.

source_directory
str
Obligatoire

Dossier qui contient le script et d’autres fichiers. Si python_script_name est spécifié, source_directory doit l’être également.

hash_paths
[str]
Obligatoire

DÉPRÉCIÉ : n’est plus nécessaire.

Liste de chemins à hacher lors de la recherche des modifications apportées au contenu de l’étape. Si aucune modification n’est détectée, le pipeline réutilise le contenu de l’étape d’une exécution précédente. Par défaut, le contenu de source_directory est haché (à l’exception des fichiers listés dans.amlignore ou .gitignore).

run_name
str
Obligatoire

Nom dans Databricks pour cette exécution.

timeout_seconds
int
Obligatoire

Délai d’expiration de l’exécution Databricks.

runconfig
RunConfiguration
Obligatoire

Runconfig à utiliser.

Remarque : Vous pouvez passer autant de bibliothèques que vous le souhaitez en tant que dépendances à votre travail à l’aide des paramètres suivants : maven_libraries, pypi_libraries, egg_libraries, jar_libraries ou rcran_libraries. Passez ces paramètres soit directement avec leurs paramètres correspondants, soit dans le cadre de l’objet RunConfiguration à l’aide du paramètre runconfig, mais pas avec les deux méthodes.

maven_libraries
list[<xref:azureml.core.runconfig.MavenLibrary>]
Obligatoire

Bibliothèques Maven à utiliser pour l’exécution Databricks. Pour plus d’informations sur la spécification des bibliothèques Maven, consultez help(azureml.core.runconfig.MavenLibrary).

pypi_libraries
list[<xref:azureml.core.runconfig.PyPiLibrary>]
Obligatoire

Bibliothèques PyPi à utiliser pour l’exécution Databricks. Pour plus d’informations sur la spécification des bibliothèques PyPi, consultez help(azureml.core.runconfig.PyPiLibrary).

egg_libraries
list[<xref:azureml.core.runconfig.EggLibrary>]
Obligatoire

Bibliothèques Egg à utiliser pour l’exécution Databricks. Pour plus d’informations sur la spécification des bibliothèques Egg, consultez help(azureml.core.runconfig.EggLibrary).

jar_libraries
list[<xref:azureml.core.runconfig.JarLibrary>]
Obligatoire

Bibliothèques Jar à utiliser pour l’exécution Databricks. Pour plus d’informations sur la spécification des bibliothèques Jar, consultez help(azureml.core.runconfig.JarLibrary).

rcran_libraries
list[<xref:azureml.core.runconfig.RCranLibrary>]
Obligatoire

Bibliothèques RCran à utiliser pour l’exécution Databricks. Pour plus d’informations sur la spécification des bibliothèques RCran, consultez help(azureml.core.runconfig.RCranLibrary).

compute_target
str, DatabricksCompute
Obligatoire

[Obligatoire] Calcul Azure Databricks. Avant de pouvoir utiliser DatabricksStep pour exécuter vos scripts ou notebooks sur un espace de travail Azure Databricks, vous devez ajouter l’espace de travail Azure Databricks en tant que cible de calcul à votre espace de travail Azure Machine Learning.

allow_reuse
bool
Obligatoire

Indique si l’étape doit réutiliser les résultats précédents lorsqu’elle est exécutée avec les mêmes paramètres. La réutilisation est activée par défaut. Si le contenu de l’étape (scripts/dépendances) ainsi que les entrées et les paramètres restent inchangés, la sortie de l’exécution précédente de cette étape est réutilisée. Lors de la réutilisation de l’étape, au lieu de soumettre le travail au calcul, les résultats de l’exécution précédente sont immédiatement mis à la disposition des étapes suivantes. Si vous utilisez des jeux de données Azure Machine Learning comme entrées, la réutilisation est déterminée par le fait que la définition du jeu de données a changé ou pas, non par la modification éventuelle des données sous-jacentes.

version
str
Obligatoire

Étiquette de version facultative pour indiquer une modification de fonctionnalité pour l’étape.

permit_cluster_restart
bool
Obligatoire

Si existing_cluster_id est spécifié, ce paramètre indique si le cluster peut être redémarré pour le compte de l’utilisateur.

Méthodes

create_node

Créez un nœud à partir de l’étape Databricks et ajoutez-le au graphe spécifié.

Cette méthode n’est pas destinée à être utilisée directement. Lorsqu’un pipeline est instancié avec cette étape, Azure ML transmet automatiquement les paramètres requis via cette méthode afin que l’étape puisse être ajoutée à un graphique de pipeline qui représente le flux de travail.

create_node

Créez un nœud à partir de l’étape Databricks et ajoutez-le au graphe spécifié.

Cette méthode n’est pas destinée à être utilisée directement. Lorsqu’un pipeline est instancié avec cette étape, Azure ML transmet automatiquement les paramètres requis via cette méthode afin que l’étape puisse être ajoutée à un graphique de pipeline qui représente le flux de travail.

create_node(graph, default_datastore, context)

Paramètres

graph
Graph
Obligatoire

Objet graphique auquel ajouter le nœud.

default_datastore
Union[AbstractAzureStorageDatastore, AzureDataLakeDatastore]
Obligatoire

Magasin de données par défaut.

context
<xref:azureml.pipeline.core._GraphContext>
Obligatoire

Contexte du graphique.

Retours

Nœud créé.

Type de retour