AdlaStep Classe

Crée une étape de pipeline Azure ML pour exécuter un script U-SQL avec Azure Data Lake Analytics.

Pour obtenir un exemple d’utilisation d’AdlaStep, consultez le notebook https://aka.ms/pl-adla.

Créez une étape de pipeline Azure ML pour exécuter un script U-SQL avec Azure Data Lake Analytics.

Héritage
azureml.pipeline.core._adla_step_base._AdlaStepBase
AdlaStep

Constructeur

AdlaStep(script_name, name=None, inputs=None, outputs=None, params=None, degree_of_parallelism=None, priority=None, runtime_version=None, compute_target=None, source_directory=None, allow_reuse=True, version=None, hash_paths=None)

Paramètres

script_name
str
Obligatoire

[Obligatoire] Nom d’un script U-SQL relatif à source_directory.

name
str
valeur par défaut: None

Nom de l'étape. S’il n’est pas spécifié, script_name est utilisé.

inputs
list[Union[InputPortBinding, DataReference, PortDataReference, PipelineData]]
valeur par défaut: None

Liste des liaisons de port d’entrée.

outputs
list[Union[PipelineData, PipelineOutputAbstractDataset, OutputPortBinding]]
valeur par défaut: None

Liste des liaisons de port de sortie.

params
dict
valeur par défaut: None

Dictionnaire des paires nom-valeur.

degree_of_parallelism
int
valeur par défaut: None

Degré de parallélisme à utiliser pour ce travail. La valeur doit être supérieure à 0. Si une valeur inférieure à 0 est définie, la valeur par défaut est 1.

priority
int
valeur par défaut: None

Valeur de priorité à utiliser pour le travail en cours. Les nombres inférieurs ont une priorité plus élevée. Par défaut, une tâche affiche une priorité de 1 000. La valeur que vous spécifiez doit être supérieure à 0.

runtime_version
str
valeur par défaut: None

Version du runtime du moteur Data Lake Analytics.

compute_target
AdlaCompute, str
valeur par défaut: None

[Obligatoire] Calcul ADLA à utiliser pour ce travail.

source_directory
str
valeur par défaut: None

Dossier qui contient le script, les assemblys, etc.

allow_reuse
bool
valeur par défaut: True

Indique si l’étape doit réutiliser les résultats précédents lorsqu’elle est exécutée avec les mêmes paramètres. La réutilisation est activée par défaut. Si le contenu de l’étape (scripts/dépendances) ainsi que les entrées et les paramètres restent inchangés, la sortie de l’exécution précédente de cette étape est réutilisée. Lors de la réutilisation de l’étape, au lieu de soumettre le travail au calcul, les résultats de l’exécution précédente sont immédiatement mis à la disposition des étapes suivantes. Si vous utilisez des jeux de données Azure Machine Learning comme entrées, la réutilisation est déterminée par le fait que la définition du jeu de données a changé ou pas, non par la modification éventuelle des données sous-jacentes.

version
str
valeur par défaut: None

Étiquette de version facultative pour indiquer une modification de fonctionnalité pour l’étape.

hash_paths
list
valeur par défaut: None

DÉPRÉCIÉ : n’est plus nécessaire.

Liste de chemins à hacher lors de la recherche des modifications apportées au contenu de l’étape. Si aucune modification n’est détectée, le pipeline réutilise le contenu de l’étape d’une exécution précédente. Par défaut, le contenu de source_directory est haché (à l’exception des fichiers listés dans.amlignore ou .gitignore).

script_name
str
Obligatoire

[Obligatoire] Nom d’un script U-SQL relatif à source_directory.

name
str
Obligatoire

Nom de l'étape. S’il n’est pas spécifié, script_name est utilisé.

inputs
list[Union[InputPortBinding, DataReference, PortDataReference, PipelineData]]
Obligatoire

Liste des liaisons de port d’entrée

outputs
list[Union[PipelineData, <xref:azureml.pipeline.core.pipeline_output_dataset.PipelineAbstractOutputDataset>, OutputPortBinding]]
Obligatoire

Liste des liaisons de port de sortie.

params
dict
Obligatoire

Dictionnaire des paires nom-valeur.

degree_of_parallelism
int
Obligatoire

Degré de parallélisme à utiliser pour ce travail. La valeur doit être supérieure à 0. Si une valeur inférieure à 0 est définie, la valeur par défaut est 1.

priority
int
Obligatoire

Valeur de priorité à utiliser pour le travail en cours. Les nombres inférieurs ont une priorité plus élevée. Par défaut, une tâche affiche une priorité de 1 000. La valeur que vous spécifiez doit être supérieure à 0.

runtime_version
str
Obligatoire

Version du runtime du moteur Data Lake Analytics.

compute_target
AdlaCompute, str
Obligatoire

[Obligatoire] Calcul ADLA à utiliser pour ce travail.

source_directory
str
Obligatoire

Dossier qui contient le script, les assemblys, etc.

allow_reuse
bool
Obligatoire

Indique si l’étape doit réutiliser les résultats précédents lorsqu’elle est exécutée avec les mêmes paramètres. La réutilisation est activée par défaut. Si le contenu de l’étape (scripts/dépendances) ainsi que les entrées et les paramètres restent inchangés, la sortie de l’exécution précédente de cette étape est réutilisée. Lors de la réutilisation de l’étape, au lieu de soumettre le travail au calcul, les résultats de l’exécution précédente sont immédiatement mis à la disposition des étapes suivantes. Si vous utilisez des jeux de données Azure Machine Learning comme entrées, la réutilisation est déterminée par le fait que la définition du jeu de données a changé ou pas, non par la modification éventuelle des données sous-jacentes.

version
str
Obligatoire

Balise de version facultative pour indiquer une modification de fonctionnalité pour l’étape.

hash_paths
list
Obligatoire

DÉCONSEILLÉ : n’est plus nécessaire.

Liste de chemins à hacher lors de la recherche des modifications apportées au contenu de l’étape. Si aucune modification n’est détectée, le pipeline réutilise le contenu de l’étape d’une exécution précédente. Par défaut, le contenu de source_directory est haché (à l’exception des fichiers répertoriés dans .amlignore ou .gitignore).

Remarques

Vous pouvez utiliser la syntaxe @@name@@ dans votre script pour faire référence aux entrées, aux sorties et aux paramètres.

  • Si name est le nom d’une liaison de port d’entrée ou de sortie, les occurrences de @@name@@ dans le script sont remplacées par le chemin d’accès de données réel d’une liaison de port correspondante.

  • Si name correspond à n’importe quelle clé dans le dictionnaire params, toutes les occurrences de @@name@@ sont remplacées par la valeur correspondante dans le dictionnaire.

AdlaStep fonctionne uniquement avec les données stockées dans le Data Lake Storage par défaut du compte Data Lake Analytics. Si les données se trouvent dans un stockage autre que celui par défaut, utilisez un DataTransferStep pour copier les données dans le stockage par défaut. Vous pouvez trouver le stockage par défaut en ouvrant votre compte Data Lake Analytics dans le portail Azure puis en accédant à l’élément « Sources de données » sous Paramètres dans le volet gauche.

L’exemple suivant montre comment utiliser AdlaStep dans un pipeline Azure Machine Learning.


   adla_step = AdlaStep(
       name='extract_employee_names',
       script_name='sample_script.usql',
       source_directory=sample_folder,
       inputs=[sample_input],
       outputs=[sample_output],
       compute_target=adla_compute)

Un exemple complet est disponible sur https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/machine-learning-pipelines/intro-to-pipelines/aml-pipelines-use-adla-as-compute-target.ipynb

Méthodes

create_node

Crée un nœud à partir de l’étape AdlaStep et l’ajoute au graphique spécifié.

Cette méthode n’est pas destinée à être utilisée directement. Lorsqu’un pipeline est instancié avec cette étape, Azure ML transmet automatiquement les paramètres requis via cette méthode afin que l’étape puisse être ajoutée à un graphique de pipeline qui représente le flux de travail.

create_node

Crée un nœud à partir de l’étape AdlaStep et l’ajoute au graphique spécifié.

Cette méthode n’est pas destinée à être utilisée directement. Lorsqu’un pipeline est instancié avec cette étape, Azure ML transmet automatiquement les paramètres requis via cette méthode afin que l’étape puisse être ajoutée à un graphique de pipeline qui représente le flux de travail.

create_node(graph, default_datastore, context)

Paramètres

graph
Graph
Obligatoire

Objet de graphique.

default_datastore
Union[AbstractAzureStorageDatastore, AzureDataLakeDatastore]
Obligatoire

Magasin de données par défaut.

context
<xref:azureml.pipeline.core._GraphContext>
Obligatoire

Contexte du graphique.

Retours

Objet de nœud.

Type de retour