AdlaStep Classe

Riferimento

Crea un passaggio della pipeline di Azure ML per eseguire uno script U-SQL con Azure Data Lake Analytics.

Per un esempio di uso di AdlaStep, vedere il notebook https://aka.ms/pl-adla.

Creare un passaggio della pipeline di Azure ML per eseguire uno script U-SQL con Azure Data Lake Analytics.

Ereditarietà: azureml.pipeline.core._adla_step_base._AdlaStepBase

AdlaStep

Costruttore

AdlaStep(script_name, name=None, inputs=None, outputs=None, params=None, degree_of_parallelism=None, priority=None, runtime_version=None, compute_target=None, source_directory=None, allow_reuse=True, version=None, hash_paths=None)

Parametri

Nome	Descrizione
script_name Necessario	str [Obbligatorio] Nome di uno script U-SQL, relativo a `source_directory`.
name	str Nome del passaggio. Se non specificato, `script_name` viene utilizzato . valore predefinito: None
inputs	list[Union[InputPortBinding, DataReference, PortDataReference, PipelineData]] Elenco di associazioni di porte di input. valore predefinito: None
outputs	list[Union[PipelineData, PipelineOutputAbstractDataset, OutputPortBinding]] Elenco di associazioni di porte di output. valore predefinito: None
params	dict Dizionario di coppie nome-valore. valore predefinito: None
degree_of_parallelism	int Grado di parallelismo da usare per questo processo. Deve essere maggiore di 0. Se impostato su minore di 0, il valore predefinito è 1. valore predefinito: None
priority	int Valore di priorità da utilizzare per il processo corrente. I numeri più bassi hanno una priorità più alta. Per impostazione predefinita, un processo ha una priorità pari a 1000. Il valore specificato deve essere maggiore di 0. valore predefinito: None
runtime_version	str Versione di runtime del motore di Data Lake Analytics. valore predefinito: None
compute_target	AdlaCompute, str [Obbligatorio] Calcolo ADLA da usare per questo processo. valore predefinito: None
source_directory	str Cartella contenente lo script, gli assembly e così via. valore predefinito: None
allow_reuse	bool Indica se il passaggio deve riutilizzare i risultati precedenti quando viene eseguito di nuovo con le stesse impostazioni. Il riutilizzo è abilitato per impostazione predefinita. Se il contenuto del passaggio (script/dipendenze) e gli input e i parametri rimangono invariati, l'output dell'esecuzione precedente di questo passaggio viene riutilizzato. Quando si riutilizza il passaggio, anziché inviare il processo al calcolo, i risultati dell'esecuzione precedente vengono immediatamente resi disponibili per tutti i passaggi successivi. Se si usano set di dati di Azure Machine Learning come input, il riutilizzo viene determinato dal fatto che la definizione del set di dati sia stata modificata, non dal fatto che i dati sottostanti siano stati modificati. valore predefinito: True
version	str Tag di versione facoltativo per indicare una modifica delle funzionalità per il passaggio. valore predefinito: None
hash_paths	list DEPRECATO: non più necessario. Elenco di percorsi di hash durante il controllo delle modifiche apportate al contenuto del passaggio. Se non sono state rilevate modifiche, la pipeline riutilizzerà il contenuto del passaggio da un'esecuzione precedente. Per impostazione predefinita, il contenuto di viene sottoposto a hash, ad eccezione dei `source_directory` file elencati in .amlignore o .gitignore. valore predefinito: None
script_name Necessario	str [Obbligatorio] Nome di uno script U-SQL, relativo a `source_directory`.
name Necessario	str Nome del passaggio. Se non specificato, `script_name` viene utilizzato .
inputs Necessario	list[Union[InputPortBinding, DataReference, PortDataReference, PipelineData]] Elenco di associazioni di porte di input
outputs Necessario	list[Union[PipelineData, <xref:azureml.pipeline.core.pipeline_output_dataset.PipelineAbstractOutputDataset>, OutputPortBinding]] Elenco di associazioni di porte di output.
params Necessario	dict Dizionario di coppie nome-valore.
degree_of_parallelism Necessario	int Grado di parallelismo da usare per questo processo. Deve essere maggiore di 0. Se impostato su minore di 0, il valore predefinito è 1.
priority Necessario	int Valore di priorità da utilizzare per il processo corrente. I numeri più bassi hanno una priorità più alta. Per impostazione predefinita, un processo ha una priorità pari a 1000. Il valore specificato deve essere maggiore di 0.
runtime_version Necessario	str Versione di runtime del motore di Data Lake Analytics.
compute_target Necessario	AdlaCompute, str [Obbligatorio] Calcolo ADLA da usare per questo processo.
source_directory Necessario	str Cartella contenente lo script, gli assembly e così via.
allow_reuse Necessario	bool Indica se il passaggio deve riutilizzare i risultati precedenti quando viene eseguito di nuovo con le stesse impostazioni. Il riutilizzo è abilitato per impostazione predefinita. Se il contenuto del passaggio (script/dipendenze) e gli input e i parametri rimangono invariati, l'output dell'esecuzione precedente di questo passaggio viene riutilizzato. Quando si riutilizza il passaggio, anziché inviare il processo al calcolo, i risultati dell'esecuzione precedente vengono immediatamente resi disponibili per tutti i passaggi successivi. Se si usano set di dati di Azure Machine Learning come input, il riutilizzo viene determinato dal fatto che la definizione del set di dati sia stata modificata, non dal fatto che i dati sottostanti siano stati modificati.
version Necessario	str Tag di versione facoltativo per indicare una modifica delle funzionalità per il passaggio.
hash_paths Necessario	list DEPRECATO: non più necessario. Elenco di percorsi di hash durante il controllo delle modifiche apportate al contenuto del passaggio. Se non sono state rilevate modifiche, la pipeline riutilizzerà il contenuto del passaggio da un'esecuzione precedente. Per impostazione predefinita, il contenuto di viene sottoposto a hash, ad eccezione dei `source_directory` file elencati in .amlignore o .gitignore.

Commenti

È possibile usare @@name@@ sintassi nello script per fare riferimento a input, output e parametri.

se name è il nome di un'associazione di porta di input o di output, tutte le occorrenze di @@name@@ nello script vengono sostituite con il percorso dati effettivo di un'associazione di porta corrispondente.
se il nome corrisponde a una chiave in params dict, qualsiasi occorrenza di @@name@@ verrà sostituita con il valore corrispondente in dict.

AdlaStep funziona solo con i dati archiviati nel Data Lake Storage predefinito dell'account Data Lake Analytics. Se i dati si trovano in una risorsa di archiviazione non predefinita, usare un DataTransferStep oggetto per copiare i dati nella risorsa di archiviazione predefinita. Per trovare l'archiviazione predefinita, aprire l'account Data Lake Analytics nel portale di Azure e quindi passare all'elemento "Origini dati" in Impostazioni nel riquadro sinistro.

L'esempio seguente illustra come usare AdlaStep in una pipeline di Azure Machine Learning.


   adla_step = AdlaStep(
       name='extract_employee_names',
       script_name='sample_script.usql',
       source_directory=sample_folder,
       inputs=[sample_input],
       outputs=[sample_output],
       compute_target=adla_compute)

L'esempio completo è disponibile da https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/machine-learning-pipelines/intro-to-pipelines/aml-pipelines-use-adla-as-compute-target.ipynb

Metodi

create_node

Creare un nodo dal passaggio AdlaStep e aggiungerlo al grafico specificato.

Questo metodo non deve essere usato direttamente. Quando viene creata un'istanza di una pipeline con questo passaggio, Azure ML passa automaticamente i parametri necessari tramite questo metodo in modo che tale passaggio possa essere aggiunto a un grafo della pipeline che rappresenta il flusso di lavoro.

create_node

Creare un nodo dal passaggio AdlaStep e aggiungerlo al grafico specificato.

create_node(graph, default_datastore, context)

Parametri

Nome	Descrizione
graph Necessario	Graph Oggetto grafico.
default_datastore Necessario	Union[AbstractAzureStorageDatastore, AzureDataLakeDatastore] Archivio dati predefinito.
context Necessario	<xref:azureml.pipeline.core._GraphContext> Contesto del grafo.

Restituisce

Tipo	Descrizione
Node	Oggetto node.

Condividi tramite

AdlaStep Classe

Costruttore

Parametri

Commenti

Metodi

create_node

Parametri

Restituisce

Commenti e suggerimenti

Commenti e suggerimenti

Risorse aggiuntive