Condividi tramite


AdlaStep Classe

Crea un passaggio della pipeline di Azure ML per eseguire uno script U-SQL con Azure Data Lake Analytics.

Per un esempio di uso di AdlaStep, vedere il notebook https://aka.ms/pl-adla.

Creare un passaggio della pipeline di Azure ML per eseguire uno script U-SQL con Azure Data Lake Analytics.

Ereditarietà
azureml.pipeline.core._adla_step_base._AdlaStepBase
AdlaStep

Costruttore

AdlaStep(script_name, name=None, inputs=None, outputs=None, params=None, degree_of_parallelism=None, priority=None, runtime_version=None, compute_target=None, source_directory=None, allow_reuse=True, version=None, hash_paths=None)

Parametri

Nome Descrizione
script_name
Necessario
str

[Obbligatorio] Nome di uno script U-SQL, relativo a source_directory.

name
str

Nome del passaggio. Se non specificato, script_name viene utilizzato .

valore predefinito: None
inputs

Elenco di associazioni di porte di input.

valore predefinito: None
outputs

Elenco di associazioni di porte di output.

valore predefinito: None
params

Dizionario di coppie nome-valore.

valore predefinito: None
degree_of_parallelism
int

Grado di parallelismo da usare per questo processo. Deve essere maggiore di 0. Se impostato su minore di 0, il valore predefinito è 1.

valore predefinito: None
priority
int

Valore di priorità da utilizzare per il processo corrente. I numeri più bassi hanno una priorità più alta. Per impostazione predefinita, un processo ha una priorità pari a 1000. Il valore specificato deve essere maggiore di 0.

valore predefinito: None
runtime_version
str

Versione di runtime del motore di Data Lake Analytics.

valore predefinito: None
compute_target

[Obbligatorio] Calcolo ADLA da usare per questo processo.

valore predefinito: None
source_directory
str

Cartella contenente lo script, gli assembly e così via.

valore predefinito: None
allow_reuse

Indica se il passaggio deve riutilizzare i risultati precedenti quando viene eseguito di nuovo con le stesse impostazioni. Il riutilizzo è abilitato per impostazione predefinita. Se il contenuto del passaggio (script/dipendenze) e gli input e i parametri rimangono invariati, l'output dell'esecuzione precedente di questo passaggio viene riutilizzato. Quando si riutilizza il passaggio, anziché inviare il processo al calcolo, i risultati dell'esecuzione precedente vengono immediatamente resi disponibili per tutti i passaggi successivi. Se si usano set di dati di Azure Machine Learning come input, il riutilizzo viene determinato dal fatto che la definizione del set di dati sia stata modificata, non dal fatto che i dati sottostanti siano stati modificati.

valore predefinito: True
version
str

Tag di versione facoltativo per indicare una modifica delle funzionalità per il passaggio.

valore predefinito: None
hash_paths

DEPRECATO: non più necessario.

Elenco di percorsi di hash durante il controllo delle modifiche apportate al contenuto del passaggio. Se non sono state rilevate modifiche, la pipeline riutilizzerà il contenuto del passaggio da un'esecuzione precedente. Per impostazione predefinita, il contenuto di viene sottoposto a hash, ad eccezione dei source_directory file elencati in .amlignore o .gitignore.

valore predefinito: None
script_name
Necessario
str

[Obbligatorio] Nome di uno script U-SQL, relativo a source_directory.

name
Necessario
str

Nome del passaggio. Se non specificato, script_name viene utilizzato .

inputs
Necessario

Elenco di associazioni di porte di input

outputs
Necessario
list[Union[PipelineData, <xref:azureml.pipeline.core.pipeline_output_dataset.PipelineAbstractOutputDataset>, OutputPortBinding]]

Elenco di associazioni di porte di output.

params
Necessario

Dizionario di coppie nome-valore.

degree_of_parallelism
Necessario
int

Grado di parallelismo da usare per questo processo. Deve essere maggiore di 0. Se impostato su minore di 0, il valore predefinito è 1.

priority
Necessario
int

Valore di priorità da utilizzare per il processo corrente. I numeri più bassi hanno una priorità più alta. Per impostazione predefinita, un processo ha una priorità pari a 1000. Il valore specificato deve essere maggiore di 0.

runtime_version
Necessario
str

Versione di runtime del motore di Data Lake Analytics.

compute_target
Necessario

[Obbligatorio] Calcolo ADLA da usare per questo processo.

source_directory
Necessario
str

Cartella contenente lo script, gli assembly e così via.

allow_reuse
Necessario

Indica se il passaggio deve riutilizzare i risultati precedenti quando viene eseguito di nuovo con le stesse impostazioni. Il riutilizzo è abilitato per impostazione predefinita. Se il contenuto del passaggio (script/dipendenze) e gli input e i parametri rimangono invariati, l'output dell'esecuzione precedente di questo passaggio viene riutilizzato. Quando si riutilizza il passaggio, anziché inviare il processo al calcolo, i risultati dell'esecuzione precedente vengono immediatamente resi disponibili per tutti i passaggi successivi. Se si usano set di dati di Azure Machine Learning come input, il riutilizzo viene determinato dal fatto che la definizione del set di dati sia stata modificata, non dal fatto che i dati sottostanti siano stati modificati.

version
Necessario
str

Tag di versione facoltativo per indicare una modifica delle funzionalità per il passaggio.

hash_paths
Necessario

DEPRECATO: non più necessario.

Elenco di percorsi di hash durante il controllo delle modifiche apportate al contenuto del passaggio. Se non sono state rilevate modifiche, la pipeline riutilizzerà il contenuto del passaggio da un'esecuzione precedente. Per impostazione predefinita, il contenuto di viene sottoposto a hash, ad eccezione dei source_directory file elencati in .amlignore o .gitignore.

Commenti

È possibile usare @@name@@ sintassi nello script per fare riferimento a input, output e parametri.

  • se name è il nome di un'associazione di porta di input o di output, tutte le occorrenze di @@name@@ nello script vengono sostituite con il percorso dati effettivo di un'associazione di porta corrispondente.

  • se il nome corrisponde a una chiave in params dict, qualsiasi occorrenza di @@name@@ verrà sostituita con il valore corrispondente in dict.

AdlaStep funziona solo con i dati archiviati nel Data Lake Storage predefinito dell'account Data Lake Analytics. Se i dati si trovano in una risorsa di archiviazione non predefinita, usare un DataTransferStep oggetto per copiare i dati nella risorsa di archiviazione predefinita. Per trovare l'archiviazione predefinita, aprire l'account Data Lake Analytics nel portale di Azure e quindi passare all'elemento "Origini dati" in Impostazioni nel riquadro sinistro.

L'esempio seguente illustra come usare AdlaStep in una pipeline di Azure Machine Learning.


   adla_step = AdlaStep(
       name='extract_employee_names',
       script_name='sample_script.usql',
       source_directory=sample_folder,
       inputs=[sample_input],
       outputs=[sample_output],
       compute_target=adla_compute)

L'esempio completo è disponibile da https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/machine-learning-pipelines/intro-to-pipelines/aml-pipelines-use-adla-as-compute-target.ipynb

Metodi

create_node

Creare un nodo dal passaggio AdlaStep e aggiungerlo al grafico specificato.

Questo metodo non deve essere usato direttamente. Quando viene creata un'istanza di una pipeline con questo passaggio, Azure ML passa automaticamente i parametri necessari tramite questo metodo in modo che tale passaggio possa essere aggiunto a un grafo della pipeline che rappresenta il flusso di lavoro.

create_node

Creare un nodo dal passaggio AdlaStep e aggiungerlo al grafico specificato.

Questo metodo non deve essere usato direttamente. Quando viene creata un'istanza di una pipeline con questo passaggio, Azure ML passa automaticamente i parametri necessari tramite questo metodo in modo che tale passaggio possa essere aggiunto a un grafo della pipeline che rappresenta il flusso di lavoro.

create_node(graph, default_datastore, context)

Parametri

Nome Descrizione
graph
Necessario

Oggetto grafico.

default_datastore
Necessario

Archivio dati predefinito.

context
Necessario
<xref:azureml.pipeline.core._GraphContext>

Contesto del grafo.

Restituisce

Tipo Descrizione

Oggetto node.