Partilhar via


AdlaStep Classe

Cria um passo do Pipeline do Azure ML para executar um script U-SQL com o Azure Data Lake Analytics.

Para obter um exemplo de utilização deste AdlaStep, consulte o bloco de notas https://aka.ms/pl-adla.

Crie um passo do Pipeline do Azure ML para executar um script U-SQL com o Azure Data Lake Analytics.

Herança
azureml.pipeline.core._adla_step_base._AdlaStepBase
AdlaStep

Construtor

AdlaStep(script_name, name=None, inputs=None, outputs=None, params=None, degree_of_parallelism=None, priority=None, runtime_version=None, compute_target=None, source_directory=None, allow_reuse=True, version=None, hash_paths=None)

Parâmetros

Name Description
script_name
Necessário
str

[Obrigatório] O nome de um script U-SQL, relativo a source_directory.

name
str

O nome do passo. Se não for especificado, script_name é utilizado.

Default value: None
inputs

Uma lista de enlaces de portas de entrada.

Default value: None
outputs

Uma lista de enlaces de portas de saída.

Default value: None
params

Um dicionário de pares nome-valor.

Default value: None
degree_of_parallelism
int

O grau de paralelismo a utilizar para este trabalho. Tem de ser maior que 0. Se estiver definido como inferior a 0, a predefinição é 1.

Default value: None
priority
int

O valor de prioridade a utilizar para a tarefa atual. Os números mais baixos têm uma prioridade mais alta. Por predefinição, uma tarefa tem uma prioridade de 1000. O valor que especificar tem de ser superior a 0.

Default value: None
runtime_version
str

A versão de runtime do motor de Data Lake Analytics.

Default value: None
compute_target

[Obrigatório] A computação do ADLA a utilizar para esta tarefa.

Default value: None
source_directory
str

Uma pasta que contém o script, assemblagens, etc.

Default value: None
allow_reuse

Indica se o passo deve reutilizar os resultados anteriores ao executar novamente com as mesmas definições. A reutilização está ativada por predefinição. Se o conteúdo do passo (scripts/dependências), bem como as entradas e os parâmetros permanecerem inalterados, o resultado da execução anterior deste passo será reutilizado. Ao reutilizar o passo, em vez de submeter a tarefa para computação, os resultados da execução anterior são imediatamente disponibilizados para quaisquer passos subsequentes. Se utilizar conjuntos de dados do Azure Machine Learning como entradas, a reutilização é determinada se a definição do conjunto de dados foi alterada e não se os dados subjacentes foram alterados.

Default value: True
version
str

Etiqueta de versão opcional para denotar uma alteração na funcionalidade do passo.

Default value: None
hash_paths

PRETERIDO: já não é necessário.

Uma lista de caminhos para hash ao verificar se existem alterações nos conteúdos do passo. Se não forem detetadas alterações, o pipeline reutilizará o conteúdo do passo de uma execução anterior. Por predefinição, os conteúdos de source_directory são transformados em hash, à exceção dos ficheiros listados em .amlignoree ou .gitignore.

Default value: None
script_name
Necessário
str

[Obrigatório] O nome de um script U-SQL, relativo a source_directory.

name
Necessário
str

O nome do passo. Se não for especificado, script_name é utilizado.

inputs
Necessário

Lista de enlaces de porta de entrada

outputs
Necessário
list[Union[PipelineData, <xref:azureml.pipeline.core.pipeline_output_dataset.PipelineAbstractOutputDataset>, OutputPortBinding]]

Uma lista de enlaces de portas de saída.

params
Necessário

Um dicionário de pares nome-valor.

degree_of_parallelism
Necessário
int

O grau de paralelismo a utilizar para este trabalho. Tem de ser maior que 0. Se estiver definido como inferior a 0, a predefinição é 1.

priority
Necessário
int

O valor de prioridade a utilizar para a tarefa atual. Os números mais baixos têm uma prioridade mais alta. Por predefinição, uma tarefa tem uma prioridade de 1000. O valor que especificar tem de ser superior a 0.

runtime_version
Necessário
str

A versão de runtime do motor de Data Lake Analytics.

compute_target
Necessário

[Obrigatório] A computação do ADLA a utilizar para esta tarefa.

source_directory
Necessário
str

Uma pasta que contém o script, assemblagens, etc.

allow_reuse
Necessário

Indica se o passo deve reutilizar os resultados anteriores ao executar novamente com as mesmas definições. A reutilização está ativada por predefinição. Se o conteúdo do passo (scripts/dependências), bem como as entradas e os parâmetros permanecerem inalterados, o resultado da execução anterior deste passo será reutilizado. Ao reutilizar o passo, em vez de submeter a tarefa para computação, os resultados da execução anterior são imediatamente disponibilizados para quaisquer passos subsequentes. Se utilizar conjuntos de dados do Azure Machine Learning como entradas, a reutilização é determinada se a definição do conjunto de dados foi alterada e não se os dados subjacentes foram alterados.

version
Necessário
str

Uma etiqueta de versão opcional para denotar uma alteração na funcionalidade do passo.

hash_paths
Necessário

PRETERIDO: já não é necessário.

Uma lista de caminhos para hash ao verificar se existem alterações nos conteúdos do passo. Se não forem detetadas alterações, o pipeline reutilizará o conteúdo do passo de uma execução anterior. Por predefinição, os conteúdos de source_directory são transformados em hash, à exceção dos ficheiros listados em .amlignoree ou .gitignore.

Observações

Pode utilizar @@name@@ sintaxe no script para fazer referência a entradas, saídas e parâmetros.

  • Se name for o nome de um enlace de porta de entrada ou saída, todas as ocorrências de @@name@@ no script são substituídas pelo caminho de dados real de um enlace de porta correspondente.

  • Se o nome corresponder a qualquer chave em parâmetros dict, quaisquer ocorrências de @@name@@ serão substituídas pelo valor correspondente em dict.

O AdlaStep só funciona com dados armazenados na Data Lake Storage predefinida da conta Data Lake Analytics. Se os dados estiverem num armazenamento não predefinido, utilize um DataTransferStep para copiar os dados para o armazenamento predefinido. Pode encontrar o armazenamento predefinido ao abrir a sua conta Data Lake Analytics no portal do Azure e, em seguida, navegar para o item "Origens de dados" em Definições no painel esquerdo.

O exemplo seguinte mostra como utilizar o AdlaStep num Pipeline do Azure Machine Learning.


   adla_step = AdlaStep(
       name='extract_employee_names',
       script_name='sample_script.usql',
       source_directory=sample_folder,
       inputs=[sample_input],
       outputs=[sample_output],
       compute_target=adla_compute)

O exemplo completo está disponível a partir de https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/machine-learning-pipelines/intro-to-pipelines/aml-pipelines-use-adla-as-compute-target.ipynb

Métodos

create_node

Crie um nó a partir do passo AdlaStep e adicione-o ao gráfico especificado.

Este método não se destina a ser utilizado diretamente. Quando um pipeline é instanciado com este passo, o Azure ML transmite automaticamente os parâmetros necessários através deste método para que esse passo possa ser adicionado a um gráfico de pipeline que representa o fluxo de trabalho.

create_node

Crie um nó a partir do passo AdlaStep e adicione-o ao gráfico especificado.

Este método não se destina a ser utilizado diretamente. Quando um pipeline é instanciado com este passo, o Azure ML transmite automaticamente os parâmetros necessários através deste método para que esse passo possa ser adicionado a um gráfico de pipeline que representa o fluxo de trabalho.

create_node(graph, default_datastore, context)

Parâmetros

Name Description
graph
Necessário

O objeto de gráfico.

default_datastore
Necessário

O arquivo de dados predefinido.

context
Necessário
<xref:azureml.pipeline.core._GraphContext>

O contexto do gráfico.

Devoluções

Tipo Description

O objeto do nó.