AdlaStep Classe

Referência

Cria um passo do Pipeline do Azure ML para executar um script U-SQL com o Azure Data Lake Analytics.

Para obter um exemplo de utilização deste AdlaStep, consulte o bloco de notas https://aka.ms/pl-adla.

Crie um passo do Pipeline do Azure ML para executar um script U-SQL com o Azure Data Lake Analytics.

Herança: azureml.pipeline.core._adla_step_base._AdlaStepBase

AdlaStep

Construtor

AdlaStep(script_name, name=None, inputs=None, outputs=None, params=None, degree_of_parallelism=None, priority=None, runtime_version=None, compute_target=None, source_directory=None, allow_reuse=True, version=None, hash_paths=None)

Parâmetros

Name	Description
script_name Necessário	str [Obrigatório] O nome de um script U-SQL, relativo a `source_directory`.
name	str O nome do passo. Se não for especificado, `script_name` é utilizado. Default value: None
inputs	list[Union[InputPortBinding, DataReference, PortDataReference, PipelineData]] Uma lista de enlaces de porta de entrada. Default value: None
outputs	list[Union[PipelineData, PipelineOutputAbstractDataset, OutputPortBinding]] Uma lista de enlaces de portas de saída. Default value: None
params	dict Um dicionário de pares nome-valor. Default value: None
degree_of_parallelism	int O grau de paralelismo a utilizar para este trabalho. Tem de ser superior a 0. Se estiver definido como inferior a 0, a predefinição é 1. Default value: None
priority	int O valor de prioridade a utilizar para a tarefa atual. Os números mais baixos têm uma prioridade maior. Por predefinição, uma tarefa tem uma prioridade de 1000. O valor que especificar tem de ser superior a 0. Default value: None
runtime_version	str A versão de runtime do motor de Data Lake Analytics. Default value: None
compute_target	AdlaCompute, str [Obrigatório] A computação do ADLA a utilizar para esta tarefa. Default value: None
source_directory	str Uma pasta que contém o script, assemblagens, etc. Default value: None
allow_reuse	bool Indica se o passo deve reutilizar os resultados anteriores ao executar novamente com as mesmas definições. A reutilização está ativada por predefinição. Se o conteúdo do passo (scripts/dependências), bem como as entradas e os parâmetros permanecerem inalterados, o resultado da execução anterior deste passo será reutilizado. Ao reutilizar o passo, em vez de submeter a tarefa para computação, os resultados da execução anterior são imediatamente disponibilizados para quaisquer passos subsequentes. Se utilizar conjuntos de dados do Azure Machine Learning como entradas, a reutilização será determinada se a definição do conjunto de dados foi alterada e não se os dados subjacentes foram alterados. Default value: True
version	str Etiqueta de versão opcional para denotar uma alteração na funcionalidade do passo. Default value: None
hash_paths	list PRETERIDO: já não é necessário. Uma lista de caminhos para hash ao verificar se existem alterações nos conteúdos do passo. Se não forem detetadas alterações, o pipeline reutilizará o conteúdo do passo de uma execução anterior. Por predefinição, os conteúdos de `source_directory` são transformados em hash, à exceção dos ficheiros listados em .amlignoree ou .gitignore. Default value: None
script_name Necessário	str [Obrigatório] O nome de um script U-SQL, relativo a `source_directory`.
name Necessário	str O nome do passo. Se não for especificado, `script_name` é utilizado.
inputs Necessário	list[Union[InputPortBinding, DataReference, PortDataReference, PipelineData]] Lista de enlaces de porta de entrada
outputs Necessário	list[Union[PipelineData, <xref:azureml.pipeline.core.pipeline_output_dataset.PipelineAbstractOutputDataset>, OutputPortBinding]] Uma lista de enlaces de portas de saída.
params Necessário	dict Um dicionário de pares nome-valor.
degree_of_parallelism Necessário	int O grau de paralelismo a utilizar para este trabalho. Tem de ser superior a 0. Se estiver definido como inferior a 0, a predefinição é 1.
priority Necessário	int O valor de prioridade a utilizar para a tarefa atual. Os números mais baixos têm uma prioridade maior. Por predefinição, uma tarefa tem uma prioridade de 1000. O valor que especificar tem de ser superior a 0.
runtime_version Necessário	str A versão de runtime do motor de Data Lake Analytics.
compute_target Necessário	AdlaCompute, str [Obrigatório] A computação do ADLA a utilizar para esta tarefa.
source_directory Necessário	str Uma pasta que contém o script, assemblagens, etc.
allow_reuse Necessário	bool Indica se o passo deve reutilizar os resultados anteriores ao executar novamente com as mesmas definições. A reutilização está ativada por predefinição. Se o conteúdo do passo (scripts/dependências), bem como as entradas e os parâmetros permanecerem inalterados, o resultado da execução anterior deste passo será reutilizado. Ao reutilizar o passo, em vez de submeter a tarefa para computação, os resultados da execução anterior são imediatamente disponibilizados para quaisquer passos subsequentes. Se utilizar conjuntos de dados do Azure Machine Learning como entradas, a reutilização será determinada se a definição do conjunto de dados foi alterada e não se os dados subjacentes foram alterados.
version Necessário	str Uma etiqueta de versão opcional para denotar uma alteração na funcionalidade do passo.
hash_paths Necessário	list PRETERIDO: já não é necessário. Uma lista de caminhos para hash ao verificar se existem alterações nos conteúdos do passo. Se não forem detetadas alterações, o pipeline reutilizará o conteúdo do passo de uma execução anterior. Por predefinição, os conteúdos de `source_directory` são transformados em hash, à exceção dos ficheiros listados em .amlignoree ou .gitignore.

Observações

Pode utilizar @@name@@ sintaxe no script para fazer referência a entradas, saídas e parâmetros.

se o nome for o nome de um enlace de porta de entrada ou saída, todas as ocorrências de @@name@@ no script são substituídas pelo caminho de dados real de um enlace de porta correspondente.
se o nome corresponder a qualquer chave no dict de parâmetros , todas as ocorrências de @@name@@ serão substituídas pelo valor correspondente em dict.

O AdlaStep funciona apenas com dados armazenados na Data Lake Storage predefinida da conta Data Lake Analytics. Se os dados estiverem num armazenamento não predefinido, utilize um DataTransferStep para copiar os dados para o armazenamento predefinido. Pode encontrar o armazenamento predefinido ao abrir a sua conta de Data Lake Analytics no portal do Azure e, em seguida, navegar para o item "Origens de dados" em Definições no painel esquerdo.

O exemplo seguinte mostra como utilizar o AdlaStep num Pipeline do Azure Machine Learning.


   adla_step = AdlaStep(
       name='extract_employee_names',
       script_name='sample_script.usql',
       source_directory=sample_folder,
       inputs=[sample_input],
       outputs=[sample_output],
       compute_target=adla_compute)

O exemplo completo está disponível a partir de https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/machine-learning-pipelines/intro-to-pipelines/aml-pipelines-use-adla-as-compute-target.ipynb

Métodos

create_node

Crie um nó a partir do passo AdlaStep e adicione-o ao gráfico especificado.

Este método não se destina a ser utilizado diretamente. Quando um pipeline é instanciado com este passo, o Azure ML transmite automaticamente os parâmetros necessários através deste método para que esse passo possa ser adicionado a um gráfico de pipeline que represente o fluxo de trabalho.

create_node

Crie um nó a partir do passo AdlaStep e adicione-o ao gráfico especificado.

create_node(graph, default_datastore, context)

Parâmetros

Name	Description
graph Necessário	Graph O objeto de gráfico.
default_datastore Necessário	Union[AbstractAzureStorageDatastore, AzureDataLakeDatastore] O arquivo de dados predefinido.
context Necessário	<xref:azureml.pipeline.core._GraphContext> O contexto do gráfico.

Devoluções

Tipo	Description
Node	O objeto do nó.

Partilhar via

AdlaStep Classe

Construtor

Parâmetros

Observações

Métodos

create_node

Parâmetros

Devoluções

Comentários

Recursos adicionais