AdlaStep Classe
Cria um passo do Pipeline do Azure ML para executar um script U-SQL com o Azure Data Lake Analytics.
Para obter um exemplo de utilização deste AdlaStep, consulte o bloco de notas https://aka.ms/pl-adla.
Crie um passo do Pipeline do Azure ML para executar um script U-SQL com o Azure Data Lake Analytics.
- Herança
-
azureml.pipeline.core._adla_step_base._AdlaStepBaseAdlaStep
Construtor
AdlaStep(script_name, name=None, inputs=None, outputs=None, params=None, degree_of_parallelism=None, priority=None, runtime_version=None, compute_target=None, source_directory=None, allow_reuse=True, version=None, hash_paths=None)
Parâmetros
Name | Description |
---|---|
script_name
Necessário
|
[Obrigatório] O nome de um script U-SQL, relativo a |
name
|
O nome do passo. Se não for especificado, Default value: None
|
inputs
|
Uma lista de enlaces de porta de entrada. Default value: None
|
outputs
|
Uma lista de enlaces de portas de saída. Default value: None
|
params
|
Um dicionário de pares nome-valor. Default value: None
|
degree_of_parallelism
|
O grau de paralelismo a utilizar para este trabalho. Tem de ser superior a 0. Se estiver definido como inferior a 0, a predefinição é 1. Default value: None
|
priority
|
O valor de prioridade a utilizar para a tarefa atual. Os números mais baixos têm uma prioridade maior. Por predefinição, uma tarefa tem uma prioridade de 1000. O valor que especificar tem de ser superior a 0. Default value: None
|
runtime_version
|
A versão de runtime do motor de Data Lake Analytics. Default value: None
|
compute_target
|
[Obrigatório] A computação do ADLA a utilizar para esta tarefa. Default value: None
|
source_directory
|
Uma pasta que contém o script, assemblagens, etc. Default value: None
|
allow_reuse
|
Indica se o passo deve reutilizar os resultados anteriores ao executar novamente com as mesmas definições. A reutilização está ativada por predefinição. Se o conteúdo do passo (scripts/dependências), bem como as entradas e os parâmetros permanecerem inalterados, o resultado da execução anterior deste passo será reutilizado. Ao reutilizar o passo, em vez de submeter a tarefa para computação, os resultados da execução anterior são imediatamente disponibilizados para quaisquer passos subsequentes. Se utilizar conjuntos de dados do Azure Machine Learning como entradas, a reutilização será determinada se a definição do conjunto de dados foi alterada e não se os dados subjacentes foram alterados. Default value: True
|
version
|
Etiqueta de versão opcional para denotar uma alteração na funcionalidade do passo. Default value: None
|
hash_paths
|
PRETERIDO: já não é necessário. Uma lista de caminhos para hash ao verificar se existem alterações nos conteúdos do passo. Se não forem detetadas alterações, o pipeline reutilizará o conteúdo do passo de uma execução anterior. Por predefinição, os conteúdos de Default value: None
|
script_name
Necessário
|
[Obrigatório] O nome de um script U-SQL, relativo a |
name
Necessário
|
O nome do passo. Se não for especificado, |
inputs
Necessário
|
Lista de enlaces de porta de entrada |
outputs
Necessário
|
list[Union[PipelineData, <xref:azureml.pipeline.core.pipeline_output_dataset.PipelineAbstractOutputDataset>, OutputPortBinding]]
Uma lista de enlaces de portas de saída. |
params
Necessário
|
Um dicionário de pares nome-valor. |
degree_of_parallelism
Necessário
|
O grau de paralelismo a utilizar para este trabalho. Tem de ser superior a 0. Se estiver definido como inferior a 0, a predefinição é 1. |
priority
Necessário
|
O valor de prioridade a utilizar para a tarefa atual. Os números mais baixos têm uma prioridade maior. Por predefinição, uma tarefa tem uma prioridade de 1000. O valor que especificar tem de ser superior a 0. |
runtime_version
Necessário
|
A versão de runtime do motor de Data Lake Analytics. |
compute_target
Necessário
|
[Obrigatório] A computação do ADLA a utilizar para esta tarefa. |
source_directory
Necessário
|
Uma pasta que contém o script, assemblagens, etc. |
allow_reuse
Necessário
|
Indica se o passo deve reutilizar os resultados anteriores ao executar novamente com as mesmas definições. A reutilização está ativada por predefinição. Se o conteúdo do passo (scripts/dependências), bem como as entradas e os parâmetros permanecerem inalterados, o resultado da execução anterior deste passo será reutilizado. Ao reutilizar o passo, em vez de submeter a tarefa para computação, os resultados da execução anterior são imediatamente disponibilizados para quaisquer passos subsequentes. Se utilizar conjuntos de dados do Azure Machine Learning como entradas, a reutilização será determinada se a definição do conjunto de dados foi alterada e não se os dados subjacentes foram alterados. |
version
Necessário
|
Uma etiqueta de versão opcional para denotar uma alteração na funcionalidade do passo. |
hash_paths
Necessário
|
PRETERIDO: já não é necessário. Uma lista de caminhos para hash ao verificar se existem alterações nos conteúdos do passo. Se não forem detetadas alterações, o pipeline reutilizará o conteúdo do passo de uma execução anterior. Por predefinição, os conteúdos de |
Observações
Pode utilizar @@name@@ sintaxe no script para fazer referência a entradas, saídas e parâmetros.
se o nome for o nome de um enlace de porta de entrada ou saída, todas as ocorrências de @@name@@ no script são substituídas pelo caminho de dados real de um enlace de porta correspondente.
se o nome corresponder a qualquer chave no dict de parâmetros , todas as ocorrências de @@name@@ serão substituídas pelo valor correspondente em dict.
O AdlaStep funciona apenas com dados armazenados na Data Lake Storage predefinida da conta Data Lake Analytics. Se os dados estiverem num armazenamento não predefinido, utilize um DataTransferStep para copiar os dados para o armazenamento predefinido. Pode encontrar o armazenamento predefinido ao abrir a sua conta de Data Lake Analytics no portal do Azure e, em seguida, navegar para o item "Origens de dados" em Definições no painel esquerdo.
O exemplo seguinte mostra como utilizar o AdlaStep num Pipeline do Azure Machine Learning.
adla_step = AdlaStep(
name='extract_employee_names',
script_name='sample_script.usql',
source_directory=sample_folder,
inputs=[sample_input],
outputs=[sample_output],
compute_target=adla_compute)
O exemplo completo está disponível a partir de https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/machine-learning-pipelines/intro-to-pipelines/aml-pipelines-use-adla-as-compute-target.ipynb
Métodos
create_node |
Crie um nó a partir do passo AdlaStep e adicione-o ao gráfico especificado. Este método não se destina a ser utilizado diretamente. Quando um pipeline é instanciado com este passo, o Azure ML transmite automaticamente os parâmetros necessários através deste método para que esse passo possa ser adicionado a um gráfico de pipeline que represente o fluxo de trabalho. |
create_node
Crie um nó a partir do passo AdlaStep e adicione-o ao gráfico especificado.
Este método não se destina a ser utilizado diretamente. Quando um pipeline é instanciado com este passo, o Azure ML transmite automaticamente os parâmetros necessários através deste método para que esse passo possa ser adicionado a um gráfico de pipeline que represente o fluxo de trabalho.
create_node(graph, default_datastore, context)
Parâmetros
Name | Description |
---|---|
graph
Necessário
|
O objeto de gráfico. |
default_datastore
Necessário
|
O arquivo de dados predefinido. |
context
Necessário
|
<xref:azureml.pipeline.core._GraphContext>
O contexto do gráfico. |
Devoluções
Tipo | Description |
---|---|
O objeto do nó. |