Compartir a través de


AdlaStep Clase

Crea un paso de Azure ML Pipeline para ejecutar un script U-SQL con Azure Data Lake Analytics.

Para obtener un ejemplo del uso de este AdlaStep, consulte el cuaderno https://aka.ms/pl-adla.

Cree un paso de canalización de Azure ML para ejecutar un script U-SQL con Azure Data Lake Analytics.

Herencia
azureml.pipeline.core._adla_step_base._AdlaStepBase
AdlaStep

Constructor

AdlaStep(script_name, name=None, inputs=None, outputs=None, params=None, degree_of_parallelism=None, priority=None, runtime_version=None, compute_target=None, source_directory=None, allow_reuse=True, version=None, hash_paths=None)

Parámetros

script_name
str
Requerido

[Obligatorio] El nombre de un script U-SQL, relativo a source_directory.

name
str
valor predeterminado: None

Nombre del paso. Si no se especifica, se usa script_name.

inputs
list[Union[InputPortBinding, DataReference, PortDataReference, PipelineData]]
valor predeterminado: None

Una lista de enlaces de puerto de entrada.

outputs
list[Union[PipelineData, PipelineOutputAbstractDataset, OutputPortBinding]]
valor predeterminado: None

Una lista de enlaces de puerto de salida.

params
dict
valor predeterminado: None

Un diccionario de pares de nombre-valor.

degree_of_parallelism
int
valor predeterminado: None

El grado de paralelismo que se va a usar en este trabajo. Debe ser mayor que 0. Si se establece en menor que 0, el valor predeterminado es 1.

priority
int
valor predeterminado: None

El valor de prioridad que se usará en el trabajo actual. Los números más bajos tienen mayor prioridad. De manera predeterminada, un trabajo tiene una prioridad de 1000. El valor debe ser mayor que 0.

runtime_version
str
valor predeterminado: None

La versión en tiempo de ejecución del motor de Data Lake Analytics.

compute_target
AdlaCompute, str
valor predeterminado: None

[Obligatorio] El proceso de ADLA que se va a usar para este trabajo.

source_directory
str
valor predeterminado: None

Una carpeta que contiene el script, los ensamblados, etc.

allow_reuse
bool
valor predeterminado: True

Indica si el paso debe volver a usar los resultados anteriores cuando se ejecuta con la misma configuración o entrada. La reutilización está habilitada de manera predeterminada. Si el contenido del paso (scripts o dependencias), así como las entradas y los parámetros permanecen sin cambios, se reutiliza la salida de la ejecución anterior de este paso. Al volver a usar el paso, en lugar de enviar el trabajo al proceso, los resultados de la ejecución anterior se hacen disponibles inmediatamente para los pasos posteriores. Si usa conjuntos de datos de Azure Machine Learning como entradas, la reutilización viene determinada por si la definición del conjunto de datos ha cambiado, no por si los datos subyacentes han cambiado.

version
str
valor predeterminado: None

Etiqueta de versión opcional para indicar un cambio en la funcionalidad del paso.

hash_paths
list
valor predeterminado: None

EN DESUSO: ya no es necesario.

Una lista de rutas de acceso a hash al comprobar si hay cambios en el contenido del paso. Si no se detecta ningún cambio, la canalización reutilizará el contenido del paso de una ejecución anterior. De forma predeterminada, se aplica un algoritmo hash al contenido de source_directory, excepto los archivos enumerados en .amlignore o .gitignore.

script_name
str
Requerido

[Obligatorio] El nombre de un script U-SQL, relativo a source_directory.

name
str
Requerido

Nombre del paso. Si no se especifica, se usa script_name.

inputs
list[Union[InputPortBinding, DataReference, PortDataReference, PipelineData]]
Requerido

Lista de enlaces de puerto de entrada

outputs
list[Union[PipelineData, <xref:azureml.pipeline.core.pipeline_output_dataset.PipelineAbstractOutputDataset>, OutputPortBinding]]
Requerido

Una lista de enlaces de puerto de salida.

params
dict
Requerido

Un diccionario de pares de nombre-valor.

degree_of_parallelism
int
Requerido

El grado de paralelismo que se va a usar en este trabajo. Debe ser mayor que 0. Si se establece en menor que 0, el valor predeterminado es 1.

priority
int
Requerido

El valor de prioridad que se usará en el trabajo actual. Los números más bajos tienen mayor prioridad. De manera predeterminada, un trabajo tiene una prioridad de 1000. El valor debe ser mayor que 0.

runtime_version
str
Requerido

La versión en tiempo de ejecución del motor de Data Lake Analytics.

compute_target
AdlaCompute, str
Requerido

[Obligatorio] El proceso de ADLA que se va a usar para este trabajo.

source_directory
str
Requerido

Una carpeta que contiene el script, los ensamblados, etc.

allow_reuse
bool
Requerido

Indica si el paso debe volver a usar los resultados anteriores cuando se ejecuta con la misma configuración o entrada. La reutilización está habilitada de manera predeterminada. Si el contenido del paso (scripts o dependencias), así como las entradas y los parámetros permanecen sin cambios, se reutiliza la salida de la ejecución anterior de este paso. Al volver a usar el paso, en lugar de enviar el trabajo al proceso, los resultados de la ejecución anterior se hacen disponibles inmediatamente para los pasos posteriores. Si usa conjuntos de datos de Azure Machine Learning como entradas, la reutilización viene determinada por si la definición del conjunto de datos ha cambiado, no por si los datos subyacentes han cambiado.

version
str
Requerido

Una etiqueta de versión opcional para indicar un cambio en la funcionalidad del paso.

hash_paths
list
Requerido

EN DESUSO: ya no es necesario.

Una lista de rutas de acceso a hash al comprobar si hay cambios en el contenido del paso. Si no se detecta ningún cambio, la canalización reutilizará el contenido del paso de una ejecución anterior. De forma predeterminada, se aplica un algoritmo hash al contenido de source_directory, excepto los archivos enumerados en .amlignore o .gitignore.

Comentarios

Puede usar la sintaxis @@name@@ en el script para hacer referencia a entradas, salidas y parámetros.

  • Si name es el nombre de un enlace de puerto de entrada o salida, las apariciones de @@name@@ en el script se reemplazan por la ruta de acceso de datos real de un enlace de puerto correspondiente.

  • Si name coincide con cualquier clave en params, en dict, las repeticiones de @@name@@ se reemplazarán por el valor correspondiente en dict.

AdlaStep solo funciona con los datos almacenados en la instancia de Data Lake Storage predeterminada de la cuenta de Data Lake Analytics. Si los datos están en un almacenamiento no predeterminado, use DataTransferStep para copiar los datos en el almacenamiento predeterminado. Para encontrar el almacenamiento predeterminado, abra la cuenta de Data Lake Analytics en Azure Portal y, a continuación, vaya al elemento "Orígenes de datos" en Configuración, en el panel izquierdo.

En el ejemplo siguiente se muestra cómo usar AdlaStep en una canalización de Azure Machine Learning.


   adla_step = AdlaStep(
       name='extract_employee_names',
       script_name='sample_script.usql',
       source_directory=sample_folder,
       inputs=[sample_input],
       outputs=[sample_output],
       compute_target=adla_compute)

El ejemplo completo está disponible en https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/machine-learning-pipelines/intro-to-pipelines/aml-pipelines-use-adla-as-compute-target.ipynb.

Métodos

create_node

Cree un nodo a partir del paso AdlaStep y agréguelo al grafo especificado.

No se debe llamar a este método directamente. Cuando se crea una instancia de una canalización con este paso, Azure ML pasa automáticamente los parámetros necesarios a través de este método para que ese paso se pueda agregar a un gráfico de canalización que represente el flujo de trabajo.

create_node

Cree un nodo a partir del paso AdlaStep y agréguelo al grafo especificado.

No se debe llamar a este método directamente. Cuando se crea una instancia de una canalización con este paso, Azure ML pasa automáticamente los parámetros necesarios a través de este método para que ese paso se pueda agregar a un gráfico de canalización que represente el flujo de trabajo.

create_node(graph, default_datastore, context)

Parámetros

graph
Graph
Requerido

El objeto de grafo.

default_datastore
Union[AbstractAzureStorageDatastore, AzureDataLakeDatastore]
Requerido

El almacén de datos predeterminado.

context
<xref:azureml.pipeline.core._GraphContext>
Requerido

El contexto del grafo.

Devoluciones

El objeto de nodo.

Tipo de valor devuelto