AdlaStep Класс

Ссылка

Создает этап конвейера Azure ML для выполнения скрипта U-SQL в Azure Data Lake Analytics.

Пример использования AdlaStep см. в записной книжке https://aka.ms/pl-adla.

Создайте шаг конвейера Машинного обучения Azure для выполнения скрипта U-SQL с Data Lake Analytics Azure.

Наследование: azureml.pipeline.core._adla_step_base._AdlaStepBase

AdlaStep

Конструктор

AdlaStep(script_name, name=None, inputs=None, outputs=None, params=None, degree_of_parallelism=None, priority=None, runtime_version=None, compute_target=None, source_directory=None, allow_reuse=True, version=None, hash_paths=None)

Параметры

Имя	Описание
script_name Обязательно	str [Обязательно.] Имя скрипта U-SQL (относительно `source_directory`).
name	str Имя шага этапа. Если значение не указано, используется `script_name`. значение по умолчанию: None
inputs	list[Union[InputPortBinding, DataReference, PortDataReference, PipelineData]] Список входных привязок портов. значение по умолчанию: None
outputs	list[Union[PipelineData, PipelineOutputAbstractDataset, OutputPortBinding]] Список выходных привязок портов. значение по умолчанию: None
params	dict Словарь пар "имя-значение". значение по умолчанию: None
degree_of_parallelism	int Степень параллелизации, используемая для этого задания. Значение должно быть больше 0. Если задано значение меньше 0, по умолчанию используется значение 1. значение по умолчанию: None
priority	int Значение приоритета, используемое для текущего задания. Чем меньше число, тем выше приоритет. По умолчанию задание имеет приоритет 1000. Указываемое значение должно быть больше 0. значение по умолчанию: None
runtime_version	str Версия среды выполнения обработчика Data Lake Analytics. значение по умолчанию: None
compute_target	AdlaCompute, str [Обязательно.] Вычисление ADLA, используемое для этого задания. значение по умолчанию: None
source_directory	str Каталог, содержащий скрипт, сборки и т. д. значение по умолчанию: None
allow_reuse	bool Указывает, должен ли этап повторно использовать предыдущие результаты при повторном выполнении с теми же параметрами. Повторное использование включено по умолчанию. Если содержимое этапа (скрипты или зависимости), а также входные данные и параметры не изменяются, выходные данные предыдущего выполнения этого этапа используются повторно. При повторном использовании этапа вместо отправки задания для вычисления немедленно предоставляются результаты предыдущего выполнения для последующих этапов. Если в качестве входных данных используются наборы данных Машинного обучения Azure, то повторное использование зависит от изменения определения набора данных, а не базовых данных. значение по умолчанию: True
version	str Необязательный тег версии для обозначения изменения функциональных возможностей этапа. значение по умолчанию: None
hash_paths	list НЕ РЕКОМЕНДУЕТСЯ: больше не требуется. Список путей для хэширования при проверке изменений в содержимом шага. Если изменения не обнаружены, конвейер будет повторно использовать содержимое этапа из предыдущего выполнения. По умолчанию содержимое `source_directory` хэшируется (кроме файлов, перечисленных в .amlignore или .gitignore). значение по умолчанию: None
script_name Обязательно	str [Обязательно.] Имя скрипта U-SQL (относительно `source_directory`).
name Обязательно	str Имя шага этапа. Если значение не указано, используется `script_name`.
inputs Обязательно	list[Union[InputPortBinding, DataReference, PortDataReference, PipelineData]] Список привязок входных портов
outputs Обязательно	list[Union[PipelineData, <xref:azureml.pipeline.core.pipeline_output_dataset.PipelineAbstractOutputDataset>, OutputPortBinding]] Список выходных привязок портов.
params Обязательно	dict Словарь пар "имя-значение".
degree_of_parallelism Обязательно	int Степень параллелизации, используемая для этого задания. Значение должно быть больше 0. Если задано значение меньше 0, по умолчанию используется значение 1.
priority Обязательно	int Значение приоритета, используемое для текущего задания. Чем меньше число, тем выше приоритет. По умолчанию задание имеет приоритет 1000. Указываемое значение должно быть больше 0.
runtime_version Обязательно	str Версия среды выполнения обработчика Data Lake Analytics.
compute_target Обязательно	AdlaCompute, str [Обязательно.] Вычисление ADLA, используемое для этого задания.
source_directory Обязательно	str Каталог, содержащий скрипт, сборки и т. д.
allow_reuse Обязательно	bool Указывает, должен ли этап повторно использовать предыдущие результаты при повторном выполнении с теми же параметрами. Повторное использование включено по умолчанию. Если содержимое этапа (скрипты или зависимости), а также входные данные и параметры не изменяются, выходные данные предыдущего выполнения этого этапа используются повторно. При повторном использовании этапа вместо отправки задания для вычисления немедленно предоставляются результаты предыдущего выполнения для последующих этапов. Если в качестве входных данных используются наборы данных Машинного обучения Azure, то повторное использование зависит от изменения определения набора данных, а не базовых данных.
version Обязательно	str Необязательный тег версии для обозначения изменения функциональных возможностей этапа.
hash_paths Обязательно	list НЕ РЕКОМЕНДУЕТСЯ: больше не требуется. Список путей для хэширования при проверке изменений в содержимом шага. Если изменения не обнаружены, конвейер будет повторно использовать содержимое этапа из предыдущего выполнения. По умолчанию содержимое `source_directory` хэшируется (кроме файлов, перечисленных в .amlignore или .gitignore).

Если name — это имя входной или выходной привязки порта, любые вхождения @@name@@ в скрипте заменяются фактическим путем к данным соответствующей привязки порта.
Если name совпадает с любым ключом в словаре params, все вхождения @@name@@ будут заменены соответствующим значением в словаре.

AdlaStep работает только с данными, хранящимися в Data Lake Storage по умолчанию учетной записи Data Lake Analytics. Если данные находятся в хранилище, отличном от используемого по умолчанию, используйте DataTransferStep для копирования данных в хранилище по умолчанию. Хранилище по умолчанию можно найти, открыв учетную запись Data Lake Analytics на портале Azure, а затем перейдя к элементу "Источники данных" в разделе "Параметры" на левой панели.

В следующем примере показано, как использовать AdlaStep в конвейере Машинного обучения Azure.


   adla_step = AdlaStep(
       name='extract_employee_names',
       script_name='sample_script.usql',
       source_directory=sample_folder,
       inputs=[sample_input],
       outputs=[sample_output],
       compute_target=adla_compute)

Полный пример можно найти по адресу: https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/machine-learning-pipelines/intro-to-pipelines/aml-pipelines-use-adla-as-compute-target.ipynb

Методы

create_node

Создание узла на этапе AdlaStep и его добавление в указанный граф.

Данный метод не предназначен для непосредственного использования. При создании экземпляра конвейера с помощью этого этапа Azure ML автоматически передает необходимые параметры через этот метод, чтобы данный этап можно было добавить в граф конвейера, представляющий рабочий процесс.

create_node

Создание узла на этапе AdlaStep и его добавление в указанный граф.

create_node(graph, default_datastore, context)

Параметры

Имя	Описание
graph Обязательно	Graph Объект графа.
default_datastore Обязательно	Union[AbstractAzureStorageDatastore, AzureDataLakeDatastore] Хранилище данных по умолчанию.
context Обязательно	<xref:azureml.pipeline.core._GraphContext> Контекст графа.

Возвращаемое значение

Тип	Описание
Node	Объект узла.

Share via

AdlaStep Класс

Конструктор

Параметры

Комментарии

Методы

create_node

Параметры

Возвращаемое значение

Обратная связь

Обратная связь

Дополнительные ресурсы