AdlaStep Класс

Создает этап конвейера Azure ML для выполнения скрипта U-SQL в Azure Data Lake Analytics.

Пример использования AdlaStep см. в записной книжке https://aka.ms/pl-adla.

Создайте шаг конвейера Машинного обучения Azure для выполнения скрипта U-SQL с Data Lake Analytics Azure.

Наследование
azureml.pipeline.core._adla_step_base._AdlaStepBase
AdlaStep

Конструктор

AdlaStep(script_name, name=None, inputs=None, outputs=None, params=None, degree_of_parallelism=None, priority=None, runtime_version=None, compute_target=None, source_directory=None, allow_reuse=True, version=None, hash_paths=None)

Параметры

Имя Описание
script_name
Обязательно
str

[Обязательно.] Имя скрипта U-SQL (относительно source_directory).

name
str

Имя шага этапа. Если значение не указано, используется script_name.

значение по умолчанию: None
inputs

Список входных привязок портов.

значение по умолчанию: None
outputs

Список выходных привязок портов.

значение по умолчанию: None
params

Словарь пар "имя-значение".

значение по умолчанию: None
degree_of_parallelism
int

Степень параллелизации, используемая для этого задания. Значение должно быть больше 0. Если задано значение меньше 0, по умолчанию используется значение 1.

значение по умолчанию: None
priority
int

Значение приоритета, используемое для текущего задания. Чем меньше число, тем выше приоритет. По умолчанию задание имеет приоритет 1000. Указываемое значение должно быть больше 0.

значение по умолчанию: None
runtime_version
str

Версия среды выполнения обработчика Data Lake Analytics.

значение по умолчанию: None
compute_target

[Обязательно.] Вычисление ADLA, используемое для этого задания.

значение по умолчанию: None
source_directory
str

Каталог, содержащий скрипт, сборки и т. д.

значение по умолчанию: None
allow_reuse

Указывает, должен ли этап повторно использовать предыдущие результаты при повторном выполнении с теми же параметрами. Повторное использование включено по умолчанию. Если содержимое этапа (скрипты или зависимости), а также входные данные и параметры не изменяются, выходные данные предыдущего выполнения этого этапа используются повторно. При повторном использовании этапа вместо отправки задания для вычисления немедленно предоставляются результаты предыдущего выполнения для последующих этапов. Если в качестве входных данных используются наборы данных Машинного обучения Azure, то повторное использование зависит от изменения определения набора данных, а не базовых данных.

значение по умолчанию: True
version
str

Необязательный тег версии для обозначения изменения функциональных возможностей этапа.

значение по умолчанию: None
hash_paths

НЕ РЕКОМЕНДУЕТСЯ: больше не требуется.

Список путей для хэширования при проверке изменений в содержимом шага. Если изменения не обнаружены, конвейер будет повторно использовать содержимое этапа из предыдущего выполнения. По умолчанию содержимое source_directory хэшируется (кроме файлов, перечисленных в .amlignore или .gitignore).

значение по умолчанию: None
script_name
Обязательно
str

[Обязательно.] Имя скрипта U-SQL (относительно source_directory).

name
Обязательно
str

Имя шага этапа. Если значение не указано, используется script_name.

inputs
Обязательно

Список привязок входных портов

outputs
Обязательно
list[Union[PipelineData, <xref:azureml.pipeline.core.pipeline_output_dataset.PipelineAbstractOutputDataset>, OutputPortBinding]]

Список выходных привязок портов.

params
Обязательно

Словарь пар "имя-значение".

degree_of_parallelism
Обязательно
int

Степень параллелизации, используемая для этого задания. Значение должно быть больше 0. Если задано значение меньше 0, по умолчанию используется значение 1.

priority
Обязательно
int

Значение приоритета, используемое для текущего задания. Чем меньше число, тем выше приоритет. По умолчанию задание имеет приоритет 1000. Указываемое значение должно быть больше 0.

runtime_version
Обязательно
str

Версия среды выполнения обработчика Data Lake Analytics.

compute_target
Обязательно

[Обязательно.] Вычисление ADLA, используемое для этого задания.

source_directory
Обязательно
str

Каталог, содержащий скрипт, сборки и т. д.

allow_reuse
Обязательно

Указывает, должен ли этап повторно использовать предыдущие результаты при повторном выполнении с теми же параметрами. Повторное использование включено по умолчанию. Если содержимое этапа (скрипты или зависимости), а также входные данные и параметры не изменяются, выходные данные предыдущего выполнения этого этапа используются повторно. При повторном использовании этапа вместо отправки задания для вычисления немедленно предоставляются результаты предыдущего выполнения для последующих этапов. Если в качестве входных данных используются наборы данных Машинного обучения Azure, то повторное использование зависит от изменения определения набора данных, а не базовых данных.

version
Обязательно
str

Необязательный тег версии для обозначения изменения функциональных возможностей этапа.

hash_paths
Обязательно

НЕ РЕКОМЕНДУЕТСЯ: больше не требуется.

Список путей для хэширования при проверке изменений в содержимом шага. Если изменения не обнаружены, конвейер будет повторно использовать содержимое этапа из предыдущего выполнения. По умолчанию содержимое source_directory хэшируется (кроме файлов, перечисленных в .amlignore или .gitignore).

Комментарии

В скрипте можно использовать синтаксис @@name@@ для ссылки на входные данные, выходные данные и параметры.

  • Если name — это имя входной или выходной привязки порта, любые вхождения @@name@@ в скрипте заменяются фактическим путем к данным соответствующей привязки порта.

  • Если name совпадает с любым ключом в словаре params, все вхождения @@name@@ будут заменены соответствующим значением в словаре.

AdlaStep работает только с данными, хранящимися в Data Lake Storage по умолчанию учетной записи Data Lake Analytics. Если данные находятся в хранилище, отличном от используемого по умолчанию, используйте DataTransferStep для копирования данных в хранилище по умолчанию. Хранилище по умолчанию можно найти, открыв учетную запись Data Lake Analytics на портале Azure, а затем перейдя к элементу "Источники данных" в разделе "Параметры" на левой панели.

В следующем примере показано, как использовать AdlaStep в конвейере Машинного обучения Azure.


   adla_step = AdlaStep(
       name='extract_employee_names',
       script_name='sample_script.usql',
       source_directory=sample_folder,
       inputs=[sample_input],
       outputs=[sample_output],
       compute_target=adla_compute)

Полный пример можно найти по адресу: https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/machine-learning-pipelines/intro-to-pipelines/aml-pipelines-use-adla-as-compute-target.ipynb

Методы

create_node

Создание узла на этапе AdlaStep и его добавление в указанный граф.

Данный метод не предназначен для непосредственного использования. При создании экземпляра конвейера с помощью этого этапа Azure ML автоматически передает необходимые параметры через этот метод, чтобы данный этап можно было добавить в граф конвейера, представляющий рабочий процесс.

create_node

Создание узла на этапе AdlaStep и его добавление в указанный граф.

Данный метод не предназначен для непосредственного использования. При создании экземпляра конвейера с помощью этого этапа Azure ML автоматически передает необходимые параметры через этот метод, чтобы данный этап можно было добавить в граф конвейера, представляющий рабочий процесс.

create_node(graph, default_datastore, context)

Параметры

Имя Описание
graph
Обязательно

Объект графа.

default_datastore
Обязательно

Хранилище данных по умолчанию.

context
Обязательно
<xref:azureml.pipeline.core._GraphContext>

Контекст графа.

Возвращаемое значение

Тип Описание

Объект узла.