AdlaStep Класс
Создает этап конвейера Azure ML для выполнения скрипта U-SQL в Azure Data Lake Analytics.
Пример использования AdlaStep см. в записной книжке https://aka.ms/pl-adla.
Создайте шаг конвейера Машинного обучения Azure для выполнения скрипта U-SQL с Data Lake Analytics Azure.
- Наследование
-
azureml.pipeline.core._adla_step_base._AdlaStepBaseAdlaStep
Конструктор
AdlaStep(script_name, name=None, inputs=None, outputs=None, params=None, degree_of_parallelism=None, priority=None, runtime_version=None, compute_target=None, source_directory=None, allow_reuse=True, version=None, hash_paths=None)
Параметры
Имя | Описание |
---|---|
script_name
Обязательно
|
[Обязательно.] Имя скрипта U-SQL (относительно |
name
|
Имя шага этапа. Если значение не указано, используется значение по умолчанию: None
|
inputs
|
Список входных привязок портов. значение по умолчанию: None
|
outputs
|
Список выходных привязок портов. значение по умолчанию: None
|
params
|
Словарь пар "имя-значение". значение по умолчанию: None
|
degree_of_parallelism
|
Степень параллелизации, используемая для этого задания. Значение должно быть больше 0. Если задано значение меньше 0, по умолчанию используется значение 1. значение по умолчанию: None
|
priority
|
Значение приоритета, используемое для текущего задания. Чем меньше число, тем выше приоритет. По умолчанию задание имеет приоритет 1000. Указываемое значение должно быть больше 0. значение по умолчанию: None
|
runtime_version
|
Версия среды выполнения обработчика Data Lake Analytics. значение по умолчанию: None
|
compute_target
|
[Обязательно.] Вычисление ADLA, используемое для этого задания. значение по умолчанию: None
|
source_directory
|
Каталог, содержащий скрипт, сборки и т. д. значение по умолчанию: None
|
allow_reuse
|
Указывает, должен ли этап повторно использовать предыдущие результаты при повторном выполнении с теми же параметрами. Повторное использование включено по умолчанию. Если содержимое этапа (скрипты или зависимости), а также входные данные и параметры не изменяются, выходные данные предыдущего выполнения этого этапа используются повторно. При повторном использовании этапа вместо отправки задания для вычисления немедленно предоставляются результаты предыдущего выполнения для последующих этапов. Если в качестве входных данных используются наборы данных Машинного обучения Azure, то повторное использование зависит от изменения определения набора данных, а не базовых данных. значение по умолчанию: True
|
version
|
Необязательный тег версии для обозначения изменения функциональных возможностей этапа. значение по умолчанию: None
|
hash_paths
|
НЕ РЕКОМЕНДУЕТСЯ: больше не требуется. Список путей для хэширования при проверке изменений в содержимом шага. Если изменения не обнаружены, конвейер будет повторно использовать содержимое этапа из предыдущего выполнения. По умолчанию содержимое значение по умолчанию: None
|
script_name
Обязательно
|
[Обязательно.] Имя скрипта U-SQL (относительно |
name
Обязательно
|
Имя шага этапа. Если значение не указано, используется |
inputs
Обязательно
|
Список привязок входных портов |
outputs
Обязательно
|
list[Union[PipelineData, <xref:azureml.pipeline.core.pipeline_output_dataset.PipelineAbstractOutputDataset>, OutputPortBinding]]
Список выходных привязок портов. |
params
Обязательно
|
Словарь пар "имя-значение". |
degree_of_parallelism
Обязательно
|
Степень параллелизации, используемая для этого задания. Значение должно быть больше 0. Если задано значение меньше 0, по умолчанию используется значение 1. |
priority
Обязательно
|
Значение приоритета, используемое для текущего задания. Чем меньше число, тем выше приоритет. По умолчанию задание имеет приоритет 1000. Указываемое значение должно быть больше 0. |
runtime_version
Обязательно
|
Версия среды выполнения обработчика Data Lake Analytics. |
compute_target
Обязательно
|
[Обязательно.] Вычисление ADLA, используемое для этого задания. |
source_directory
Обязательно
|
Каталог, содержащий скрипт, сборки и т. д. |
allow_reuse
Обязательно
|
Указывает, должен ли этап повторно использовать предыдущие результаты при повторном выполнении с теми же параметрами. Повторное использование включено по умолчанию. Если содержимое этапа (скрипты или зависимости), а также входные данные и параметры не изменяются, выходные данные предыдущего выполнения этого этапа используются повторно. При повторном использовании этапа вместо отправки задания для вычисления немедленно предоставляются результаты предыдущего выполнения для последующих этапов. Если в качестве входных данных используются наборы данных Машинного обучения Azure, то повторное использование зависит от изменения определения набора данных, а не базовых данных. |
version
Обязательно
|
Необязательный тег версии для обозначения изменения функциональных возможностей этапа. |
hash_paths
Обязательно
|
НЕ РЕКОМЕНДУЕТСЯ: больше не требуется. Список путей для хэширования при проверке изменений в содержимом шага. Если изменения не обнаружены, конвейер будет повторно использовать содержимое этапа из предыдущего выполнения. По умолчанию содержимое |
Комментарии
В скрипте можно использовать синтаксис @@name@@ для ссылки на входные данные, выходные данные и параметры.
Если name — это имя входной или выходной привязки порта, любые вхождения @@name@@ в скрипте заменяются фактическим путем к данным соответствующей привязки порта.
Если name совпадает с любым ключом в словаре params, все вхождения @@name@@ будут заменены соответствующим значением в словаре.
AdlaStep работает только с данными, хранящимися в Data Lake Storage по умолчанию учетной записи Data Lake Analytics. Если данные находятся в хранилище, отличном от используемого по умолчанию, используйте DataTransferStep для копирования данных в хранилище по умолчанию. Хранилище по умолчанию можно найти, открыв учетную запись Data Lake Analytics на портале Azure, а затем перейдя к элементу "Источники данных" в разделе "Параметры" на левой панели.
В следующем примере показано, как использовать AdlaStep в конвейере Машинного обучения Azure.
adla_step = AdlaStep(
name='extract_employee_names',
script_name='sample_script.usql',
source_directory=sample_folder,
inputs=[sample_input],
outputs=[sample_output],
compute_target=adla_compute)
Полный пример можно найти по адресу: https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/machine-learning-pipelines/intro-to-pipelines/aml-pipelines-use-adla-as-compute-target.ipynb
Методы
create_node |
Создание узла на этапе AdlaStep и его добавление в указанный граф. Данный метод не предназначен для непосредственного использования. При создании экземпляра конвейера с помощью этого этапа Azure ML автоматически передает необходимые параметры через этот метод, чтобы данный этап можно было добавить в граф конвейера, представляющий рабочий процесс. |
create_node
Создание узла на этапе AdlaStep и его добавление в указанный граф.
Данный метод не предназначен для непосредственного использования. При создании экземпляра конвейера с помощью этого этапа Azure ML автоматически передает необходимые параметры через этот метод, чтобы данный этап можно было добавить в граф конвейера, представляющий рабочий процесс.
create_node(graph, default_datastore, context)
Параметры
Имя | Описание |
---|---|
graph
Обязательно
|
Объект графа. |
default_datastore
Обязательно
|
Хранилище данных по умолчанию. |
context
Обязательно
|
<xref:azureml.pipeline.core._GraphContext>
Контекст графа. |
Возвращаемое значение
Тип | Описание |
---|---|
Объект узла. |
Обратная связь
https://aka.ms/ContentUserFeedback.
Ожидается в ближайшее время: в течение 2024 года мы постепенно откажемся от GitHub Issues как механизма обратной связи для контента и заменим его новой системой обратной связи. Дополнительные сведения см. в разделеОтправить и просмотреть отзыв по