DataTransferStep Класс

Ссылка

Создает этап конвейера Azure ML, который передает данные между разными видами хранилищ.

DataTransferStep поддерживает общие типы хранилищ, такие как служба Хранилище BLOB-объектов Azure и Azure Data Lake в качестве источников и приемников. Дополнительные сведения см. в разделе Примечания.

Пример использования DataTransferStep см. в записной книжке https://aka.ms/pl-data-trans.

Создайте шаг конвейера Машинного обучения Azure, который передает данные между вариантами хранения.

Наследование: azureml.pipeline.core._data_transfer_step_base._DataTransferStepBase

DataTransferStep

Конструктор

DataTransferStep(name, source_data_reference=None, destination_data_reference=None, compute_target=None, source_reference_type=None, destination_reference_type=None, allow_reuse=True)

Параметры

Имя	Описание
name Обязательно	str [Обязательно] Имя этапа.
source_data_reference	Union[InputPortBinding, DataReference, PortDataReference, PipelineData] [Обязательно.] Входное подключение, которое служит источником операции по передаче данных. значение по умолчанию: None
destination_data_reference	Union[InputPortBinding, PipelineOutputAbstractDataset, DataReference] [Обязательно.] Выходное подключение, которое используется в качестве назначения операции по передаче данных. значение по умолчанию: None
compute_target	DataFactoryCompute, str [Обязательно.] Фабрика данных Azure, используемая для передачи данных. значение по умолчанию: None
source_reference_type	str Необязательная строка, указывающая тип `source_data_reference`. Возможные значения: file, directory. Если не задано, используется тип существующего пути. Используйте этот параметр, чтобы различать файл и каталог с одинаковыми именами. значение по умолчанию: None
destination_reference_type	str Необязательная строка, указывающая тип `destination_data_reference`. Возможные значения: file, directory. Если не задано, Azure ML использует тип существующего пути, ссылку на источник или directory в указанном порядке. значение по умолчанию: None
allow_reuse	bool Указывает, должен ли этап повторно использовать предыдущие результаты при повторном выполнении с теми же параметрами. Повторное использование включено по умолчанию. Если аргументы этапа не изменяются, выходные данные из предыдущего выполнения этого этапа используются повторно. При повторном использовании этапа вместо повторной передачи данных немедленно предоставляются результаты предыдущего выполнения для последующих этапов. Если в качестве входных данных используются наборы данных Машинного обучения Azure, то повторное использование зависит от изменения определения набора данных, а не базовых данных. значение по умолчанию: True
name Обязательно	str [Обязательно] Имя этапа.
source_data_reference Обязательно	Union[InputPortBinding, DataReference, PortDataReference, PipelineData] [Обязательно.] Входное подключение, которое служит источником операции по передаче данных.
destination_data_reference Обязательно	Union[InputPortBinding, PipelineOutputAbstractDataset, DataReference] [Обязательно.] Выходное подключение, которое используется в качестве назначения операции по передаче данных.
compute_target Обязательно	DataFactoryCompute, str [Обязательно.] Фабрика данных Azure, используемая для передачи данных.
source_reference_type Обязательно	str Необязательная строка, указывающая тип `source_data_reference`. Возможные значения: file, directory. Если не задано, используется тип существующего пути. Используйте этот параметр, чтобы различать файл и каталог с одинаковыми именами.
destination_reference_type Обязательно	str Необязательная строка, указывающая тип `destination_data_reference`. Возможные значения: file, directory. Если не задано, Azure ML использует тип существующего пути, ссылку на источник или directory в указанном порядке.
allow_reuse Обязательно	bool Указывает, должен ли этап повторно использовать предыдущие результаты при повторном выполнении с теми же параметрами. Повторное использование включено по умолчанию. Если аргументы этапа не изменяются, выходные данные из предыдущего выполнения этого этапа используются повторно. При повторном использовании этапа вместо повторной передачи данных немедленно предоставляются результаты предыдущего выполнения для последующих этапов. Если в качестве входных данных используются наборы данных Машинного обучения Azure, то повторное использование зависит от изменения определения набора данных, а не базовых данных.

Для Базы данных SQL Azure необходимо использовать проверку подлинности субъекта-службы. Дополнительные сведения см. в разделе Проверка подлинности субъекта-службы. Пример использования проверки подлинности субъекта-службы для Базы данных SQL Azure: https://aka.ms/pl-data-trans.

Чтобы установить зависимость данных между этапами, используйте метод get_output для получения объекта PipelineData, который представляет выходные данные этого этапа передачи данных и может использоваться в качестве входных данных для последующих этапов в конвейере.


   data_transfer_step = DataTransferStep(name="copy data", ...)

   # Use output of data_transfer_step as input of another step in pipeline
   # This will make training_step wait for data_transfer_step to complete
   training_input = data_transfer_step.get_output()
   training_step = PythonScriptStep(script_name="train.py",
                           arguments=["--model", training_input],
                           inputs=[training_input],
                           compute_target=aml_compute,
                           source_directory=source_directory)

Чтобы создать InputPortBinding с конкретным именем, можно объединить выходные данные get_output() с выходными данными методов as_input или as_mount для PipelineData.


   data_transfer_step = DataTransferStep(name="copy data", ...)
   training_input = data_transfer_step.get_output().as_input("my_input_name")

Методы

create_node

Создание узла на этапе DataTransfer и его добавление в указанный граф.

Данный метод не предназначен для непосредственного использования. При создании экземпляра конвейера с помощью этого этапа Azure ML автоматически передает необходимые параметры через этот метод, чтобы данный этап можно было добавить в граф конвейера, представляющий рабочий процесс.

get_output

Получение выходных данных этапа как PipelineData.

create_node

Создание узла на этапе DataTransfer и его добавление в указанный граф.

create_node(graph, default_datastore, context)

Параметры

Имя	Описание
graph Обязательно	Graph Объект графа, в который добавляется узел.
default_datastore Обязательно	Union[AbstractAzureStorageDatastore, AzureDataLakeDatastore] Хранилище данных по умолчанию.
context Обязательно	<xref:azureml.pipeline.core._GraphContext> Контекст графа.

Возвращаемое значение

Тип	Описание
Node	Созданный узел.

get_output

Получение выходных данных этапа как PipelineData.

get_output()

Возвращаемое значение

Тип	Описание
PipelineData	Выходные данные этапа.


   data_transfer_step = DataTransferStep(name="copy data", ...)

   # Use output of data_transfer_step as input of another step in pipeline
   # This will make training_step wait for data_transfer_step to complete
   training_input = data_transfer_step.get_output()
   training_step = PythonScriptStep(script_name="train.py",
                           arguments=["--model", training_input],
                           inputs=[training_input],
                           compute_target=aml_compute,
                           source_directory=source_directory)

Чтобы создать InputPortBinding с конкретным именем, можно объединить вызов get_output() со вспомогательными методами as_input или as_mount.


   data_transfer_step = DataTransferStep(name="copy data", ...)

   training_input = data_transfer_step.get_output().as_input("my_input_name")

Поделиться через

DataTransferStep Класс

Конструктор

Параметры

Комментарии

Методы

create_node

Параметры

Возвращаемое значение

get_output

Возвращаемое значение

Комментарии

Обратная связь

Обратная связь

Дополнительные ресурсы