Поделиться через


OutputFileDatasetConfig Класс

Объясняет, как копировать выходные данные запуска и повышать их до уровня FileDataset.

OutputFileDatasetConfig позволяет указать способ передачи определенного локального пути на целевом объекте вычислений в указанное место назначения. Если конструктору не передаются аргументы, мы автоматически создаем имя, назначение и локальный путь.

Пример ситуации, когда аргументы не передаются:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = OutputFileDatasetConfig()

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Пример создания выходных данных, последующего повышения выходных данных в табличный набор данных и их регистрации с именем "foo":


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   datastore = Datastore(workspace, 'example_adls_gen2_datastore')

   # for more information on the parameters and methods, please look for the corresponding documentation.
   output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Инициализация OutputFileDatasetConfig.

OutputFileDatasetConfig позволяет указать способ передачи определенного локального пути на целевом объекте вычислений в указанное место назначения. Если конструктору не передаются аргументы, мы автоматически создаем имя, назначение и локальный путь.

Пример ситуации, когда аргументы не передаются:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = OutputFileDatasetConfig()

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Пример создания выходных данных, последующего повышения выходных данных в табличный набор данных и их регистрации с именем foo:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   datastore = Datastore(workspace, 'example_adls_gen2_datastore')

   # for more information on the parameters and methods, please look for the corresponding documentation.
   output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)
Наследование
OutputFileDatasetConfig
OutputFileDatasetConfig

Конструктор

OutputFileDatasetConfig(name=None, destination=None, source=None, partition_format=None)

Параметры

Имя Описание
name
Обязательно
str

Имя выходных данных, характерных для этого запуска. Обычно используется в целях определения происхождения данных. Если задано значение None, имя будет создано автоматически. Имя также станет переменной среды, содержащей локальный путь, по которому можно записывать выходные файлы и папки в папку, которая будет отправлена в место назначения.

destination
Обязательно

Место назначения, в которое копируются выходные данные. Если задано значение None, выходные данные будут скопированы в хранилище данных workspaceblobstore по пути /dataset/{run-id}/{output-name}, где run-id — это идентификатор запуска, а output-name — имя выходных данных из указанного выше параметра name. Место назначения представляет собой кортеж, в котором первый элемент — это хранилище данных, а второй — путь к хранилищу данных, в которое копируются данные.

Путь в хранилище данных может быть путем-шаблоном. Путь-шаблон — это просто обычный путь, содержащий заполнители. Эти заполнители будут разрешаться в соответствующий момент времени. Синтаксис для заполнителей — {заполнитель}. Пример: /path/with/{заполнитель}. В настоящее время поддерживаются только два заполнителя: {run-id} и {output-name}.

source
Обязательно
str

Путь к целевому объекту вычислений, из которого копируются данные. Если задано значение None (Нет), мы укажем каталог, созданный во временном каталоге ОС целевого объекта вычислений.

partition_format
Обязательно
str

Укажите формат раздела пути. Значение по умолчанию — None (Нет). Сведения о разделах для каждого пути данных будут извлечены в столбцы на основе указанного формата. Часть формата "{column_name}" создает строковый столбец, а "{column_name: гггг/ММ/дд/ЧЧ/мм/сс}" создает столбец datetime, где "гггг", "ММ", "дд", "ЧЧ", "мм" и "сс" используются для извлечения года, месяца, дня, часа, минуты и секунды для типа datetime. Формат должен начинаться с расположения первого ключа секции до конца пути к файлу. Например, с учетом пути "../Accounts/2019/01/01/data.parquet", где раздел осуществляется по имени отдела и времени, partition_format ="/{Department}/{PartitionDate: гггг/мм/дд}/data.parquet" создает строковый столбец "Department" ("Отдел") со значением "Accounts" ("Бухгалтерия") и столбцом datetime "PartitionDate" со значением "2019-01-01".

name
Обязательно
str

Имя выходных данных, характерных для этого запуска. Обычно используется в целях определения происхождения данных. Если задано значение None, имя будет создано автоматически. Имя также станет переменной среды, содержащей локальный путь, по которому можно записывать выходные файлы и папки в папку, которая будет отправлена в место назначения.

destination
Обязательно

Место назначения, в которое копируются выходные данные. Если задано значение None, выходные данные будут скопированы в хранилище данных workspaceblobstore по пути /dataset/{run-id}/{output-name}, где run-id — это идентификатор запуска, а output-name — имя выходных данных из указанного выше параметра name. Место назначения представляет собой кортеж, в котором первый элемент — это хранилище данных, а второй — путь к хранилищу данных, в которое копируются данные.

Путь в хранилище данных может быть путем-шаблоном. Путь-шаблон — это просто обычный путь, содержащий заполнители. Эти заполнители будут разрешаться в соответствующий момент времени. Синтаксис для заполнителей — {заполнитель}. Пример: /path/with/{заполнитель}. В настоящее время поддерживаются только два заполнителя: {run-id} и {output-name}.

source
Обязательно
str

Путь к целевому объекту вычислений, из которого копируются данные. Если задано значение None (Нет), мы укажем каталог, созданный во временном каталоге ОС целевого объекта вычислений.

partition_format
Обязательно
str

Укажите формат раздела пути. Значение по умолчанию — None (Нет). Сведения о разделах для каждого пути данных будут извлечены в столбцы на основе указанного формата. Часть формата "{column_name}" создает строковый столбец, а "{column_name: гггг/ММ/дд/ЧЧ/мм/сс}" создает столбец datetime, где "гггг", "ММ", "дд", "ЧЧ", "мм" и "сс" используются для извлечения года, месяца, дня, часа, минуты и секунды для типа datetime. Формат должен начинаться с расположения первого ключа секции до конца пути к файлу. Например, с учетом пути "../Accounts/2019/01/01/data.parquet", где раздел осуществляется по имени отдела и времени, partition_format ="/{Department}/{PartitionDate: гггг/мм/дд}/data.parquet" создает строковый столбец "Department" ("Отдел") со значением "Accounts" ("Бухгалтерия") и столбцом datetime "PartitionDate" со значением "2019-01-01".

Комментарии

Вы можете передать параметр OutputFileDatasetConfig в качестве аргумента в запуск, и он будет автоматически преобразован в локальный путь для вычислений. Если задан исходный аргумент, будет использоваться он. В противном случае мы автоматически создадим каталог во временной папке операционной системы. Файлы и папки в исходном каталоге будут скопированы в место назначения, зависящее от выходной конфигурации.

По умолчанию для копирования выходных данных в целевое хранилище будет задан режим подключения. Дополнительные сведения о режиме подключения см. в документации по as_mount.

Методы

as_input

Задает способ использования выходных данных в качестве входных данных на последующих этапах конвейера.

as_mount

Задает режим вывода на подключение.

Для режима подключения выходным каталогом будет каталог с подключением FUSE. Файлы, записанные в подключенный каталог, будут отправлены при закрытии файла.

as_upload

Задает режим вывода для отправки.

В режиме отправки файлы, записанные в выходной каталог, будут отправляться по окончании выполнения задания. Если задание завершается сбоем или отменяется, выходной каталог не отправляется.

as_input

Задает способ использования выходных данных в качестве входных данных на последующих этапах конвейера.

as_input(name=None)

Параметры

Имя Описание
name
Обязательно
str

Имя входных данных, характерных для запуска.

Возвращаемое значение

Тип Описание

Экземпляр DatasetConsumptionConfig, описывающий способ доставки входных данных.

as_mount

Задает режим вывода на подключение.

Для режима подключения выходным каталогом будет каталог с подключением FUSE. Файлы, записанные в подключенный каталог, будут отправлены при закрытии файла.

as_mount(disable_metadata_cache=False)

Параметры

Имя Описание
disable_metadata_cache
Обязательно

Указывает, требуется ли кэшировать метаданные на локальном узле. Если отключено, узел не сможет просматривать файлы, созданные на других узлах во время выполнения задания.

Возвращаемое значение

Тип Описание

Экземпляр OutputFileDatasetConfig с режимом подключения.

as_upload

Задает режим вывода для отправки.

В режиме отправки файлы, записанные в выходной каталог, будут отправляться по окончании выполнения задания. Если задание завершается сбоем или отменяется, выходной каталог не отправляется.

as_upload(overwrite=False, source_globs=None)

Параметры

Имя Описание
overwrite
Обязательно

Указывает, следует ли перезаписывать файлы, уже существующие в назначении.

source_globs
Обязательно

Стандартные маски, используемые для фильтрации файлов, подлежащих отправке.

Возвращаемое значение

Тип Описание

Экземпляр OutputFileDatasetConfig с режимом отправки.