OutputFileDatasetConfig Класс
Объясняет, как копировать выходные данные запуска и повышать их до уровня FileDataset.
OutputFileDatasetConfig позволяет указать способ передачи определенного локального пути на целевом объекте вычислений в указанное место назначения. Если конструктору не передаются аргументы, мы автоматически создаем имя, назначение и локальный путь.
Пример ситуации, когда аргументы не передаются:
workspace = Workspace.from_config()
experiment = Experiment(workspace, 'output_example')
output = OutputFileDatasetConfig()
script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])
run = experiment.submit(script_run_config)
print(run)
Пример создания выходных данных, последующего повышения выходных данных в табличный набор данных и их регистрации с именем "foo":
workspace = Workspace.from_config()
experiment = Experiment(workspace, 'output_example')
datastore = Datastore(workspace, 'example_adls_gen2_datastore')
# for more information on the parameters and methods, please look for the corresponding documentation.
output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')
script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])
run = experiment.submit(script_run_config)
print(run)
Инициализируйте OutputFileDatasetConfig.
OutputFileDatasetConfig позволяет указать способ передачи определенного локального пути на целевом объекте вычислений в указанное место назначения. Если конструктору не передаются аргументы, мы автоматически создаем имя, назначение и локальный путь.
Пример ситуации, когда аргументы не передаются:
workspace = Workspace.from_config()
experiment = Experiment(workspace, 'output_example')
output = OutputFileDatasetConfig()
script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])
run = experiment.submit(script_run_config)
print(run)
Пример создания выходных данных, последующего повышения выходных данных в табличный набор данных и их регистрации с именем foo:
workspace = Workspace.from_config()
experiment = Experiment(workspace, 'output_example')
datastore = Datastore(workspace, 'example_adls_gen2_datastore')
# for more information on the parameters and methods, please look for the corresponding documentation.
output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')
script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])
run = experiment.submit(script_run_config)
print(run)
- Наследование
-
OutputFileDatasetConfigOutputFileDatasetConfig
Конструктор
OutputFileDatasetConfig(name=None, destination=None, source=None, partition_format=None)
Параметры
Имя | Описание |
---|---|
name
Обязательно
|
Имя выходных данных, относящихся к этому запуску. Обычно используется в целях определения происхождения данных. Если задано значение None, имя будет создано автоматически. Имя также станет переменной среды, содержащей локальный путь, по которому можно записывать выходные файлы и папки в папку, которая будет отправлена в место назначения. |
destination
Обязательно
|
Место назначения, в которое копируются выходные данные. Если задано значение None, выходные данные будут скопированы в хранилище данных workspaceblobstore по пути /dataset/{run-id}/{output-name}, где run-id — это идентификатор запуска, а output-name — имя выходных данных из указанного выше параметра name. Место назначения представляет собой кортеж, в котором первый элемент — это хранилище данных, а второй — путь к хранилищу данных, в которое копируются данные. Путь в хранилище данных может быть путем-шаблоном. Путь-шаблон — это просто обычный путь, содержащий заполнители. Эти заполнители будут разрешаться в соответствующий момент времени. Синтаксис для заполнителей — {заполнитель}. Пример: /path/with/{заполнитель}. В настоящее время поддерживаются только два заполнителя: {run-id} и {output-name}. |
source
Обязательно
|
Путь к целевому объекту вычислений, из которого копируются данные. Если задано значение None (Нет), мы укажем каталог, созданный во временном каталоге ОС целевого объекта вычислений. |
partition_format
Обязательно
|
Укажите формат раздела пути. Значение по умолчанию — None (Нет). Сведения о разделах для каждого пути данных будут извлечены в столбцы на основе указанного формата. Часть формата "{column_name}" создает строковый столбец, а "{column_name: гггг/ММ/дд/ЧЧ/мм/сс}" создает столбец datetime, где "гггг", "ММ", "дд", "ЧЧ", "мм" и "сс" используются для извлечения года, месяца, дня, часа, минуты и секунды для типа datetime. Формат должен начинаться с расположения первого ключа секции до конца пути к файлу. Например, с учетом пути "../Accounts/2019/01/01/data.parquet", где раздел осуществляется по имени отдела и времени, partition_format ="/{Department}/{PartitionDate: гггг/мм/дд}/data.parquet" создает строковый столбец "Department" ("Отдел") со значением "Accounts" ("Бухгалтерия") и столбцом datetime "PartitionDate" со значением "2019-01-01". |
name
Обязательно
|
Имя выходных данных, характерных для этого запуска. Обычно используется в целях определения происхождения данных. Если задано значение None, имя будет создано автоматически. Имя также станет переменной среды, содержащей локальный путь, по которому можно записывать выходные файлы и папки в папку, которая будет отправлена в место назначения. |
destination
Обязательно
|
Место назначения, в которое копируются выходные данные. Если задано значение None, выходные данные будут скопированы в хранилище данных workspaceblobstore по пути /dataset/{run-id}/{output-name}, где run-id — это идентификатор запуска, а output-name — имя выходных данных из указанного выше параметра name. Место назначения представляет собой кортеж, в котором первый элемент — это хранилище данных, а второй — путь к хранилищу данных, в которое копируются данные. Путь в хранилище данных может быть путем-шаблоном. Путь-шаблон — это просто обычный путь, содержащий заполнители. Эти заполнители будут разрешаться в соответствующий момент времени. Синтаксис для заполнителей — {заполнитель}. Пример: /path/with/{заполнитель}. В настоящее время поддерживаются только два заполнителя: {run-id} и {output-name}. |
source
Обязательно
|
Путь к целевому объекту вычислений, из которого копируются данные. Если задано значение None (Нет), мы укажем каталог, созданный во временном каталоге ОС целевого объекта вычислений. |
partition_format
Обязательно
|
Укажите формат раздела пути. Значение по умолчанию — None (Нет). Сведения о разделах для каждого пути данных будут извлечены в столбцы на основе указанного формата. Часть формата "{column_name}" создает строковый столбец, а "{column_name: гггг/ММ/дд/ЧЧ/мм/сс}" создает столбец datetime, где "гггг", "ММ", "дд", "ЧЧ", "мм" и "сс" используются для извлечения года, месяца, дня, часа, минуты и секунды для типа datetime. Формат должен начинаться с расположения первого ключа секции до конца пути к файлу. Например, с учетом пути "../Accounts/2019/01/01/data.parquet", где раздел осуществляется по имени отдела и времени, partition_format ="/{Department}/{PartitionDate: гггг/мм/дд}/data.parquet" создает строковый столбец "Department" ("Отдел") со значением "Accounts" ("Бухгалтерия") и столбцом datetime "PartitionDate" со значением "2019-01-01". |
Комментарии
Вы можете передать параметр OutputFileDatasetConfig в качестве аргумента в запуск, и он будет автоматически преобразован в локальный путь для вычислений. Если задан исходный аргумент, будет использоваться он. В противном случае мы автоматически создадим каталог во временной папке операционной системы. Файлы и папки в исходном каталоге будут скопированы в место назначения, зависящее от выходной конфигурации.
По умолчанию для копирования выходных данных в целевое хранилище будет задан режим подключения. Дополнительные сведения о режиме подключения см. в документации по as_mount.
Методы
as_input |
Задает способ использования выходных данных в качестве входных данных на последующих этапах конвейера. |
as_mount |
Задает режим вывода на подключение. Для режима подключения выходным каталогом будет каталог с подключением FUSE. Файлы, записанные в подключенный каталог, будут отправлены при закрытии файла. |
as_upload |
Задает режим вывода для отправки. В режиме отправки файлы, записанные в выходной каталог, будут отправляться по окончании выполнения задания. Если задание завершается сбоем или отменяется, выходной каталог не отправляется. |
as_input
Задает способ использования выходных данных в качестве входных данных на последующих этапах конвейера.
as_input(name=None)
Параметры
Имя | Описание |
---|---|
name
Обязательно
|
Имя входных данных, характерных для запуска. |
Возвращаемое значение
Тип | Описание |
---|---|
Экземпляр DatasetConsumptionConfig, описывающий способ доставки входных данных. |
as_mount
Задает режим вывода на подключение.
Для режима подключения выходным каталогом будет каталог с подключением FUSE. Файлы, записанные в подключенный каталог, будут отправлены при закрытии файла.
as_mount(disable_metadata_cache=False)
Параметры
Имя | Описание |
---|---|
disable_metadata_cache
Обязательно
|
Указывает, требуется ли кэшировать метаданные на локальном узле. Если отключено, узел не сможет просматривать файлы, созданные на других узлах во время выполнения задания. |
Возвращаемое значение
Тип | Описание |
---|---|
Экземпляр OutputFileDatasetConfig с режимом подключения. |
as_upload
Задает режим вывода для отправки.
В режиме отправки файлы, записанные в выходной каталог, будут отправляться по окончании выполнения задания. Если задание завершается сбоем или отменяется, выходной каталог не отправляется.
as_upload(overwrite=False, source_globs=None)
Параметры
Имя | Описание |
---|---|
overwrite
Обязательно
|
Указывает, следует ли перезаписывать файлы, уже существующие в назначении. |
source_globs
Обязательно
|
Стандартные маски, используемые для фильтрации файлов, подлежащих отправке. |
Возвращаемое значение
Тип | Описание |
---|---|
Экземпляр OutputFileDatasetConfig с режимом отправки. |