OutputFileDatasetConfig Класс
Узнайте, как скопировать выходные данные выполнения и повысить их в качестве набора FileDataset.
OutputFileDatasetConfig позволяет указать способ передачи определенного локального пути в целевом объекте вычислений в указанное место назначения. Если аргументы не передаются конструктору, мы автоматически создадим имя, назначение и локальный путь.
Пример передачи аргументов:
workspace = Workspace.from_config()
experiment = Experiment(workspace, 'output_example')
output = OutputFileDatasetConfig()
script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])
run = experiment.submit(script_run_config)
print(run)
Пример создания выходных данных, а затем повышение выходных данных в табличном наборе данных и его регистрация с именем foo:
workspace = Workspace.from_config()
experiment = Experiment(workspace, 'output_example')
datastore = Datastore(workspace, 'example_adls_gen2_datastore')
# for more information on the parameters and methods, please look for the corresponding documentation.
output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')
script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])
run = experiment.submit(script_run_config)
print(run)
Инициализация OutputFileDatasetConfig.
OutputFileDatasetConfig позволяет указать способ передачи определенного локального пути в целевом объекте вычислений в указанное место назначения. Если аргументы не передаются конструктору, мы автоматически создадим имя, назначение и локальный путь.
Пример передачи аргументов:
workspace = Workspace.from_config()
experiment = Experiment(workspace, 'output_example')
output = OutputFileDatasetConfig()
script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])
run = experiment.submit(script_run_config)
print(run)
Пример создания выходных данных, а затем повышение выходных данных в табличном наборе данных и его регистрация с именем foo:
workspace = Workspace.from_config()
experiment = Experiment(workspace, 'output_example')
datastore = Datastore(workspace, 'example_adls_gen2_datastore')
# for more information on the parameters and methods, please look for the corresponding documentation.
output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')
script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])
run = experiment.submit(script_run_config)
print(run)
Конструктор
OutputFileDatasetConfig(name=None, destination=None, source=None, partition_format=None)
Параметры
| Имя | Описание |
|---|---|
|
name
Обязательно
|
Имя выходных данных, относящихся к этому запуску. Обычно это используется для целей происхождения. Если задано значение None, мы автоматически создадим имя. Имя также станет переменной среды, содержащей локальный путь, в который можно записать выходные файлы и папки, в которые будут отправлены в место назначения. |
|
destination
Обязательно
|
Назначение для копирования выходных данных в. Если задано значение None, мы скопировать выходные данные в хранилище данных workspaceblobstore в поле пути /dataset/{run-id}/{output-name}, где идентификатор выполнения является идентификатором запуска и выходным именем является выходное имя из приведенного выше параметра имени . Назначение — это кортеж, в котором первый элемент — хранилище данных, а второй — путь в хранилище данных для копирования данных. Путь в хранилище данных может быть путь к шаблону. Путь шаблона — это просто обычный путь, но с заполнителями внутри. Затем эти заполнители будут разрешены в соответствующее время. Синтаксис заполнителей — {заполнитель}, например /path/with/{placeholder}. В настоящее время поддерживаются только два заполнителя: {run-id} и {output-name}. |
|
source
Обязательно
|
Путь в целевом объекте вычислений для копирования данных из. Если задано значение None, мы задали этому каталогу, который мы создадим внутри временного каталога ОС целевого объекта вычислений. |
|
partition_format
Обязательно
|
Укажите формат секции пути. Значение по умолчанию — None. Сведения о секционированиях каждого пути будут извлечены в столбцы на основе указанного формата. Часть форматирования "{column_name}" создает строковый столбец, а "{column_name:y/MM/dd/HH/mm/ss}" создает столбец datetime, где "гггг", "MM", "dd", "HH", "mm" и "ss" используются для извлечения года, месяца, дня, часа, минуты и секунды для типа datetime. Формат должен начинаться с позиции первого ключа секции до конца пути к файлу. Например, учитывая путь '.. /Accounts/2019/01/01/data.parquet', где секция имеет имя отдела и время, partition_format='/{PartitionDate:yy/MM/dd}/data.parquet" создает строковый столбец "Отдел" со значением "Учетные записи" и столбцом datetime "PartitionDate" со значением "2019-01-01". |
|
name
Обязательно
|
Имя выходных данных, относящихся к этому запуску. Обычно это используется для целей происхождения. Если задано значение None, мы автоматически создадим имя. Имя также станет переменной среды, содержащей локальный путь, в который можно записать выходные файлы и папки, в которые будут отправлены в место назначения. |
|
destination
Обязательно
|
Назначение для копирования выходных данных в. Если задано значение None, мы скопировать выходные данные в хранилище данных workspaceblobstore в поле пути /dataset/{run-id}/{output-name}, где идентификатор выполнения является идентификатором запуска и выходным именем является выходное имя из приведенного выше параметра имени . Назначение — это кортеж, в котором первый элемент — хранилище данных, а второй — путь в хранилище данных для копирования данных. Путь в хранилище данных может быть путь к шаблону. Путь шаблона — это просто обычный путь, но с заполнителями внутри. Затем эти заполнители будут разрешены в соответствующее время. Синтаксис заполнителей — {заполнитель}, например /path/with/{placeholder}. В настоящее время поддерживаются только два заполнителя: {run-id} и {output-name}. |
|
source
Обязательно
|
Путь в целевом объекте вычислений для копирования данных из. Если задано значение None, мы задали этому каталогу, который мы создадим внутри временного каталога ОС целевого объекта вычислений. |
|
partition_format
Обязательно
|
Укажите формат секции пути. Значение по умолчанию — None. Сведения о секционированиях каждого пути будут извлечены в столбцы на основе указанного формата. Часть форматирования "{column_name}" создает строковый столбец, а "{column_name:y/MM/dd/HH/mm/ss}" создает столбец datetime, где "гггг", "MM", "dd", "HH", "mm" и "ss" используются для извлечения года, месяца, дня, часа, минуты и секунды для типа datetime. Формат должен начинаться с позиции первого ключа секции до конца пути к файлу. Например, учитывая путь '.. /Accounts/2019/01/01/data.parquet', где секция имеет имя отдела и время, partition_format='/{PartitionDate:yy/MM/dd}/data.parquet" создает строковый столбец "Отдел" со значением "Учетные записи" и столбцом datetime "PartitionDate" со значением "2019-01-01". |
Комментарии
Вы можете передать OutputFileDatasetConfig в качестве аргумента в выполнение, и он будет автоматически преобразован в локальный путь к вычислительным ресурсам. Исходный аргумент будет использоваться при указании одного из них, в противном случае мы автоматически создадим каталог в временной папке ОС. Затем файлы и папки в исходном каталоге будут скопированы в место назначения на основе выходной конфигурации.
По умолчанию будет установлен режим, с помощью которого выходные данные будут скопированы в целевое хранилище. Дополнительные сведения о режиме подключения см. в документации по as_mount.
Методы
| as_input |
Укажите способ использования выходных данных в качестве входных данных в последующих шагах конвейера. |
| as_mount |
Задайте режим подключения выходных данных. Для режима подключения выходной каталог будет подключенным каталогом FUSE. Файлы, записанные в подключенный каталог, будут отправлены при закрытии файла. |
| as_upload |
Задайте режим отправки выходных данных. В режиме отправки файлы, записанные в выходной каталог, будут отправлены в конце задания. Если задание завершается ошибкой или отменяется, выходной каталог не будет отправлен. |
as_input
Укажите способ использования выходных данных в качестве входных данных в последующих шагах конвейера.
as_input(name=None)
Параметры
| Имя | Описание |
|---|---|
|
name
Обязательно
|
Имя входных данных, относящихся к выполнению. |
Возвращаемое значение
| Тип | Описание |
|---|---|
|
DatasetConsumptionConfig Экземпляр, описывающий способ доставки входных данных. |
as_mount
Задайте режим подключения выходных данных.
Для режима подключения выходной каталог будет подключенным каталогом FUSE. Файлы, записанные в подключенный каталог, будут отправлены при закрытии файла.
as_mount(disable_metadata_cache=False)
Параметры
| Имя | Описание |
|---|---|
|
disable_metadata_cache
Обязательно
|
Следует ли кэшировать метаданные на локальном узле, если узел отключен, не сможет просматривать файлы, созданные на других узлах во время выполнения задания. |
Возвращаемое значение
| Тип | Описание |
|---|---|
|
Экземпляр с установленным режимом OutputFileDatasetConfig подключения. |
as_upload
Задайте режим отправки выходных данных.
В режиме отправки файлы, записанные в выходной каталог, будут отправлены в конце задания. Если задание завершается ошибкой или отменяется, выходной каталог не будет отправлен.
as_upload(overwrite=False, source_globs=None)
Параметры
| Имя | Описание |
|---|---|
|
overwrite
Обязательно
|
Следует ли перезаписать файлы, которые уже существуют в назначении. |
|
source_globs
Обязательно
|
Шаблоны glob, используемые для фильтрации файлов, которые будут отправлены. |
Возвращаемое значение
| Тип | Описание |
|---|---|
|
Экземпляр с набором OutputFileDatasetConfig режима отправки. |