OutputFileDatasetConfig Класс

Узнайте, как скопировать выходные данные выполнения и повысить их в качестве набора FileDataset.

OutputFileDatasetConfig позволяет указать способ передачи определенного локального пути в целевом объекте вычислений в указанное место назначения. Если аргументы не передаются конструктору, мы автоматически создадим имя, назначение и локальный путь.

Пример передачи аргументов:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = OutputFileDatasetConfig()

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Пример создания выходных данных, а затем повышение выходных данных в табличном наборе данных и его регистрация с именем foo:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   datastore = Datastore(workspace, 'example_adls_gen2_datastore')

   # for more information on the parameters and methods, please look for the corresponding documentation.
   output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Инициализация OutputFileDatasetConfig.

OutputFileDatasetConfig позволяет указать способ передачи определенного локального пути в целевом объекте вычислений в указанное место назначения. Если аргументы не передаются конструктору, мы автоматически создадим имя, назначение и локальный путь.

Пример передачи аргументов:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = OutputFileDatasetConfig()

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Пример создания выходных данных, а затем повышение выходных данных в табличном наборе данных и его регистрация с именем foo:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   datastore = Datastore(workspace, 'example_adls_gen2_datastore')

   # for more information on the parameters and methods, please look for the corresponding documentation.
   output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Конструктор

OutputFileDatasetConfig(name=None, destination=None, source=None, partition_format=None)

Параметры

Имя Описание
name
Обязательно
str

Имя выходных данных, относящихся к этому запуску. Обычно это используется для целей происхождения. Если задано значение None, мы автоматически создадим имя. Имя также станет переменной среды, содержащей локальный путь, в который можно записать выходные файлы и папки, в которые будут отправлены в место назначения.

destination
Обязательно

Назначение для копирования выходных данных в. Если задано значение None, мы скопировать выходные данные в хранилище данных workspaceblobstore в поле пути /dataset/{run-id}/{output-name}, где идентификатор выполнения является идентификатором запуска и выходным именем является выходное имя из приведенного выше параметра имени . Назначение — это кортеж, в котором первый элемент — хранилище данных, а второй — путь в хранилище данных для копирования данных.

Путь в хранилище данных может быть путь к шаблону. Путь шаблона — это просто обычный путь, но с заполнителями внутри. Затем эти заполнители будут разрешены в соответствующее время. Синтаксис заполнителей — {заполнитель}, например /path/with/{placeholder}. В настоящее время поддерживаются только два заполнителя: {run-id} и {output-name}.

source
Обязательно
str

Путь в целевом объекте вычислений для копирования данных из. Если задано значение None, мы задали этому каталогу, который мы создадим внутри временного каталога ОС целевого объекта вычислений.

partition_format
Обязательно
str

Укажите формат секции пути. Значение по умолчанию — None. Сведения о секционированиях каждого пути будут извлечены в столбцы на основе указанного формата. Часть форматирования "{column_name}" создает строковый столбец, а "{column_name:y/MM/dd/HH/mm/ss}" создает столбец datetime, где "гггг", "MM", "dd", "HH", "mm" и "ss" используются для извлечения года, месяца, дня, часа, минуты и секунды для типа datetime. Формат должен начинаться с позиции первого ключа секции до конца пути к файлу. Например, учитывая путь '.. /Accounts/2019/01/01/data.parquet', где секция имеет имя отдела и время, partition_format='/{PartitionDate:yy/MM/dd}/data.parquet" создает строковый столбец "Отдел" со значением "Учетные записи" и столбцом datetime "PartitionDate" со значением "2019-01-01".

name
Обязательно
str

Имя выходных данных, относящихся к этому запуску. Обычно это используется для целей происхождения. Если задано значение None, мы автоматически создадим имя. Имя также станет переменной среды, содержащей локальный путь, в который можно записать выходные файлы и папки, в которые будут отправлены в место назначения.

destination
Обязательно

Назначение для копирования выходных данных в. Если задано значение None, мы скопировать выходные данные в хранилище данных workspaceblobstore в поле пути /dataset/{run-id}/{output-name}, где идентификатор выполнения является идентификатором запуска и выходным именем является выходное имя из приведенного выше параметра имени . Назначение — это кортеж, в котором первый элемент — хранилище данных, а второй — путь в хранилище данных для копирования данных.

Путь в хранилище данных может быть путь к шаблону. Путь шаблона — это просто обычный путь, но с заполнителями внутри. Затем эти заполнители будут разрешены в соответствующее время. Синтаксис заполнителей — {заполнитель}, например /path/with/{placeholder}. В настоящее время поддерживаются только два заполнителя: {run-id} и {output-name}.

source
Обязательно
str

Путь в целевом объекте вычислений для копирования данных из. Если задано значение None, мы задали этому каталогу, который мы создадим внутри временного каталога ОС целевого объекта вычислений.

partition_format
Обязательно
str

Укажите формат секции пути. Значение по умолчанию — None. Сведения о секционированиях каждого пути будут извлечены в столбцы на основе указанного формата. Часть форматирования "{column_name}" создает строковый столбец, а "{column_name:y/MM/dd/HH/mm/ss}" создает столбец datetime, где "гггг", "MM", "dd", "HH", "mm" и "ss" используются для извлечения года, месяца, дня, часа, минуты и секунды для типа datetime. Формат должен начинаться с позиции первого ключа секции до конца пути к файлу. Например, учитывая путь '.. /Accounts/2019/01/01/data.parquet', где секция имеет имя отдела и время, partition_format='/{PartitionDate:yy/MM/dd}/data.parquet" создает строковый столбец "Отдел" со значением "Учетные записи" и столбцом datetime "PartitionDate" со значением "2019-01-01".

Комментарии

Вы можете передать OutputFileDatasetConfig в качестве аргумента в выполнение, и он будет автоматически преобразован в локальный путь к вычислительным ресурсам. Исходный аргумент будет использоваться при указании одного из них, в противном случае мы автоматически создадим каталог в временной папке ОС. Затем файлы и папки в исходном каталоге будут скопированы в место назначения на основе выходной конфигурации.

По умолчанию будет установлен режим, с помощью которого выходные данные будут скопированы в целевое хранилище. Дополнительные сведения о режиме подключения см. в документации по as_mount.

Методы

as_input

Укажите способ использования выходных данных в качестве входных данных в последующих шагах конвейера.

as_mount

Задайте режим подключения выходных данных.

Для режима подключения выходной каталог будет подключенным каталогом FUSE. Файлы, записанные в подключенный каталог, будут отправлены при закрытии файла.

as_upload

Задайте режим отправки выходных данных.

В режиме отправки файлы, записанные в выходной каталог, будут отправлены в конце задания. Если задание завершается ошибкой или отменяется, выходной каталог не будет отправлен.

as_input

Укажите способ использования выходных данных в качестве входных данных в последующих шагах конвейера.

as_input(name=None)

Параметры

Имя Описание
name
Обязательно
str

Имя входных данных, относящихся к выполнению.

Возвращаемое значение

Тип Описание

DatasetConsumptionConfig Экземпляр, описывающий способ доставки входных данных.

as_mount

Задайте режим подключения выходных данных.

Для режима подключения выходной каталог будет подключенным каталогом FUSE. Файлы, записанные в подключенный каталог, будут отправлены при закрытии файла.

as_mount(disable_metadata_cache=False)

Параметры

Имя Описание
disable_metadata_cache
Обязательно

Следует ли кэшировать метаданные на локальном узле, если узел отключен, не сможет просматривать файлы, созданные на других узлах во время выполнения задания.

Возвращаемое значение

Тип Описание

Экземпляр с установленным режимом OutputFileDatasetConfig подключения.

as_upload

Задайте режим отправки выходных данных.

В режиме отправки файлы, записанные в выходной каталог, будут отправлены в конце задания. Если задание завершается ошибкой или отменяется, выходной каталог не будет отправлен.

as_upload(overwrite=False, source_globs=None)

Параметры

Имя Описание
overwrite
Обязательно

Следует ли перезаписать файлы, которые уже существуют в назначении.

source_globs
Обязательно

Шаблоны glob, используемые для фильтрации файлов, которые будут отправлены.

Возвращаемое значение

Тип Описание

Экземпляр с набором OutputFileDatasetConfig режима отправки.