OutputFileDatasetConfig Класс

Узнайте, как скопировать выходные данные выполнения и повысить их в качестве набора FileDataset.

OutputFileDatasetConfig позволяет указать способ передачи определенного локального пути в целевом объекте вычислений в указанное место назначения. Если аргументы не передаются конструктору, мы автоматически создадим имя, назначение и локальный путь.

Пример передачи аргументов:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = OutputFileDatasetConfig()

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Пример создания выходных данных, а затем повышение выходных данных в табличном наборе данных и его регистрация с именем foo:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   datastore = Datastore(workspace, 'example_adls_gen2_datastore')

   # for more information on the parameters and methods, please look for the corresponding documentation.
   output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Инициализация OutputFileDatasetConfig.

Пример передачи аргументов:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = OutputFileDatasetConfig()

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   datastore = Datastore(workspace, 'example_adls_gen2_datastore')

   # for more information on the parameters and methods, please look for the corresponding documentation.
   output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Конструктор

OutputFileDatasetConfig(name=None, destination=None, source=None, partition_format=None)

Параметры

Имя	Описание
name Обязательно	str Имя выходных данных, относящихся к этому запуску. Обычно это используется для целей происхождения. Если задано значение None, мы автоматически создадим имя. Имя также станет переменной среды, содержащей локальный путь, в который можно записать выходные файлы и папки, в которые будут отправлены в место назначения.
destination Обязательно	tuple Назначение для копирования выходных данных в. Если задано значение None, мы скопировать выходные данные в хранилище данных workspaceblobstore в поле пути /dataset/{run-id}/{output-name}, где идентификатор выполнения является идентификатором запуска и выходным именем является выходное имя из приведенного выше параметра имени . Назначение — это кортеж, в котором первый элемент — хранилище данных, а второй — путь в хранилище данных для копирования данных. Путь в хранилище данных может быть путь к шаблону. Путь шаблона — это просто обычный путь, но с заполнителями внутри. Затем эти заполнители будут разрешены в соответствующее время. Синтаксис заполнителей — {заполнитель}, например /path/with/{placeholder}. В настоящее время поддерживаются только два заполнителя: {run-id} и {output-name}.
source Обязательно	str Путь в целевом объекте вычислений для копирования данных из. Если задано значение None, мы задали этому каталогу, который мы создадим внутри временного каталога ОС целевого объекта вычислений.
partition_format Обязательно	str Укажите формат секции пути. Значение по умолчанию — None. Сведения о секционированиях каждого пути будут извлечены в столбцы на основе указанного формата. Часть форматирования "{column_name}" создает строковый столбец, а "{column_name:y/MM/dd/HH/mm/ss}" создает столбец datetime, где "гггг", "MM", "dd", "HH", "mm" и "ss" используются для извлечения года, месяца, дня, часа, минуты и секунды для типа datetime. Формат должен начинаться с позиции первого ключа секции до конца пути к файлу. Например, учитывая путь '.. /Accounts/2019/01/01/data.parquet', где секция имеет имя отдела и время, partition_format='/{PartitionDate:yy/MM/dd}/data.parquet" создает строковый столбец "Отдел" со значением "Учетные записи" и столбцом datetime "PartitionDate" со значением "2019-01-01".
name Обязательно	str Имя выходных данных, относящихся к этому запуску. Обычно это используется для целей происхождения. Если задано значение None, мы автоматически создадим имя. Имя также станет переменной среды, содержащей локальный путь, в который можно записать выходные файлы и папки, в которые будут отправлены в место назначения.
destination Обязательно	tuple Назначение для копирования выходных данных в. Если задано значение None, мы скопировать выходные данные в хранилище данных workspaceblobstore в поле пути /dataset/{run-id}/{output-name}, где идентификатор выполнения является идентификатором запуска и выходным именем является выходное имя из приведенного выше параметра имени . Назначение — это кортеж, в котором первый элемент — хранилище данных, а второй — путь в хранилище данных для копирования данных. Путь в хранилище данных может быть путь к шаблону. Путь шаблона — это просто обычный путь, но с заполнителями внутри. Затем эти заполнители будут разрешены в соответствующее время. Синтаксис заполнителей — {заполнитель}, например /path/with/{placeholder}. В настоящее время поддерживаются только два заполнителя: {run-id} и {output-name}.
source Обязательно	str Путь в целевом объекте вычислений для копирования данных из. Если задано значение None, мы задали этому каталогу, который мы создадим внутри временного каталога ОС целевого объекта вычислений.
partition_format Обязательно	str Укажите формат секции пути. Значение по умолчанию — None. Сведения о секционированиях каждого пути будут извлечены в столбцы на основе указанного формата. Часть форматирования "{column_name}" создает строковый столбец, а "{column_name:y/MM/dd/HH/mm/ss}" создает столбец datetime, где "гггг", "MM", "dd", "HH", "mm" и "ss" используются для извлечения года, месяца, дня, часа, минуты и секунды для типа datetime. Формат должен начинаться с позиции первого ключа секции до конца пути к файлу. Например, учитывая путь '.. /Accounts/2019/01/01/data.parquet', где секция имеет имя отдела и время, partition_format='/{PartitionDate:yy/MM/dd}/data.parquet" создает строковый столбец "Отдел" со значением "Учетные записи" и столбцом datetime "PartitionDate" со значением "2019-01-01".

Вы можете передать OutputFileDatasetConfig в качестве аргумента в выполнение, и он будет автоматически преобразован в локальный путь к вычислительным ресурсам. Исходный аргумент будет использоваться при указании одного из них, в противном случае мы автоматически создадим каталог в временной папке ОС. Затем файлы и папки в исходном каталоге будут скопированы в место назначения на основе выходной конфигурации.

По умолчанию будет установлен режим, с помощью которого выходные данные будут скопированы в целевое хранилище. Дополнительные сведения о режиме подключения см. в документации по as_mount.

Методы

as_input

Укажите способ использования выходных данных в качестве входных данных в последующих шагах конвейера.

as_mount

Задайте режим подключения выходных данных.

Для режима подключения выходной каталог будет подключенным каталогом FUSE. Файлы, записанные в подключенный каталог, будут отправлены при закрытии файла.

as_upload

Задайте режим отправки выходных данных.

В режиме отправки файлы, записанные в выходной каталог, будут отправлены в конце задания. Если задание завершается ошибкой или отменяется, выходной каталог не будет отправлен.

as_input

Укажите способ использования выходных данных в качестве входных данных в последующих шагах конвейера.

as_input(name=None)

Параметры

Имя	Описание
name Обязательно	str Имя входных данных, относящихся к выполнению.

Возвращаемое значение

Тип	Описание
DatasetConsumptionConfig	DatasetConsumptionConfig Экземпляр, описывающий способ доставки входных данных.

as_mount

Задайте режим подключения выходных данных.

as_mount(disable_metadata_cache=False)

Параметры

Имя	Описание
disable_metadata_cache Обязательно	bool Следует ли кэшировать метаданные на локальном узле, если узел отключен, не сможет просматривать файлы, созданные на других узлах во время выполнения задания.

Возвращаемое значение

Тип	Описание
OutputFileDatasetConfig	Экземпляр с установленным режимом OutputFileDatasetConfig подключения.

as_upload

Задайте режим отправки выходных данных.

as_upload(overwrite=False, source_globs=None)

Параметры

Имя	Описание
overwrite Обязательно	bool Следует ли перезаписать файлы, которые уже существуют в назначении.
source_globs Обязательно	list[str] Шаблоны glob, используемые для фильтрации файлов, которые будут отправлены.

Возвращаемое значение

Тип	Описание
OutputFileDatasetConfig	Экземпляр с набором OutputFileDatasetConfig режима отправки.

Обратная связь

Были ли сведения на этой странице полезными?

OutputFileDatasetConfig Класс

Конструктор

Параметры

Комментарии

Методы

as_input

Параметры

Возвращаемое значение

as_mount

Параметры

Возвращаемое значение

as_upload

Параметры

Возвращаемое значение

Обратная связь