Поделиться через


OutputTabularDatasetConfig Класс

Представление способа копирования выходных данных прогона и повышения их до уровня TabularDataset.

Инициализируйте OutputTabularDatasetConfig.

Наследование
OutputTabularDatasetConfig

Конструктор

OutputTabularDatasetConfig(**kwargs)

Комментарии

Не следует вызывать этот конструктор напрямую. Вместо этого следует создать OutputFileDatasetConfig, а затем вызвать соответствующие методы read_*, чтобы преобразовать ее в OutputTabularDatasetConfig.

Способ копирования выходных данных в место назначения для OutputTabularDatasetConfig будет таким же, как и для OutputFileDatasetConfig. Различие между ними заключается в том, что создаваемым набором данных будет TabularDataset, содержащий все указанные преобразования.

Методы

as_input

Указание способа использования выходных данных в качестве входных данных на последующих этапах конвейера.

as_mount

Задает режим вывода на подключение.

Для режима подключения выходным каталогом будет каталог с подключением FUSE. Файлы, записанные в подключенный каталог, будут отправлены при закрытии файла.

as_upload

Задает режим вывода для отправки.

В режиме отправки файлы, записанные в выходной каталог, будут отправляться по окончании выполнения задания. Если задание завершается сбоем или отменяется, выходной каталог не отправляется.

drop_columns

Удаление указанных столбцов из набора данных.

keep_columns

Сохранение указанных столбцов и удаление всех остальных столбцов из набора данных.

random_split

Разделяет записи в наборе данных на две части случайным образом и приблизительно в указанном процентном соотношении.

В результирующих выходных конфигурациях их имена изменятся. К имени первого будет добавлен суффикс "_1", а к имени второго — суффикс "_2". Если это может вызвать конфликт имен или вы хотите указать пользовательское имя, задайте их имена вручную.

as_input

Указание способа использования выходных данных в качестве входных данных на последующих этапах конвейера.

as_input(name=None)

Параметры

Имя Описание
name
Обязательно
str

Имя входных данных, характерных для запуска.

Возвращаемое значение

Тип Описание

Экземпляр DatasetConsumptionConfig, описывающий способ доставки входных данных.

as_mount

Задает режим вывода на подключение.

Для режима подключения выходным каталогом будет каталог с подключением FUSE. Файлы, записанные в подключенный каталог, будут отправлены при закрытии файла.

as_mount()

Возвращаемое значение

Тип Описание

Экземпляр OutputTabularDatasetConfig с режимом подключения.

as_upload

Задает режим вывода для отправки.

В режиме отправки файлы, записанные в выходной каталог, будут отправляться по окончании выполнения задания. Если задание завершается сбоем или отменяется, выходной каталог не отправляется.

as_upload(overwrite=False, source_globs=None)

Параметры

Имя Описание
overwrite
Обязательно

Указывает, следует ли перезаписывать файлы, уже существующие в назначении.

source_globs
Обязательно

Стандартные маски, используемые для фильтрации файлов, подлежащих отправке.

Возвращаемое значение

Тип Описание

Экземпляр OutputTabularDatasetConfig с режимом отправки.

drop_columns

Удаление указанных столбцов из набора данных.

drop_columns(columns)

Параметры

Имя Описание
columns
Обязательно

Имя или список имен столбцов для удаления.

Возвращаемое значение

Тип Описание

Экземпляр OutputTabularDatasetConfig, в котором удаляются столбцы.

keep_columns

Сохранение указанных столбцов и удаление всех остальных столбцов из набора данных.

keep_columns(columns)

Параметры

Имя Описание
columns
Обязательно

Имя или список имен столбцов для сохранения.

Возвращаемое значение

Тип Описание

Экземпляр OutputTabularDatasetConfig, в котором хранятся столбцы.

random_split

Разделяет записи в наборе данных на две части случайным образом и приблизительно в указанном процентном соотношении.

В результирующих выходных конфигурациях их имена изменятся. К имени первого будет добавлен суффикс "_1", а к имени второго — суффикс "_2". Если это может вызвать конфликт имен или вы хотите указать пользовательское имя, задайте их имена вручную.

random_split(percentage, seed=None)

Параметры

Имя Описание
percentage
Обязательно

Приблизительное процентное соотношение для разделения набора данных. Это должно быть число от 0,0 до 1,0.

seed
Обязательно
int

Необязательное начальное значение, используемое для генератора случайных чисел.

Возвращаемое значение

Тип Описание

Возвращает кортеж из двух объектов OutputTabularDatasetConfig, представляющих два набора данных после разделения.