Поделиться через


TransformationMixin Класс

Этот класс предоставляет возможности преобразования выходным наборам данных.

Наследование
builtins.object
TransformationMixin

Конструктор

TransformationMixin()

Методы

read_delimited_files

Преобразуйте выходной набор данных в табличный набор данных, считывая все выходные данные в виде файлов с разделителями.

read_parquet_files

Преобразование выходного набора данных в табличный набор данных путем считывания всех выходных данных в виде Parquet-файлов.

Табличный набор данных создается путем анализа Parquet-файла (файлов), на которые указывают промежуточные выходные данные.

read_delimited_files

Преобразуйте выходной набор данных в табличный набор данных, считывая все выходные данные в виде файлов с разделителями.

read_delimited_files(include_path=False, separator=',', header=PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS, partition_format=None, path_glob=None, set_column_types=None)

Параметры

include_path
bool
Обязательно

Логическое значение для сохранения сведений о пути в виде столбца в наборе данных. Значение по умолчанию — False. Это удобно, если при считывании нескольких файлов необходимо иметь возможность определить, из какого файла поступила определенная запись, или сохранить полезную информацию в пути к файлу.

separator
str
Обязательно

Разделитель, используемый для разделения столбцов.

header
PromoteHeadersBehavior
Обязательно

Управляет повышением уровня заголовков столбцов при чтении из файлов. По умолчанию предполагается, что все файлы имеют одинаковый заголовок.

partition_format
str
Обязательно

Укажите формат раздела пути. Значение по умолчанию — None (Нет). Сведения о разделах для каждого пути данных будут извлечены в столбцы на основе указанного формата. Часть формата "{column_name}" создает строковый столбец, а "{column_name: гггг/ММ/дд/ЧЧ/мм/сс}" создает столбец datetime, где "гггг", "ММ", "дд", "ЧЧ", "мм" и "сс" используются для извлечения года, месяца, дня, часа, минуты и секунды для типа datetime. Формат должен начинаться с расположения первого ключа секции до конца пути к файлу. Например, с учетом пути "../Accounts/2019/01/01/data.parquet", где раздел осуществляется по имени отдела и времени, partition_format ="/{Department}/{PartitionDate: гггг/мм/дд}/data.parquet" создает строковый столбец "Department" ("Отдел") со значением "Accounts" ("Бухгалтерия") и столбцом datetime "PartitionDate" со значением "2019-01-01".

path_glob
str
Обязательно

Шаблон, похожий на глоб, для фильтрации файлов, которые будут считываться как файлы с разделителями. Если задано значение None, все файлы будут считываться в качестве файлов с разделителями.

Glob — это расширение шаблона pathname в стиле Unix: https://docs.python.org/3/library/glob.html

например)

  • *.csv —> выбирает файлы с расширением.csv .
  • test_.csv* —> выбирает файлы с именами файлов, которые начинаются test_ и имеют .csv расширение файла.
  • /myrootdir/project_one///.txt* —> выбирает файлы, которые являются двумя подкаталогами глубоко в /myrootdir/project_one/ и имеют .txt расширение файла.

Примечание. Использование шаблона **** в больших деревьях каталогов может занимать слишком много времени. Как правило, для больших деревьев каталогов более специфичный шаблон может повысить производительность.

set_column_types
dict[str, DataType]
Обязательно

Словарь для задания типа данных столбца, где ключ — это имя столбца, а значение — DataType. Столбцы, отсутствующие в словаре, останутся со строковым типом. Если задано None, преобразований не будет. Записи для столбцов, не найденных в исходных данных, не будут приводить к ошибке и будут проигнорированы.

Возвращаемое значение

Экземпляр OutputTabularDatasetConfig с инструкцией по преобразованию выходных данных в TabularDataset.

Возвращаемый тип

read_parquet_files

Преобразование выходного набора данных в табличный набор данных путем считывания всех выходных данных в виде Parquet-файлов.

Табличный набор данных создается путем анализа Parquet-файла (файлов), на которые указывают промежуточные выходные данные.

read_parquet_files(include_path=False, partition_format=None, path_glob=None, set_column_types=None)

Параметры

include_path
bool
Обязательно

Логическое значение для сохранения сведений о пути в виде столбца в наборе данных. Значение по умолчанию — False. Это удобно, если при считывании нескольких файлов необходимо иметь возможность определить, из какого файла поступила определенная запись, или сохранить полезную информацию в пути к файлу.

partition_format
str
Обязательно

Укажите формат раздела пути. Значение по умолчанию — None (Нет). Сведения о разделах для каждого пути данных будут извлечены в столбцы на основе указанного формата. Часть формата "{column_name}" создает строковый столбец, а "{column_name: гггг/ММ/дд/ЧЧ/мм/сс}" создает столбец datetime, где "гггг", "ММ", "дд", "ЧЧ", "мм" и "сс" используются для извлечения года, месяца, дня, часа, минуты и секунды для типа datetime. Формат должен начинаться с расположения первого ключа секции до конца пути к файлу. Например, с учетом пути "../Accounts/2019/01/01/data.parquet", где раздел осуществляется по имени отдела и времени, partition_format ="/{Department}/{PartitionDate: гггг/мм/дд}/data.parquet" создает строковый столбец "Department" ("Отдел") со значением "Accounts" ("Бухгалтерия") и столбцом datetime "PartitionDate" со значением "2019-01-01".

path_glob
str
Обязательно

Шаблон, похожий на глоб, для фильтрации файлов, которые будут считываться как файлы Parquet. Если задано значение None, все файлы будут считываться как PARQUET-файлы.

Glob — это расширение шаблона pathname в стиле Unix: https://docs.python.org/3/library/glob.html

например)

  • *.parquet —> выбирает файлы с расширением PARQUET .
  • test_.parquet* —> выбирает файлы с именами файлов, которые начинаются с test_ и имеют расширение PARQUET .
  • /myrootdir/project_one///. parquet* —> выбирает файлы, которые являются двумя подкаталогами глубоко в /myrootdir/project_one/ и имеют расширение PARQUET .

Примечание. Использование шаблона **** в больших деревьях каталогов может занимать слишком много времени. Как правило, для больших деревьев каталогов более специфичный шаблон может повысить производительность.

set_column_types
dict[str, DataType]
Обязательно

Словарь для задания типа данных столбца, где ключ — это имя столбца, а значение — DataType. Столбцы, отсутствующие в словаре, будут оставаться в типе, загруженном из PARQUET-файла. Если задано None, преобразований не будет. Записи для столбцов, не найденных в исходных данных, не будут приводить к ошибке и будут проигнорированы.

Возвращаемое значение

Экземпляр OutputTabularDatasetConfig с инструкцией по преобразованию выходных данных в TabularDataset.

Возвращаемый тип