TransformationMixin Класс
Этот класс предоставляет возможности преобразования выходным наборам данных.
- Наследование
-
builtins.objectTransformationMixin
Конструктор
TransformationMixin()
Методы
read_delimited_files |
Преобразуйте выходной набор данных в табличный набор данных, считывая все выходные данные в виде файлов с разделителями. |
read_parquet_files |
Преобразование выходного набора данных в табличный набор данных путем считывания всех выходных данных в виде Parquet-файлов. Табличный набор данных создается путем анализа Parquet-файла (файлов), на которые указывают промежуточные выходные данные. |
read_delimited_files
Преобразуйте выходной набор данных в табличный набор данных, считывая все выходные данные в виде файлов с разделителями.
read_delimited_files(include_path=False, separator=',', header=PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS, partition_format=None, path_glob=None, set_column_types=None)
Параметры
- include_path
- bool
Логическое значение для сохранения сведений о пути в виде столбца в наборе данных. Значение по умолчанию — False. Это удобно, если при считывании нескольких файлов необходимо иметь возможность определить, из какого файла поступила определенная запись, или сохранить полезную информацию в пути к файлу.
- header
- PromoteHeadersBehavior
Управляет повышением уровня заголовков столбцов при чтении из файлов. По умолчанию предполагается, что все файлы имеют одинаковый заголовок.
- partition_format
- str
Укажите формат раздела пути. Значение по умолчанию — None (Нет). Сведения о разделах для каждого пути данных будут извлечены в столбцы на основе указанного формата. Часть формата "{column_name}" создает строковый столбец, а "{column_name: гггг/ММ/дд/ЧЧ/мм/сс}" создает столбец datetime, где "гггг", "ММ", "дд", "ЧЧ", "мм" и "сс" используются для извлечения года, месяца, дня, часа, минуты и секунды для типа datetime. Формат должен начинаться с расположения первого ключа секции до конца пути к файлу. Например, с учетом пути "../Accounts/2019/01/01/data.parquet", где раздел осуществляется по имени отдела и времени, partition_format ="/{Department}/{PartitionDate: гггг/мм/дд}/data.parquet" создает строковый столбец "Department" ("Отдел") со значением "Accounts" ("Бухгалтерия") и столбцом datetime "PartitionDate" со значением "2019-01-01".
- path_glob
- str
Шаблон, похожий на глоб, для фильтрации файлов, которые будут считываться как файлы с разделителями. Если задано значение None, все файлы будут считываться в качестве файлов с разделителями.
Glob — это расширение шаблона pathname в стиле Unix: https://docs.python.org/3/library/glob.html
например)
- *.csv —> выбирает файлы с расширением.csv .
- test_.csv* —> выбирает файлы с именами файлов, которые начинаются test_ и имеют .csv расширение файла.
- /myrootdir/project_one///.txt* —> выбирает файлы, которые являются двумя подкаталогами глубоко в /myrootdir/project_one/ и имеют .txt расширение файла.
Примечание. Использование шаблона **** в больших деревьях каталогов может занимать слишком много времени. Как правило, для больших деревьев каталогов более специфичный шаблон может повысить производительность.
Словарь для задания типа данных столбца, где ключ — это имя столбца, а значение — DataType. Столбцы, отсутствующие в словаре, останутся со строковым типом. Если задано None, преобразований не будет. Записи для столбцов, не найденных в исходных данных, не будут приводить к ошибке и будут проигнорированы.
Возвращаемое значение
Экземпляр OutputTabularDatasetConfig с инструкцией по преобразованию выходных данных в TabularDataset.
Возвращаемый тип
read_parquet_files
Преобразование выходного набора данных в табличный набор данных путем считывания всех выходных данных в виде Parquet-файлов.
Табличный набор данных создается путем анализа Parquet-файла (файлов), на которые указывают промежуточные выходные данные.
read_parquet_files(include_path=False, partition_format=None, path_glob=None, set_column_types=None)
Параметры
- include_path
- bool
Логическое значение для сохранения сведений о пути в виде столбца в наборе данных. Значение по умолчанию — False. Это удобно, если при считывании нескольких файлов необходимо иметь возможность определить, из какого файла поступила определенная запись, или сохранить полезную информацию в пути к файлу.
- partition_format
- str
Укажите формат раздела пути. Значение по умолчанию — None (Нет). Сведения о разделах для каждого пути данных будут извлечены в столбцы на основе указанного формата. Часть формата "{column_name}" создает строковый столбец, а "{column_name: гггг/ММ/дд/ЧЧ/мм/сс}" создает столбец datetime, где "гггг", "ММ", "дд", "ЧЧ", "мм" и "сс" используются для извлечения года, месяца, дня, часа, минуты и секунды для типа datetime. Формат должен начинаться с расположения первого ключа секции до конца пути к файлу. Например, с учетом пути "../Accounts/2019/01/01/data.parquet", где раздел осуществляется по имени отдела и времени, partition_format ="/{Department}/{PartitionDate: гггг/мм/дд}/data.parquet" создает строковый столбец "Department" ("Отдел") со значением "Accounts" ("Бухгалтерия") и столбцом datetime "PartitionDate" со значением "2019-01-01".
- path_glob
- str
Шаблон, похожий на глоб, для фильтрации файлов, которые будут считываться как файлы Parquet. Если задано значение None, все файлы будут считываться как PARQUET-файлы.
Glob — это расширение шаблона pathname в стиле Unix: https://docs.python.org/3/library/glob.html
например)
- *.parquet —> выбирает файлы с расширением PARQUET .
- test_.parquet* —> выбирает файлы с именами файлов, которые начинаются с test_ и имеют расширение PARQUET .
- /myrootdir/project_one///. parquet* —> выбирает файлы, которые являются двумя подкаталогами глубоко в /myrootdir/project_one/ и имеют расширение PARQUET .
Примечание. Использование шаблона **** в больших деревьях каталогов может занимать слишком много времени. Как правило, для больших деревьев каталогов более специфичный шаблон может повысить производительность.
Словарь для задания типа данных столбца, где ключ — это имя столбца, а значение — DataType. Столбцы, отсутствующие в словаре, будут оставаться в типе, загруженном из PARQUET-файла. Если задано None, преобразований не будет. Записи для столбцов, не найденных в исходных данных, не будут приводить к ошибке и будут проигнорированы.
Возвращаемое значение
Экземпляр OutputTabularDatasetConfig с инструкцией по преобразованию выходных данных в TabularDataset.
Возвращаемый тип
Обратная связь
https://aka.ms/ContentUserFeedback.
Ожидается в ближайшее время: в течение 2024 года мы постепенно откажемся от GitHub Issues как механизма обратной связи для контента и заменим его новой системой обратной связи. Дополнительные сведения см. в разделеОтправить и просмотреть отзыв по