TransformationMixin Classe

Referência

Essa classe fornece funcionalidades de transformação para conjuntos de dados de saída.

Herança: builtins.object

TransformationMixin

Construtor

TransformationMixin()

Métodos

read_delimited_files

Transforme o conjunto de dados de saída em um conjunto de dados de tabela lendo toda a saída como arquivos delimitados.

read_parquet_files

Transforme o conjunto de dados de saída em um conjunto de dados de tabela lendo toda a saída como arquivos parquet.

O conjunto de dados tabular é criado analisando os arquivos parquet apontados pela saída intermediária.

read_delimited_files

Transforme o conjunto de dados de saída em um conjunto de dados de tabela lendo toda a saída como arquivos delimitados.

read_delimited_files(include_path=False, separator=',', header=PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS, partition_format=None, path_glob=None, set_column_types=None)

Parâmetros

include_path: bool

Obrigatório

Booliano para manter as informações do caminho como coluna no conjunto de dados. Usa False como padrão. É útil ao ler vários arquivos e quer saber de qual arquivo um registro específico foi originado, ou para manter informações úteis no caminho do arquivo.

separator: str

Obrigatório

O separador usado para dividir colunas.

header: PromoteHeadersBehavior

Obrigatório

Controla como cabeçalhos de coluna são promovidos durante a leitura de arquivos. Padrões para assumir que todos os arquivos têm o mesmo cabeçalho.

partition_format: str

Obrigatório

Especifique o formato de partição do caminho. Assume o valor padrão de Nenhum. As informações de partição de cada caminho serão extraídas em colunas com base no formato especificado. A parte do formato '{column_name}' cria uma coluna de cadeia de caracteres e '{column_name:yyyy/MM/dd/HH/mm/ss}' cria a coluna datetime, na qual 'yyyy', 'MM', 'dd', 'HH', 'mm' e 'ss' são usados para extrair ano, mês, dia, hora, minuto e segundos para o tipo datetime. O formato deve começar da posição da primeira chave de partição até o final do caminho do arquivo. Por exemplo, considerando o caminho '../Accounts/2019/01/01/data.parquet' em que a partição é por hora e nome do departamento, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet' cria uma coluna de cadeia de caracteres 'Department' com o valor 'Accounts' e uma coluna datetime 'PartitionDate' com o valor '2019-01-01'.

path_glob: str

Obrigatório

Um padrão semelhante a glob para filtrar arquivos que serão lidos como arquivos delimitados. Se definido como Nenhum, todos os arquivos serão lidos como arquivos delimitados.

O Glob é uma expansão do padrão de nome de caminho de estilo Unix: https://docs.python.org/3/library/glob.html

ex)

*.csv –> seleciona arquivos com .csv extensão de arquivo
test_.csv* –> seleciona arquivos com nomes de arquivo que começam com test_ e tem.csv extensão de arquivo
/myrootdir/project_one///.txt* –> seleciona arquivos que são dois subdiretórios profundos em /myrootdir/project_one/ e têm .txt extensão de arquivo

Observação: o uso do padrão **** em árvores de diretório grandes pode consumir uma quantidade de tempo desordenada. Em geral, para árvores de diretório grandes, ser mais específico no padrão glob pode aumentar o desempenho.

set_column_types: dict[str, DataType]

Obrigatório

Um dicionário para definir o tipo de dados da coluna, em que a chave é o nome da coluna e o valor DataType. As colunas que não estão no dicionário permanecerão do tipo de cadeia de caracteres. Passar None não resultará em conversões. As entradas para colunas não localizadas nos dados de origem não causarão erro e serão ignoradas.

Retornos

Uma instância OutputTabularDatasetConfig com instruções sobre como converter a saída em um TabularDataset.

Tipo de retorno

OutputTabularDatasetConfig

read_parquet_files

Transforme o conjunto de dados de saída em um conjunto de dados de tabela lendo toda a saída como arquivos parquet.

O conjunto de dados tabular é criado analisando os arquivos parquet apontados pela saída intermediária.

read_parquet_files(include_path=False, partition_format=None, path_glob=None, set_column_types=None)

Parâmetros

include_path: bool

Obrigatório

partition_format: str

Obrigatório

path_glob: str

Obrigatório

Um padrão semelhante a glob para filtrar arquivos que serão lidos como arquivos parquet. Se definido como Nenhum, todos os arquivos serão lidos como arquivos parquet.

O Glob é uma expansão do padrão de nome de caminho de estilo Unix: https://docs.python.org/3/library/glob.html

ex)

*.parquet –> seleciona arquivos com a extensão de arquivo .parquet
test_.parquet* –> seleciona arquivos com nomes de arquivo que começam com test_ e tem a extensão de arquivo .parquet
/myrootdir/project_one///. parquet* –> seleciona arquivos que são dois subdiretórios profundos em /myrootdir/project_one/ e têm extensão de arquivo .parquet

set_column_types: dict[str, DataType]

Obrigatório

Um dicionário para definir o tipo de dados da coluna, em que a chave é o nome da coluna e o valor DataType. As colunas que não estiverem no dicionário permanecerão do tipo carregado do arquivo parquet. Passar None não resultará em conversões. As entradas para colunas não localizadas nos dados de origem não causarão erro e serão ignoradas.

Retornos

Uma instância OutputTabularDatasetConfig com instruções sobre como converter a saída em um TabularDataset.

Tipo de retorno

OutputTabularDatasetConfig

Compartilhar via

TransformationMixin Classe

Construtor

Métodos

read_delimited_files

Parâmetros

Retornos

Tipo de retorno

read_parquet_files

Parâmetros

Retornos

Tipo de retorno

Comentários

Comentários

Recursos adicionais