Compartilhar via


TransformationMixin Classe

Essa classe fornece funcionalidades de transformação para conjuntos de dados de saída.

Herança
builtins.object
TransformationMixin

Construtor

TransformationMixin()

Métodos

read_delimited_files

Transforme o conjunto de dados de saída em um conjunto de dados de tabela lendo toda a saída como arquivos delimitados.

read_parquet_files

Transforme o conjunto de dados de saída em um conjunto de dados de tabela lendo toda a saída como arquivos parquet.

O conjunto de dados tabular é criado analisando os arquivos parquet apontados pela saída intermediária.

read_delimited_files

Transforme o conjunto de dados de saída em um conjunto de dados de tabela lendo toda a saída como arquivos delimitados.

read_delimited_files(include_path=False, separator=',', header=PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS, partition_format=None, path_glob=None, set_column_types=None)

Parâmetros

include_path
bool
Obrigatório

Booliano para manter as informações do caminho como coluna no conjunto de dados. Usa False como padrão. É útil ao ler vários arquivos e quer saber de qual arquivo um registro específico foi originado, ou para manter informações úteis no caminho do arquivo.

separator
str
Obrigatório

O separador usado para dividir colunas.

header
PromoteHeadersBehavior
Obrigatório

Controla como cabeçalhos de coluna são promovidos durante a leitura de arquivos. Padrões para assumir que todos os arquivos têm o mesmo cabeçalho.

partition_format
str
Obrigatório

Especifique o formato de partição do caminho. Assume o valor padrão de Nenhum. As informações de partição de cada caminho serão extraídas em colunas com base no formato especificado. A parte do formato '{column_name}' cria uma coluna de cadeia de caracteres e '{column_name:yyyy/MM/dd/HH/mm/ss}' cria a coluna datetime, na qual 'yyyy', 'MM', 'dd', 'HH', 'mm' e 'ss' são usados para extrair ano, mês, dia, hora, minuto e segundos para o tipo datetime. O formato deve começar da posição da primeira chave de partição até o final do caminho do arquivo. Por exemplo, considerando o caminho '../Accounts/2019/01/01/data.parquet' em que a partição é por hora e nome do departamento, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet' cria uma coluna de cadeia de caracteres 'Department' com o valor 'Accounts' e uma coluna datetime 'PartitionDate' com o valor '2019-01-01'.

path_glob
str
Obrigatório

Um padrão semelhante a glob para filtrar arquivos que serão lidos como arquivos delimitados. Se definido como Nenhum, todos os arquivos serão lidos como arquivos delimitados.

O Glob é uma expansão do padrão de nome de caminho de estilo Unix: https://docs.python.org/3/library/glob.html

ex)

  • *.csv –> seleciona arquivos com .csv extensão de arquivo
  • test_.csv* –> seleciona arquivos com nomes de arquivo que começam com test_ e tem.csv extensão de arquivo
  • /myrootdir/project_one///.txt* –> seleciona arquivos que são dois subdiretórios profundos em /myrootdir/project_one/ e têm .txt extensão de arquivo

Observação: o uso do padrão **** em árvores de diretório grandes pode consumir uma quantidade de tempo desordenada. Em geral, para árvores de diretório grandes, ser mais específico no padrão glob pode aumentar o desempenho.

set_column_types
dict[str, DataType]
Obrigatório

Um dicionário para definir o tipo de dados da coluna, em que a chave é o nome da coluna e o valor DataType. As colunas que não estão no dicionário permanecerão do tipo de cadeia de caracteres. Passar None não resultará em conversões. As entradas para colunas não localizadas nos dados de origem não causarão erro e serão ignoradas.

Retornos

Uma instância OutputTabularDatasetConfig com instruções sobre como converter a saída em um TabularDataset.

Tipo de retorno

read_parquet_files

Transforme o conjunto de dados de saída em um conjunto de dados de tabela lendo toda a saída como arquivos parquet.

O conjunto de dados tabular é criado analisando os arquivos parquet apontados pela saída intermediária.

read_parquet_files(include_path=False, partition_format=None, path_glob=None, set_column_types=None)

Parâmetros

include_path
bool
Obrigatório

Booliano para manter as informações do caminho como coluna no conjunto de dados. Usa False como padrão. É útil ao ler vários arquivos e quer saber de qual arquivo um registro específico foi originado, ou para manter informações úteis no caminho do arquivo.

partition_format
str
Obrigatório

Especifique o formato de partição do caminho. Assume o valor padrão de Nenhum. As informações de partição de cada caminho serão extraídas em colunas com base no formato especificado. A parte do formato '{column_name}' cria uma coluna de cadeia de caracteres e '{column_name:yyyy/MM/dd/HH/mm/ss}' cria a coluna datetime, na qual 'yyyy', 'MM', 'dd', 'HH', 'mm' e 'ss' são usados para extrair ano, mês, dia, hora, minuto e segundos para o tipo datetime. O formato deve começar da posição da primeira chave de partição até o final do caminho do arquivo. Por exemplo, considerando o caminho '../Accounts/2019/01/01/data.parquet' em que a partição é por hora e nome do departamento, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet' cria uma coluna de cadeia de caracteres 'Department' com o valor 'Accounts' e uma coluna datetime 'PartitionDate' com o valor '2019-01-01'.

path_glob
str
Obrigatório

Um padrão semelhante a glob para filtrar arquivos que serão lidos como arquivos parquet. Se definido como Nenhum, todos os arquivos serão lidos como arquivos parquet.

O Glob é uma expansão do padrão de nome de caminho de estilo Unix: https://docs.python.org/3/library/glob.html

ex)

  • *.parquet –> seleciona arquivos com a extensão de arquivo .parquet
  • test_.parquet* –> seleciona arquivos com nomes de arquivo que começam com test_ e tem a extensão de arquivo .parquet
  • /myrootdir/project_one///. parquet* –> seleciona arquivos que são dois subdiretórios profundos em /myrootdir/project_one/ e têm extensão de arquivo .parquet

Observação: o uso do padrão **** em árvores de diretório grandes pode consumir uma quantidade de tempo desordenada. Em geral, para árvores de diretório grandes, ser mais específico no padrão glob pode aumentar o desempenho.

set_column_types
dict[str, DataType]
Obrigatório

Um dicionário para definir o tipo de dados da coluna, em que a chave é o nome da coluna e o valor DataType. As colunas que não estiverem no dicionário permanecerão do tipo carregado do arquivo parquet. Passar None não resultará em conversões. As entradas para colunas não localizadas nos dados de origem não causarão erro e serão ignoradas.

Retornos

Uma instância OutputTabularDatasetConfig com instruções sobre como converter a saída em um TabularDataset.

Tipo de retorno