TransformationMixin Classe
Essa classe fornece funcionalidades de transformação para conjuntos de dados de saída.
- Herança
-
builtins.objectTransformationMixin
Construtor
TransformationMixin()
Métodos
read_delimited_files |
Transforme o conjunto de dados de saída em um conjunto de dados de tabela lendo toda a saída como arquivos delimitados. |
read_parquet_files |
Transforme o conjunto de dados de saída em um conjunto de dados de tabela lendo toda a saída como arquivos parquet. O conjunto de dados tabular é criado analisando os arquivos parquet apontados pela saída intermediária. |
read_delimited_files
Transforme o conjunto de dados de saída em um conjunto de dados de tabela lendo toda a saída como arquivos delimitados.
read_delimited_files(include_path=False, separator=',', header=PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS, partition_format=None, path_glob=None, set_column_types=None)
Parâmetros
- include_path
- bool
Booliano para manter as informações do caminho como coluna no conjunto de dados. Usa False como padrão. É útil ao ler vários arquivos e quer saber de qual arquivo um registro específico foi originado, ou para manter informações úteis no caminho do arquivo.
- header
- PromoteHeadersBehavior
Controla como cabeçalhos de coluna são promovidos durante a leitura de arquivos. Padrões para assumir que todos os arquivos têm o mesmo cabeçalho.
- partition_format
- str
Especifique o formato de partição do caminho. Assume o valor padrão de Nenhum. As informações de partição de cada caminho serão extraídas em colunas com base no formato especificado. A parte do formato '{column_name}' cria uma coluna de cadeia de caracteres e '{column_name:yyyy/MM/dd/HH/mm/ss}' cria a coluna datetime, na qual 'yyyy', 'MM', 'dd', 'HH', 'mm' e 'ss' são usados para extrair ano, mês, dia, hora, minuto e segundos para o tipo datetime. O formato deve começar da posição da primeira chave de partição até o final do caminho do arquivo. Por exemplo, considerando o caminho '../Accounts/2019/01/01/data.parquet' em que a partição é por hora e nome do departamento, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet' cria uma coluna de cadeia de caracteres 'Department' com o valor 'Accounts' e uma coluna datetime 'PartitionDate' com o valor '2019-01-01'.
- path_glob
- str
Um padrão semelhante a glob para filtrar arquivos que serão lidos como arquivos delimitados. Se definido como Nenhum, todos os arquivos serão lidos como arquivos delimitados.
O Glob é uma expansão do padrão de nome de caminho de estilo Unix: https://docs.python.org/3/library/glob.html
ex)
- *.csv –> seleciona arquivos com .csv extensão de arquivo
- test_.csv* –> seleciona arquivos com nomes de arquivo que começam com test_ e tem.csv extensão de arquivo
- /myrootdir/project_one///.txt* –> seleciona arquivos que são dois subdiretórios profundos em /myrootdir/project_one/ e têm .txt extensão de arquivo
Observação: o uso do padrão **** em árvores de diretório grandes pode consumir uma quantidade de tempo desordenada. Em geral, para árvores de diretório grandes, ser mais específico no padrão glob pode aumentar o desempenho.
Um dicionário para definir o tipo de dados da coluna, em que a chave é o nome da coluna e o valor DataType. As colunas que não estão no dicionário permanecerão do tipo de cadeia de caracteres. Passar None não resultará em conversões. As entradas para colunas não localizadas nos dados de origem não causarão erro e serão ignoradas.
Retornos
Uma instância OutputTabularDatasetConfig com instruções sobre como converter a saída em um TabularDataset.
Tipo de retorno
read_parquet_files
Transforme o conjunto de dados de saída em um conjunto de dados de tabela lendo toda a saída como arquivos parquet.
O conjunto de dados tabular é criado analisando os arquivos parquet apontados pela saída intermediária.
read_parquet_files(include_path=False, partition_format=None, path_glob=None, set_column_types=None)
Parâmetros
- include_path
- bool
Booliano para manter as informações do caminho como coluna no conjunto de dados. Usa False como padrão. É útil ao ler vários arquivos e quer saber de qual arquivo um registro específico foi originado, ou para manter informações úteis no caminho do arquivo.
- partition_format
- str
Especifique o formato de partição do caminho. Assume o valor padrão de Nenhum. As informações de partição de cada caminho serão extraídas em colunas com base no formato especificado. A parte do formato '{column_name}' cria uma coluna de cadeia de caracteres e '{column_name:yyyy/MM/dd/HH/mm/ss}' cria a coluna datetime, na qual 'yyyy', 'MM', 'dd', 'HH', 'mm' e 'ss' são usados para extrair ano, mês, dia, hora, minuto e segundos para o tipo datetime. O formato deve começar da posição da primeira chave de partição até o final do caminho do arquivo. Por exemplo, considerando o caminho '../Accounts/2019/01/01/data.parquet' em que a partição é por hora e nome do departamento, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet' cria uma coluna de cadeia de caracteres 'Department' com o valor 'Accounts' e uma coluna datetime 'PartitionDate' com o valor '2019-01-01'.
- path_glob
- str
Um padrão semelhante a glob para filtrar arquivos que serão lidos como arquivos parquet. Se definido como Nenhum, todos os arquivos serão lidos como arquivos parquet.
O Glob é uma expansão do padrão de nome de caminho de estilo Unix: https://docs.python.org/3/library/glob.html
ex)
- *.parquet –> seleciona arquivos com a extensão de arquivo .parquet
- test_.parquet* –> seleciona arquivos com nomes de arquivo que começam com test_ e tem a extensão de arquivo .parquet
- /myrootdir/project_one///. parquet* –> seleciona arquivos que são dois subdiretórios profundos em /myrootdir/project_one/ e têm extensão de arquivo .parquet
Observação: o uso do padrão **** em árvores de diretório grandes pode consumir uma quantidade de tempo desordenada. Em geral, para árvores de diretório grandes, ser mais específico no padrão glob pode aumentar o desempenho.
Um dicionário para definir o tipo de dados da coluna, em que a chave é o nome da coluna e o valor DataType. As colunas que não estiverem no dicionário permanecerão do tipo carregado do arquivo parquet. Passar None não resultará em conversões. As entradas para colunas não localizadas nos dados de origem não causarão erro e serão ignoradas.
Retornos
Uma instância OutputTabularDatasetConfig com instruções sobre como converter a saída em um TabularDataset.
Tipo de retorno
Comentários
https://aka.ms/ContentUserFeedback.
Em breve: Ao longo de 2024, eliminaremos os problemas do GitHub como o mecanismo de comentários para conteúdo e o substituiremos por um novo sistema de comentários. Para obter mais informações, consulteEnviar e exibir comentários de