TransformationMixin Clase

Esta clase proporciona capacidades de transformación para generar conjuntos de datos.

Herencia
builtins.object
TransformationMixin

Constructor

TransformationMixin()

Métodos

read_delimited_files

Transforma el conjunto de datos de salida en un conjunto de datos tabular mediante la lectura de toda la salida como archivos delimitados.

read_parquet_files

Transforma el conjunto de datos de salida en un conjunto de datos tabular mediante la lectura de toda la salida como archivos Parquet.

El conjunto de datos tabular se crea analizando los archivos parquet a los que apunta la salida intermedia.

read_delimited_files

Transforma el conjunto de datos de salida en un conjunto de datos tabular mediante la lectura de toda la salida como archivos delimitados.

read_delimited_files(include_path=False, separator=',', header=PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS, partition_format=None, path_glob=None, set_column_types=None)

Parámetros

include_path
bool
Requerido

Valor booleano para mantener la información de ruta de acceso como columna en el conjunto de datos. El valor predeterminado es False. Es útil al leer varios archivos y para saber en qué archivo se originó un registro determinado o mantener información útil en la ruta de acceso del archivo.

separator
str
Requerido

Separador utilizado para dividir columnas.

header
PromoteHeadersBehavior
Requerido

Controla cómo se promueven los encabezados de columna al leer archivos. Los valores predeterminados suponen que todos los archivos tienen el mismo encabezado.

partition_format
str
Requerido

Especifica el formato de partición de la ruta de acceso. El valor predeterminado es None. La información de partición de cada ruta de acceso se extraerá en columnas según el formato especificado. La parte de formato "{column_name}" crea una columna de cadena y "{column_name:yyyy/MM/dd/HH/mm/ss}" crea la columna datetime, donde "yyyy", "MM", "dd", "HH", "mm" y "ss" se usan para extraer el año, mes, día, hora, minutos y segundos para el tipo datetime. El formato debe empezar en la posición de la primera clave de partición hasta el final de la ruta de acceso del archivo. Por ejemplo, dada la ruta de acceso ".. /Accounts/2019/01/01/data.parquet" donde la partición es por nombre de departamento y hora, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet' crea una columna de cadena "Department" con el valor "Accounts" y una columna datetime "PartitionDate" con el valor "2019-01-01".

path_glob
str
Requerido

Un patrón similar al de glob para filtrar los archivos que se leerán como archivos delimitados. Si se establece en None, todos los archivos se leerán como archivos delimitados.

Glob es una expansión del patrón de nombre de ruta de acceso de estilo Unix: https://docs.python.org/3/library/glob.html

Por ejemplo:

  • *.csv:> selecciona los archivos con la extensión .csv.
  • test_.csv*:> selecciona los archivos cuyos con nombres comienzan por test_ y tienen la extensión .csv.
  • /myrootdir/project_one///.txt*:> selecciona archivos con dos subdirectorios de profundidad en /myrootdir/project_one/ y que tienen la extensión .txt.

Nota: El uso del patrón **** en árboles de directorio grandes puede consumir una cantidad de tiempo excesiva. En general, en el caso de árboles de directorio grandes, ser más específico en el patrón global puede mejorar el rendimiento.

set_column_types
dict[str, DataType]
Requerido

Diccionario para establecer el tipo de datos de columna, donde key es el nombre de columna y el valor es DataType. Las columnas que no están en el diccionario seguirán siendo de tipo cadena. Si se pasa None, no se realizará ninguna conversión. Las entradas de las columnas que no se encuentran en los datos de origen no producirán un error y se omitirán.

Devoluciones

Instancia de OutputTabularDatasetConfig con instrucciones sobre cómo convertir la salida en TabularDataset.

Tipo de valor devuelto

read_parquet_files

Transforma el conjunto de datos de salida en un conjunto de datos tabular mediante la lectura de toda la salida como archivos Parquet.

El conjunto de datos tabular se crea analizando los archivos parquet a los que apunta la salida intermedia.

read_parquet_files(include_path=False, partition_format=None, path_glob=None, set_column_types=None)

Parámetros

include_path
bool
Requerido

Valor booleano para mantener la información de ruta de acceso como columna en el conjunto de datos. El valor predeterminado es False. Es útil al leer varios archivos y para saber en qué archivo se originó un registro determinado o mantener información útil en la ruta de acceso del archivo.

partition_format
str
Requerido

Especifica el formato de partición de la ruta de acceso. El valor predeterminado es None. La información de partición de cada ruta de acceso se extraerá en columnas según el formato especificado. La parte de formato "{column_name}" crea una columna de cadena y "{column_name:yyyy/MM/dd/HH/mm/ss}" crea la columna datetime, donde "yyyy", "MM", "dd", "HH", "mm" y "ss" se usan para extraer el año, mes, día, hora, minutos y segundos para el tipo datetime. El formato debe empezar en la posición de la primera clave de partición hasta el final de la ruta de acceso del archivo. Por ejemplo, dada la ruta de acceso ".. /Accounts/2019/01/01/data.parquet" donde la partición es por nombre de departamento y hora, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet' crea una columna de cadena "Department" con el valor "Accounts" y una columna datetime "PartitionDate" con el valor "2019-01-01".

path_glob
str
Requerido

Un patrón similar al de glob para filtrar los archivos que se leerán como archivos Parquet. Si se establece en None, todos los archivos se leerán como archivos Parquet.

Glob es una expansión del patrón de nombre de ruta de acceso de estilo Unix: https://docs.python.org/3/library/glob.html

Por ejemplo:

  • *.parquet:> selecciona archivos con la extensión .parquet
  • test_.parquet*:> selecciona los archivos cuyos con nombres comienzan por test_ y tienen la extensión .parquet.
  • /myrootdir/project_one///.parquet*:> selecciona archivos con dos subdirectorios de profundidad en /myrootdir/project_one/ y que tienen la extensión .parquet.

Nota: El uso del patrón **** en árboles de directorio grandes puede consumir una cantidad de tiempo excesiva. En general, en el caso de árboles de directorio grandes, ser más específico en el patrón global puede mejorar el rendimiento.

set_column_types
dict[str, DataType]
Requerido

Diccionario para establecer el tipo de datos de columna, donde key es el nombre de columna y el valor es DataType. Las columnas que no están en el diccionario seguirán siendo de tipo cargadas desde el archivo Parquet. Si se pasa None, no se realizará ninguna conversión. Las entradas de las columnas que no se encuentran en los datos de origen no producirán un error y se omitirán.

Devoluciones

Instancia de OutputTabularDatasetConfig con instrucciones sobre cómo convertir la salida en TabularDataset.

Tipo de valor devuelto