TransformationMixin Clase

Referencia

Esta clase proporciona capacidades de transformación para generar conjuntos de datos.

Herencia: builtins.object

TransformationMixin

Constructor

TransformationMixin()

Métodos

read_delimited_files

Transforma el conjunto de datos de salida en un conjunto de datos tabular mediante la lectura de toda la salida como archivos delimitados.

read_parquet_files

Transforma el conjunto de datos de salida en un conjunto de datos tabular mediante la lectura de toda la salida como archivos Parquet.

El conjunto de datos tabular se crea analizando los archivos parquet a los que apunta la salida intermedia.

read_delimited_files

Transforma el conjunto de datos de salida en un conjunto de datos tabular mediante la lectura de toda la salida como archivos delimitados.

read_delimited_files(include_path=False, separator=',', header=PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS, partition_format=None, path_glob=None, set_column_types=None)

Parámetros

include_path: bool

Requerido

Valor booleano para mantener la información de ruta de acceso como columna en el conjunto de datos. El valor predeterminado es False. Es útil al leer varios archivos y para saber en qué archivo se originó un registro determinado o mantener información útil en la ruta de acceso del archivo.

separator: str

Requerido

Separador utilizado para dividir columnas.

header: PromoteHeadersBehavior

Requerido

Controla cómo se promueven los encabezados de columna al leer archivos. Los valores predeterminados suponen que todos los archivos tienen el mismo encabezado.

partition_format: str

Requerido

Especifica el formato de partición de la ruta de acceso. El valor predeterminado es None. La información de partición de cada ruta de acceso se extraerá en columnas según el formato especificado. La parte de formato "{column_name}" crea una columna de cadena y "{column_name:yyyy/MM/dd/HH/mm/ss}" crea la columna datetime, donde "yyyy", "MM", "dd", "HH", "mm" y "ss" se usan para extraer el año, mes, día, hora, minutos y segundos para el tipo datetime. El formato debe empezar en la posición de la primera clave de partición hasta el final de la ruta de acceso del archivo. Por ejemplo, dada la ruta de acceso ".. /Accounts/2019/01/01/data.parquet" donde la partición es por nombre de departamento y hora, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet' crea una columna de cadena "Department" con el valor "Accounts" y una columna datetime "PartitionDate" con el valor "2019-01-01".

path_glob: str

Requerido

Un patrón similar al de glob para filtrar los archivos que se leerán como archivos delimitados. Si se establece en None, todos los archivos se leerán como archivos delimitados.

Glob es una expansión del patrón de nombre de ruta de acceso de estilo Unix: https://docs.python.org/3/library/glob.html

Por ejemplo:

*.csv:> selecciona los archivos con la extensión .csv.
test_.csv*:> selecciona los archivos cuyos con nombres comienzan por test_ y tienen la extensión .csv.
/myrootdir/project_one///.txt*:> selecciona archivos con dos subdirectorios de profundidad en /myrootdir/project_one/ y que tienen la extensión .txt.

Nota: El uso del patrón **** en árboles de directorio grandes puede consumir una cantidad de tiempo excesiva. En general, en el caso de árboles de directorio grandes, ser más específico en el patrón global puede mejorar el rendimiento.

set_column_types: dict[str, DataType]

Requerido

Diccionario para establecer el tipo de datos de columna, donde key es el nombre de columna y el valor es DataType. Las columnas que no están en el diccionario seguirán siendo de tipo cadena. Si se pasa None, no se realizará ninguna conversión. Las entradas de las columnas que no se encuentran en los datos de origen no producirán un error y se omitirán.

Devoluciones

Instancia de OutputTabularDatasetConfig con instrucciones sobre cómo convertir la salida en TabularDataset.

Tipo de valor devuelto

OutputTabularDatasetConfig

read_parquet_files

Transforma el conjunto de datos de salida en un conjunto de datos tabular mediante la lectura de toda la salida como archivos Parquet.

El conjunto de datos tabular se crea analizando los archivos parquet a los que apunta la salida intermedia.

read_parquet_files(include_path=False, partition_format=None, path_glob=None, set_column_types=None)

Parámetros

include_path: bool

Requerido

partition_format: str

Requerido

path_glob: str

Requerido

Un patrón similar al de glob para filtrar los archivos que se leerán como archivos Parquet. Si se establece en None, todos los archivos se leerán como archivos Parquet.

Glob es una expansión del patrón de nombre de ruta de acceso de estilo Unix: https://docs.python.org/3/library/glob.html

Por ejemplo:

*.parquet:> selecciona archivos con la extensión .parquet
test_.parquet*:> selecciona los archivos cuyos con nombres comienzan por test_ y tienen la extensión .parquet.
/myrootdir/project_one///.parquet*:> selecciona archivos con dos subdirectorios de profundidad en /myrootdir/project_one/ y que tienen la extensión .parquet.

set_column_types: dict[str, DataType]

Requerido

Diccionario para establecer el tipo de datos de columna, donde key es el nombre de columna y el valor es DataType. Las columnas que no están en el diccionario seguirán siendo de tipo cargadas desde el archivo Parquet. Si se pasa None, no se realizará ninguna conversión. Las entradas de las columnas que no se encuentran en los datos de origen no producirán un error y se omitirán.

Devoluciones

Instancia de OutputTabularDatasetConfig con instrucciones sobre cómo convertir la salida en TabularDataset.

Tipo de valor devuelto

OutputTabularDatasetConfig

Compartir a través de

TransformationMixin Clase

Constructor

Métodos

read_delimited_files

Parámetros

Devoluciones

Tipo de valor devuelto

read_parquet_files

Parámetros

Devoluciones

Tipo de valor devuelto

Comentarios

Comentarios

Recursos adicionales