TransformationMixin Clase
Esta clase proporciona capacidades de transformación para generar conjuntos de datos.
- Herencia
-
builtins.objectTransformationMixin
Constructor
TransformationMixin()
Métodos
read_delimited_files |
Transforma el conjunto de datos de salida en un conjunto de datos tabular mediante la lectura de toda la salida como archivos delimitados. |
read_parquet_files |
Transforma el conjunto de datos de salida en un conjunto de datos tabular mediante la lectura de toda la salida como archivos Parquet. El conjunto de datos tabular se crea analizando los archivos parquet a los que apunta la salida intermedia. |
read_delimited_files
Transforma el conjunto de datos de salida en un conjunto de datos tabular mediante la lectura de toda la salida como archivos delimitados.
read_delimited_files(include_path=False, separator=',', header=PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS, partition_format=None, path_glob=None, set_column_types=None)
Parámetros
- include_path
- bool
Valor booleano para mantener la información de ruta de acceso como columna en el conjunto de datos. El valor predeterminado es False. Es útil al leer varios archivos y para saber en qué archivo se originó un registro determinado o mantener información útil en la ruta de acceso del archivo.
- header
- PromoteHeadersBehavior
Controla cómo se promueven los encabezados de columna al leer archivos. Los valores predeterminados suponen que todos los archivos tienen el mismo encabezado.
- partition_format
- str
Especifica el formato de partición de la ruta de acceso. El valor predeterminado es None. La información de partición de cada ruta de acceso se extraerá en columnas según el formato especificado. La parte de formato "{column_name}" crea una columna de cadena y "{column_name:yyyy/MM/dd/HH/mm/ss}" crea la columna datetime, donde "yyyy", "MM", "dd", "HH", "mm" y "ss" se usan para extraer el año, mes, día, hora, minutos y segundos para el tipo datetime. El formato debe empezar en la posición de la primera clave de partición hasta el final de la ruta de acceso del archivo. Por ejemplo, dada la ruta de acceso ".. /Accounts/2019/01/01/data.parquet" donde la partición es por nombre de departamento y hora, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet' crea una columna de cadena "Department" con el valor "Accounts" y una columna datetime "PartitionDate" con el valor "2019-01-01".
- path_glob
- str
Un patrón similar al de glob para filtrar los archivos que se leerán como archivos delimitados. Si se establece en None, todos los archivos se leerán como archivos delimitados.
Glob es una expansión del patrón de nombre de ruta de acceso de estilo Unix: https://docs.python.org/3/library/glob.html
Por ejemplo:
- *.csv:> selecciona los archivos con la extensión .csv.
- test_.csv*:> selecciona los archivos cuyos con nombres comienzan por test_ y tienen la extensión .csv.
- /myrootdir/project_one///.txt*:> selecciona archivos con dos subdirectorios de profundidad en /myrootdir/project_one/ y que tienen la extensión .txt.
Nota: El uso del patrón **** en árboles de directorio grandes puede consumir una cantidad de tiempo excesiva. En general, en el caso de árboles de directorio grandes, ser más específico en el patrón global puede mejorar el rendimiento.
Diccionario para establecer el tipo de datos de columna, donde key es el nombre de columna y el valor es DataType. Las columnas que no están en el diccionario seguirán siendo de tipo cadena. Si se pasa None, no se realizará ninguna conversión. Las entradas de las columnas que no se encuentran en los datos de origen no producirán un error y se omitirán.
Devoluciones
Instancia de OutputTabularDatasetConfig con instrucciones sobre cómo convertir la salida en TabularDataset.
Tipo de valor devuelto
read_parquet_files
Transforma el conjunto de datos de salida en un conjunto de datos tabular mediante la lectura de toda la salida como archivos Parquet.
El conjunto de datos tabular se crea analizando los archivos parquet a los que apunta la salida intermedia.
read_parquet_files(include_path=False, partition_format=None, path_glob=None, set_column_types=None)
Parámetros
- include_path
- bool
Valor booleano para mantener la información de ruta de acceso como columna en el conjunto de datos. El valor predeterminado es False. Es útil al leer varios archivos y para saber en qué archivo se originó un registro determinado o mantener información útil en la ruta de acceso del archivo.
- partition_format
- str
Especifica el formato de partición de la ruta de acceso. El valor predeterminado es None. La información de partición de cada ruta de acceso se extraerá en columnas según el formato especificado. La parte de formato "{column_name}" crea una columna de cadena y "{column_name:yyyy/MM/dd/HH/mm/ss}" crea la columna datetime, donde "yyyy", "MM", "dd", "HH", "mm" y "ss" se usan para extraer el año, mes, día, hora, minutos y segundos para el tipo datetime. El formato debe empezar en la posición de la primera clave de partición hasta el final de la ruta de acceso del archivo. Por ejemplo, dada la ruta de acceso ".. /Accounts/2019/01/01/data.parquet" donde la partición es por nombre de departamento y hora, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet' crea una columna de cadena "Department" con el valor "Accounts" y una columna datetime "PartitionDate" con el valor "2019-01-01".
- path_glob
- str
Un patrón similar al de glob para filtrar los archivos que se leerán como archivos Parquet. Si se establece en None, todos los archivos se leerán como archivos Parquet.
Glob es una expansión del patrón de nombre de ruta de acceso de estilo Unix: https://docs.python.org/3/library/glob.html
Por ejemplo:
- *.parquet:> selecciona archivos con la extensión .parquet
- test_.parquet*:> selecciona los archivos cuyos con nombres comienzan por test_ y tienen la extensión .parquet.
- /myrootdir/project_one///.parquet*:> selecciona archivos con dos subdirectorios de profundidad en /myrootdir/project_one/ y que tienen la extensión .parquet.
Nota: El uso del patrón **** en árboles de directorio grandes puede consumir una cantidad de tiempo excesiva. En general, en el caso de árboles de directorio grandes, ser más específico en el patrón global puede mejorar el rendimiento.
Diccionario para establecer el tipo de datos de columna, donde key es el nombre de columna y el valor es DataType. Las columnas que no están en el diccionario seguirán siendo de tipo cargadas desde el archivo Parquet. Si se pasa None, no se realizará ninguna conversión. Las entradas de las columnas que no se encuentran en los datos de origen no producirán un error y se omitirán.
Devoluciones
Instancia de OutputTabularDatasetConfig con instrucciones sobre cómo convertir la salida en TabularDataset.
Tipo de valor devuelto
Comentarios
https://aka.ms/ContentUserFeedback.
Próximamente: A lo largo de 2024 iremos eliminando gradualmente GitHub Issues como mecanismo de comentarios sobre el contenido y lo sustituiremos por un nuevo sistema de comentarios. Para más información, vea:Enviar y ver comentarios de