PipelineOutputFileDataset Clase
Representa los datos de canalización intermedios promocionados a un conjunto de datos de archivos de Azure Machine Learning.
Una vez que los datos intermedios se promueven a un conjunto de datos de Azure Machine Learning, también se consumirán como Dataset en lugar de como DataReference en pasos posteriores.
Cree datos intermedios que se promoverán a un conjunto de datos de Azure Machine Learning.
- Herencia
-
PipelineOutputFileDataset
Constructor
PipelineOutputFileDataset(pipeline_data)
Parámetros
- pipeline_data
- PipelineData
PipelineData que representa la salida intermedia que se promoverá a un conjunto de datos.
- pipeline_data
- PipelineData
PipelineData que representa la salida intermedia que se promoverá a un conjunto de datos.
Métodos
as_direct |
Establezca la entrada en el modo de consumo del conjunto de datos en direct. En este modo, se obtiene el identificador del conjunto de datos y, en el script, se puede llamar a Dataset.get_by_id para recuperar el conjunto de datos. run.input_datasets['{dataset_name}'] devolverá el conjunto de datos. |
as_download |
Establezca el modo de consumo del conjunto de datos que se descargará. |
as_mount |
Establezca el modo de consumo del conjunto de datos que se montará. |
parse_delimited_files |
Transforme el conjunto de datos de archivo intermedio en un conjunto de datos tabular. El conjunto de datos tabular se crea analizando los archivos delimitados a los que apunta la salida intermedia. |
parse_parquet_files |
Transforme el conjunto de datos de archivo intermedio en un conjunto de datos tabular. El conjunto de datos tabular se crea analizando los archivos parquet a los que apunta la salida intermedia. |
as_direct
Establezca la entrada en el modo de consumo del conjunto de datos en direct.
En este modo, se obtiene el identificador del conjunto de datos y, en el script, se puede llamar a Dataset.get_by_id para recuperar el conjunto de datos. run.input_datasets['{dataset_name}'] devolverá el conjunto de datos.
as_direct()
Devoluciones
PipelineOutputDataset modificado.
Tipo de valor devuelto
as_download
Establezca el modo de consumo del conjunto de datos que se descargará.
as_download(path_on_compute=None)
Parámetros
- path_on_compute
- str
Ruta de acceso del proceso en el que se descargará. El valor predeterminado es None, que significa que Azure Machine Learning elige una ruta de acceso.
Devoluciones
PipelineOutputDataset modificado.
Tipo de valor devuelto
as_mount
Establezca el modo de consumo del conjunto de datos que se montará.
as_mount(path_on_compute=None)
Parámetros
- path_on_compute
- str
Ruta de acceso en el proceso en la que se montará el conjunto de datos. El valor predeterminado es None, que significa que Azure Machine Learning elige una ruta de acceso.
Devoluciones
PipelineOutputDataset modificado.
Tipo de valor devuelto
parse_delimited_files
Transforme el conjunto de datos de archivo intermedio en un conjunto de datos tabular.
El conjunto de datos tabular se crea analizando los archivos delimitados a los que apunta la salida intermedia.
parse_delimited_files(include_path=False, separator=',', header=PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS, partition_format=None, file_extension='', set_column_types=None, quoted_line_breaks=False)
Parámetros
- include_path
- bool
Valor booleano para mantener la información de ruta de acceso como columna en el conjunto de datos. El valor predeterminado es False. Es útil al leer varios archivos y para saber en qué archivo se originó un registro determinado o mantener información útil en la ruta de acceso del archivo.
- header
- PromoteHeadersBehavior
Controla cómo se promueven los encabezados de columna al leer archivos. Los valores predeterminados suponen que todos los archivos tienen el mismo encabezado.
- partition_format
- str
Especifica el formato de partición de la ruta de acceso. El valor predeterminado es None. La información de partición de cada ruta de acceso se extraerá en columnas según el formato especificado. La parte de formato "{column_name}" crea una columna de cadena y "{column_name:yyyy/MM/dd/HH/mm/ss}" crea la columna datetime, donde "yyyy", "MM", "dd", "HH", "mm" y "ss" se usan para extraer el año, mes, día, hora, minutos y segundos para el tipo datetime. El formato debe empezar en la posición de la primera clave de partición hasta el final de la ruta de acceso del archivo. Por ejemplo, dada la ruta de acceso ".. /Accounts/2019/01/01/data.csv" donde la partición es por nombre de departamento y hora, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.csv' 'Department' con el valor "Accounts" y una columna datetime '"artitionDate" con el valor "2019-01-01".
- file_extension
- str
Extensión de los archivos que se van a buscar. Solo los archivos con esta extensión se leerán desde el directorio. El valor predeterminado es ".csv" cuando el separador es "," y ".tsv" cuando el separador es tab y None en caso contrario. Si se pasa None, todos los archivos se leerán independientemente de su extensión (o de la falta de extensión).
Diccionario para establecer el tipo de datos de columna, donde key es el nombre de columna y el valor es DataType. Las columnas que no están en el diccionario seguirán siendo de tipo cadena. Si se pasa None, no se realizará ninguna conversión. Las entradas de las columnas que no se encuentran en los datos de origen no producirán un error y se omitirán.
- quoted_line_breaks
- bool
Especifica cómo tratar los caracteres de nueva línea entre comillas. Esta opción puede afectar al rendimiento.
Devoluciones
Devuelve un dato intermedio que será un conjunto de datos tabular.
Tipo de valor devuelto
Comentarios
Esta transformación solo se aplicará cuando se consuman los datos intermedios como entrada del paso posterior. No tiene ningún efecto en la salida aunque se pase a la salida.
parse_parquet_files
Transforme el conjunto de datos de archivo intermedio en un conjunto de datos tabular.
El conjunto de datos tabular se crea analizando los archivos parquet a los que apunta la salida intermedia.
parse_parquet_files(include_path=False, partition_format=None, file_extension='.parquet', set_column_types=None)
Parámetros
- include_path
- bool
Valor booleano para mantener la información de ruta de acceso como columna en el conjunto de datos. El valor predeterminado es False. Es útil al leer varios archivos y para saber en qué archivo se originó un registro determinado o mantener información útil en la ruta de acceso del archivo.
- partition_format
- str
Especifica el formato de partición de la ruta de acceso. El valor predeterminado es None. La información de partición de cada ruta de acceso se extraerá en columnas según el formato especificado. La parte de formato "{column_name}" crea una columna de cadena y "{column_name:yyyy/MM/dd/HH/mm/ss}" crea la columna datetime, donde "yyyy", "MM", "dd", "HH", "mm" y "ss" se usan para extraer el año, mes, día, hora, minutos y segundos para el tipo datetime. El formato debe empezar en la posición de la primera clave de partición hasta el final de la ruta de acceso del archivo. Por ejemplo, dada la ruta de acceso ".. /Accounts/2019/01/01/data.parquet" donde la partición es por nombre de departamento y hora, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet' crea una columna de cadena "Department" con el valor "Accounts" y una columna datetime "PartitionDate" con el valor "2019-01-01".
- file_extension
- str
Extensión de los archivos que se van a buscar. Solo los archivos con esta extensión se leerán desde el directorio. El valor predeterminado es ".parquet". Si se establece en None, todos los archivos se leerán independientemente de su extensión (o de la falta de extensión).
Diccionario para establecer el tipo de datos de columna, donde key es el nombre de columna y el valor es DataType. Las columnas que no están en el diccionario seguirán siendo de tipo cargadas desde el archivo Parquet. Si se pasa None, no se realizará ninguna conversión. Las entradas de las columnas que no se encuentran en los datos de origen no producirán un error y se omitirán.
Devoluciones
Devuelve un dato intermedio que será un conjunto de datos tabular.
Tipo de valor devuelto
Comentarios
Esta transformación solo se aplicará cuando se consuman los datos intermedios como entrada del paso posterior. No tiene ningún efecto en la salida aunque se pase a la salida.
Comentarios
https://aka.ms/ContentUserFeedback.
Próximamente: A lo largo de 2024 iremos eliminando gradualmente GitHub Issues como mecanismo de comentarios sobre el contenido y lo sustituiremos por un nuevo sistema de comentarios. Para más información, vea:Enviar y ver comentarios de