Compartir a través de


PipelineOutputFileDataset Clase

Representa los datos de canalización intermedios promocionados a un conjunto de datos de archivos de Azure Machine Learning.

Una vez que los datos intermedios se promueven a un conjunto de datos de Azure Machine Learning, también se consumirán como Dataset en lugar de como DataReference en pasos posteriores.

Cree datos intermedios que se promoverán a un conjunto de datos de Azure Machine Learning.

Herencia
PipelineOutputFileDataset

Constructor

PipelineOutputFileDataset(pipeline_data)

Parámetros

pipeline_data
PipelineData
Requerido

PipelineData que representa la salida intermedia que se promoverá a un conjunto de datos.

pipeline_data
PipelineData
Requerido

PipelineData que representa la salida intermedia que se promoverá a un conjunto de datos.

Métodos

as_direct

Establezca la entrada en el modo de consumo del conjunto de datos en direct.

En este modo, se obtiene el identificador del conjunto de datos y, en el script, se puede llamar a Dataset.get_by_id para recuperar el conjunto de datos. run.input_datasets['{dataset_name}'] devolverá el conjunto de datos.

as_download

Establezca el modo de consumo del conjunto de datos que se descargará.

as_mount

Establezca el modo de consumo del conjunto de datos que se montará.

parse_delimited_files

Transforme el conjunto de datos de archivo intermedio en un conjunto de datos tabular.

El conjunto de datos tabular se crea analizando los archivos delimitados a los que apunta la salida intermedia.

parse_parquet_files

Transforme el conjunto de datos de archivo intermedio en un conjunto de datos tabular.

El conjunto de datos tabular se crea analizando los archivos parquet a los que apunta la salida intermedia.

as_direct

Establezca la entrada en el modo de consumo del conjunto de datos en direct.

En este modo, se obtiene el identificador del conjunto de datos y, en el script, se puede llamar a Dataset.get_by_id para recuperar el conjunto de datos. run.input_datasets['{dataset_name}'] devolverá el conjunto de datos.

as_direct()

Devoluciones

PipelineOutputDataset modificado.

Tipo de valor devuelto

as_download

Establezca el modo de consumo del conjunto de datos que se descargará.

as_download(path_on_compute=None)

Parámetros

path_on_compute
str
valor predeterminado: None

Ruta de acceso del proceso en el que se descargará. El valor predeterminado es None, que significa que Azure Machine Learning elige una ruta de acceso.

Devoluciones

PipelineOutputDataset modificado.

Tipo de valor devuelto

as_mount

Establezca el modo de consumo del conjunto de datos que se montará.

as_mount(path_on_compute=None)

Parámetros

path_on_compute
str
valor predeterminado: None

Ruta de acceso en el proceso en la que se montará el conjunto de datos. El valor predeterminado es None, que significa que Azure Machine Learning elige una ruta de acceso.

Devoluciones

PipelineOutputDataset modificado.

Tipo de valor devuelto

parse_delimited_files

Transforme el conjunto de datos de archivo intermedio en un conjunto de datos tabular.

El conjunto de datos tabular se crea analizando los archivos delimitados a los que apunta la salida intermedia.

parse_delimited_files(include_path=False, separator=',', header=PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS, partition_format=None, file_extension='', set_column_types=None, quoted_line_breaks=False)

Parámetros

include_path
bool
valor predeterminado: False

Valor booleano para mantener la información de ruta de acceso como columna en el conjunto de datos. El valor predeterminado es False. Es útil al leer varios archivos y para saber en qué archivo se originó un registro determinado o mantener información útil en la ruta de acceso del archivo.

separator
str
valor predeterminado: ,

Separador utilizado para dividir columnas.

header
PromoteHeadersBehavior
valor predeterminado: PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS

Controla cómo se promueven los encabezados de columna al leer archivos. Los valores predeterminados suponen que todos los archivos tienen el mismo encabezado.

partition_format
str
valor predeterminado: None

Especifica el formato de partición de la ruta de acceso. El valor predeterminado es None. La información de partición de cada ruta de acceso se extraerá en columnas según el formato especificado. La parte de formato "{column_name}" crea una columna de cadena y "{column_name:yyyy/MM/dd/HH/mm/ss}" crea la columna datetime, donde "yyyy", "MM", "dd", "HH", "mm" y "ss" se usan para extraer el año, mes, día, hora, minutos y segundos para el tipo datetime. El formato debe empezar en la posición de la primera clave de partición hasta el final de la ruta de acceso del archivo. Por ejemplo, dada la ruta de acceso ".. /Accounts/2019/01/01/data.csv" donde la partición es por nombre de departamento y hora, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.csv' 'Department' con el valor "Accounts" y una columna datetime '"artitionDate" con el valor "2019-01-01".

file_extension
str
Requerido

Extensión de los archivos que se van a buscar. Solo los archivos con esta extensión se leerán desde el directorio. El valor predeterminado es ".csv" cuando el separador es "," y ".tsv" cuando el separador es tab y None en caso contrario. Si se pasa None, todos los archivos se leerán independientemente de su extensión (o de la falta de extensión).

set_column_types
dict[str, DataType]
valor predeterminado: None

Diccionario para establecer el tipo de datos de columna, donde key es el nombre de columna y el valor es DataType. Las columnas que no están en el diccionario seguirán siendo de tipo cadena. Si se pasa None, no se realizará ninguna conversión. Las entradas de las columnas que no se encuentran en los datos de origen no producirán un error y se omitirán.

quoted_line_breaks
bool
valor predeterminado: False

Especifica cómo tratar los caracteres de nueva línea entre comillas. Esta opción puede afectar al rendimiento.

Devoluciones

Devuelve un dato intermedio que será un conjunto de datos tabular.

Tipo de valor devuelto

Comentarios

Esta transformación solo se aplicará cuando se consuman los datos intermedios como entrada del paso posterior. No tiene ningún efecto en la salida aunque se pase a la salida.

parse_parquet_files

Transforme el conjunto de datos de archivo intermedio en un conjunto de datos tabular.

El conjunto de datos tabular se crea analizando los archivos parquet a los que apunta la salida intermedia.

parse_parquet_files(include_path=False, partition_format=None, file_extension='.parquet', set_column_types=None)

Parámetros

include_path
bool
valor predeterminado: False

Valor booleano para mantener la información de ruta de acceso como columna en el conjunto de datos. El valor predeterminado es False. Es útil al leer varios archivos y para saber en qué archivo se originó un registro determinado o mantener información útil en la ruta de acceso del archivo.

partition_format
str
valor predeterminado: None

Especifica el formato de partición de la ruta de acceso. El valor predeterminado es None. La información de partición de cada ruta de acceso se extraerá en columnas según el formato especificado. La parte de formato "{column_name}" crea una columna de cadena y "{column_name:yyyy/MM/dd/HH/mm/ss}" crea la columna datetime, donde "yyyy", "MM", "dd", "HH", "mm" y "ss" se usan para extraer el año, mes, día, hora, minutos y segundos para el tipo datetime. El formato debe empezar en la posición de la primera clave de partición hasta el final de la ruta de acceso del archivo. Por ejemplo, dada la ruta de acceso ".. /Accounts/2019/01/01/data.parquet" donde la partición es por nombre de departamento y hora, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet' crea una columna de cadena "Department" con el valor "Accounts" y una columna datetime "PartitionDate" con el valor "2019-01-01".

file_extension
str
valor predeterminado: .parquet

Extensión de los archivos que se van a buscar. Solo los archivos con esta extensión se leerán desde el directorio. El valor predeterminado es ".parquet". Si se establece en None, todos los archivos se leerán independientemente de su extensión (o de la falta de extensión).

set_column_types
dict[str, DataType]
valor predeterminado: None

Diccionario para establecer el tipo de datos de columna, donde key es el nombre de columna y el valor es DataType. Las columnas que no están en el diccionario seguirán siendo de tipo cargadas desde el archivo Parquet. Si se pasa None, no se realizará ninguna conversión. Las entradas de las columnas que no se encuentran en los datos de origen no producirán un error y se omitirán.

Devoluciones

Devuelve un dato intermedio que será un conjunto de datos tabular.

Tipo de valor devuelto

Comentarios

Esta transformación solo se aplicará cuando se consuman los datos intermedios como entrada del paso posterior. No tiene ningún efecto en la salida aunque se pase a la salida.