OutputTabularDatasetConfig Clase

Referencia

Representa cómo copiar la salida de una ejecución y promoverla como un objeto TabularDataset.

Inicialice outputTabularDatasetConfig.

Herencia: OutputDatasetConfig

OutputTabularDatasetConfig

Constructor

OutputTabularDatasetConfig(**kwargs)

Comentarios

No debe llamar directamente a este constructor, sino que debe crear outputFileDatasetConfig y, luego llamar a los métodos read_* correspondientes para convertirlos en OutputTabularDatasetConfig.

La forma en que se copiará la salida en el destino de outputTabularDatasetConfig es la misma que outputFileDatasetConfig. La diferencia entre ellos es que el conjunto de datos que se crea será tabularDataset que contiene todas las transformaciones especificadas.

Métodos

as_input	Especifica cómo consumir la salida como entrada en los pasos de canalización posteriores.
as_mount	Establece el modo de la salida que se montará. Para el modo de montaje, el directorio de salida será un directorio montado FUSE. Los archivos escritos en el directorio montado se cargarán cuando se cierre el archivo.
as_upload	Establece el modo de la salida que se cargará. En el modo de carga, los archivos escritos en el directorio de salida se cargarán al final del trabajo. Si se produce un error en el trabajo o se cancela, el directorio de salida no se cargará.
drop_columns	Quita las columnas especificadas del conjunto de datos.
keep_columns	Conserva las columnas especificadas y elimina todas las demás del conjunto de datos.
random_split	Divide los registros del conjunto de datos en dos partes de manera aleatoria y aproximada según el porcentaje especificado. Las configuraciones de salida resultantes tendrán sus nombres cambiados, el primero tendrá _1 anexado al nombre y el segundo tendrá _2 anexado al nombre. Si se produce una colisión de nombres o desea especificar un nombre personalizado, establezca manualmente sus nombres.

as_input

Especifica cómo consumir la salida como entrada en los pasos de canalización posteriores.

as_input(name=None)

Parámetros

name: str

Requerido

Nombre de la entrada específica de la ejecución.

Devoluciones

Instancia DatasetConsumptionConfig de que describe cómo entregar los datos de entrada.

Tipo de valor devuelto

DatasetConsumptionConfig

as_mount

Establece el modo de la salida que se montará.

Para el modo de montaje, el directorio de salida será un directorio montado FUSE. Los archivos escritos en el directorio montado se cargarán cuando se cierre el archivo.

as_mount()

Devoluciones

Instancia OutputTabularDatasetConfig con el modo establecido para montar.

Tipo de valor devuelto

OutputTabularDatasetConfig

as_upload

Establece el modo de la salida que se cargará.

En el modo de carga, los archivos escritos en el directorio de salida se cargarán al final del trabajo. Si se produce un error en el trabajo o se cancela, el directorio de salida no se cargará.

as_upload(overwrite=False, source_globs=None)

Parámetros

overwrite: bool

Requerido

Si se sobrescriben los archivos que ya existen en el destino.

source_globs: list[str]

Requerido

Patrones globales que se usan para filtrar los archivos que se cargarán.

Devoluciones

Instancia OutputTabularDatasetConfig con el modo establecido para cargar.

Tipo de valor devuelto

OutputTabularDatasetConfig

drop_columns

Quita las columnas especificadas del conjunto de datos.

drop_columns(columns)

Parámetros

columns: Union[str, list[str]]

Requerido

Nombre o lista de nombres de las columnas que se van a quitar.

Devoluciones

Instancia OutputTabularDatasetConfig con la que se quitarán las columnas.

Tipo de valor devuelto

PipelineOutputTabularDataset

keep_columns

Conserva las columnas especificadas y elimina todas las demás del conjunto de datos.

keep_columns(columns)

Parámetros

columns: Union[str, list[str]]

Requerido

Nombre o lista de nombres de las columnas que se van a mantener.

Devoluciones

Instancia OutputTabularDatasetConfig con la que se deben conservar las columnas.

Tipo de valor devuelto

PipelineOutputTabularDataset

random_split

Divide los registros del conjunto de datos en dos partes de manera aleatoria y aproximada según el porcentaje especificado.

Las configuraciones de salida resultantes tendrán sus nombres cambiados, el primero tendrá _1 anexado al nombre y el segundo tendrá _2 anexado al nombre. Si se produce una colisión de nombres o desea especificar un nombre personalizado, establezca manualmente sus nombres.

random_split(percentage, seed=None)

Parámetros

percentage: float

Requerido

Porcentaje aproximado por el que se divide el conjunto de datos. Debe ser un número comprendido entre 0,0 y 1,0.

seed: int

Requerido

Inicialización opcional que se usará para el generador aleatorio.

Devoluciones

Devuelve una tupla de dos objetos OutputTabularDatasetConfig nuevos que representa los dos conjuntos de datos después de la división.

Tipo de valor devuelto

tuple(<xref:azureml.data.output_dataset_config.OutputTabularDatasetConfig,azureml.data.output_dataset_config.OutputTabularDatasetConfig>)

OutputTabularDatasetConfig Clase

Constructor

Comentarios

Métodos

as_input

Parámetros

Devoluciones

Tipo de valor devuelto

as_mount

Devoluciones

Tipo de valor devuelto

as_upload

Parámetros

Devoluciones

Tipo de valor devuelto

drop_columns

Parámetros

Devoluciones

Tipo de valor devuelto

keep_columns

Parámetros

Devoluciones

Tipo de valor devuelto

random_split

Parámetros

Devoluciones

Tipo de valor devuelto

Comentarios

Comentarios

Recursos adicionales