DatasetConsumptionConfig Clase
Representa cómo entregar el conjunto de datos a un destino de proceso.
Representa cómo entregar el conjunto de datos al destino de proceso.
- Herencia
-
builtins.objectDatasetConsumptionConfig
Constructor
DatasetConsumptionConfig(name, dataset, mode='direct', path_on_compute=None)
Parámetros
Nombre | Description |
---|---|
name
Requerido
|
Nombre del conjunto de datos en ejecución, que puede ser diferente del nombre registrado. El nombre se registrará como variable de entorno y se puede usar en el plano de datos. |
dataset
Requerido
|
Conjunto de datos que se consumirá en la ejecución. |
mode
|
Define cómo se debe entregar el conjunto de datos al destino de proceso. Hay tres modos:
Valor predeterminado: direct
|
path_on_compute
|
Ruta de acceso de destino del recurso de proceso en el que estarán disponibles los datos. La estructura de carpetas de los datos de origen se mantendrá, pero es posible que agreguemos prefijos a esta estructura de carpetas para evitar colisiones. Use Valor predeterminado: None
|
name
Requerido
|
Nombre del conjunto de datos en ejecución, que puede ser diferente del nombre registrado. El nombre se registrará como variable de entorno y se puede usar en el plano de datos. |
dataset
Requerido
|
Dataset o
PipelineParameter o
tuple(Workspace, str) o
tuple(Workspace, str, str) o
OutputDatasetConfig
Conjunto de datos que se va a entregar, como un objeto Dataset, Parámetro de canalización que ingiere un conjunto de datos, una tupla de (área de trabajo, nombre del conjunto de datos) o una tupla de (área de trabajo, nombre del conjunto de datos, versión del conjunto de datos). Si solo se proporciona un nombre, DatasetConsumptionConfig usará la versión más reciente del conjunto de datos. |
mode
Requerido
|
Define cómo se debe entregar el conjunto de datos al destino de proceso. Hay tres modos:
|
path_on_compute
Requerido
|
Ruta de acceso de destino del recurso de proceso en el que estarán disponibles los datos. La estructura de carpetas de los datos de origen se mantendrá, pero es posible que agreguemos prefijos a esta estructura de carpetas para evitar colisiones. Se recomienda llamar a tabular_dataset.to_path para ver la estructura de carpetas de salida. |
Métodos
as_download |
Establece el modo en download. En la ejecución enviada, los archivos del conjunto de datos se descargarán en la ruta de acceso local en el destino de proceso. La ubicación de descarga se puede recuperar de los valores de argumento y el campo input_datasets del contexto de ejecución.
|
as_hdfs |
Establece el modo en HDFS. En la ejecución de Synapse enviada, los archivos de los conjuntos de datos se convertirán a una ruta de acceso local en el destino de proceso. La ruta de acceso HDFS se puede recuperar de los valores de argumento y las variables de entorno del sistema operativo.
|
as_mount |
Establece el modo en mount. En la ejecución enviada, los archivos de los conjuntos de datos se montarán en la ruta de acceso local en el destino de proceso. El punto de montaje se puede recuperar de los valores de argumento y el campo input_datasets del contexto de ejecución.
|
as_download
Establece el modo en download.
En la ejecución enviada, los archivos del conjunto de datos se descargarán en la ruta de acceso local en el destino de proceso. La ubicación de descarga se puede recuperar de los valores de argumento y el campo input_datasets del contexto de ejecución.
file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_download()
experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))
# Following are sample codes running in context of the submitted run:
# The download location can be retrieved from argument values
import sys
download_location = sys.argv[1]
# The download location can also be retrieved from input_datasets of the run context.
from azureml.core import Run
download_location = Run.get_context().input_datasets['input_1']
as_download(path_on_compute=None)
Parámetros
Nombre | Description |
---|---|
path_on_compute
|
Ruta de acceso de destino del proceso en la que los datos estarán disponibles. Valor predeterminado: None
|
Comentarios
Cuando se crea el conjunto de datos a partir de la ruta de acceso de un solo archivo, la ubicación de descarga será la ruta de acceso del único archivo descargado. De lo contrario, la ubicación de descarga será la ruta de acceso de la carpeta que contiene todos los archivos descargados.
Si path_on_compute empieza por /, se tratará como una ruta de acceso absoluta. Si no comienza por /, se tratará como una ruta de acceso relativa respecto al directorio de trabajo. Si ha especificado una ruta de acceso absoluta, asegúrese de que el trabajo tiene permiso para escribir en ese directorio.
as_hdfs
Establece el modo en HDFS.
En la ejecución de Synapse enviada, los archivos de los conjuntos de datos se convertirán a una ruta de acceso local en el destino de proceso. La ruta de acceso HDFS se puede recuperar de los valores de argumento y las variables de entorno del sistema operativo.
file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_hdfs()
experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))
# Following are sample codes running in context of the submitted run:
# The hdfs path can be retrieved from argument values
import sys
hdfs_path = sys.argv[1]
# The hdfs path can also be retrieved from input_datasets of the run context.
import os
hdfs_path = os.environ['input_1']
as_hdfs()
Comentarios
Cuando se crea el conjunto de datos a partir de la ruta de acceso de un único archivo, la ruta de acceso HDFS será la del único archivo. De lo contrario, la ruta de acceso HDFS será la de la carpeta que los contiene para todos los archivos montados.
as_mount
Establece el modo en mount.
En la ejecución enviada, los archivos de los conjuntos de datos se montarán en la ruta de acceso local en el destino de proceso. El punto de montaje se puede recuperar de los valores de argumento y el campo input_datasets del contexto de ejecución.
file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_mount()
experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))
# Following are sample codes running in context of the submitted run:
# The mount point can be retrieved from argument values
import sys
mount_point = sys.argv[1]
# The mount point can also be retrieved from input_datasets of the run context.
from azureml.core import Run
mount_point = Run.get_context().input_datasets['input_1']
as_mount(path_on_compute=None)
Parámetros
Nombre | Description |
---|---|
path_on_compute
|
Ruta de acceso de destino del proceso en la que los datos estarán disponibles. Valor predeterminado: None
|
Comentarios
Cuando se crea el conjunto de datos a partir de la ruta de acceso de un único archivo, el punto de montaje será la ruta de acceso del único archivo montado. De lo contrario, el punto de montaje será la ruta de acceso de la carpeta que contiene todos los archivos montados.
Si path_on_compute empieza por /, se tratará como una ruta de acceso absoluta. Si no comienza por /, se tratará como una ruta de acceso relativa respecto al directorio de trabajo. Si ha especificado una ruta de acceso absoluta, asegúrese de que el trabajo tiene permiso para escribir en ese directorio.
Atributos
name
Nombre de la entrada.
Devoluciones
Tipo | Description |
---|---|
Nombre de la entrada. |