DatasetConsumptionConfig Clase

Referencia

Representa cómo entregar el conjunto de datos a un destino de proceso.

Representa cómo entregar el conjunto de datos al destino de proceso.

Herencia: builtins.object

DatasetConsumptionConfig

Constructor

DatasetConsumptionConfig(name, dataset, mode='direct', path_on_compute=None)

Parámetros

Nombre	Description
name Requerido	str Nombre del conjunto de datos en ejecución, que puede ser diferente del nombre registrado. El nombre se registrará como variable de entorno y se puede usar en el plano de datos.
dataset Requerido	AbstractDataset o PipelineParameter o OutputDatasetConfig Conjunto de datos que se consumirá en la ejecución.
mode	str Define cómo se debe entregar el conjunto de datos al destino de proceso. Hay tres modos: "direct": consuma el conjunto de datos como conjunto de datos. "download": descargue el conjunto de datos y consúmalo como ruta de acceso descargada. "mount": monte el conjunto de datos y consuma el conjunto de datos como ruta de acceso de montaje. "hdfs": consuma el conjunto de datos de la ruta de acceso de hdfs resuelta (actualmente solo se admite en el proceso de SynapseSpark). Valor predeterminado: direct
path_on_compute	str Ruta de acceso de destino del recurso de proceso en el que estarán disponibles los datos. La estructura de carpetas de los datos de origen se mantendrá, pero es posible que agreguemos prefijos a esta estructura de carpetas para evitar colisiones. Use `tabular_dataset.to_path` para ver la estructura de carpetas de salida. Valor predeterminado: None
name Requerido	str Nombre del conjunto de datos en ejecución, que puede ser diferente del nombre registrado. El nombre se registrará como variable de entorno y se puede usar en el plano de datos.
dataset Requerido	Dataset o PipelineParameter o tuple(Workspace, str) o tuple(Workspace, str, str) o OutputDatasetConfig Conjunto de datos que se va a entregar, como un objeto Dataset, Parámetro de canalización que ingiere un conjunto de datos, una tupla de (área de trabajo, nombre del conjunto de datos) o una tupla de (área de trabajo, nombre del conjunto de datos, versión del conjunto de datos). Si solo se proporciona un nombre, DatasetConsumptionConfig usará la versión más reciente del conjunto de datos.
mode Requerido	str Define cómo se debe entregar el conjunto de datos al destino de proceso. Hay tres modos: "direct": consuma el conjunto de datos como conjunto de datos. "download": descargue el conjunto de datos y consúmalo como ruta de acceso descargada. "mount": monte el conjunto de datos y consuma el conjunto de datos como ruta de acceso de montaje. "hdfs": consuma el conjunto de datos de la ruta de acceso de hdfs resuelta (actualmente solo se admite en el proceso de SynapseSpark).
path_on_compute Requerido	str Ruta de acceso de destino del recurso de proceso en el que estarán disponibles los datos. La estructura de carpetas de los datos de origen se mantendrá, pero es posible que agreguemos prefijos a esta estructura de carpetas para evitar colisiones. Se recomienda llamar a tabular_dataset.to_path para ver la estructura de carpetas de salida.

Métodos

as_download

Establece el modo en download.

En la ejecución enviada, los archivos del conjunto de datos se descargarán en la ruta de acceso local en el destino de proceso. La ubicación de descarga se puede recuperar de los valores de argumento y el campo input_datasets del contexto de ejecución.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_download()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The download location can be retrieved from argument values
   import sys
   download_location = sys.argv[1]

   # The download location can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   download_location = Run.get_context().input_datasets['input_1']

as_hdfs

Establece el modo en HDFS.

En la ejecución de Synapse enviada, los archivos de los conjuntos de datos se convertirán a una ruta de acceso local en el destino de proceso. La ruta de acceso HDFS se puede recuperar de los valores de argumento y las variables de entorno del sistema operativo.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_hdfs()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The hdfs path can be retrieved from argument values
   import sys
   hdfs_path = sys.argv[1]

   # The hdfs path can also be retrieved from input_datasets of the run context.
   import os
   hdfs_path = os.environ['input_1']

as_mount

Establece el modo en mount.

En la ejecución enviada, los archivos de los conjuntos de datos se montarán en la ruta de acceso local en el destino de proceso. El punto de montaje se puede recuperar de los valores de argumento y el campo input_datasets del contexto de ejecución.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_mount()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The mount point can be retrieved from argument values
   import sys
   mount_point = sys.argv[1]

   # The mount point can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   mount_point = Run.get_context().input_datasets['input_1']

as_download

Establece el modo en download.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_download()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The download location can be retrieved from argument values
   import sys
   download_location = sys.argv[1]

   # The download location can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   download_location = Run.get_context().input_datasets['input_1']

as_download(path_on_compute=None)

Parámetros

Nombre	Description
path_on_compute	str Ruta de acceso de destino del proceso en la que los datos estarán disponibles. Valor predeterminado: None

Comentarios

Cuando se crea el conjunto de datos a partir de la ruta de acceso de un solo archivo, la ubicación de descarga será la ruta de acceso del único archivo descargado. De lo contrario, la ubicación de descarga será la ruta de acceso de la carpeta que contiene todos los archivos descargados.

Si path_on_compute empieza por /, se tratará como una ruta de acceso absoluta. Si no comienza por /, se tratará como una ruta de acceso relativa respecto al directorio de trabajo. Si ha especificado una ruta de acceso absoluta, asegúrese de que el trabajo tiene permiso para escribir en ese directorio.

as_hdfs

Establece el modo en HDFS.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_hdfs()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The hdfs path can be retrieved from argument values
   import sys
   hdfs_path = sys.argv[1]

   # The hdfs path can also be retrieved from input_datasets of the run context.
   import os
   hdfs_path = os.environ['input_1']

as_hdfs()

Comentarios

Cuando se crea el conjunto de datos a partir de la ruta de acceso de un único archivo, la ruta de acceso HDFS será la del único archivo. De lo contrario, la ruta de acceso HDFS será la de la carpeta que los contiene para todos los archivos montados.

as_mount

Establece el modo en mount.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_mount()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The mount point can be retrieved from argument values
   import sys
   mount_point = sys.argv[1]

   # The mount point can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   mount_point = Run.get_context().input_datasets['input_1']

as_mount(path_on_compute=None)

Parámetros

Nombre	Description
path_on_compute	str Ruta de acceso de destino del proceso en la que los datos estarán disponibles. Valor predeterminado: None

Comentarios

Cuando se crea el conjunto de datos a partir de la ruta de acceso de un único archivo, el punto de montaje será la ruta de acceso del único archivo montado. De lo contrario, el punto de montaje será la ruta de acceso de la carpeta que contiene todos los archivos montados.

Atributos

name

Nombre de la entrada.

Devoluciones

Tipo	Description
	Nombre de la entrada.

Compartir a través de

DatasetConsumptionConfig Clase

Constructor

Parámetros

Métodos

as_download

Parámetros

Comentarios

as_hdfs

Comentarios

as_mount

Parámetros

Comentarios

Atributos

name

Devoluciones

Comentarios

Recursos adicionales