Compartir a través de


DatasetConsumptionConfig Clase

Representa cómo entregar el conjunto de datos a un destino de proceso.

Representa cómo entregar el conjunto de datos al destino de proceso.

Herencia
builtins.object
DatasetConsumptionConfig

Constructor

DatasetConsumptionConfig(name, dataset, mode='direct', path_on_compute=None)

Parámetros

name
str
Requerido

Nombre del conjunto de datos en ejecución, que puede ser diferente del nombre registrado. El nombre se registrará como variable de entorno y se puede usar en el plano de datos.

dataset
AbstractDataset o PipelineParameter o OutputDatasetConfig
Requerido

Conjunto de datos que se consumirá en la ejecución.

mode
str
valor predeterminado: direct

Define cómo se debe entregar el conjunto de datos al destino de proceso. Hay tres modos:

  1. "direct": consuma el conjunto de datos como conjunto de datos.
  2. "download": descargue el conjunto de datos y consúmalo como ruta de acceso descargada.
  3. "mount": monte el conjunto de datos y consuma el conjunto de datos como ruta de acceso de montaje.
  4. "hdfs": consuma el conjunto de datos de la ruta de acceso de hdfs resuelta (actualmente solo se admite en el proceso de SynapseSpark).
path_on_compute
str
valor predeterminado: None

Ruta de acceso de destino del recurso de proceso en el que estarán disponibles los datos. La estructura de carpetas de los datos de origen se mantendrá, pero es posible que agreguemos prefijos a esta estructura de carpetas para evitar colisiones. Use tabular_dataset.to_path para ver la estructura de carpetas de salida.

name
str
Requerido

Nombre del conjunto de datos en ejecución, que puede ser diferente del nombre registrado. El nombre se registrará como variable de entorno y se puede usar en el plano de datos.

dataset
Dataset o PipelineParameter o tuple(Workspace, str) o tuple(Workspace, str, str) o OutputDatasetConfig
Requerido

Conjunto de datos que se va a entregar, como un objeto Dataset, Parámetro de canalización que ingiere un conjunto de datos, una tupla de (área de trabajo, nombre del conjunto de datos) o una tupla de (área de trabajo, nombre del conjunto de datos, versión del conjunto de datos). Si solo se proporciona un nombre, DatasetConsumptionConfig usará la versión más reciente del conjunto de datos.

mode
str
Requerido

Define cómo se debe entregar el conjunto de datos al destino de proceso. Hay tres modos:

  1. "direct": consuma el conjunto de datos como conjunto de datos.
  2. "download": descargue el conjunto de datos y consúmalo como ruta de acceso descargada.
  3. "mount": monte el conjunto de datos y consuma el conjunto de datos como ruta de acceso de montaje.
  4. "hdfs": consuma el conjunto de datos de la ruta de acceso de hdfs resuelta (actualmente solo se admite en el proceso de SynapseSpark).
path_on_compute
str
Requerido

Ruta de acceso de destino del recurso de proceso en el que estarán disponibles los datos. La estructura de carpetas de los datos de origen se mantendrá, pero es posible que agreguemos prefijos a esta estructura de carpetas para evitar colisiones. Se recomienda llamar a tabular_dataset.to_path para ver la estructura de carpetas de salida.

Métodos

as_download

Establece el modo en download.

En la ejecución enviada, los archivos del conjunto de datos se descargarán en la ruta de acceso local en el destino de proceso. La ubicación de descarga se puede recuperar de los valores de argumento y el campo input_datasets del contexto de ejecución.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_download()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The download location can be retrieved from argument values
   import sys
   download_location = sys.argv[1]

   # The download location can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   download_location = Run.get_context().input_datasets['input_1']
as_hdfs

Establece el modo en HDFS.

En la ejecución de Synapse enviada, los archivos de los conjuntos de datos se convertirán a una ruta de acceso local en el destino de proceso. La ruta de acceso HDFS se puede recuperar de los valores de argumento y las variables de entorno del sistema operativo.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_hdfs()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The hdfs path can be retrieved from argument values
   import sys
   hdfs_path = sys.argv[1]

   # The hdfs path can also be retrieved from input_datasets of the run context.
   import os
   hdfs_path = os.environ['input_1']
as_mount

Establece el modo en mount.

En la ejecución enviada, los archivos de los conjuntos de datos se montarán en la ruta de acceso local en el destino de proceso. El punto de montaje se puede recuperar de los valores de argumento y el campo input_datasets del contexto de ejecución.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_mount()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The mount point can be retrieved from argument values
   import sys
   mount_point = sys.argv[1]

   # The mount point can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   mount_point = Run.get_context().input_datasets['input_1']

as_download

Establece el modo en download.

En la ejecución enviada, los archivos del conjunto de datos se descargarán en la ruta de acceso local en el destino de proceso. La ubicación de descarga se puede recuperar de los valores de argumento y el campo input_datasets del contexto de ejecución.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_download()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The download location can be retrieved from argument values
   import sys
   download_location = sys.argv[1]

   # The download location can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   download_location = Run.get_context().input_datasets['input_1']
as_download(path_on_compute=None)

Parámetros

path_on_compute
str
valor predeterminado: None

Ruta de acceso de destino del proceso en la que los datos estarán disponibles.

Comentarios

Cuando se crea el conjunto de datos a partir de la ruta de acceso de un solo archivo, la ubicación de descarga será la ruta de acceso del único archivo descargado. De lo contrario, la ubicación de descarga será la ruta de acceso de la carpeta que contiene todos los archivos descargados.

Si path_on_compute empieza por /, se tratará como una ruta de acceso absoluta. Si no comienza por /, se tratará como una ruta de acceso relativa respecto al directorio de trabajo. Si ha especificado una ruta de acceso absoluta, asegúrese de que el trabajo tiene permiso para escribir en ese directorio.

as_hdfs

Establece el modo en HDFS.

En la ejecución de Synapse enviada, los archivos de los conjuntos de datos se convertirán a una ruta de acceso local en el destino de proceso. La ruta de acceso HDFS se puede recuperar de los valores de argumento y las variables de entorno del sistema operativo.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_hdfs()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The hdfs path can be retrieved from argument values
   import sys
   hdfs_path = sys.argv[1]

   # The hdfs path can also be retrieved from input_datasets of the run context.
   import os
   hdfs_path = os.environ['input_1']
as_hdfs()

Comentarios

Cuando se crea el conjunto de datos a partir de la ruta de acceso de un único archivo, la ruta de acceso HDFS será la del único archivo. De lo contrario, la ruta de acceso HDFS será la de la carpeta que los contiene para todos los archivos montados.

as_mount

Establece el modo en mount.

En la ejecución enviada, los archivos de los conjuntos de datos se montarán en la ruta de acceso local en el destino de proceso. El punto de montaje se puede recuperar de los valores de argumento y el campo input_datasets del contexto de ejecución.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_mount()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The mount point can be retrieved from argument values
   import sys
   mount_point = sys.argv[1]

   # The mount point can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   mount_point = Run.get_context().input_datasets['input_1']
as_mount(path_on_compute=None)

Parámetros

path_on_compute
str
valor predeterminado: None

Ruta de acceso de destino del proceso en la que los datos estarán disponibles.

Comentarios

Cuando se crea el conjunto de datos a partir de la ruta de acceso de un único archivo, el punto de montaje será la ruta de acceso del único archivo montado. De lo contrario, el punto de montaje será la ruta de acceso de la carpeta que contiene todos los archivos montados.

Si path_on_compute empieza por /, se tratará como una ruta de acceso absoluta. Si no comienza por /, se tratará como una ruta de acceso relativa respecto al directorio de trabajo. Si ha especificado una ruta de acceso absoluta, asegúrese de que el trabajo tiene permiso para escribir en ese directorio.

Atributos

name

Nombre de la entrada.

Devoluciones

Nombre de la entrada.