DatasetConsumptionConfig Classe

Represente como entregar o conjunto de dados a um destino de computação.

Represente como entregar o conjunto de dados ao destino de computação.

Herança
builtins.object
DatasetConsumptionConfig

Construtor

DatasetConsumptionConfig(name, dataset, mode='direct', path_on_compute=None)

Parâmetros

name
str
Necessário

O nome do conjunto de dados na execução, que pode ser diferente do nome registado. O nome será registado como variável de ambiente e poderá ser utilizado no plano de dados.

dataset
AbstractDataset ou PipelineParameter ou OutputDatasetConfig
Necessário

O conjunto de dados que será consumido na execução.

mode
str
valor predefinido: direct

Define como o conjunto de dados deve ser entregue ao destino de computação. Existem três modos:

  1. "direct": consuma o conjunto de dados como conjunto de dados.
  2. "download": transfira o conjunto de dados e consuma o conjunto de dados como caminho transferido.
  3. "montagem": monte o conjunto de dados e consuma o conjunto de dados como caminho de montagem.
  4. "hdfs": consuma o conjunto de dados do caminho do HDFS resolvido (atualmente apenas suportado na computação do SynapseSpark).
path_on_compute
str
valor predefinido: None

O caminho de destino na computação em que os dados estão disponíveis. A estrutura de pastas dos dados de origem será mantida. No entanto, podemos adicionar prefixos a esta estrutura de pastas para evitar colisões. Utilize tabular_dataset.to_path para ver a estrutura da pasta de saída.

name
str
Necessário

O nome do conjunto de dados na execução, que pode ser diferente do nome registado. O nome será registado como variável de ambiente e poderá ser utilizado no plano de dados.

dataset
Dataset ou PipelineParameter ou tuple(Workspace, str) ou tuple(Workspace, str, str) ou OutputDatasetConfig
Necessário

O conjunto de dados a entregar, como um objeto de Conjunto de Dados, Parâmetro de Pipeline que ingere um Conjunto de Dados, uma cadeia de identificação de (área de trabalho, nome do conjunto de dados) ou uma cadeia de identificação de (área de trabalho, nome do conjunto de dados, versão do conjunto de dados). Se for fornecido apenas um nome, o DatasetConsumptionConfig utilizará a versão mais recente do Conjunto de Dados.

mode
str
Necessário

Define como o conjunto de dados deve ser entregue ao destino de computação. Existem três modos:

  1. "direct": consuma o conjunto de dados como conjunto de dados.
  2. "download": transfira o conjunto de dados e consuma o conjunto de dados como caminho transferido.
  3. "montagem": monte o conjunto de dados e consuma o conjunto de dados como caminho de montagem.
  4. "hdfs": consuma o conjunto de dados do caminho do HDFS resolvido (atualmente apenas suportado na computação do SynapseSpark).
path_on_compute
str
Necessário

O caminho de destino na computação em que os dados estão disponíveis. A estrutura de pastas dos dados de origem será mantida. No entanto, podemos adicionar prefixos a esta estrutura de pastas para evitar colisões. Recomendamos que chame tabular_dataset.to_path para ver a estrutura da pasta de saída.

Métodos

as_download

Defina o modo a transferir.

Na execução submetida, os ficheiros no conjunto de dados serão transferidos para o caminho local no destino de computação. A localização da transferência pode ser obtida a partir de valores de argumentos e do campo input_datasets do contexto de execução.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_download()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The download location can be retrieved from argument values
   import sys
   download_location = sys.argv[1]

   # The download location can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   download_location = Run.get_context().input_datasets['input_1']
as_hdfs

Defina o modo como hdfs.

Na execução do synapse submetida, os ficheiros nos conjuntos de dados serão convertidos no caminho local no destino de computação. O caminho hdfs pode ser obtido a partir dos valores de argumento e das variáveis de ambiente do so.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_hdfs()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The hdfs path can be retrieved from argument values
   import sys
   hdfs_path = sys.argv[1]

   # The hdfs path can also be retrieved from input_datasets of the run context.
   import os
   hdfs_path = os.environ['input_1']
as_mount

Defina o modo para montar.

Na execução submetida, os ficheiros nos conjuntos de dados serão montados no caminho local no destino de computação. O ponto de montagem pode ser obtido a partir de valores de argumento e do campo input_datasets do contexto de execução.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_mount()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The mount point can be retrieved from argument values
   import sys
   mount_point = sys.argv[1]

   # The mount point can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   mount_point = Run.get_context().input_datasets['input_1']

as_download

Defina o modo a transferir.

Na execução submetida, os ficheiros no conjunto de dados serão transferidos para o caminho local no destino de computação. A localização da transferência pode ser obtida a partir de valores de argumentos e do campo input_datasets do contexto de execução.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_download()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The download location can be retrieved from argument values
   import sys
   download_location = sys.argv[1]

   # The download location can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   download_location = Run.get_context().input_datasets['input_1']
as_download(path_on_compute=None)

Parâmetros

path_on_compute
str
valor predefinido: None

O caminho de destino na computação em que os dados estão disponíveis.

Observações

Quando o conjunto de dados é criado a partir do caminho de um único ficheiro, a localização de transferência será o caminho do ficheiro transferido único. Caso contrário, a localização de transferência será o caminho da pasta de colocação para todos os ficheiros transferidos.

Se path_on_compute começa com um /, será tratado como um caminho absoluto. Se não começar com um /, será tratado como um caminho relativo em relação ao diretório de trabalho. Se tiver especificado um caminho absoluto, certifique-se de que a tarefa tem permissão para escrever nesse diretório.

as_hdfs

Defina o modo como hdfs.

Na execução do synapse submetida, os ficheiros nos conjuntos de dados serão convertidos no caminho local no destino de computação. O caminho hdfs pode ser obtido a partir dos valores de argumento e das variáveis de ambiente do so.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_hdfs()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The hdfs path can be retrieved from argument values
   import sys
   hdfs_path = sys.argv[1]

   # The hdfs path can also be retrieved from input_datasets of the run context.
   import os
   hdfs_path = os.environ['input_1']
as_hdfs()

Observações

Quando o conjunto de dados é criado a partir do caminho de um único ficheiro, o caminho do hdfs será o caminho do ficheiro único. Caso contrário, o caminho do hdfs será o caminho da pasta de colocação para todos os ficheiros montados.

as_mount

Defina o modo para montar.

Na execução submetida, os ficheiros nos conjuntos de dados serão montados no caminho local no destino de computação. O ponto de montagem pode ser obtido a partir de valores de argumento e do campo input_datasets do contexto de execução.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_mount()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The mount point can be retrieved from argument values
   import sys
   mount_point = sys.argv[1]

   # The mount point can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   mount_point = Run.get_context().input_datasets['input_1']
as_mount(path_on_compute=None)

Parâmetros

path_on_compute
str
valor predefinido: None

O caminho de destino na computação em que os dados estão disponíveis.

Observações

Quando o conjunto de dados é criado a partir do caminho de um único ficheiro, o ponto de montagem será o caminho do ficheiro montado único. Caso contrário, o ponto de montagem será o caminho da pasta de colocação para todos os ficheiros montados.

Se path_on_compute começa com um /, será tratado como um caminho absoluto. Se não começar com um /, será tratado como um caminho relativo em relação ao diretório de trabalho. Se tiver especificado um caminho absoluto, certifique-se de que a tarefa tem permissão para escrever nesse diretório.

Atributos

name

Nome da entrada.

Devoluções

Nome da entrada.