Поделиться через


DatasetConsumptionConfig Класс

Представляет способ доставки набора данных в целевой объект вычислений.

Представляет способ доставки набора данных в целевой объект вычислений.

Наследование
builtins.object
DatasetConsumptionConfig

Конструктор

DatasetConsumptionConfig(name, dataset, mode='direct', path_on_compute=None)

Параметры

name
str
Обязательно

Имя набора данных в прогоне, которое может отличаться от зарегистрированного имени. Имя будет зарегистрировано как переменная среды и может использоваться в плоскости данных.

dataset
AbstractDataset или PipelineParameter или OutputDatasetConfig
Обязательно

Набор данных, который будет использоваться в прогоне.

mode
str
значение по умолчанию: direct

Определяет способ доставки набора данных в целевой объект вычислений. Доступно три режима:

  1. "прямой": использование набора данных в качестве набора данных;
  2. "загрузка": загрузка набора данных и использование набора данных в качестве пути загрузки;
  3. "подключение": подключение набора данных и использование набора данных в качестве пути подключения;
  4. hdfs: использование набора данных из разрешенного пути HDFS (в настоящее время поддерживается только для вычислений SynapseSpark).
path_on_compute
str
значение по умолчанию: None

Целевой путь вычисления, по которому должны быть доступны данные. Структура папок исходных данных будет сохранена, но можно добавить префиксы в эту структуру папок, чтобы избежать конфликтов. Используйте tabular_dataset.to_path для просмотра структуры папок выходных данных.

name
str
Обязательно

Имя набора данных в прогоне, которое может отличаться от зарегистрированного имени. Имя будет зарегистрировано как переменная среды и может использоваться в плоскости данных.

dataset
Dataset или PipelineParameter или tuple(Workspace, str) или tuple(Workspace, str, str) или OutputDatasetConfig
Обязательно

Доставляемый набор данных в виде объекта набора данных, параметра конвейера, который использует набор данных, кортеж (рабочая область, имя набора данных) или кортеж (рабочая область, имя набора данных, версия набора данных). Если указано только имя, DatasetConsumptionConfig будет использовать последнюю версию набора данных.

mode
str
Обязательно

Определяет способ доставки набора данных в целевой объект вычислений. Доступно три режима:

  1. "прямой": использование набора данных в качестве набора данных;
  2. "загрузка": загрузка набора данных и использование набора данных в качестве пути загрузки;
  3. "подключение": подключение набора данных и использование набора данных в качестве пути подключения;
  4. hdfs: использование набора данных из разрешенного пути HDFS (в настоящее время поддерживается только для вычислений SynapseSpark).
path_on_compute
str
Обязательно

Целевой путь вычисления, по которому должны быть доступны данные. Структура папок исходных данных будет сохранена, но можно добавить префиксы в эту структуру папок, чтобы избежать конфликтов. Мы рекомендуем вызывать tabular_dataset.to_path , чтобы просмотреть структуру выходных папок.

Методы

as_download

Установите режим загрузки.

В отправленном прогоне файлы в наборе данных будут скачаны по локальному пути на целевом объекте вычислений. Расположение загрузки можно получить из значений аргументов и поля input_datasets контекста прогона.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_download()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The download location can be retrieved from argument values
   import sys
   download_location = sys.argv[1]

   # The download location can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   download_location = Run.get_context().input_datasets['input_1']
as_hdfs

Установите режим HDFS.

В отправленном прогоне синапса файлы в наборе данных будут преобразованы в локальный путь на целевом объекте вычислений. Путь HDFS можно получить из значений аргументов и переменных среды ОС.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_hdfs()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The hdfs path can be retrieved from argument values
   import sys
   hdfs_path = sys.argv[1]

   # The hdfs path can also be retrieved from input_datasets of the run context.
   import os
   hdfs_path = os.environ['input_1']
as_mount

Установите режим "подключение".

В отправленном прогоне файлы в наборе данных будут подключены по локальному пути на целевом объекте вычислений. Точку подключения можно получить из значений аргументов и поля input_datasets контекста выполнения.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_mount()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The mount point can be retrieved from argument values
   import sys
   mount_point = sys.argv[1]

   # The mount point can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   mount_point = Run.get_context().input_datasets['input_1']

as_download

Установите режим загрузки.

В отправленном прогоне файлы в наборе данных будут скачаны по локальному пути на целевом объекте вычислений. Расположение загрузки можно получить из значений аргументов и поля input_datasets контекста прогона.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_download()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The download location can be retrieved from argument values
   import sys
   download_location = sys.argv[1]

   # The download location can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   download_location = Run.get_context().input_datasets['input_1']
as_download(path_on_compute=None)

Параметры

path_on_compute
str
значение по умолчанию: None

Целевой путь вычисления, по которому должны быть доступны данные.

Комментарии

Если набор данных создается из пути к одному файлу, то расположением загрузки будет путь к отдельному загруженному файлу. В противном случае в качестве расположения загрузки будет указан путь к папке, содержащей все загруженные файлы.

Если path_on_compute начинается с /, он будет рассматриваться как абсолютный путь. Если он не начинается с /, он будет рассматриваться как относительный путь относительно рабочего каталога. Если вы указали абсолютный путь, убедитесь, что у задания есть разрешение на запись в этот каталог.

as_hdfs

Установите режим HDFS.

В отправленном прогоне синапса файлы в наборе данных будут преобразованы в локальный путь на целевом объекте вычислений. Путь HDFS можно получить из значений аргументов и переменных среды ОС.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_hdfs()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The hdfs path can be retrieved from argument values
   import sys
   hdfs_path = sys.argv[1]

   # The hdfs path can also be retrieved from input_datasets of the run context.
   import os
   hdfs_path = os.environ['input_1']
as_hdfs()

Комментарии

Если набор данных создается из пути к одному файлу, путем HDFS будет путь к отдельному подключенному файлу. В противном случае, путем HDFS будет путь к папке, содержащей все подключенные файлы.

as_mount

Установите режим "подключение".

В отправленном прогоне файлы в наборе данных будут подключены по локальному пути на целевом объекте вычислений. Точку подключения можно получить из значений аргументов и поля input_datasets контекста выполнения.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_mount()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The mount point can be retrieved from argument values
   import sys
   mount_point = sys.argv[1]

   # The mount point can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   mount_point = Run.get_context().input_datasets['input_1']
as_mount(path_on_compute=None)

Параметры

path_on_compute
str
значение по умолчанию: None

Целевой путь вычисления, по которому должны быть доступны данные.

Комментарии

Если набор данных создается из пути к одному файлу, точкой подключения будет путь к отдельному подключенному файлу. В противном случае точкой подключения будет путь к папке, содержащей все подключенные файлы.

Если path_on_compute начинается с /, он будет рассматриваться как абсолютный путь. Если он не начинается с /, он будет рассматриваться как относительный путь относительно рабочего каталога. Если вы указали абсолютный путь, убедитесь, что у задания есть разрешение на запись в этот каталог.

Атрибуты

name

Имя входных данных.

Возвращаемое значение

Имя входных данных.