DatasetConsumptionConfig Класс

Ссылка

Представляет способ доставки набора данных в целевой объект вычислений.

Наследование: builtins.object

DatasetConsumptionConfig

Конструктор

DatasetConsumptionConfig(name, dataset, mode='direct', path_on_compute=None)

Параметры

name: str

Обязательно

Имя набора данных в прогоне, которое может отличаться от зарегистрированного имени. Имя будет зарегистрировано как переменная среды и может использоваться в плоскости данных.

dataset: AbstractDataset или PipelineParameter или OutputDatasetConfig

Обязательно

Набор данных, который будет использоваться в прогоне.

mode: str

значение по умолчанию: direct

Определяет способ доставки набора данных в целевой объект вычислений. Доступно три режима:

"прямой": использование набора данных в качестве набора данных;
"загрузка": загрузка набора данных и использование набора данных в качестве пути загрузки;
"подключение": подключение набора данных и использование набора данных в качестве пути подключения;
hdfs: использование набора данных из разрешенного пути HDFS (в настоящее время поддерживается только для вычислений SynapseSpark).

path_on_compute: str

значение по умолчанию: None

Целевой путь вычисления, по которому должны быть доступны данные. Структура папок исходных данных будет сохранена, но можно добавить префиксы в эту структуру папок, чтобы избежать конфликтов. Используйте tabular_dataset.to_path для просмотра структуры папок выходных данных.

name: str

Обязательно

dataset: Dataset или PipelineParameter или tuple(Workspace, str) или tuple(Workspace, str, str) или OutputDatasetConfig

Обязательно

Доставляемый набор данных в виде объекта набора данных, параметра конвейера, который использует набор данных, кортеж (рабочая область, имя набора данных) или кортеж (рабочая область, имя набора данных, версия набора данных). Если указано только имя, DatasetConsumptionConfig будет использовать последнюю версию набора данных.

mode: str

Обязательно

Определяет способ доставки набора данных в целевой объект вычислений. Доступно три режима:

"прямой": использование набора данных в качестве набора данных;
"загрузка": загрузка набора данных и использование набора данных в качестве пути загрузки;
"подключение": подключение набора данных и использование набора данных в качестве пути подключения;
hdfs: использование набора данных из разрешенного пути HDFS (в настоящее время поддерживается только для вычислений SynapseSpark).

path_on_compute: str

Обязательно

Целевой путь вычисления, по которому должны быть доступны данные. Структура папок исходных данных будет сохранена, но можно добавить префиксы в эту структуру папок, чтобы избежать конфликтов. Мы рекомендуем вызывать tabular_dataset.to_path , чтобы просмотреть структуру выходных папок.

Методы

as_download

Установите режим загрузки.

В отправленном прогоне файлы в наборе данных будут скачаны по локальному пути на целевом объекте вычислений. Расположение загрузки можно получить из значений аргументов и поля input_datasets контекста прогона.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_download()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The download location can be retrieved from argument values
   import sys
   download_location = sys.argv[1]

   # The download location can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   download_location = Run.get_context().input_datasets['input_1']

as_hdfs

Установите режим HDFS.

В отправленном прогоне синапса файлы в наборе данных будут преобразованы в локальный путь на целевом объекте вычислений. Путь HDFS можно получить из значений аргументов и переменных среды ОС.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_hdfs()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The hdfs path can be retrieved from argument values
   import sys
   hdfs_path = sys.argv[1]

   # The hdfs path can also be retrieved from input_datasets of the run context.
   import os
   hdfs_path = os.environ['input_1']

as_mount

Установите режим "подключение".

В отправленном прогоне файлы в наборе данных будут подключены по локальному пути на целевом объекте вычислений. Точку подключения можно получить из значений аргументов и поля input_datasets контекста выполнения.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_mount()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The mount point can be retrieved from argument values
   import sys
   mount_point = sys.argv[1]

   # The mount point can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   mount_point = Run.get_context().input_datasets['input_1']

as_download

Установите режим загрузки.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_download()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The download location can be retrieved from argument values
   import sys
   download_location = sys.argv[1]

   # The download location can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   download_location = Run.get_context().input_datasets['input_1']

as_download(path_on_compute=None)

Параметры

path_on_compute: str

значение по умолчанию: None

Целевой путь вычисления, по которому должны быть доступны данные.

Если набор данных создается из пути к одному файлу, то расположением загрузки будет путь к отдельному загруженному файлу. В противном случае в качестве расположения загрузки будет указан путь к папке, содержащей все загруженные файлы.

Если path_on_compute начинается с /, он будет рассматриваться как абсолютный путь. Если он не начинается с /, он будет рассматриваться как относительный путь относительно рабочего каталога. Если вы указали абсолютный путь, убедитесь, что у задания есть разрешение на запись в этот каталог.

as_hdfs

Установите режим HDFS.


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_hdfs()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The hdfs path can be retrieved from argument values
   import sys
   hdfs_path = sys.argv[1]

   # The hdfs path can also be retrieved from input_datasets of the run context.
   import os
   hdfs_path = os.environ['input_1']

as_hdfs()

Если набор данных создается из пути к одному файлу, путем HDFS будет путь к отдельному подключенному файлу. В противном случае, путем HDFS будет путь к папке, содержащей все подключенные файлы.

as_mount

Установите режим "подключение".


   file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
   file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
   dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_mount()
   experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))


   # Following are sample codes running in context of the submitted run:

   # The mount point can be retrieved from argument values
   import sys
   mount_point = sys.argv[1]

   # The mount point can also be retrieved from input_datasets of the run context.
   from azureml.core import Run
   mount_point = Run.get_context().input_datasets['input_1']

as_mount(path_on_compute=None)

Параметры

path_on_compute: str

значение по умолчанию: None

Целевой путь вычисления, по которому должны быть доступны данные.

Если набор данных создается из пути к одному файлу, точкой подключения будет путь к отдельному подключенному файлу. В противном случае точкой подключения будет путь к папке, содержащей все подключенные файлы.

Поделиться через

DatasetConsumptionConfig Класс

Конструктор

Параметры

Методы

as_download

Параметры

Комментарии

as_hdfs

Комментарии

as_mount

Параметры

Комментарии

Атрибуты

name

Возвращаемое значение

Обратная связь

Обратная связь

Дополнительные ресурсы