DatasetConsumptionConfig Класс
Представляет способ доставки набора данных в целевой объект вычислений.
Представляет способ доставки набора данных в целевой объект вычислений.
- Наследование
-
builtins.objectDatasetConsumptionConfig
Конструктор
DatasetConsumptionConfig(name, dataset, mode='direct', path_on_compute=None)
Параметры
- name
- str
Имя набора данных в прогоне, которое может отличаться от зарегистрированного имени. Имя будет зарегистрировано как переменная среды и может использоваться в плоскости данных.
- dataset
- AbstractDataset или PipelineParameter или OutputDatasetConfig
Набор данных, который будет использоваться в прогоне.
- mode
- str
Определяет способ доставки набора данных в целевой объект вычислений. Доступно три режима:
- "прямой": использование набора данных в качестве набора данных;
- "загрузка": загрузка набора данных и использование набора данных в качестве пути загрузки;
- "подключение": подключение набора данных и использование набора данных в качестве пути подключения;
- hdfs: использование набора данных из разрешенного пути HDFS (в настоящее время поддерживается только для вычислений SynapseSpark).
- path_on_compute
- str
Целевой путь вычисления, по которому должны быть доступны данные. Структура папок исходных данных будет сохранена, но можно добавить префиксы в эту структуру папок, чтобы избежать конфликтов. Используйте tabular_dataset.to_path
для просмотра структуры папок выходных данных.
- name
- str
Имя набора данных в прогоне, которое может отличаться от зарегистрированного имени. Имя будет зарегистрировано как переменная среды и может использоваться в плоскости данных.
- dataset
- Dataset или PipelineParameter или tuple(Workspace, str) или tuple(Workspace, str, str) или OutputDatasetConfig
Доставляемый набор данных в виде объекта набора данных, параметра конвейера, который использует набор данных, кортеж (рабочая область, имя набора данных) или кортеж (рабочая область, имя набора данных, версия набора данных). Если указано только имя, DatasetConsumptionConfig будет использовать последнюю версию набора данных.
- mode
- str
Определяет способ доставки набора данных в целевой объект вычислений. Доступно три режима:
- "прямой": использование набора данных в качестве набора данных;
- "загрузка": загрузка набора данных и использование набора данных в качестве пути загрузки;
- "подключение": подключение набора данных и использование набора данных в качестве пути подключения;
- hdfs: использование набора данных из разрешенного пути HDFS (в настоящее время поддерживается только для вычислений SynapseSpark).
- path_on_compute
- str
Целевой путь вычисления, по которому должны быть доступны данные. Структура папок исходных данных будет сохранена, но можно добавить префиксы в эту структуру папок, чтобы избежать конфликтов. Мы рекомендуем вызывать tabular_dataset.to_path , чтобы просмотреть структуру выходных папок.
Методы
as_download |
Установите режим загрузки. В отправленном прогоне файлы в наборе данных будут скачаны по локальному пути на целевом объекте вычислений. Расположение загрузки можно получить из значений аргументов и поля input_datasets контекста прогона.
|
as_hdfs |
Установите режим HDFS. В отправленном прогоне синапса файлы в наборе данных будут преобразованы в локальный путь на целевом объекте вычислений. Путь HDFS можно получить из значений аргументов и переменных среды ОС.
|
as_mount |
Установите режим "подключение". В отправленном прогоне файлы в наборе данных будут подключены по локальному пути на целевом объекте вычислений. Точку подключения можно получить из значений аргументов и поля input_datasets контекста выполнения.
|
as_download
Установите режим загрузки.
В отправленном прогоне файлы в наборе данных будут скачаны по локальному пути на целевом объекте вычислений. Расположение загрузки можно получить из значений аргументов и поля input_datasets контекста прогона.
file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_download()
experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))
# Following are sample codes running in context of the submitted run:
# The download location can be retrieved from argument values
import sys
download_location = sys.argv[1]
# The download location can also be retrieved from input_datasets of the run context.
from azureml.core import Run
download_location = Run.get_context().input_datasets['input_1']
as_download(path_on_compute=None)
Параметры
- path_on_compute
- str
Целевой путь вычисления, по которому должны быть доступны данные.
Комментарии
Если набор данных создается из пути к одному файлу, то расположением загрузки будет путь к отдельному загруженному файлу. В противном случае в качестве расположения загрузки будет указан путь к папке, содержащей все загруженные файлы.
Если path_on_compute начинается с /, он будет рассматриваться как абсолютный путь. Если он не начинается с /, он будет рассматриваться как относительный путь относительно рабочего каталога. Если вы указали абсолютный путь, убедитесь, что у задания есть разрешение на запись в этот каталог.
as_hdfs
Установите режим HDFS.
В отправленном прогоне синапса файлы в наборе данных будут преобразованы в локальный путь на целевом объекте вычислений. Путь HDFS можно получить из значений аргументов и переменных среды ОС.
file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_hdfs()
experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))
# Following are sample codes running in context of the submitted run:
# The hdfs path can be retrieved from argument values
import sys
hdfs_path = sys.argv[1]
# The hdfs path can also be retrieved from input_datasets of the run context.
import os
hdfs_path = os.environ['input_1']
as_hdfs()
Комментарии
Если набор данных создается из пути к одному файлу, путем HDFS будет путь к отдельному подключенному файлу. В противном случае, путем HDFS будет путь к папке, содержащей все подключенные файлы.
as_mount
Установите режим "подключение".
В отправленном прогоне файлы в наборе данных будут подключены по локальному пути на целевом объекте вычислений. Точку подключения можно получить из значений аргументов и поля input_datasets контекста выполнения.
file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_mount()
experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))
# Following are sample codes running in context of the submitted run:
# The mount point can be retrieved from argument values
import sys
mount_point = sys.argv[1]
# The mount point can also be retrieved from input_datasets of the run context.
from azureml.core import Run
mount_point = Run.get_context().input_datasets['input_1']
as_mount(path_on_compute=None)
Параметры
- path_on_compute
- str
Целевой путь вычисления, по которому должны быть доступны данные.
Комментарии
Если набор данных создается из пути к одному файлу, точкой подключения будет путь к отдельному подключенному файлу. В противном случае точкой подключения будет путь к папке, содержащей все подключенные файлы.
Если path_on_compute начинается с /, он будет рассматриваться как абсолютный путь. Если он не начинается с /, он будет рассматриваться как относительный путь относительно рабочего каталога. Если вы указали абсолютный путь, убедитесь, что у задания есть разрешение на запись в этот каталог.
Атрибуты
name
Имя входных данных.
Возвращаемое значение
Имя входных данных.
Обратная связь
https://aka.ms/ContentUserFeedback.
Ожидается в ближайшее время: в течение 2024 года мы постепенно откажемся от GitHub Issues как механизма обратной связи для контента и заменим его новой системой обратной связи. Дополнительные сведения см. в разделеОтправить и просмотреть отзыв по