Поделиться через


DataReference Класс

Представляет ссылку на данные в хранилище данных.

DataReference представляет путь в хранилище данных и может использоваться для описания того, как и где данные должны быть доступны в выполнении. Это больше не рекомендуемый подход к доступу к данным и доставке в Машинном обучении Azure. Набор данных поддерживает доступ к данным из хранилища BLOB-объектов Azure, файлов Azure, Azure Data Lake Storage 1-го поколения, Azure Data Lake Storage 2-го поколения, базы данных SQL Azure и Базы данных Azure для PostgreSQL через единый интерфейс с дополнительными возможностями управления данными. Рекомендуется использовать набор данных для чтения данных в проектах машинного обучения.

Дополнительные сведения об использовании набора данных Машинного обучения Azure в двух распространенных сценариях см. в статьях:

Конструктор DataReference класса.

Конструктор

DataReference(datastore, data_reference_name=None, path_on_datastore=None, mode='mount', path_on_compute=None, overwrite=False)

Параметры

Имя Описание
datastore
Обязательно

Хранилище данных, на которое будет дана ссылка.

data_reference_name
str

Имя ссылки на данные.

Default value: None
path_on_datastore
str

Относительный путь в резервном хранилище для ссылки на данные.

Default value: None
mode
str

Операция со ссылкой на данные. Поддерживаемые значения: "mount" (по умолчанию) и "download".

Используйте режим скачивания, когда скрипт ожидает определенный (например, жестко закодированный) путь для входных данных. В этом случае укажите путь с параметром path_on_compute при объявлении DataReference. Машинное обучение Azure скачивает данные, указанные этим путем перед выполнением скрипта.

В режиме подключения временный каталог создается с подключенными данными и переменной среды $AZUREML_DATAREFERENCE_<data_reference_name> устанавливается путь к временному каталогу. Если передать DataReference в список аргументов для шага конвейера (например, PythonScriptStep), ссылка будет развернута на локальный путь к данным во время выполнения.

Default value: mount
path_on_compute
str

Путь к целевому объекту вычислений для ссылки на данные.

Default value: None
overwrite

Указывает, следует ли перезаписывать существующие данные.

Default value: False
datastore
Обязательно

Хранилище данных, на которое будет дана ссылка.

data_reference_name
Обязательно
str

Имя ссылки на данные.

path_on_datastore
Обязательно
str

Относительный путь в резервном хранилище для ссылки на данные.

mode
Обязательно
str

Операция со ссылкой на данные. Поддерживаемые значения "mount" (по умолчанию) и "download".

Используйте режим скачивания, когда скрипт ожидает определенный (например, жестко закодированный) путь для входных данных. В этом случае укажите путь с параметром path_on_compute при объявлении DataReference. Машинное обучение Azure скачивает данные, указанные этим путем перед выполнением скрипта.

В режиме подключения временный каталог создается с подключенными данными и переменной среды $AZUREML_DATAREFERENCE_<data_reference_name> устанавливается путь к временному каталогу. Если передать DataReference в список аргументов для шага конвейера (например, PythonScriptStep), ссылка будет развернута на локальный путь к данным во время выполнения.

path_on_compute
Обязательно
str

Путь к целевому объекту вычислений для ссылки на данные.

overwrite
Обязательно

Указывает, следует ли перезаписывать существующие данные.

Комментарии

DataReference определяет расположение данных и способ использования данных в целевой вычислительной привязке (подключение или отправка). Путь к данным в хранилище данных может быть корневым /, каталогом в хранилище данных или файлом в хранилище данных.

Методы

as_download

Переключение операции ссылки на данные для скачивания.

Скачивание DataReference поддерживает только BLOB-объект Azure и общую папку Azure. Чтобы скачать данные из BLOB-объектов Azure, общей папки Azure, Azure Data Lake 1-го поколения и Azure Data Lake 2-го поколения, рекомендуется использовать набор данных машинного обучения Azure. Дополнительные сведения о создании и использовании набора данных см. в статье https://docs.microsoft.com/en-us/azure/machine-learning/how-to-train-with-datasets.

as_mount

Переключение операции ссылки на данные для подключения.

Подключение DataReference поддерживает только большой двоичный объект Azure. Чтобы подключить данные в BLOB-объекте Azure, общей папке Azure, Azure Data Lake 1-го поколения и Azure Data Lake 2-го поколения, рекомендуется использовать набор данных машинного обучения Azure. Дополнительные сведения о создании и использовании набора данных см. в статье https://docs.microsoft.com/en-us/azure/machine-learning/how-to-train-with-datasets.

as_upload

Переключение операции ссылки на данные для отправки.

Дополнительные сведения о том, какие вычислительные ресурсы и хранилища данных поддерживают отправку данных, см. в следующих https://aka.ms/datastore-matrixразделах.

create

Создайте DataReference с помощью DataPath и DataPathComputeBinding.

path

Создайте экземпляр DataReference на основе заданного пути.

to_config

Преобразуйте объект DataReference в объект DataReferenceConfiguration.

as_download

Переключение операции ссылки на данные для скачивания.

Скачивание DataReference поддерживает только BLOB-объект Azure и общую папку Azure. Чтобы скачать данные из BLOB-объектов Azure, общей папки Azure, Azure Data Lake 1-го поколения и Azure Data Lake 2-го поколения, рекомендуется использовать набор данных машинного обучения Azure. Дополнительные сведения о создании и использовании набора данных см. в статье https://docs.microsoft.com/en-us/azure/machine-learning/how-to-train-with-datasets.

as_download(path_on_compute=None, overwrite=False)

Параметры

Имя Описание
path_on_compute
str

Путь к вычислительным ресурсам для ссылки на данные.

Default value: None
overwrite

Указывает, следует ли перезаписывать существующие данные.

Default value: False

Возвращаемое значение

Тип Описание

Новый объект ссылки на данные.

as_mount

Переключение операции ссылки на данные для подключения.

Подключение DataReference поддерживает только большой двоичный объект Azure. Чтобы подключить данные в BLOB-объекте Azure, общей папке Azure, Azure Data Lake 1-го поколения и Azure Data Lake 2-го поколения, рекомендуется использовать набор данных машинного обучения Azure. Дополнительные сведения о создании и использовании набора данных см. в статье https://docs.microsoft.com/en-us/azure/machine-learning/how-to-train-with-datasets.

as_mount()

Возвращаемое значение

Тип Описание

Новый объект ссылки на данные.

as_upload

Переключение операции ссылки на данные для отправки.

Дополнительные сведения о том, какие вычислительные ресурсы и хранилища данных поддерживают отправку данных, см. в следующих https://aka.ms/datastore-matrixразделах.

as_upload(path_on_compute=None, overwrite=False)

Параметры

Имя Описание
path_on_compute
str

Путь к вычислительным ресурсам для ссылки на данные.

Default value: None
overwrite

Указывает, следует ли перезаписывать существующие данные.

Default value: False

Возвращаемое значение

Тип Описание

Новый объект ссылки на данные.

create

Создайте DataReference с помощью DataPath и DataPathComputeBinding.

static create(data_reference_name=None, datapath=None, datapath_compute_binding=None)

Параметры

Имя Описание
data_reference_name
str

Имя создаваемой ссылки на данные.

Default value: None
datapath

[Обязательный] Используемый путь к данным.

Default value: None
datapath_compute_binding

[Обязательный] Используемая привязка вычислений datapath.

Default value: None

Возвращаемое значение

Тип Описание

Объект DataReference.

path

Создайте экземпляр DataReference на основе заданного пути.

path(path=None, data_reference_name=None)

Параметры

Имя Описание
path
str

Путь к хранилищу данных.

Default value: None
data_reference_name
str

Имя ссылки на данные.

Default value: None

Возвращаемое значение

Тип Описание

Объект ссылки на данные.

to_config

Преобразуйте объект DataReference в объект DataReferenceConfiguration.

to_config()

Возвращаемое значение

Тип Описание

Новый объект DataReferenceConfiguration.