DataReference 类
表示对数据存储中的数据的引用。
DataReference 表示数据存储中的路径,可用于描述如何在运行中提供数据以及数据的位置。 它不再是 Azure 机器学习中数据访问和传递的建议方法。 数据集 支持通过具有添加的数据管理功能的统一接口从 Azure Blob 存储、Azure 文件存储、Azure Data Lake Storage Gen1、Azure Data Lake Storage Gen2、Azure SQL 数据库和 Azure Database for PostgreSQL 访问数据。 建议使用数据集来读取机器学习项目中的数据。
有关如何在两种常见方案中使用 Azure ML 数据集的详细信息,请参阅以下文章:
类 DataReference 构造函数。
构造函数
DataReference(datastore, data_reference_name=None, path_on_datastore=None, mode='mount', path_on_compute=None, overwrite=False)
参数
名称 | 说明 |
---|---|
datastore
必需
|
要引用的数据存储。 |
data_reference_name
|
数据引用的名称。 默认值: None
|
path_on_datastore
|
数据引用在后备存储中的相对路径。 默认值: None
|
mode
|
对数据引用的作。 支持的值为“mount”(默认值)和“download”。 当脚本需要输入数据的特定(例如硬编码)路径时,请使用“下载”模式。
在这种情况下,请在声明 DataReference 时使用 使用“装载”模式,使用已装载的数据创建临时目录,并将环境变量 $AZUREML_DATAREFERENCE_<data_reference_name> 设置为临时目录的路径。 如果将 DataReference 传递到管道步骤(例如 PythonScriptStep)的参数列表中,则引用将在运行时扩展到本地数据路径。 默认值: mount
|
path_on_compute
|
数据引用的计算目标上的路径。 默认值: None
|
overwrite
|
指示是否覆盖现有数据。 默认值: False
|
datastore
必需
|
要引用的数据存储。 |
data_reference_name
必需
|
数据引用的名称。 |
path_on_datastore
必需
|
数据引用在后备存储中的相对路径。 |
mode
必需
|
对数据引用的作。 支持的值“mount”(默认值)和“download”。 当脚本需要输入数据的特定(例如硬编码)路径时,请使用“下载”模式。
在这种情况下,请在声明 DataReference 时使用 使用“装载”模式,使用已装载的数据创建临时目录,并将环境变量 $AZUREML_DATAREFERENCE_<data_reference_name> 设置为临时目录的路径。 如果将 DataReference 传递到管道步骤(例如 PythonScriptStep)的参数列表中,则引用将在运行时扩展到本地数据路径。 |
path_on_compute
必需
|
数据引用的计算目标上的路径。 |
overwrite
必需
|
指示是否覆盖现有数据。 |
注解
DataReference 定义数据位置以及如何在目标计算绑定(装载或上传)上使用数据。 数据存储中数据的路径可以是根 /、数据存储中的目录或数据存储中的文件。
方法
as_download |
切换要下载的数据引用作。 DataReference 下载仅支持 Azure Blob 和 Azure 文件共享。 若要从 Azure Blob、Azure 文件共享、Azure Data Lake Gen1 和 Azure Data Lake Gen2 下载数据,建议使用 Azure 机器学习数据集。 有关如何创建和使用数据集的详细信息,请访问 https://docs.microsoft.com/en-us/azure/machine-learning/how-to-train-with-datasets。 |
as_mount |
切换要装载的数据引用作。 DataReference 装载仅支持 Azure Blob。 若要在 Azure Blob、Azure 文件共享、Azure Data Lake Gen1 和 Azure Data Lake Gen2 中装载数据,建议使用 Azure 机器学习数据集。 有关如何创建和使用数据集的详细信息,请访问 https://docs.microsoft.com/en-us/azure/machine-learning/how-to-train-with-datasets。 |
as_upload |
切换要上传的数据引用作。 有关支持上传数据的计算和数据存储的详细信息,请参阅: https://aka.ms/datastore-matrix |
create |
使用 DataPath 和 DataPathComputeBinding 创建 DataReference。 |
path |
基于给定路径创建 DataReference 实例。 |
to_config |
将 DataReference 对象转换为 DataReferenceConfiguration 对象。 |
as_download
切换要下载的数据引用作。
DataReference 下载仅支持 Azure Blob 和 Azure 文件共享。 若要从 Azure Blob、Azure 文件共享、Azure Data Lake Gen1 和 Azure Data Lake Gen2 下载数据,建议使用 Azure 机器学习数据集。 有关如何创建和使用数据集的详细信息,请访问 https://docs.microsoft.com/en-us/azure/machine-learning/how-to-train-with-datasets。
as_download(path_on_compute=None, overwrite=False)
参数
名称 | 说明 |
---|---|
path_on_compute
|
数据引用的计算路径。 默认值: None
|
overwrite
|
指示是否覆盖现有数据。 默认值: False
|
返回
类型 | 说明 |
---|---|
新的数据引用对象。 |
as_mount
切换要装载的数据引用作。
DataReference 装载仅支持 Azure Blob。 若要在 Azure Blob、Azure 文件共享、Azure Data Lake Gen1 和 Azure Data Lake Gen2 中装载数据,建议使用 Azure 机器学习数据集。 有关如何创建和使用数据集的详细信息,请访问 https://docs.microsoft.com/en-us/azure/machine-learning/how-to-train-with-datasets。
as_mount()
返回
类型 | 说明 |
---|---|
新的数据引用对象。 |
as_upload
切换要上传的数据引用作。
有关支持上传数据的计算和数据存储的详细信息,请参阅: https://aka.ms/datastore-matrix
as_upload(path_on_compute=None, overwrite=False)
参数
名称 | 说明 |
---|---|
path_on_compute
|
数据引用的计算路径。 默认值: None
|
overwrite
|
指示是否覆盖现有数据。 默认值: False
|
返回
类型 | 说明 |
---|---|
新的数据引用对象。 |
create
使用 DataPath 和 DataPathComputeBinding 创建 DataReference。
static create(data_reference_name=None, datapath=None, datapath_compute_binding=None)
参数
名称 | 说明 |
---|---|
data_reference_name
|
要创建的数据引用的名称。 默认值: None
|
datapath
|
[必需]要使用的数据路径。 默认值: None
|
datapath_compute_binding
|
[必需]要使用的 datapath 计算绑定。 默认值: None
|
返回
类型 | 说明 |
---|---|
DataReference 对象。 |
path
基于给定路径创建 DataReference 实例。
path(path=None, data_reference_name=None)
参数
名称 | 说明 |
---|---|
path
|
数据存储上的路径。 默认值: None
|
data_reference_name
|
数据引用的名称。 默认值: None
|
返回
类型 | 说明 |
---|---|
数据引用对象。 |
to_config
将 DataReference 对象转换为 DataReferenceConfiguration 对象。
to_config()
返回
类型 | 说明 |
---|---|
新的 DataReferenceConfiguration 对象。 |