Создание ресурсов данных и управление ими

Статья
09/02/2024

ОБЛАСТЬ ПРИМЕНЕНИЯ:Расширение машинного обучения Azure CLI версии 2 (current)Python SDK azure-ai-ml версии 2 (current)

В этой статье показано, как создавать ресурсы данных и управлять ими в Машинное обучение Azure.

Ресурсы данных могут помочь при необходимости:

Управление версиями. Ресурсы данных поддерживают управление версиями данных.
Воспроизводимость. После создания версии ресурса данных она неизменяема. Его нельзя изменить или удалить. Таким образом, можно воспроизвести задания обучения или конвейеры, использующие ресурс данных.
Возможность аудита. Так как версия ресурса данных неизменяема, можно отслеживать версии ресурсов, которые обновили версию и когда произошли обновления версий.
Происхождение: для любого заданного ресурса данных можно просмотреть задания или конвейеры, которые используют данные.
Простота использования: ресурс данных машинного обучения Azure напоминает закладки веб-браузера (избранное). Вместо запоминания длинных путей хранения (URI), ссылающихся на часто используемые данные на служба хранилища Azure, можно создать версию ресурса данных, а затем получить доступ к этой версии ресурса с понятным именем (например: azureml:<my_data_asset_name>:<version>).

Совет

Чтобы получить доступ к данным в интерактивном сеансе (например, записной книжке) или задании, вам не нужно сначала создать ресурс данных. Для доступа к данным можно использовать URI хранилища данных. URI хранилища данных предоставляют простой способ доступа к данным для начала работы с машинным обучением Azure.

Необходимые компоненты

Для создания ресурсов данных и работы с ними требуются компоненты, указанные ниже.

Подписка Azure. Если у вас еще нет подписки Azure, создайте бесплатную учетную запись, прежде чем начать работу. Попробуйте бесплатную или платную версию Машинного обучения Azure.
Рабочая область Машинного обучения Azure. Создание ресурсов рабочей области.
Установлен Машинное обучение Azure CLI/SDK.

Создание ресурсов данных

При создании ресурса данных необходимо задать тип ресурса данных. Машинное обучение Azure поддерживает три типа ресурсов данных:

Тип	API	Канонические сценарии
Файл Ссылка на один файл	`uri_file`	Чтение одного файла на служба хранилища Azure (файл может иметь любой формат).
Папка Ссылка на папку	`uri_folder`	Чтение папки parquet/CSV-файлов в Pandas/Spark. Чтение неструктурированных данных (изображений, текста, звука и т. д.), расположенных в папке.
Таблицу Ссылка на таблицу данных	`mltable`	У вас сложная схема с частыми изменениями или требуется подмножество больших табличных данных. AutoML с таблицами. Чтение неструктурированных данных (изображений, текста, звука и т. д.), которые распределяются по нескольким расположениям хранилища.

Примечание.

Используйте только внедренные новые линии в CSV-файлах, если вы регистрируете данные в качестве MLTable. Внедренные новые линии в CSV-файлах могут привести к неправильному значению поля при чтении данных. MLTable имеет параметр, доступный support_multi_line в read_delimited преобразовании, чтобы интерпретировать разрывы строк в кавычках как одну запись.

При использовании ресурса данных в задании Машинное обучение Azure можно подключить или скачать ресурс на вычислительные узлы. Дополнительные сведения см. в режимах.

Кроме того, необходимо указать параметр, указывающий path на расположение ресурса данных. К поддерживаемым путям относятся:

Расположение	Примеры
Путь к локальному компьютеру	`./home/username/data/my_data`
Путь к хранилищу данных	`azureml://datastores/<data_store_name>/paths/<path>`
Путь к общедоступному HTTP(S)-серверу	`https://raw.githubusercontent.com/pandas-dev/pandas/main/doc/data/titanic.csv`
Путь к службе хранилища Azure	(БОЛЬШОЙ двоичный объект) `wasbs://<containername>@<accountname>.blob.core.windows.net/<path_to_data>/` (ADLS 2-го поколения) `abfss://<file_system>@<account_name>.dfs.core.windows.net/<path>` (ADLS 1-го поколения) `adl://<accountname>.azuredatalakestore.net/<path_to_data>/`

Примечание.

При создании ресурса данных из локального пути он автоматически отправляется в хранилище данных по умолчанию Машинное обучение Azure облачного хранилища данных.

Создание ресурса данных: тип файла

Ресурс данных типа "Файлuri_file" указывает на один файл в хранилище (например, CSV-файл). Вы можете создать ресурс данных с типизированным файлом с помощью:

Создайте ФАЙЛ YAML и скопируйте и вставьте следующий фрагмент кода. Обязательно обновите <> заполнители с помощью

имя ресурса данных
версия
описание
путь к одному файлу в поддерживаемом расположении

$schema: https://azuremlschemas.azureedge.net/latest/data.schema.json

# Supported paths include:
# local: './<path>/<file>' (this will be automatically uploaded to cloud storage)
# blob:  'wasbs://<container_name>@<account_name>.blob.core.windows.net/<path>/<file>'
# ADLS gen2: 'abfss://<file_system>@<account_name>.dfs.core.windows.net/<path>/<file>'
# Datastore: 'azureml://datastores/<data_store_name>/paths/<path>/<file>'

type: uri_file
name: <NAME OF DATA ASSET>
version: <VERSION>
description: <DESCRIPTION>
path: <SUPPORTED PATH>

Затем выполните следующую команду в интерфейсе командной строки. Обязательно обновите <filename> заполнитель до имени файла YAML.

az ml data create -f <filename>.yml

Чтобы создать ресурс данных типа файла, используйте этот фрагмент кода и обновите <> заполнители своими сведениями.

from azure.ai.ml import MLClient
from azure.ai.ml.entities import Data
from azure.ai.ml.constants import AssetTypes
from azure.identity import DefaultAzureCredential

# Connect to the AzureML workspace
subscription_id = "<SUBSCRIPTION_ID>"
resource_group = "<RESOURCE_GROUP>"
workspace = "<AML_WORKSPACE_NAME>"

ml_client = MLClient(
    DefaultAzureCredential(), subscription_id, resource_group, workspace
)

# Set the version number of the data asset (for example: '1')
VERSION = "<VERSION>"

# Set the path, supported paths include:
# local: './<path>/<file>' (this will be automatically uploaded to cloud storage)
# blob:  'wasbs://<container_name>@<account_name>.blob.core.windows.net/<path>/<file>'
# ADLS gen2: 'abfss://<file_system>@<account_name>.dfs.core.windows.net/<path>/<file>'
# Datastore: 'azureml://datastores/<data_store_name>/paths/<path>/<file>'
path = "<SUPPORTED PATH>"

# Define the Data asset object
my_data = Data(
    path=path,
    type=AssetTypes.URI_FILE,
    description="<ADD A DESCRIPTION HERE>",
    name="<NAME OF DATA ASSET>",
    version=VERSION,
)

# Create the data asset in the workspace
ml_client.data.create_or_update(my_data)

Создание ресурса данных: тип папки

Ресурс данных типа папки (uri_folder) указывает на папку в ресурсе хранилища, например папку , содержащую несколько вложенных папок изображений. Вы можете создать ресурс данных, типизированный в папке, с помощью:

Скопируйте и вставьте следующий код в новый ФАЙЛ YAML. Обязательно обновите <> заполнители с помощью

Имя ресурса данных
Версия
Description
Путь к папке в поддерживаемом расположении

$schema: https://azuremlschemas.azureedge.net/latest/data.schema.json

# Supported paths include:
# local: './<path>/<folder>' (this will be automatically uploaded to cloud storage)
# blob:  'wasbs://<container_name>@<account_name>.blob.core.windows.net/<path>/<folder>'
# ADLS gen2: 'abfss://<file_system>@<account_name>.dfs.core.windows.net/<path>/<folder>'
# Datastore: 'azureml://datastores/<data_store_name>/paths/<path>/<folder>'

type: uri_folder
name: <NAME OF DATA ASSET>
version: <VERSION>
description: <DESCRIPTION>
path: <SUPPORTED PATH>

az ml data create -f <filename>.yml

Чтобы создать ресурс данных типа папки, используйте следующий код и обновите <> заполнители с информацией.

from azure.ai.ml import MLClient
from azure.ai.ml.entities import Data
from azure.ai.ml.constants import AssetTypes
from azure.identity import DefaultAzureCredential

# Connect to the AzureML workspace
subscription_id = "<SUBSCRIPTION_ID>"
resource_group = "<RESOURCE_GROUP>"
workspace = "<AML_WORKSPACE_NAME>"

ml_client = MLClient(
    DefaultAzureCredential(), subscription_id, resource_group, workspace
)

# Set the version number of the data asset (for example: '1')
VERSION = "<VERSION>"

# Set the path, supported paths include:
# local: './<path>/<folder>' (this will be automatically uploaded to cloud storage)
# blob:  'wasbs://<container_name>@<account_name>.blob.core.windows.net/<path>/<folder>'
# ADLS gen2: 'abfss://<file_system>@<account_name>.dfs.core.windows.net/<path>/<folder>'
# Datastore: 'azureml://datastores/<data_store_name>/paths/<path>/<folder>'
path = "<SUPPORTED PATH>"

# Define the Data asset object
my_data = Data(
    path=path,
    type=AssetTypes.URI_FOLDER,
    description="<ADD A DESCRIPTION HERE>",
    name="<NAME OF DATA ASSET>",
    version=VERSION,
)

# Create the data asset in the workspace
ml_client.data.create_or_update(my_data)

Создание ресурса данных: тип таблицы

Машинное обучение Azure таблицы (MLTable) имеют широкие функциональные возможности, описанные более подробно в статье "Работа с таблицами в Машинное обучение Azure". Вместо повторения этой документации ознакомьтесь с этим примером, в котором описывается создание ресурса данных с типизированными таблицами, с титаническими данными, расположенными на общедоступной Хранилище BLOB-объектов Azure учетной записи.

Сначала создайте новый каталог, называемый данными, и создайте файл с именем MLTable:

mkdir data
touch MLTable

Затем скопируйте и вставьте следующий YAML в файл MLTable , созданный на предыдущем шаге:

Внимание

Не переименуйте файл MLTable.yaml в MLTable илиMLTable.yml. Машинное обучение Azure ожидает MLTable файл.

paths:
- file: wasbs://data@azuremlexampledata.blob.core.windows.net/titanic.csv
transformations:
- read_delimited:
    delimiter: ','
    empty_as_string: false
    encoding: utf8
    header: all_files_same_headers
    include_path_column: false
    infer_column_types: true
    partition_size: 20971520
    path_column: Path
    support_multi_line: false
- filter: col('Age') > 0
- drop_columns:
  - PassengerId
- convert_column_types:
  - column_type:
      boolean:
        false_values:
        - 'False'
        - 'false'
        - '0'
        mismatch_as: error
        true_values:
        - 'True'
        - 'true'
        - '1'
    columns: Survived
type: mltable

Выполните следующую команду в CLI. Обязательно обновите <> заполнители с именем ресурса данных и значениями версии.

az ml data create --path ./data --name <DATA ASSET NAME> --version <VERSION> --type mltable

Внимание

Должно path быть папка , содержащая допустимый MLTable файл.

Используйте этот фрагмент кода для создания типа ресурса данных таблицы (mltable). Обязательно обновите <> заполнители своими сведениями.

import mltable
from mltable import MLTableHeaders, MLTableFileEncoding, DataType
from azure.ai.ml import MLClient
from azure.ai.ml.entities import Data
from azure.ai.ml.constants import AssetTypes
from azure.identity import DefaultAzureCredential

# create paths to the data files
paths = [{"file": "wasbs://data@azuremlexampledata.blob.core.windows.net/titanic.csv"}]

# create an MLTable from the data files
tbl = mltable.from_delimited_files(
    paths=paths,
    delimiter=",",
    header=MLTableHeaders.all_files_same_headers,
    infer_column_types=True,
    include_path_column=False,
    encoding=MLTableFileEncoding.utf8,
)

# filter out rows undefined ages
tbl = tbl.filter("col('Age') > 0")

# drop PassengerId
tbl = tbl.drop_columns(["PassengerId"])

# ensure survived column is treated as boolean
data_types = {
    "Survived": DataType.to_bool(
        true_values=["True", "true", "1"], false_values=["False", "false", "0"]
    )
}
tbl = tbl.convert_column_types(data_types)

# show the first few records
print(tbl.show())

# save the data loading steps in an MLTable file
mltable_folder = "./titanic"
tbl.save(mltable_folder)

# Connect to the AzureML workspace
subscription_id = "<SUBSCRIPTION_ID>"
resource_group = "<RESOURCE_GROUP>"
workspace = "<AML_WORKSPACE_NAME>"

ml_client = MLClient(
    DefaultAzureCredential(), subscription_id, resource_group, workspace
)

# Define the Data asset object
my_data = Data(
    path=mltable_folder,
    type=AssetTypes.MLTABLE,
    description="<ADD A DESCRIPTION HERE>",
    name="<NAME OF DATA ASSET>",
    version="<SET VERSION HERE>",
)

# Create the data asset in the workspace
ml_client.data.create_or_update(my_data)

Внимание

В настоящее время пользовательский интерфейс Студии имеет ограниченные функциональные возможности для создания типизированных ресурсов таблицы (MLTable). Рекомендуется использовать пакет SDK Для Python для создания и создания типизированных ресурсов данных таблицы (MLTable).

Создание ресурсов данных из выходных данных задания

Вы можете создать ресурс данных из задания Машинное обучение Azure. Для этого задайте name параметр в выходных данных. В этом примере вы отправляете задание, которое копирует данные из общедоступного хранилища BLOB-объектов в хранилище данных по умолчанию Машинное обучение Azure datastore и создает ресурс данных с именемjob_output_titanic_asset.

Создайте файл YAML спецификации задания (<file-name>.yml):

$schema: https://azuremlschemas.azureedge.net/latest/commandJob.schema.json

# path: Set the URI path for the data. Supported paths include
# local: `./<path>
# Blob: wasbs://<container_name>@<account_name>.blob.core.windows.net/<path>
# ADLS: abfss://<file_system>@<account_name>.dfs.core.windows.net/<path>
# Datastore: azureml://datastores/<data_store_name>/paths/<path>
# Data Asset: azureml:<my_data>:<version>

# type: What type of data are you pointing to?
# uri_file (a specific file)
# uri_folder (a folder)
# mltable (a table)

# mode: Set INPUT mode:
# ro_mount (read-only mount)
# download (download from storage to node)
# mode: Set the OUTPUT mode
# rw_mount (read-write mount)
# upload (upload data from node to storage)

type: command
command: cp ${{inputs.input_data}} ${{outputs.output_data}}
compute: azureml:cpu-cluster
environment: azureml://registries/azureml/environments/sklearn-1.1/versions/4
inputs:
  input_data:
    mode: ro_mount
    path: wasbs://data@azuremlexampledata.blob.core.windows.net/titanic.csv
    type: uri_file
outputs:
  output_data:
    mode: rw_mount
    path: azureml://datastores/workspaceblobstore/paths/quickstart-output/titanic.csv
    type: uri_file
    name: job_output_titanic_asset

Затем отправьте задание с помощью интерфейса командной строки:

az ml job create --file <file-name>.yml

from azure.ai.ml import command, Input, Output, MLClient
from azure.ai.ml.constants import AssetTypes, InputOutputModes
from azure.identity import DefaultAzureCredential

# Set your subscription, resource group and workspace name:
subscription_id = "<SUBSCRIPTION_ID>"
resource_group = "<RESOURCE_GROUP>"
workspace = "<AML_WORKSPACE_NAME>"

# connect to the AzureML workspace
ml_client = MLClient(
    DefaultAzureCredential(), subscription_id, resource_group, workspace
)

# ==============================================================
# Set the input and output URI paths for the data. Supported paths include:
# local: `./<path>
# Blob: wasbs://<container_name>@<account_name>.blob.core.windows.net/<path>
# ADLS: abfss://<file_system>@<account_name>.dfs.core.windows.net/<path>
# Datastore: azureml://datastores/<data_store_name>/paths/<path>
# Data Asset: azureml:<my_data>:<version>
# As an example, we set the input path to a file on a public blob container
# As an example, we set the output path to a folder in the default datastore
# ==============================================================
input_path = "wasbs://data@azuremlexampledata.blob.core.windows.net/titanic.csv"
output_path = "azureml://datastores/workspaceblobstore/paths/quickstart-output/titanic.csv"

# ==============================================================
# What type of data are you pointing to?
# AssetTypes.URI_FILE (a specific file)
# AssetTypes.URI_FOLDER (a folder)
# AssetTypes.MLTABLE (a table)
# The path we set above is a specific file
# ==============================================================
data_type = AssetTypes.URI_FILE

# ==============================================================
# Set the input mode. The most commonly-used modes:
# InputOutputModes.RO_MOUNT
# InputOutputModes.DOWNLOAD
# Set the mode to Read Only (RO) to mount the data
# ==============================================================
input_mode = InputOutputModes.RO_MOUNT

# ==============================================================
# Set the output mode. The most commonly-used modes:
# InputOutputModes.RW_MOUNT
# InputOutputModes.UPLOAD
# Set the mode to Read Write (RW) to mount the data
# ==============================================================
output_mode = InputOutputModes.RW_MOUNT

# ==============================================================
# Set a data asset name for the output
# ==============================================================
data_asset_name = "job_output_titanic_asset"

# Set the input and output for the job:
inputs = {
    "input_data": Input(type=data_type, path=input_path, mode=input_mode)
}

outputs = {
    "output_data": Output(type=data_type, path=output_path, mode=output_mode, name = data_asset_name)
}

# This command job copies the data to your default Datastore
job = command(
    command="cp ${{inputs.input_data}} ${{outputs.output_data}}",
    inputs=inputs,
    outputs=outputs,
    environment="azureml://registries/azureml/environments/sklearn-1.1/versions/4",
    compute="cpu-cluster",
)

# Submit the command
ml_client.jobs.create_or_update(job)

Управление ресурсами-контейнерами данных

Удаление ресурса данных

Внимание

По проектированию удаление ресурса данных не поддерживается.

Если машинное обучение Azure позволило удалить ресурс данных, это приведет к следующим негативным и негативным последствиям:

Рабочие задания , использующие ресурсы данных, которые были удалены позже, завершится сбоем.
Было бы труднее воспроизвести эксперимент машинного обучения.
Происхождение заданий будет нарушено, так как невозможно просмотреть удаленную версию ресурса данных.
Вы не сможете правильно отслеживать и проверять , так как версии могут быть отсутствуют.

Таким образом, неизменяемость ресурсов данных обеспечивает уровень защиты при работе в команде, создавая рабочие нагрузки рабочей среды.

Для ошибочно созданного ресурса данных , например с неправильным именем, типом или путем, Машинное обучение Azure предлагает решения для обработки ситуации без негативных последствий удаления:

Я хочу удалить этот ресурс данных, так как...	Решение
Неправильное имя	Архивация ресурса данных
Команда больше не использует ресурс данных	Архивация ресурса данных
Он загромождает список ресурсов данных	Архивация ресурса данных
Неправильный путь	Создайте новую версию ресурса данных (то же имя) с правильным путем. Дополнительные сведения см. в статье "Создание ресурсов данных".
Он имеет неправильный тип	В настоящее время Машинное обучение Azure не позволяет создавать новую версию с другим типом по сравнению с исходной версией. (1) Архивация ресурса данных (2) Создайте новый ресурс данных под другим именем с правильным типом.

Архивация ресурса данных

Архивация ресурса данных по умолчанию скрывается из обоих запросов списка (например, в CLI az ml data list) и в списке ресурсов данных в пользовательском интерфейсе Studio. Вы по-прежнему можете ссылаться и использовать архивированный ресурс данных в рабочих процессах. Вы можете архивировать:

Все версии ресурса данных под заданным именем

Определенная версия ресурса данных

Архивация всех версий ресурса данных

Чтобы архивировать все версии ресурса данных под заданным именем, используйте следующую команду:

Выполните следующую команду . Обязательно обновите <> заполнители своими сведениями.

az ml data archive --name <NAME OF DATA ASSET>

from azure.ai.ml import MLClient
from azure.identity import DefaultAzureCredential

# Connect to the AzureML workspace
subscription_id = "<SUBSCRIPTION_ID>"
resource_group = "<RESOURCE_GROUP>"
workspace = "<AML_WORKSPACE_NAME>"

ml_client = MLClient(
    DefaultAzureCredential(), subscription_id, resource_group, workspace
)

# Create the data asset in the workspace
ml_client.data.archive(name="<DATA ASSET NAME>")

Архивация определенной версии ресурса данных

Чтобы архивировать определенную версию ресурса данных, используйте:

Выполните следующую команду . Обязательно обновите <> заполнители с именем ресурса данных и версии.

az ml data archive --name <NAME OF DATA ASSET> --version <VERSION TO ARCHIVE>

from azure.ai.ml import MLClient
from azure.identity import DefaultAzureCredential

# Connect to the AzureML workspace
subscription_id = "<SUBSCRIPTION_ID>"
resource_group = "<RESOURCE_GROUP>"
workspace = "<AML_WORKSPACE_NAME>"

ml_client = MLClient(
    DefaultAzureCredential(), subscription_id, resource_group, workspace
)

# Create the data asset in the workspace
ml_client.data.archive(name="<DATA ASSET NAME>", version="<VERSION TO ARCHIVE>")

Восстановление архивированного ресурса данных

Архивный ресурс данных можно восстановить. Если архивируются все версии ресурса данных, восстановление отдельных версий ресурса данных невозможно. Необходимо восстановить все версии.

Восстановление всех версий ресурса данных

Чтобы восстановить все версии ресурса данных под заданным именем, используйте следующую команду:

Выполните следующую команду . Обязательно обновите <> заполнители с именем ресурса данных.

az ml data restore --name <NAME OF DATA ASSET>

from azure.ai.ml import MLClient
from azure.identity import DefaultAzureCredential

# Connect to the AzureML workspace
subscription_id = "<SUBSCRIPTION_ID>"
resource_group = "<RESOURCE_GROUP>"
workspace = "<AML_WORKSPACE_NAME>"

ml_client = MLClient(
    DefaultAzureCredential(), subscription_id, resource_group, workspace
)

# Create the data asset in the workspace
ml_client.data.restore(name="<DATA ASSET NAME>")

Восстановление определенной версии ресурса данных

Внимание

Если все версии ресурса данных были архивированы, вы не можете восстановить отдельные версии ресурса данных. Необходимо восстановить все версии.

Чтобы восстановить определенную версию ресурса данных, используйте:

Выполните следующую команду . Обязательно обновите <> заполнители с именем ресурса данных и версии.

az ml data restore --name <NAME OF DATA ASSET> --version <VERSION TO ARCHIVE>

from azure.ai.ml import MLClient
from azure.identity import DefaultAzureCredential

# Connect to the AzureML workspace
subscription_id = "<SUBSCRIPTION_ID>"
resource_group = "<RESOURCE_GROUP>"
workspace = "<AML_WORKSPACE_NAME>"

ml_client = MLClient(
    DefaultAzureCredential(), subscription_id, resource_group, workspace
)

# Create the data asset in the workspace
ml_client.data.restore(name="<DATA ASSET NAME>", version="<VERSION TO ARCHIVE>")

Происхождение данных

Происхождение данных широко понимается как жизненный цикл, охватывающий источник данных, и где он перемещается с течением времени в хранилище. Используйте различные типы сценариев обратного просмотра, например

Устранение неполадок
Трассировка первопричин в конвейерах машинного обучения
Отладка

Кроме того, используется анализ качества данных, соответствие требованиям и сценарии "что если". Происхождение представляется визуально для отображения данных, перемещаемых из источника в место назначения, а также охватывает преобразования данных. Учитывая сложность большинства корпоративных сред данных, эти представления могут стать трудно понять без консолидации или маскирования периферийных точек данных.

В конвейере Машинное обучение Azure ресурсы данных показывают происхождение данных и способ обработки данных, например:

Снимок экрана: происхождение данных в сведениях о задании.

Вы можете просмотреть задания, использующие ресурс данных в пользовательском интерфейсе Студии. Сначала выберите "Данные " в меню слева и выберите имя ресурса данных. Обратите внимание на задания, используемые ресурсом данных:

Снимок экрана: задания, использующие ресурс данных.

Представление заданий в ресурсах данных упрощает поиск сбоев заданий и анализ первопричин в конвейерах машинного обучения и отладке.

Тег ресурса данных

Ресурсы данных поддерживают теги, которые являются дополнительными метаданными, применяемыми к ресурсу данных в качестве пары "ключ-значение". Теги данных предоставляют множество преимуществ:

Описание качества данных. Например, если в вашей организации используется архитектура medallion lakehouse, можно пометить ресурсы с помощью medallion:bronze (необработанных), medallion:silver (проверено) и medallion:gold (обогащено).
Эффективный поиск и фильтрация данных для обнаружения данных.
Идентификация конфиденциальных персональных данных для правильного управления доступом к данным и управления ими. Например, sensitivity:PII/sensitivity:nonPII.
Определение того, утверждены ли данные ответственным аудитом ИИ (RAI). Например, RAI_audit:approved/RAI_audit:todo.

Теги можно добавить в ресурсы данных в рамках процесса создания или добавить теги в существующие ресурсы данных. В этом разделе показаны оба:

Добавление тегов в рамках потока создания ресурса данных

Создайте ФАЙЛ YAML и скопируйте и вставьте следующий код в этот ФАЙЛ YAML. Обязательно обновите <> заполнители с помощью

имя ресурса данных
версия
описание
теги (пары "ключ-значение")
путь к одному файлу в поддерживаемом расположении

$schema: https://azuremlschemas.azureedge.net/latest/data.schema.json

# Supported paths include:
# local: './<path>/<file>' (this will be automatically uploaded to cloud storage)
# blob:  'wasbs://<container_name>@<account_name>.blob.core.windows.net/<path>/<file>'
# ADLS gen2: 'abfss://<file_system>@<account_name>.dfs.core.windows.net/<path>/<file>'
# Datastore: 'azureml://datastores/<data_store_name>/paths/<path>/<file>'

# Data asset types, use one of:
# uri_file, uri_folder, mltable

type: uri_file
name: <NAME OF DATA ASSET>
version: <VERSION>
description: <DESCRIPTION>
tags:
    <KEY1>: <VALUE>
    <KEY2>: <VALUE>
path: <SUPPORTED PATH>

Выполните следующую команду в CLI. Обязательно обновите <filename> заполнитель до имени файла YAML.

az ml data create -f <filename>.yml

Используйте следующий код для создания ресурса данных типа файла и обновления <> заполнителей со сведениями:

from azure.ai.ml import MLClient
from azure.ai.ml.entities import Data
from azure.ai.ml.constants import AssetTypes
from azure.identity import DefaultAzureCredential

# Connect to the AzureML workspace
subscription_id = "<SUBSCRIPTION_ID>"
resource_group = "<RESOURCE_GROUP>"
workspace = "<AML_WORKSPACE_NAME>"

ml_client = MLClient(
    DefaultAzureCredential(), subscription_id, resource_group, workspace
)

# Set the version number of the data asset (for example: '1')
VERSION = "<VERSION>"

# Set the path, supported paths include:
# local: './<path>/<file>' (this will be automatically uploaded to cloud storage)
# blob:  'wasbs://<container_name>@<account_name>.blob.core.windows.net/<path>/<file>'
# ADLS gen2: 'abfss://<file_system>@<account_name>.dfs.core.windows.net/<path>/<file>'
# Datastore: 'azureml://datastores/<data_store_name>/paths/<path>/<file>'
path = "<SUPPORTED PATH>"

# Set the type, use on of the following asset type constants:
# AssetTypes.URI_FILE, AssetTypes.URI_FOLDER, AssetTypes.MLTABLE
data_asset_type = AssetTypes.<TYPE>

# Set the tags - update with your key-value pairs
tags = {
    "<KEY1>:" "<VALUE>"
    "<KEY2>:" "<VALUE>"
}

# Define the Data asset object
my_data = Data(
    path=path,
    type=data_asset_type,
    description="<ADD A DESCRIPTION HERE>",
    name="<NAME OF DATA ASSET>",
    version=VERSION,
    tags=tags,
)

# Create the data asset in the workspace
ml_client.data.create_or_update(my_data)

Добавление тегов в существующий ресурс данных

Выполните следующую команду в Azure CLI. Обязательно обновите <> заполнители с помощью

Имя ресурса данных
Версия
Пара "Ключ-значение" для тега

az ml data update --name <DATA ASSET NAME> --version <VERSION> --set tags.<KEY>=<VALUE>

from azure.ai.ml import MLClient
from azure.identity import DefaultAzureCredential

# Connect to the AzureML workspace
subscription_id = "<SUBSCRIPTION_ID>"
resource_group = "<RESOURCE_GROUP>"
workspace = "<AML_WORKSPACE_NAME>"

ml_client = MLClient(
    DefaultAzureCredential(), subscription_id, resource_group, workspace
)

# Get the data asset in the workspace
data = ml_client.data.get(name="<DATA ASSET NAME>", version="<VERSION>")

# add a tag
tags = {
    "<KEY1>": "<VALUE>",
    "<KEY2>": "<VALUE>",
}

# add the tags to the data asset object
data.tags = tags

# update the data asset in your workspace
ml_client.data.create_or_update(data)

Поделиться через

Создание ресурсов данных и управление ими

Необходимые компоненты

Создание ресурсов данных

Создание ресурса данных: тип файла

Создание ресурса данных: тип папки

Создание ресурса данных: тип таблицы

Создание ресурсов данных из выходных данных задания

Управление ресурсами-контейнерами данных

Удаление ресурса данных

Архивация ресурса данных

Архивация всех версий ресурса данных

Архивация определенной версии ресурса данных

Восстановление архивированного ресурса данных

Восстановление всех версий ресурса данных

Восстановление определенной версии ресурса данных

Происхождение данных

Тег ресурса данных

Добавление тегов в рамках потока создания ресурса данных

Добавление тегов в существующий ресурс данных

Рекомендации по управлению версиями

Следующие шаги

Обратная связь

Дополнительные ресурсы