Основные понятия данных в Машинное обучение Azure

С помощью Машинное обучение Azure можно импортировать данные с локального компьютера или существующего облачного ресурса хранилища. В этой статье описываются основные понятия Машинное обучение Azure данных.

Хранилище данных

Хранилище данных Машинное обучение Azure служит ссылкой насуществующую учетную запись хранения Azure. Хранилище данных Машинное обучение Azure предлагает следующие преимущества:

  • Общий простой API, взаимодействующий с различными типами хранилища (BLOB-объекты/файлы/ADLS).
  • Упрощение обнаружения полезных хранилищ данных в операциях группы.
  • Для доступа на основе учетных данных (субъект-служба/SAS/ключ) Машинное обучение Azure хранилище данных защищает сведения о подключении. Таким образом, вам не нужно размещать эти сведения в скриптах.

При создании хранилища данных с существующей учетной записью хранения Azure можно выбрать один из двух различных методов проверки подлинности:

  • На основе учетных данных — проверка подлинности доступа к данным с помощью субъекта-службы, маркера подписанного URL-адреса (SAS) или ключа учетной записи. Пользователи с доступом к рабочей области читателя могут получить доступ к учетным данным.
  • На основе удостоверений используйте удостоверение Microsoft Entra или управляемое удостоверение для проверки подлинности доступа к данным.

В следующей таблице приведены облачные службы хранилища Azure, которые могут создавать Машинное обучение Azure хранилище данных. Кроме того, в таблице перечислены типы проверки подлинности, которые могут получить доступ к этим службам:

Поддерживаемая служба хранилища Проверка подлинности на основе учетных данных Проверка подлинности на основе удостоверений
контейнер BLOB-объектов Azure;
Общая папка Azure
Azure Data Lake 1-го поколения
Azure Data Lake 2-го поколения

Дополнительные сведения о хранилищах данных см. в статье "Создание хранилищ данных".

Хранилища данных по умолчанию

Каждая рабочая область Машинное обучение Azure имеет учетную запись хранения по умолчанию (учетную запись хранения Azure), содержащую следующие хранилища данных:

Совет

Чтобы найти идентификатор рабочей области, перейдите в рабочую область в портал Azure. Разверните Параметры и выберите пункт "Свойства". Отображается идентификатор рабочей области.

Имя хранилища данных Тип хранилища данных Имя хранилища данных Description
workspaceblobstore Контейнер BLOB-объектов azureml-blobstore-{workspace-id} Хранит отправку данных, моментальные снимки кода задания и кэш данных конвейера.
workspaceworkingdirectory Общая папка code-{GUID} Хранит данные для записных книжек, вычислительных экземпляров и потока запросов.
workspacefilestore Общая папка azureml-filestore-{workspace-id} Альтернативный контейнер для отправки данных.
workspaceartifactstore Контейнер BLOB-объектов azureml служба хранилища для таких ресурсов, как метрики, модели и компоненты.

Типы данных

URI (расположение хранилища) может ссылаться на файл, папку или таблицу данных. Для определения входных и выходных данных задания машинного обучения требуется один из следующих трех типов данных:

Тип API версии 2 API версии 1 Канонические сценарии Разница API версии 2/V1
Файл
Ссылка на один файл
uri_file FileDataset Чтение и запись одного файла — файл может иметь любой формат. Тип, новый для API версии 2. В API версии 1 файлы всегда сопоставляются с папкой в целевой файловой системе вычислений; для этого сопоставления требуется os.path.join. В API версии 2 один файл сопоставляется. Таким образом, вы можете ссылаться на это расположение в коде.
Папка
Ссылка на одну папку
uri_folder FileDataset Необходимо прочитать и записать папку parquet/CSV-файлов в Pandas/Spark.

Глубокое обучение изображениями, текстом, аудио, видеофайлами, расположенными в папке.
В API FileDataset версии 1 был связанный обработчик, который может взять образец файла из папки. В API версии 2 папка — это простое сопоставление с целевой файловой системой вычислений.
Таблицу
Ссылка на таблицу данных
mltable TabularDataset У вас есть сложная схема с частыми изменениями или требуется подмножество больших табличных данных.

AutoML с таблицами.
В API версии 1 серверная часть Машинное обучение Azure сохранила схему материализации данных. В результате вы работали только в том случае, TabularDataset если у вас была Машинное обучение Azure рабочая область. mltable хранит схему материализации данных в хранилище . Это расположение хранилища означает, что вы можете использовать его отсоединение к AzureML , например локально и локально. В API версии 2 вы сможете легко перейти от локальных к удаленным заданиям. Дополнительные сведения см. в статье "Работа с таблицами" в Машинное обучение Azure.

URI-адрес

Универсальный идентификатор ресурса (URI) представляет расположение хранилища на локальном компьютере, хранилище Azure или общедоступное расположение http(s). В этих примерах показаны URI для различных вариантов хранения:

Расположение хранилища Примеры URI
хранилище данных Машинное обучение Azure azureml://datastores/<data_store_name>/paths/<folder1>/<folder2>/<folder3>/<file>.parquet
Локальный компьютер ./home/username/data/my_data
Общедоступный сервер http(s) https://raw.githubusercontent.com/pandas-dev/pandas/main/doc/data/titanic.csv
Хранилище BLOB-объектов wasbs://<containername>@<accountname>.blob.core.windows.net/<folder>/
Azure Data Lake (2-го поколения) abfss://<file_system>@<account_name>.dfs.core.windows.net/<folder>/<file>.csv
Azure Data Lake (1-го поколения) adl://<accountname>.azuredatalakestore.net/<folder1>/<folder2>

Задание Машинное обучение Azure сопоставляет URI с целевой файловой системой вычислений. Это сопоставление означает, что в команде, которая использует или создает URI, этот URI работает как файл или папка. URI использует проверку подлинности на основе удостоверений для подключения к службам хранилища с идентификатором Microsoft Entra (по умолчанию) или управляемым удостоверением. Машинное обучение Azure URI хранилища данных могут применять проверку подлинности на основе удостоверений или учетные данные (например, субъект-служба, маркер SAS, ключ учетной записи), без раскрытия секретов.

Универсальный код ресурса (URI) может служить входными или выходными данными для задания Машинное обучение Azure, и он может сопоставляться с целевой файловой системой вычислений с одним из четырех различных вариантов режима:

  • Подключение только для чтения (ro_mount): URI представляет расположение хранилища, подключенное к целевой файловой системе вычислений. Подключенное расположение данных поддерживает только выходные данные только для чтения.
  • Подключение для чтения и записи (): URI представляет расположение хранилища, подключенноек целевой файловой системе вычислений.rw_mount Подключенное расположение данных поддерживает как выходные данные чтения, так и записи данных в него.
  • Скачать (download): URI представляет место хранения, содержащее данные, скачанные в целевую файловую систему вычислений.
  • Отправка (upload): все данные, записанные в целевое расположение вычислений, передаются в расположение хранилища, представленное универсальным кодом ресурса (URI).

Кроме того, можно передать URI в качестве входной строки задания с прямым режимом. В этой таблице приведены сведения о сочетании режимов, доступных для входных и выходных данных:

Работа
Вход или выход
upload download ro_mount rw_mount direct
Входные данные
Выходные данные

Дополнительные сведения см . в разделе "Доступ к данным в задании ".

Возможность выполнения данных

Машинное обучение Azure использует собственную среду выполнения данных для одной из трех целей:

  • для подключений, отправки и скачивания
  • Сопоставление URI хранилища с целевой файловой системой вычислений
  • для материализации табличных данных в pandas/spark с помощью таблиц Машинное обучение Azure (mltable)

Среда выполнения данных Машинное обучение Azure предназначена для обеспечения высокой скорости и высокой эффективности задач машинного обучения. Он предлагает следующие ключевые преимущества:

  • Архитектура языка Rust . Язык Rust известен высокой скоростью и высокой эффективностью памяти.
  • Легкий вес; среда выполнения данных Машинное обучение Azure не имеет зависимостей от других технологий — JVM, например, поэтому среда выполнения быстро устанавливается на целевые объекты вычислений.
  • Загрузка данных с несколькими процессами (параллельно).
  • Предварительное получение данных работает в качестве фоновой задачи на ЦП, чтобы повысить использование GPU в операциях глубокого обучения.
  • Простая проверка подлинности в облачном хранилище.

Ресурс данных

Ресурс данных Машинное обучение Azure напоминает закладки веб-браузера (избранное). Вместо запоминания длинных путей хранения (URI), указывающих на наиболее часто используемые данные, можно создать ресурс данных, а затем получить доступ к нему с понятным именем.

Создание ресурса данных также создает ссылку на расположение источника данных, а также копию ее метаданных. Так как данные остаются в существующем расположении, вы не несете дополнительных затрат на хранение и не рискуете целостностью источника данных. Вы можете создавать ресурсы данных из хранилищ данных Машинное обучение Azure, служба хранилища Azure, общедоступных URL-адресов или локальных файлов.

Дополнительные сведения о ресурсах данных см. в статье "Создание ресурсов данных".

Следующие шаги