Подключение к данным с помощью Студии машинного обучения Azure

Статья
06/03/2023

В этой статье вы узнаете, как получить доступ к данным с помощью Студии машинного обучение Azure. Подключайтесь к данным в службах хранилища Azure с помощью хранилищ данных машинного обучения Azure, а затем упаковывайте эти данные для задач в рабочих процессах машинного обучения с помощью наборов данных Машинного обучение Azure.

В таблице ниже определены и обобщены преимущества хранилищ данных и наборов данных.

Объект	Description	Льготы
Хранилища данных	Безопасное подключение к службе хранилища в Azure путем сохранения сведений о подключении, таких как идентификатор подписки и авторизация маркеров в Key Vault, связанных с рабочей областью	Так как ваши данные безопасно хранятся, вы Подвергать риску учетные данные для проверки подлинности или исходные источники данных. Жестко кодировать данные в скриптах.
Наборы данных	Создавая набор данных, вы создаете ссылку на расположение источника данных, а также копию его метаданных. С помощью наборов данных, которые можно использовать, Осуществлять доступ к данным во время обучения модели. Совместно использовать данные и совместно работать с другими пользователями. Использовать библиотеки с открытым исходным кодом, такие как pandas, для изучения данных.	Так как наборы данных оцениваются лениво, а данные остаются в существующем расположении, вы сохраняется одна копия данных в хранилище. Отсутствие дополнительных затрат на хранение Снижаются риски непреднамеренного изменения исходных источников данных. улучшается производительность рабочих процессов машинного обучения.

Сведения о работе с хранилищами данных и наборами данных в общем рабочем процессе доступа к данным в Машинном обучении Azure см. в статье о безопасном доступе к данным.

Сведения о подходе "сперва код" см. в следующих статьях, посвященных использованию Машинного обучения Azure Python SDK, чтобы:

Необходимые компоненты

Подписка Azure. Если у вас еще нет подписки Azure, создайте бесплатную учетную запись, прежде чем начинать работу. Попробуйте бесплатную или платную версию Машинного обучения Azure.
Доступ к Студии машинного обучения Azure.
Рабочая область Машинного обучения Azure. Создание ресурсов рабочей области.
- При создании рабочей области в ней автоматически регистрируются контейнер BLOB-объектов Azure и общая папка Azure как источники данных рабочей области. Они называются workspaceblobstore и workspacefilestore, соответственно. Если хранилище BLOB-объектов достаточно для ваших потребностей, workspaceblobstore задается как хранилище данных по умолчанию и уже настроено для использования. В противном случае потребуется учетная запись хранилища в Azure с поддерживаемым типом хранилища.

Создание хранилищ данных

Хранилища данных можно создавать на основе этих решений службы хранилища Azure. Для неподдерживаемых решений хранилища и для снижения затрат на исходящие данные во время экспериментов c Машинным обучением необходимо переместить данные в поддерживаемое решение службы хранилища Azure. Дополнительные сведения о хранилищах данных.

Вы можете создавать хранилища данных с доступом на основе учетных данных или на основе удостоверений.

На основе учетных данных
На основе удостоверений

Создайте хранилище данных, выполнив всего несколько шагов в Студии машинного обучения Azure.

Важно!

Если учетная запись хранилища данных находится в виртуальной сети, необходимы дополнительные действия по настройке, чтобы обеспечить доступ к данным в студии. Для соответствующих действий по настройке, см. раздел Сетевая изоляция и конфиденциальность.

Войдите в Студию машинного обучения Azure.
Выберите данные на левой панели в разделе "Активы".
В верхней части выберите хранилища данных.
Нажмите кнопку +Создать.
Заполните форму, чтобы создать и зарегистрировать новое хранилище данных. Форма самостоятельно интеллектуально обновится в соответствии с выбранным типом хранилища Azure и типа проверки подлинности. Сведения о том, где найти учетные данные для проверки подлинности, необходимые для заполнения этой формы, см. в разделе по доступу к хранилищу и разрешения.

В следующем примере показано, как выглядит форма при создании хранилища BLOB-объектов Azure.

Form for a new datastore

Создание ресурсов данных

После формирования хранилища данных создайте набор данных для взаимодействия с данными. Наборы данных упаковывают ваши данные в медленном режиме в вычисляемый объект для задач машинного обучения, например для тренировки. Дополнительные сведения о наборах данных.

Существует два типа наборов данных: FileDataset и TabularDataset. Наборы FileDatasets создают ссылки на один или несколько файлов или на общедоступные URL-адреса. Наборы же TabularDatasets представляют данные в табличном формате. TabularDatasets можно создать из файлов CSV, TSC, PARQUET, JSONL и из результатов SQL-запроса.

Ниже описано, как создать набор данных в Студия машинного обучения Azure.

Примечание.

Наборы данных, созданные с помощью Студии машинного обучения Azure, автоматически регистрируются в рабочей области.

Перейдите к Студия машинного обучения Azure
В разделе "Ресурсы " в области навигации слева выберите "Данные". На вкладке "Ресурсы данных" нажмите кнопку "Создать"
Присвойте ресурсу данных имя и необязательное описание. Затем в разделе "Тип" выберите один из типов набора данных либо файл, либо табличный.
У вас есть несколько вариантов для источника данных. Если данные уже хранятся в Azure, выберите "Из хранилища Azure". Если вы хотите передать данные с локального диска, выберите "Из локальных файлов". Если данные хранятся в общедоступном веб-расположении, выберите "Из веб-файлов". Вы также можете создать ресурс данных из базы данных SQL или из открытых наборов данных Azure.
На шаге выбора файла выберите место хранения данных в Azure и файлы данных, которые вы хотите использовать.
1. Включите отказ от проверки, если данные находятся в виртуальной сети. Изучите вопросы изоляции и конфиденциальности виртуальной сети.
Выполните действия, чтобы задать параметры синтаксического анализа данных и схему для ресурса данных. Параметры будут предварительно заполнены на основе типа файла, и вы можете дополнительно настроить параметры перед созданием ресурса данных.
После достижения шага проверки нажмите кнопку "Создать" на последней странице

Предварительный просмотр и профиль данных

После создания набора данных убедитесь, что вы можете просмотреть предварительный просмотр и профиль в студии, выполнив следующие действия.

Войдите в Студию машинного обучения Azure.
В разделе "Ресурсы " в области навигации слева выберите "Данные".
Выберите имя набора данных для просмотра.
Выберите вкладку Explore (Изучение).
Выберите вкладку "Предварительный просмотр ".
Выберите вкладку "Профиль ".

Вы можете получить обширную сводную статистику по набору данных, чтобы проверить, готов ли он к машинному обучению. Для нечисловых столбцов она включает только базовые статистические данные, например минимальное и максимальное значение, а также число ошибок. Для числовых столбцов можно также просмотреть статистические моменты и предполагаемые квантили.

В частности, профиль данных набора данных Машинного обучения Azure включает в себя:

Примечание.

Для признаков с неуместными типами отображаются пустые записи.

Статистический показатель	Description
Компонент	Имя столбца, по которому предоставляется сводка.
Profile	Встроенная визуализация на основе выводимого типа. Например, для строк, логических значений и дат будут отображаться счетчики значений, а для десятичных (числовых значений) — аппроксимированные гистограммы. Это позволит быстро получить представление о распределении данных.
Распределение по типам	Встроенный счетчик значений для типов в столбце. Значения NULL имеют собственный тип, поэтому эта визуализация полезна для обнаружения необычных или отсутствующих значений.
Тип	Выводимый тип столбца. Возможные значения: строчные и логические значения, даты и десятичные числа.
Мин.	Минимальное значение в столбце. Пустые записи отображаются для признаков, относящихся к типам без возможности упорядочивания (например, логические значения).
Макс.	Максимальное значение в столбце.
Count	Общее число отсутствующих и присутствующих записей в столбце.
Присутствующее количество	Количество присутствующих записей в столбце. Пустые строки и ошибки обрабатываются как значения, поэтому они не будут учитываться при подсчете количества присутствующих записей.
Квантили	Аппроксимированные значения в каждом квантиле для создания подобия распределения данных.
Среднее	Среднее арифметическое или среднее значение столбца.
Стандартное отклонение	Величина дисперсии или вариации данных в этом столбце.
Отклонение	Мера того, насколько сильно отклоняются данные этого столбца от среднего значения.
Асимметрия	Мера того, насколько отличаются данные этого столбца от нормального распределения.
Эксцесс	Мера того, насколько медленнее убывают данные этого столбца по сравнению с нормальным распределением.

Доступ к хранилищу и разрешения

Чтобы обеспечить безопасное подключение к службе хранилища Azure, Машинному обучению Azure требуется разрешение на доступ к соответствующему хранилищу данных. Этот доступ зависит от учетных данных проверки подлинности, используемых для регистрации хранилища данных.

Виртуальная сеть

Если учетная запись хранилища данных находится в виртуальной сети, необходимы дополнительные действия по настройке, чтобы обеспечить доступ к данным в студии Машинного обучения Azure. Соответствующие инструкции по настройке при создании и регистрации хранилища данных см. в статье Использование Студии машинного обучения Azure в виртуальной сети.

Проверка доступа

Предупреждение

Кросс-клиентский доступ к учетным записям хранения не поддерживается. Если для вашего сценария необходим доступ между клиентами, обратитесь к псевдониму amldatasupport@microsoft.com группы поддержки данных Машинное обучение Azure, чтобы получить помощь с пользовательским решением кода.

В ходе создания и регистрации начального хранилища данных Машинное обучение Azure проверяет, существует ли базовая служба хранилища и имеет ли предоставленный пользователем субъект (имя пользователя, субъект-служба или маркер SAS) доступ к этому хранилищу.

После создания хранилища данных эта проверка осуществляется только для методов, которым требуется доступ к базовому контейнеру хранилища, а не при каждом извлечении объектов хранилища данных. Например, проверка выполняется, если требуется скачать файлы из хранилища данных. Но если вы просто хотите изменить хранилище данных по умолчанию, проверки не будет.

Чтобы проверить подлинность доступа к базовой службе хранилища, можно указать ключ учетной записи, маркеры общего доступа (SAS) или субъект-службу в соответствии с типом хранилища данных, который требуется создать. В таблице типов хранилища перечислены поддерживаемые типы проверки подлинности, соответствующие каждому типу хранилища данных.

Сведения о ключе учетной записи, маркере SAS и субъекте-службе можно найти на портале Azure.

Если для проверки подлинности вы планируете использовать ключ учетной записи или маркер SAS, выберите элемент Учетные записи хранения на панели слева и выберите учетную запись хранения, которую требуется зарегистрировать.
- На странице Обзор приводятся такие сведения, как имя учетной записи, контейнер и имя общей папки.
  1. Чтобы использовать ключи учетной записи, перейдите к элементу Ключи доступа на панели Параметры.
  2. Чтобы использовать маркеры SAS, перейдите к элементу Подписанные URL-адреса на панели Параметры.
Если вы планируете использовать субъект-службу для проверки подлинности, перейдите к Регистрации приложений и выберите приложение, которое вы хотите использовать.
- Соответствующая страница обзора будет содержать требуемые сведения, такие как идентификатор арендатора и идентификатор клиента.

Важно!

Если необходимо изменить ключи доступа для учетной записи хранилища Azure (ключ учетной записи или маркер SAS), не забудьте синхронизировать новые учетные данные с рабочей областью и хранилищами данных, подключенными к ней. Изучите, как синхронизировать обновленные учетные данные.
При отмене регистрации и попытке повторной регистрации хранилища данных с тем же именем операция завершится сбоем, Azure Key Vault для вашей рабочей области не сможет включить обратимое удаление. По умолчанию обратимое удаление включается для экземпляра хранилища ключей, созданного рабочей областью, но оно может не включиться, если использовалось существующее хранилище ключей, или рабочая область была создана до октября 2020 г. Сведения о том, как включить обратимое удаление, см. в разделе Включение обратимого удаления для существующего хранилища ключей.

Разрешения

Для контейнера BLOB-объектов Azure и хранилища Azure Data Lake Gen 2 убедитесь, что учетные данные проверки подлинности имеют доступ роли читателя хранилища BLOB-объектов. Узнать больше о считывателе BLOB-объектов хранилища. По умолчанию маркер SAS учетной записи не имеет разрешений.

Для доступа на чтение данных учетные данные проверки подлинности должны иметь минимум из списка разрешений на чтение для контейнеров и объектов.
Для доступа на запись данных также требуются разрешения на запись и добавление.

Обучение с наборами данных

Используйте наборы данных в экспериментах машинного обучения для обучения моделей машинного обучения. Узнайте больше об обучении с наборами данных.

Следующие шаги

Пошаговый пример обучения с помощью TabularDatasets и автоматизированного машинного обучения.
Train a model (Обучение модели).
Дополнительные примеры обучения наборов данных см. в разделе Примеры блокнотов.