Поделиться через


Подключение к данным с помощью Студии машинного обучения Azure

Внимание

В этой статье содержатся сведения об использовании пакета SDK машинного обучения Azure версии 1. Пакет SDK версии 1 устарел с 31 марта 2025 г. Поддержка будет завершена 30 июня 2026 г. Вы можете установить и использовать пакет SDK версии 1 до этой даты.

Рекомендуется перейти на пакет SDK версии 2 до 30 июня 2026 г. Дополнительные сведения о пакете SDK версии 2 см. в статье "Что такое ИНТЕРФЕЙС командной строки Машинного обучения Azure" и пакет SDK для Python версии 2 исправочник по пакету SDK версии 2.

В этой статье показано, как получить доступ к данным с помощью Студия машинного обучения Azure. Подключитесь к данным в службах хранилища Azure с Машинное обучение Azure хранилищами данных. Затем упаковайте эти данные для задач рабочего процесса машинного обучения с помощью Машинное обучение Azure наборов данных.

Эта таблица определяет и суммирует преимущества хранилищ данных и наборов данных.

Объект Описание Льготы
Хранилища данных Чтобы безопасно подключиться к службе хранилища в Azure, сохраните сведения о подключении (идентификатор подписки, авторизация маркера и т. д.) в Key Vault , связанном с рабочей областью. Так как ваши данные безопасно хранятся, учетные данные проверки подлинности или исходные источники данных не подвергаются риску, и вам больше не нужно жестко кодировать эти значения в скриптах.
Наборы данных Создание набора данных также создает ссылку на расположение источника данных, а также копию ее метаданных. С помощью наборов данных можно получать доступ к данным во время обучения модели, совместно использовать данные, совместно работать с другими пользователями и использовать библиотеки с открытым кодом, например pandas, для изучения данных. Так как наборы данных оцениваются лениво, а данные остаются в существующем расположении, вы храните одну копию данных в хранилище. Кроме того, вы не несете дополнительных затрат на хранилище, избегайте непреднамеренных изменений в исходных источниках данных, а скорость производительности рабочего процесса машинного обучения улучшается.

Дополнительные сведения о том, как хранилища данных и наборы данных вписываются в общий рабочий процесс доступа к данным в Azure Machine Learning, можно найти на странице Безопасного доступа к данным.

Чтобы получить дополнительную информацию о пакете SDK для Python для Машинного обучения Azure и опыте работы преимущественно с кодом, посетите .

Необходимые компоненты

  • Подписка Azure. Если у вас еще нет подписки Azure, создайте бесплатную учетную запись, прежде чем начинать работу. Попробуйте бесплатную или платную версию Машинное обучение Azure

  • Доступ к Студия машинного обучения Azure

  • Рабочая область Машинного обучения Azure. Создание ресурсов рабочей области

    • При создании рабочей области контейнер BLOB-объектов Azure и общая папка Azure автоматически регистрируются в рабочей области в качестве хранилищ данных. Они называются workspaceblobstore и workspacefilestore, соответственно. Для достаточного объема ресурсов workspaceblobstore хранилища BLOB-объектов устанавливается в качестве хранилища данных по умолчанию, уже настроенного для использования. Для дополнительных объектов BLOB требуется учетная запись хранения Azure с поддерживаемым типом хранилища.

Создание хранилищ данных

Хранилища данных можно создавать на основе этих решений службы хранилища Azure. Для неподдерживаемых решений хранилища и для снижения затрат на исходящие данные во время экспериментов c Машинным обучением необходимо переместить данные в поддерживаемое решение службы хранилища Azure. Дополнительные сведения о хранилищах данных см . в этом ресурсе.

Вы можете создавать хранилища данных с доступом на основе учетных данных или на основе удостоверений.

Создайте хранилище данных с помощью Студия машинного обучения Azure.

Внимание

Если учетная запись хранения данных находится в виртуальной сети, необходимо выполнить дополнительные действия по настройке, чтобы убедиться, что студия может получить доступ к вашим данным. Дополнительные сведения о соответствующих шагах настройки см . в разделе "Изоляция сети и конфиденциальность ".

  1. Войдите в Студию машинного обучения Azure.
  2. Выберите данные на левой панели в разделе "Активы".
  3. В верхней части выберите хранилища данных.
  4. Нажмите кнопку +Создать.
  5. Заполните форму, чтобы создать и зарегистрировать новое хранилище данных. Форма самостоятельно интеллектуально обновится в соответствии с выбранным типом хранилища Azure и типа проверки подлинности. Дополнительные сведения о том, где найти учетные данные проверки подлинности, необходимые для заполнения этой формы, см. в разделе доступа к хранилищу и разрешений этого документа.

На следующем снимке экрана показана панель создания хранилища данных BLOB-объектов Azure.

Снимок экрана: панель создания хранилища данных BLOB-объектов Azure.

Создание ресурсов данных

После формирования хранилища данных создайте набор данных для взаимодействия с данными. Наборы данных упаковают данные в неявно оцененный используемый объект для задач машинного обучения, например обучение. Дополнительные сведения о наборах данных см. в статье "Создание Машинное обучение Azure наборов данных".

Наборы данных имеют два типа: FileDataset и TabularDataset. FileDatasets создает ссылки на один или несколько файлов или общедоступные URL-адреса. Табличные данные представляют данные в табличном формате. Табличные данные можно создать из

  • .csv
  • .tsv
  • .паркет
  • .json файлы и результаты SQL-запроса.

Ниже описано, как создать набор данных в Студия машинного обучения Azure.

Примечание.

Наборы данных, созданные с помощью Студии машинного обучения Azure, автоматически регистрируются в рабочей области.

  1. Перейдите к Студия машинного обучения Azure

  2. В разделе "Ресурсы " в области навигации слева выберите "Данные". На вкладке "Ресурсы данных" выберите "Создать", как показано на следующем снимке экрана:

Снимок экрана, показывающий

  1. Присвойте ресурсу данных имя и необязательное описание. Затем в разделе "Тип" выберите тип набора данных ( файл или табличный), как показано на следующем снимке экрана:

Снимок экрана: параметр имени, описания и типа ресурса данных.

  1. Откроется следующая область источника данных , как показано на следующем снимке экрана:

Снимок экрана: область выбора источника данных.

У вас есть разные варианты для источника данных. Для данных, уже хранящихся в Azure, выберите "Из хранилища Azure". Чтобы передать данные с локального диска, выберите "Из локальных файлов". Для данных, хранящихся в общедоступном веб-расположении, выберите "Из веб-файлов". Вы также можете создать ресурс данных из базы данных SQL или из открытых наборов данных Azure.

  1. На шаге выбора файла выберите расположение, в котором Azure должна хранить данные, и файлы данных, которые вы хотите использовать.

    1. Включите отказ от проверки, если данные находятся в виртуальной сети. Дополнительные сведения об изоляции виртуальной сети и конфиденциальности см. в этом ресурсе.
  2. Выполните действия, чтобы задать параметры синтаксического анализа данных и схему для ресурса данных. Параметры предварительно заполняются на основе типа файла и можно дополнительно настроить параметры перед созданием ресурса данных.

  3. После достижения шага проверки нажмите кнопку "Создать" на последней странице

Предварительный просмотр и профиль данных

После создания набора данных убедитесь, что вы можете просмотреть предварительный просмотр и профиль в студии:

  1. Войдите в Студию машинного обучения Azure.
  2. В разделе "Ресурсы " в области навигации слева выберите "Данные ", как показано на следующем снимке экрана:

Снимок экрана: создание на вкладке

  1. Выберите имя набора данных для просмотра.
  2. Выберите вкладку Explore (Изучение).
  3. Выберите вкладку "Предварительный просмотр ", как показано на следующем снимке экрана:

Снимок экрана: предварительный просмотр набора данных.

  1. Перейдите на вкладку "Профиль" , как показано на следующем снимке экрана:

Снимок экрана: метаданные столбца набора данных на вкладке

Чтобы убедиться, что набор данных готов к машинному обучению, можно использовать сводную статистику по набору данных. Для нечисловых столбцов эти статистические показатели включают только основные статистические меры, например min, max и число ошибок. Числовые столбцы предлагают статистические моменты и оценочные квантили.

Профиль данных набора данных Машинное обучение Azure включает:

Примечание.

Для признаков с неуместными типами отображаются пустые записи.

Статистический показатель Описание
Функция Имя сводного столбца
Профиль Визуализация в строке на основе выводимого типа. Строки, логические значения и даты имеют количество значений. Десятичные (числовые) имеют приблизительные гистограммы. Эти визуализации обеспечивают быстрое понимание распределения данных
Распределение по типам Встроенный счетчик значений для типов в столбце. Значения NULL являются собственным типом, поэтому эта визуализация может обнаруживать нечетные или отсутствующие значения.
Тип Тип выводимых столбцов. Возможные значения: строки, логические значения, даты и десятичные разряды
Мин. Минимальное значение в столбце. Пустые записи отображаются для функций, тип которых не имеет встроенных упорядочений (например, логических элементов)
Макс. Максимальное значение в столбце.
Численность Общее количество отсутствующих и неисключающих записей в столбце
Присутствующее количество Количество присутствующих записей в столбце. Пустые строки и ошибки обрабатываются как значения, поэтому они не вносят вклад в "отсутствие счетчика".
Квантили Приблизительные значения для каждого квантиля, чтобы обеспечить чувство распределения данных
Среднее Арифметическое среднее или среднее значение столбца
Стандартное отклонение Измерение количества дисперсии или вариации данных этого столбца
Отклонение Измерение того, насколько далеко данные этого столбца распределяется от его среднего значения
Асимметрия Измеряет разницу данных этого столбца от обычного распределения
Эксцесс Измеряет степень "хвоста" данных этого столбца по сравнению с нормальным распределением

Доступ к хранилищу и разрешения

Чтобы обеспечить безопасное подключение к службе хранилища Azure, Машинное обучение Azure требуется разрешение на доступ к соответствующему хранилищу данных. Этот доступ зависит от учетных данных проверки подлинности, используемых для регистрации хранилища данных.

Виртуальная сеть

Если учетная запись хранения данных находится в виртуальной сети, необходимо выполнить дополнительные действия по настройке, чтобы убедиться, что Машинное обучение Azure имеет доступ к вашим данным. Посетите студию машинного обучения Azure в виртуальной сети , чтобы убедиться, что при создании и регистрации хранилища данных применяются соответствующие действия по настройке.

Проверка доступа

Предупреждение

Доступ между клиентами к учетным записям хранения не поддерживается. Если вашему сценарию требуется межтенантный доступ, обратитесь к (группе поддержки данных машинного обучения Azure) для получения помощи в решении пользовательского кода.

В рамках первоначального процесса создания и регистрации хранилища данных Машинное обучение Azure автоматически проверяет, существует ли базовая служба хранилища, и что у участника-пользователя (имени пользователя, субъекта-службы или маркера SAS) есть доступ к указанному хранилищу.

После создания хранилища данных эта проверка выполняется только для методов, требующих доступа к базовому контейнеру хранилища. Проверка не выполняется при каждом извлечении объектов хранилища данных. Например, проверка происходит при скачивании файлов из хранилища данных. Однако если вы хотите изменить хранилище данных по умолчанию, проверка не происходит.

Чтобы проверить подлинность доступа к базовой службе хранилища, укажите ключ учетной записи, маркеры подписанных URL-адресов (SAS) или субъект-службу в соответствии с типом хранилища данных, который вы хотите создать. В таблице типов хранилища перечислены поддерживаемые типы проверки подлинности, соответствующие каждому типу хранилища данных.

Ключ учетной записи, маркер SAS и сведения о субъекте-службе можно найти на портал Azure.

  • Чтобы получить ключ учетной записи для проверки подлинности, выберите учетные записи хранения в левой области и выберите учетную запись хранения, которую требуется зарегистрировать.

    • Страница "Обзор" содержит такие сведения, как имя учетной записи, контейнер и имя общей папки
    • Разверните узел "Безопасность и сеть" в левой навигации
    • Выберите Ключи доступа.
    • Доступные значения ключей служат значениями ключа учетной записи
  • Чтобы получить маркер SAS для проверки подлинности, выберите учетные записи хранения в левой области и выберите нужную учетную запись хранения.

    • Чтобы получить значение ключа доступа, разверните узел "Безопасность и сеть " в левой навигации
    • Выбор подписанного URL-адреса
    • Завершите процесс, чтобы создать значение SAS
  • Чтобы использовать учетную запись службы для проверки подлинности, перейдите к Регистрация приложений и выберите приложение, которое вы хотите использовать.

    • Соответствующая страница обзора содержит необходимые сведения, такие как идентификатор арендатора и идентификатор клиента.

Внимание

  • Чтобы изменить ключи доступа для учетной записи служба хранилища Azure (ключ учетной записи или маркер SAS), обязательно синхронизируйте новые учетные данные с рабочей областью и хранилищами данных, подключенными к ней. Дополнительные сведения см . в разделе "Синхронизация обновленных учетных данных".
  • Если отменить регистрацию, а затем повторно зарегистрировать хранилище данных с тем же именем, и эта повторная регистрация завершается ошибкой, Azure Key Vault для рабочей области может не включать мягкое удаление. По умолчанию мягкое удаление включено для экземпляра хранилища ключей, созданного вашей рабочей областью. Однако его нельзя включить, если вы использовали существующее хранилище ключей или создали рабочую область до октября 2020 года. Дополнительные сведения о включении обратимого удаления см. в разделе "Включить обратимое удаление" для существующего хранилища ключей.

Разрешения

Для контейнера BLOB-объектов Azure и хранилища Azure Data Lake 2-го поколения убедитесь, что учетные данные проверки подлинности имеют доступ к средству чтения данных BLOB-объектов хранилища. Узнать больше о считывателе BLOB-объектов хранилища. По умолчанию маркер SAS учетной записи не имеет разрешений.

  • Для доступа на чтение данных учетные данные проверки подлинности должны иметь минимум из списка разрешений на чтение для контейнеров и объектов.

  • Для доступа на запись данных также требуются разрешения на запись и добавление.

Обучение с наборами данных

Используйте наборы данных в экспериментах машинного обучения для обучения моделей машинного обучения. Узнайте больше об обучении с наборами данных.

Следующие шаги