Подключение к данным с помощью Студии машинного обучения Azure
В этой статье показано, как получить доступ к данным с помощью Студия машинного обучения Azure. Подключитесь к данным в службах хранилища Azure с Машинное обучение Azure хранилищами данных. Затем упаковайте эти данные для задач рабочего процесса машинного обучения с помощью Машинное обучение Azure наборов данных.
Эта таблица определяет и суммирует преимущества хранилищ данных и наборов данных.
Объект | Description | Льготы |
---|---|---|
Хранилища данных | Чтобы безопасно подключиться к службе хранилища в Azure, сохраните сведения о подключении (идентификатор подписки, авторизация маркера и т. д.) в Key Vault , связанном с рабочей областью. | Так как ваши данные безопасно хранятся, учетные данные проверки подлинности или исходные источники данных не подвергаются риску, и вам больше не нужно жестко кодировать эти значения в скриптах. |
Наборы данных | Создание набора данных также создает ссылку на расположение источника данных, а также копию ее метаданных. С помощью наборов данных можно получать доступ к данным во время обучения модели, совместно использовать данные и совместно работать с другими пользователями, а также использовать библиотеки с открытым кодом, например pandas, для изучения данных. | Так как наборы данных оцениваются лениво, а данные остаются в существующем расположении, вы храните одну копию данных в хранилище. Кроме того, вы не несете дополнительных затрат на хранилище, избегайте непреднамеренных изменений в исходных источниках данных и повышаете скорость производительности рабочего процесса машинного обучения. |
Чтобы узнать, где хранилища данных и наборы данных соответствуют общему рабочему процессу доступа к данным Машинное обучение Azure, перейдите к данным безопасного доступа.
Дополнительные сведения о пакете SDK для Python Машинное обучение Azure и коде см. в следующих статье:
- Подключение к службам хранилища Azure с помощью хранилищ данных
- Создание наборов данных Машинного обучения Azure
Необходимые компоненты
Подписка Azure. Если у вас еще нет подписки Azure, создайте бесплатную учетную запись, прежде чем начинать работу. Попробуйте бесплатную или платную версию Машинное обучение Azure
Доступ к Студия машинного обучения Azure
Рабочая область Машинного обучения Azure. Создание ресурсов рабочей области
- При создании рабочей области контейнер BLOB-объектов Azure и общая папка Azure автоматически регистрируются в рабочей области в качестве хранилищ данных. Они называются
workspaceblobstore
иworkspacefilestore
, соответственно. Для достаточного объема ресурсовworkspaceblobstore
хранилища BLOB-объектов устанавливается в качестве хранилища данных по умолчанию, уже настроенного для использования. Если требуется больше ресурсов хранилища BLOB-объектов, вам потребуется учетная запись хранения Azure с поддерживаемым типом хранилища.
- При создании рабочей области контейнер BLOB-объектов Azure и общая папка Azure автоматически регистрируются в рабочей области в качестве хранилищ данных. Они называются
Создание хранилищ данных
Хранилища данных можно создавать на основе этих решений службы хранилища Azure. Для неподдерживаемых решений хранилища и для снижения затрат на исходящие данные во время экспериментов c Машинным обучением необходимо переместить данные в поддерживаемое решение службы хранилища Azure. Дополнительные сведения о хранилищах данных см . в этом ресурсе.
Вы можете создавать хранилища данных с доступом на основе учетных данных или на основе удостоверений.
Создайте хранилище данных с помощью Студия машинного обучения Azure.
Внимание
Если учетная запись хранения данных находится в виртуальной сети, необходимо выполнить дополнительные действия по настройке, чтобы обеспечить доступ к данным студии. Дополнительные сведения о соответствующих шагах настройки см . в разделе "Изоляция сети и конфиденциальность ".
- Войдите в Студию машинного обучения Azure.
- Выберите данные на левой панели в разделе "Активы".
- В верхней части выберите хранилища данных.
- Нажмите кнопку +Создать.
- Заполните форму, чтобы создать и зарегистрировать новое хранилище данных. Форма самостоятельно интеллектуально обновится в соответствии с выбранным типом хранилища Azure и типа проверки подлинности. Дополнительные сведения о том, где найти учетные данные проверки подлинности, необходимые для заполнения этой формы, см. в разделе доступа к хранилищу и разрешений.
На снимка экрана показана панель создания хранилища данных BLOB-объектов Azure:
Создание ресурсов данных
После формирования хранилища данных создайте набор данных для взаимодействия с данными. Наборы данных упаковают данные в неявно оцененный используемый объект для задач машинного обучения, например обучение. Дополнительные сведения о наборах данных см. в статье "Создание Машинное обучение Azure наборов данных".
Наборы данных имеют два типа: FileDataset и TabularDataset. FileDatasets создает ссылки на один или несколько файлов или общедоступные URL-адреса. Табличные данные представляют данные в табличном формате. Табличные данные можно создать из
- .csv
- .tsv
- .parquet
- .json файлы и результаты SQL-запроса.
Ниже описано, как создать набор данных в Студия машинного обучения Azure.
Примечание.
Наборы данных, созданные с помощью Студии машинного обучения Azure, автоматически регистрируются в рабочей области.
Перейдите к Студия машинного обучения Azure
В разделе "Ресурсы " в области навигации слева выберите "Данные". На вкладке "Ресурсы данных" нажмите кнопку "Создать"
Присвойте ресурсу данных имя и необязательное описание. Затем в разделе "Тип" выберите тип набора данных либо файл, либо табличный.
Откроется следующая область источника данных, как показано на снимке экрана:
У вас есть разные варианты для источника данных. Для данных, уже хранящихся в Azure, выберите "Из хранилища Azure". Чтобы передать данные с локального диска, выберите "Из локальных файлов". Для данных, хранящихся в общедоступном веб-расположении, выберите "Из веб-файлов". Вы также можете создать ресурс данных из базы данных SQL или из открытых наборов данных Azure.
На шаге выбора файла выберите расположение, в котором Azure должна хранить данные, и файлы данных, которые вы хотите использовать.
- Включите отказ от проверки, если данные находятся в виртуальной сети. Изучите вопросы изоляции и конфиденциальности виртуальной сети.
Выполните действия, чтобы задать параметры синтаксического анализа данных и схему для ресурса данных. Параметры предварительно заполнены на основе типа файла и можно дополнительно настроить параметры перед созданием ресурса данных.
После достижения шага проверки нажмите кнопку "Создать" на последней странице
Предварительный просмотр и профиль данных
После создания набора данных убедитесь, что вы можете просмотреть предварительный просмотр и профиль в студии:
- Войдите в Студию машинного обучения Azure.
- В разделе "Ресурсы " в области навигации слева выберите "Данные".
- Выберите имя набора данных для просмотра.
- Выберите вкладку Explore (Изучение).
- Выберите вкладку "Предварительный просмотр ".
- Выберите вкладку "Профиль ".
С помощью сводной статистики по набору данных можно проверить, готов ли набор данных к машинному обучению. Для нечисловых столбцов эти статистические данные включают только базовую статистику, например min, max и число ошибок. Числовые столбцы предлагают статистические моменты и оценочные квантили.
Профиль данных набора данных Машинное обучение Azure включает:
Примечание.
Для признаков с неуместными типами отображаются пустые записи.
Статистический показатель | Description |
---|---|
Функция | Имя сводного столбца |
Профиль | Визуализация в строке на основе выводимого типа. Строки, логические значения и даты имеют количество значений. Десятичные (числовые) имеют приблизительные гистограммы. Эти визуализации обеспечивают быстрое понимание распределения данных |
Распределение по типам | Встроенный счетчик значений для типов в столбце. Значения NULL являются собственным типом, поэтому эта визуализация может обнаруживать нечетные или отсутствующие значения. |
Тип | Тип выводимых столбцов. Возможные значения: строки, логические значения, даты и десятичные разряды |
Мин. | Минимальное значение в столбце. Пустые записи отображаются для функций, тип которых не имеет встроенных упорядочений (например, логических элементов) |
Макс. | Максимальное значение в столбце. |
Count | Общее количество отсутствующих и неисключающих записей в столбце |
Присутствующее количество | Количество присутствующих записей в столбце. Пустые строки и ошибки обрабатываются как значения, поэтому они не вносят вклад в "отсутствие счетчика". |
Квантили | Приблизительные значения для каждого квантиля, чтобы обеспечить чувство распределения данных |
Среднее | Арифметическое среднее или среднее значение столбца |
Стандартное отклонение | Измерение количества дисперсии или вариации данных этого столбца |
Отклонение | Измерение того, насколько далеко данные этого столбца распределяется от его среднего значения |
Асимметрия | Измеряет разницу данных этого столбца от обычного распределения |
Эксцесс | Измеряет степень "хвоста" данных этого столбца по сравнению с нормальным распределением |
Доступ к хранилищу и разрешения
Чтобы обеспечить безопасное подключение к службе хранилища Azure, Машинное обучение Azure требуется разрешение на доступ к соответствующему хранилищу данных. Этот доступ зависит от учетных данных проверки подлинности, используемых для регистрации хранилища данных.
Виртуальная сеть
Если учетная запись хранения данных находится в виртуальной сети, необходимо выполнить дополнительные действия по настройке, чтобы убедиться, что Машинное обучение Azure имеет доступ к вашим данным. Соответствующие инструкции по настройке при создании и регистрации хранилища данных см. в статье Использование Студии машинного обучения Azure в виртуальной сети.
Проверка доступа
Предупреждение
Доступ между арендаторами к учетным записям хранения не поддерживается. Если вашему сценарию требуется межтенантный доступ, обратитесь к псевдониму amldatasupport@microsoft.com группы поддержки данных Машинное обучение Azure, чтобы получить помощь с пользовательским решением кода.
В рамках первоначального процесса создания и регистрации хранилища данных Машинное обучение Azure автоматически проверяет, существует ли базовая служба хранилища, и что у участника-пользователя (имени пользователя, субъекта-службы или маркера SAS) есть доступ к указанному хранилищу.
После создания хранилища данных эта проверка выполняется только для методов, требующих доступа к базовому контейнеру хранилища. Проверка не выполняется при каждом извлечении объектов хранилища данных. Например, проверка происходит при скачивании файлов из хранилища данных. Однако если вы хотите изменить хранилище данных по умолчанию, проверка не происходит.
Чтобы проверить подлинность доступа к базовой службе хранилища, укажите ключ учетной записи, маркеры подписанных URL-адресов (SAS) или субъект-службу в соответствии с типом хранилища данных, который вы хотите создать. В таблице типов хранилища перечислены поддерживаемые типы проверки подлинности, соответствующие каждому типу хранилища данных.
Ключ учетной записи, маркер SAS и сведения о субъекте-службе можно найти на портал Azure.
Чтобы получить ключ учетной записи для проверки подлинности, выберите учетные записи хранения в левой области и выберите учетную запись хранения, которую требуется зарегистрировать.
- На странице Обзор приводятся такие сведения, как имя учетной записи, контейнер и имя общей папки.
- Разверните узел "Безопасность и сеть" в левой навигации
- Выберите Ключи доступа.
- Доступные значения ключей служат значениями ключа учетной записи
Чтобы получить маркер SAS для проверки подлинности, выберите учетные записи хранения в левой области и выберите нужную учетную запись хранения.
- Чтобы получить значение ключа доступа, разверните узел "Безопасность и сеть " в левой навигации
- Выбор подписанного URL-адреса
- Завершите процесс, чтобы создать значение SAS
Чтобы использовать субъект-службу для проверки подлинности, перейдите к Регистрация приложений и выберите приложение, которое вы хотите использовать.
- Соответствующая страница обзора содержит необходимые сведения, такие как идентификатор клиента и идентификатор клиента.
Внимание
- Чтобы изменить ключи доступа для учетной записи служба хранилища Azure (ключ учетной записи или маркер SAS), обязательно синхронизируйте новые учетные данные с рабочей областью и хранилищами данных, подключенными к ней. Дополнительные сведения см . в разделе "Синхронизация обновленных учетных данных".
- Если отменить регистрацию, а затем повторно зарегистрировать хранилище данных с тем же именем, и это повторная регистрация завершается ошибкой, Azure Key Vault для рабочей области может не включать обратимое удаление. По умолчанию обратимое удаление включается для экземпляра хранилища ключей, созданного рабочей областью, но оно может не включиться, если использовалось существующее хранилище ключей, или рабочая область была создана до октября 2020 г. Дополнительные сведения о включении обратимого удаления см. в разделе "Включить обратимое удаление" для существующего хранилища ключей.
Разрешения
Для контейнера BLOB-объектов Azure и хранилища Azure Data Lake 2-го поколения убедитесь, что учетные данные проверки подлинности имеют доступ к средству чтения данных BLOB-объектов хранилища. Узнать больше о считывателе BLOB-объектов хранилища. По умолчанию маркер SAS учетной записи не имеет разрешений.
Для доступа на чтение данных учетные данные проверки подлинности должны иметь минимум из списка разрешений на чтение для контейнеров и объектов.
Для доступа на запись данных также требуются разрешения на запись и добавление.
Обучение с наборами данных
Используйте наборы данных в экспериментах машинного обучения для обучения моделей машинного обучения. Узнайте больше об обучении с наборами данных.
Следующие шаги
Пошаговый пример обучения с табличными данными и автоматизированным машинным обучением
Дополнительные примеры обучения набора данных см. в примерах записных книжек