Данные в Машинном обучении Azure версии 1
ОБЛАСТЬ ПРИМЕНЕНИЯ: расширение машинного обучения Azure CLI версии 1
ОБЛАСТЬ ПРИМЕНЕНИЯ: Пакет SDK для Python версии 1
Машинное обучение Azure позволяет легко подключаться к данным в облаке. Он предоставляет уровень абстракции по базовой службе хранилища, чтобы обеспечить безопасный доступ к данным и работать с данными без необходимости писать код, характерный для типа хранилища. Машинное обучение Azure также предоставляет следующие возможности данных:
- Взаимодействие с кадрами данных Pandas и Spark
- Управление версиями и отслеживание преобразований данных
- Маркировка данных
- Мониторинг смещения данных
Рабочий процесс
Чтобы использовать данные в облачном решении хранилища, рекомендуется использовать этот рабочий процесс доставки данных. В рабочем процессе предполагается, что у вас есть учетная запись хранения Azure и данные в облачной службе хранилища Azure.
Создание хранилища данных Машинное обучение Azure для хранения сведений о подключении к хранилищу Azure
Из этого хранилища данных создайте набор данных Машинное обучение Azure, чтобы указать на определенный файл или файлы в базовом хранилище.
Чтобы использовать этот набор данных в эксперименте машинного обучения, можно либо
Подключение набора данных к целевому объекту вычислений эксперимента для обучения модели
ИЛИ
Используйте набор данных непосредственно в решениях Машинное обучение Azure , например, эксперименты автоматизированного машинного обучения (автоматизированного машинного обучения), конвейеры машинного обучения или конструктор Машинное обучение Azure.
Создание мониторов набора данных для выходного набора данных модели для обнаружения смещения данных
Для обнаружения смещения данных обновите входной набор данных и переобучение модели соответствующим образом
Снимок экрана: рекомендуемый рабочий процесс:
Подключение к хранилищу данных с использованием хранилищ данных
Машинное обучение Azure хранилища данных безопасно размещают сведения о подключении к хранилищу данных в Azure, поэтому вам не нужно размещать эти сведения в скриптах. Дополнительные сведения о подключении к учетной записи хранения и доступу к данным в базовой службе хранилища см. в разделе "Регистрация" и создание хранилища данных.
Эти поддерживаемые облачные службы хранилища Azure могут регистрироваться в качестве хранилищ данных:
- контейнер BLOB-объектов Azure;
- Общая папка Azure
- Azure Data Lake
- Azure Data Lake 2-го поколения
- База данных SQL Azure
- База данных Azure для PostgreSQL
- Файловая система Databricks
- База данных Azure для MySQL
Совет
Хранилища данных можно создать с проверкой подлинности на основе учетных данных для доступа к службам хранилища, например субъект-служба или маркер подписанного URL-адреса (SAS). Пользователи с доступом читателя к рабочей области могут получить доступ к этим учетным данным.
Если это проблема, посетите хранилище данных, использующее доступ к данным на основе удостоверений, для получения дополнительных сведений о подключениях к службам хранилища.
Справочные данные в хранилище с помощью наборов данных
Машинное обучение Azure наборы данных не копируются. Само создание набора данных создает ссылку на данные в службе хранилища, а также копию ее метаданных.
Поскольку наборы данных оцениваются в медленном режиме и данные остаются в существующем расположении,
- Снижаются расходы на хранение
- Не рискуйте непреднамеренным изменением исходных источников данных
- Повышение скорости производительности рабочего процесса машинного обучения
Чтобы взаимодействовать с данными в хранилище, создайте набор данных для упаковки данных в объект, который можно использовать для задач машинного обучения. Зарегистрируйте набор данных в рабочей области, чтобы поделиться и повторно использовать его в различных экспериментах без сложностей приема данных.
Вы можете создавать наборы данных из локальных файлов, общедоступных URL-адресов, Открытых наборов данных Azure или служб хранилища Azure с помощью хранилищ данных.
Существует два типа наборов данных.
FileDataset ссылается на один или несколько файлов в хранилищах данных или общедоступных URL-адресах. Если данные уже очищаются и готовы к обучающим экспериментам, вы можете скачать или подключить файлы , на которые ссылается FileDatasets, в целевой объект вычислений.
Табличный набор данных представляет данные в табличном формате, анализируя предоставленный файл или список файлов. Вы можете загрузить TabularDataset в кадр данных Pandas или Spark для дальнейшей обработки и очистки. Полный список форматов данных, из которых можно создать табличные данные, посетите класс TabularDatasetFactory.
Эти ресурсы предоставляют дополнительные сведения о возможностях набора данных:
- Версия и отслеживание происхождения набора данных
- Мониторинг набора данных для обнаружения смещения данных
Работа с данными
С помощью наборов данных можно выполнять задачи машинного обучения с помощью простой интеграции с функциями Машинное обучение Azure.
- Создание проекта маркировки данных
- Обучение моделей машинного обучения:
- Доступ к наборам данных для оценки с помощью пакетного вывода в конвейерах машинного обучения
- Настройка монитора набора данных для обнаружения смещения данных
Пометка данных с помощью проектов меток данных
Маркировка больших объемов данных в проектах машинного обучения может стать головной болью. Проекты, включающие компонент компьютерного зрения, например классификацию изображений или обнаружение объектов, часто требуют тысячи изображений и соответствующих меток.
Машинное обучение Azure предоставляет центральное расположение для создания, управления и мониторинга проектов маркировки. Проекты маркировки помогают координировать данные, метки и участников группы, чтобы можно было более эффективно управлять задачами маркировки. В настоящее время поддерживаются задачи, связанные с классификацией изображений, несколькими метками или несколькими классами, и идентификацией объектов с помощью ограничивающих прямоугольников.
Создание образа с меткой проекта или текста с меткой проекта, и вывод набора данных для использования в экспериментах машинного обучения.
Мониторинг производительности модели с помощью смещения данных
В контексте машинного обучения смещение данных включает изменение входных данных модели, что приводит к снижению производительности модели. Это основная причина, по которой точность модели снижается с течением времени, а мониторинг смещения данных помогает обнаруживать проблемы с производительностью модели.
Дополнительные сведения см. в статье "Создание монитора набора данных", чтобы узнать, как обнаруживать и предупреждать о смещениях данных на новых данных в наборе данных.
Следующие шаги
- Создание набора данных в Студия машинного обучения Azure или с помощью пакета SDK для Python
- Примеры обучения набора данных с помощью примеров записных книжек