Перенос набора данных в классической версии студии в службу машинного обучения Azure

Внимание

Поддержка Машинное обучение Azure Studio (классическая) завершится 31 августа 2024 г. Мы рекомендуем перейти на Машинное обучение Azure по этой дате.

По состоянию на 1 декабря 2021 г. нельзя создавать новые ресурсы Машинное обучение Studio (классический) (рабочая область и план веб-службы). До 31 августа 2024 г. вы можете продолжать использовать существующие эксперименты Машинное обучение Studio (классические) и веб-службы. Дополнительные сведения см. в разделе:

Машинное обучение Studio (классическая) документация не обновляется и может не обновляться в будущем.

В этой статье описывается, как перенести набор данных в классической версии студии в Машинное обучение Azure. Дополнительные сведения о переходе с классической версии студии см. в этой обзорной статье.

Перенести набор данных в службу машинного обучения Azure можно тремя способами. Чтобы определить, какой вариант лучше подходит для вашего сценария, ознакомьтесь со следующими разделами.

Где находятся данные? Вариант миграции
Студия (классическая) Вариант 1. Скачайте набор данных из классической версии студии и загрузите его в службу машинного обучения Azure.
Облачное хранилище Вариант 2. Зарегистрируйте набор данных из облачного источника.

Вариант 3. Используйте модуль импорта данных для получения данных из облачного источника.

Примечание.

Служба машинного обучения Azure также поддерживает рабочие процессы Code First для создания наборов данных и управления ими.

Необходимые компоненты

Скачивание набора данных из классической версии студии

Самый простой способ переноса набора данных из классической версии студии в службу машинного обучения Azure заключается в скачивании набора данных и его последующей регистрации в службе машинного обучения Azure. При этом создается новая копия набора данных, которая загружается в хранилище данных службы машинного обучения Azure.

Вы можете напрямую скачивать из классической версии студии наборы данных следующих типов.

  • Обычный текст (.txt)
  • Текст с разделителями-запятыми с заголовком (CSV) или без заголовка (NH.CSV)
  • Текст с разделителями-табуляциями с заголовком (TSV) или без заголовка (NH.TSV)
  • Файл Excel
  • ZIP-файл (ZIP)

Чтобы скачать наборы данных напрямую, выполните следующие действия.

  1. Перейдите в рабочую область классической версии студии (https://studio.azureml.net).

  2. Перейдите на вкладку Наборы данных на панели навигации слева.

  3. Выберите наборы данных, которые требуется скачать.

  4. Щелкните Скачать на панели действий снизу.

    AScreenshot showing how to download a dataset in Studio (classic).

Для скачивания следующих типов наборов данных необходимо использовать модуль Преобразование в CSV-файл.

  • Данные SVMLight (расширение svmlight).
  • Данные в формате файла связи атрибутов (ARFF) (расширение arff).
  • Файл объекта или рабочей области R (RData)
  • Тип набора данных (расширение data). Тип набора данных — это внутренний тип данных в классической версии студии для выходных данных модуля.

Чтобы преобразовать набор данных в CSV-файл и скачать результаты, выполните следующие действия.

  1. Перейдите в рабочую область классической версии студии (https://studio.azureml.net).

  2. Создайте новый эксперимент.

  3. Перетащите набор данных, который требуется скачать, на холст.

  4. Добавьте модуль Преобразование в CSV-файл.

  5. Подключите порт ввода модуля Преобразование в CSV к порту вывода набора данных.

  6. Запустите эксперимент.

  7. Щелкните модуль Преобразование в CSV-файл правой кнопкой мыши.

  8. Выберите Набор данных результатов>Скачать.

    Screenshot showing how to setup a convert to CSV pipeline.

Загрузка набора данных в службу машинного обучения Azure

Скачав файл данных, его можно зарегистрировать в качестве ресурса данных в Машинное обучение Azure:

  1. Перейдите к Студия машинного обучения Azure

  2. В разделе "Ресурсы " в области навигации слева выберите "Данные". На вкладке "Ресурсы данных" нажмите кнопку "Создать" Screenshot highlights Create in the Data assets tab.

  3. Присвойте ресурсу данных имя и необязательное описание. Затем выберите вкладку в разделе "Тип" в разделе типов наборов данных раскрывающегося списка.

    Примечание.

    Вы также можете отправлять ZIP-файлы в виде ресурсов данных. Чтобы отправить ZIP-файл, выберите "Файл для типа" в разделе типов наборов данных раскрывающегося списка. Screenshot shows data asset source choices.

  4. Для источника данных выберите параметр "Из локальных файлов", чтобы отправить набор данных.

  5. Для выбора файла сначала выберите место хранения данных в Azure. Вы выберете хранилище данных Машинное обучение Azure. Дополнительные сведения о хранилищах данных см. в статье Подключение к службам хранилища. Затем отправьте скачанный ранее набор данных.

  6. Выполните действия, чтобы задать параметры синтаксического анализа данных и схему для ресурса данных.

  7. После достижения шага проверки нажмите кнопку "Создать" на последней странице

Импорт данных из облачных источников

Если ваши данные уже размещаются в облачной службе хранилища и вы хотите сохранить их в собственном расположении, воспользуйтесь одним из следующих способов.

Метод приема Description
Регистрация набора данных в службе машинного обучения Azure Прием данных из локальных и сетевых источников данных (хранилище BLOB-объектов, Azure Data Lake Storage 1-го и 2-го поколения, общий файловый ресурс, база данных SQL).

Создает ссылку на источник данных, оценка которого осуществляется в отложенном режиме во время выполнения. Используйте этот вариант, если вы постоянно обращаетесь к этому набору данных и хотите включить расширенные функции данных, такие как управление версиями и мониторинг данных.
Модуль "Импорт данных" Прием данных из сетевых источников данных (хранилище BLOB-объектов, Azure Data Lake Storage 1-го и 2-го поколения, общий файловый ресурс, база данных SQL).

Набор данных импортируется только в рамках текущего выполнения конвейера конструктора.

Примечание.

Пользователям классической версии студии необходимо обратить внимание, что следующие облачные источники не имеют встроенной поддержки в службе машинного обучения Azure.

  • Запрос Hive
  • Таблица Azure
  • Azure Cosmos DB
  • Локальная база данных SQL

Мы рекомендуем пользователям перенести свои данные в поддерживаемые службы хранилища с помощью фабрики данных Azure.

Регистрация набора данных в службе машинного обучения Azure

Чтобы зарегистрировать набор данных из облачной службы в службе машинного обучения Azure, выполните следующие действия.

  1. Создайте хранилище данных, которое будет связывать службу облачного хранилища с рабочей областью службы машинного обучения Azure.

  2. Зарегистрируйте набор данных. Если вы переносите набор данных в классической версии студии, выберите тип набора данных Табличный.

После регистрации набора данных в службе машинного обучения Azure вы можете использовать его в конструкторе.

  1. Создайте новый черновик конвейера конструктора.
  2. В палитре модулей слева разверните раздел Наборы данных.
  3. Перетащите зарегистрированный набор данных на холст.

Использование модуля импорта данных

Чтобы импортировать данные непосредственно в конвейер конструктора, выполните следующие действия.

  1. Создайте хранилище данных, которое будет связывать службу облачного хранилища с рабочей областью службы машинного обучения Azure.

После создания хранилища данных вы можете использовать модуль Импорт данных в конструкторе, чтобы принимать данные из него.

  1. Создайте новый черновик конвейера конструктора.
  2. В палитре модулей слева найдите модуль Импорт данных и перетащите его на холст.
  3. Выберите модуль Импорт данных и настройте источник данных с помощью параметров на панели справа.

Следующие шаги

В этой статье описывается, как перенести набор данных в классической версии студии в службу машинного обучения Azure. Следующим шагом является перестроение конвейера обучения в классической версии студии.

См. другие статьи, посвященные переходу с классической версии студии.

  1. Общие сведения о миграции.
  2. Перенос наборов данных
  3. Перестроение конвейера обучения в классической версии студии
  4. Перестроение веб-службы в классической версии студии
  5. Интеграция веб-службы машинного обучения Azure с клиентскими приложениями.
  6. Перенос модуля выполнения скрипта R