Поделиться через


Создание наборов данных для Машинного обучения Azure из Открытых наборов данных Azure

В этой статье вы узнаете, как перенести проверенные данные обогащения в локальные или удаленные эксперименты машинного обучения с помощью Машинное обучение Azure наборов данных и открытых наборов данных Azure.

С помощью набора данных Машинное обучение Azure вы создаете ссылку на расположение источника данных, а также копию ее метаданных. Так как наборы данных оцениваются безумно, и поскольку данные остаются в существующем расположении, вы

  • Не рискуйте непреднамеренно изменять исходные источники данных
  • Снижаются расходы на хранение
  • Повышение скорости производительности рабочего процесса машинного обучения

Дополнительные сведения о том, где наборы данных соответствуют общему рабочему процессу доступа к данным Машинное обучение Azure, см. в статье о безопасном доступе к данным.

Открытые наборы данных Azure курируют общедоступные наборы данных, которые добавляют специальные функции для обогащения прогнозных решений и повышения точности этих решений. Посетите ресурс каталога Открытых наборов данных для данных общедоступного домена, которые помогут вам обучить модели машинного обучения, например:

Открытые наборы данных размещаются в облаке в Microsoft Azure. Оба пакета SDK для Python Машинное обучение Azure и Студия машинного обучения Azure включают их.

Необходимые компоненты

Необходимые компоненты:

Примечание.

Некоторые классы наборов данных зависят от пакета azureml-dataprep . Этот пакет совместим только с 64-разрядным Python. Для пользователей Linux эти классы поддерживаются только в этих дистрибутивах Linux:

  • Debian (8, 9)
  • Fedora (27, 28)
  • Red Hat Enterprise Linux (7, 8)
  • Ubuntu (14.04, 16.04, 18.04)

Создание наборов данных при помощи пакета средств разработки

Чтобы создать наборы данных Машинное обучение Azure с помощью классов Открытых наборов данных Azure, в пакете SDK для Python убедитесь, что пакет установлен с pip install azureml-opendatasetsпомощью. В пакете SDK класс каждого дискретного набора данных представляет этот класс, а определенные классы доступны как тип данных Машинное обучение Azure, тип данных Машинное обучение Azure FileDataset TabularDataset или оба. Ознакомьтесь со справочной документацией по полному списку opendatasets классов.

Некоторые opendatasets классы можно получить как TabularDataset FileDataset или ресурсы. Затем вы можете управлять и /или скачать файлы напрямую. Другие классы могут извлекать набор данных только с помощью get_tabular_dataset() класса или get_file_dataset() функций из Datasetкласса в пакете SDK для Python.

В этом коде показано, что класс MNIST opendatasets может возвращать или TabularDataset FileDataset:

from azureml.core import Dataset
from azureml.opendatasets import MNIST

# MNIST class can return either TabularDataset or FileDataset
tabular_dataset = MNIST.get_tabular_dataset()
file_dataset = MNIST.get_file_dataset()

В этом примере класс диабета opendatasets доступен только в качестве TabularDataset. Для этого требуется использование get_tabular_dataset().


from azureml.opendatasets import Diabetes
from azureml.core import Dataset

# Diabetes class can return ONLY TabularDataset and must be called from the static function
diabetes_tabular = Diabetes.get_tabular_dataset()

Регистрация наборов данных

Зарегистрируйте набор данных Машинное обучение Azure в рабочей области, чтобы предоставить общий доступ к набору данных другим пользователям и повторно использовать его в экспериментах в рабочей области. При регистрации Машинное обучение Azure набора данных, созданного из Открытых наборов данных, данные не загружаются немедленно, но данные становятся доступными позже (например, во время обучения) при запросе из центрального расположения хранилища.

Чтобы зарегистрировать наборы данных в рабочей области, используйте метод register().

titanic_ds = titanic_ds.register(workspace=workspace,
                                 name='titanic_ds',
                                 description='titanic training data')

Создание наборов данных с помощью студии

Вы также можете создавать наборы данных Машинное обучение Azure из открытых наборов данных Azure с помощью Студия машинного обучения Azure. Этот объединенный веб-интерфейс включает средства машинного обучения для выполнения сценариев обработки и анализа данных для специалистов по обработке и анализу данных всех уровней навыков.

Примечание.

Наборы данных, созданные с помощью Студии машинного обучения Azure, автоматически регистрируются в рабочей области.

  1. В рабочей области выберите данные в левой области навигации. На вкладке "Ресурсы данных" выберите "Создать", как показано на снимке экрана:

    Снимок экрана: элемент управления

  2. На следующем экране добавьте имя и необязательное описание нового ресурса данных. Затем выберите табличный элемент в раскрывающемся списке "Тип ", как показано на снимке экрана:

    Снимок экрана: выбор табличного параметра в раскрывающемся списке

  3. На следующем экране выберите "Из открытых наборов данных Azure" и нажмите кнопку "Далее", как показано на снимке экрана:

    Снимок экрана: выбор параметра

  4. На следующем экране выберите доступный набор данных Azure Open Dataset. На этом снимке экрана мы выбрали набор данных безопасности Сан-Франциско:

    Снимок экрана: выбор набора данных статистики труда США.

  5. Прокрутите вниз при необходимости и нажмите кнопку "Далее", как показано на снимке экрана:

    Снимок экрана: выбор кнопки

  6. При необходимости отфильтруйте данные с помощью доступных фильтров, подходящих для выбранного набора данных. Для набора данных безопасности Сан-Франциско мы задаем отфильтрованный диапазон дат между датой начала 1 июля 2024 г. и 17 июля 2024 г. Нажмите кнопку "Далее", как показано на этом снимке экрана:

    Снимок экрана: выбор значений фильтра и выбор кнопки

  7. На следующем экране просмотрите параметры нового ресурса данных и внесите необходимые изменения. Когда кажется хорошим, нажмите кнопку "Создать ", как показано на снимке экрана:

    Снимок экрана: просмотр выбранных параметров и выбор кнопки

  8. Дополнительные сведения о описаниях полей и диапазонах дат для набора данных безопасности в Сан-Франциско см. в ресурсе "Данные безопасности Сан-Франциско". Дополнительные сведения о других наборах данных см. в ресурсе каталога Открытых наборов данных Azure.

Набор данных теперь доступен в рабочей области в разделе Наборы данных. Его можно использовать так же, как и другие созданные наборы данных.

Доступ к наборам данных для экспериментов

Используйте наборы данных в экспериментах машинного обучения для обучения моделей машинного обучения. Дополнительные сведения см. в статье "Дополнительные сведения о обучении с помощью наборов данных".

Примеры записных книжек

Примеры и демонстрации функций Открытых наборов данных см . в этих примерах записных книжек.

Следующие шаги