Поделиться через


Что представляют собой Открытые наборы данных Azure и как их использовать?

Открытые наборы данных Azure курируют общедоступные наборы данных, которые можно добавить в специальные функции сценария в решения машинного обучения для более точных моделей. Открытые наборы данных доступны в облаке в Microsoft Azure. Они интегрированы в Машинное обучение Azure и легко доступны в Azure Databricks и Машинное обучение Studio (классическая модель). Вы также можете получить доступ к наборам данных через API и использовать их в других продуктах, таких как Power BI и Фабрика данных Azure.

Наборы данных включают открытые данные о погоде, численности населения, праздниках, общественной безопасности и расположениях, которые помогают вам обучать модели машинного обучения и обогащать прогностические решения. Вы также можете предоставлять общий доступ к общедоступным наборам данных с помощью Открытых наборов данных Azure.

Схема, показывая стандартные блоки службы

Проверенные и подготовленные наборы данных

Проверенные открытые общедоступные наборы данных в Azure оптимизированы для рабочих процессов машинного обучения.

Дополнительные сведения о доступных наборах данных см. в ресурсе каталога открытых наборов данных Azure.

Специалисты по анализу данных часто тратят большую часть своего времени на очистку и подготовку данных для расширенной аналитики. Чтобы сэкономить время, открытые наборы данных копируются в облако Azure, а затем предварительно обрабатываются. Через регулярные интервалы данные извлекается из источников, например подключение FTP к Национальной администрации океанических и атмосферных исследований (NOAA). Затем данные анализируются в структурированном формате, а затем обогащены по мере необходимости с такими функциями, как ZIP-код или расположения ближайших метеостанций.

Наборы данных размещаются совместно с облачными вычислениями в Azure, чтобы упростить доступ и манипуляцию.

Ниже приведены примеры доступных наборов данных:

Метеоданные

Набор данных Записные книжки Description
База данных Integrated Surface Data (ISD) Национального управления океанических и атмосферных исследований США (NOAA) Записные книжки Azure
Azure Databricks
Почасовые метеоданные со всего мира от NOAA с наилучшим территориальным охватом в Северной Америке, Европе, Австралии и в некоторых регионах Азии. Обновляются ежедневно.
Глобальная система прогнозирования погоды (GFS) NOAA Записные книжки Azure
Azure Databricks
Данные почасовых прогнозов погоды в США за 15 дней от NOAA. Обновляются ежедневно.

Данные календаря

Набор данных Записные книжки Description
Государственные праздники Записные книжки Azure
Azure Databricks
Данные о всеобщем празднике, охватывающие 41 страны или регионы с 1970 по 2099 год. Включает в себя страну или регион и о том, заплатили ли большинство людей время от времени.

Доступ к наборам данных

С помощью учетной записи Azure можно получить доступ к открытым наборам данных через код или через интерфейс службы Azure. Данные совместно используются облачными вычислительными ресурсами Azure для использования в решениях машинного обучения.

Открытые наборы данных доступны в пользовательском интерфейсе Машинного обучения Azure и пакете SDK. Открытые наборы данных также предоставляют записные книжки Azure и записные книжки Azure Databricks, которые могут подключать данные к Машинное обучение Azure и Azure Databricks. Доступ к наборам данных также можно осуществлять с помощью пакета SDK для Python.

При этом вам не требуется учетная запись Azure для доступа к Открытым наборам данных. Это можно сделать в любой среде Python с решением Spark или без него.

Отправка запроса на наборы данных или их предоставление

Если вы не можете найти нужные данные, отправьте нам по электронной почте запрос на набор данных или поделитесь собственным.

Следующие шаги