Поделиться через


opendatasets Пакет

Содержит функциональные возможности для использования Открытых наборов данных Azure в качестве кадров данных, а также для обогащения данных клиентов.

Открытые наборы данных Azure — это проверенные общедоступные наборы данных, которые можно использовать для добавления функций конкретных сценариев в решения машинного обучения для создания более точных моделей. Эти общедоступные наборы данных можно преобразовать в кадры данных Spark и Pandas с примененными фильтрами. Для некоторых наборов данных можно использовать средство обогащения для объединения общедоступных данных с имеющимися. Например, можно объединить имеющиеся данные с данными о погоде по долготе, широте или почтовому индексу и времени.

В Открытых наборах данных Azure содержатся общедоступные данные о погоде, численности населения, праздниках, общественной безопасности и расположениях, которые помогают обучать модели машинного обучения и обогащать решения для прогнозирования. Открытые наборы данных находятся в облаке в Microsoft Azure и интегрированы в Машинное обучение Azure. Для получения более подробной информации о работе с Открытыми наборами данных Azure см. статью Создание наборов данных с помощью Открытых наборов данных Azure.

Общие сведения об Открытых наборах данных Azure см. в документации по Открытым наборам данных Azure.

Пакеты

accessories

Содержит функциональные возможности для определения типов данных столбцов в данных, включая широту, долготу, почтовый индекс и время.

aggregators

Содержит функциональные возможности для определения способов агрегирования объединенных данных.

Агрегаторы определяют операции, которые могут быть выполнены с результатом объединения данных из двух наборов. Например, при использовании одного из классов в enrichers можно указать агрегатор в качестве части операции. Если агрегирование не требуется, используйте AggregatorAll.

data

Содержит файл инициализации для ресурсов данных в модуле по государственным праздникам.

dataaccess

Содержит функциональные возможности, предоставляющие методы доступа к файлам BLOB-объектов.

При использовании класса из пакета opendatasets, подобного классу ChicagoSafety, классы и функции доступа к данным и функции в этом пакете используются внутренним образом. В общем случае вам не придется напрямую использовать функции в пакете доступа к данным.

enrichers

Содержит функциональные возможности для обогащения и объединения данных из двух наборов.

Как правило, средства обогащения объединяют данные из разных источников. В частности, средства обогащения позволяют объединять данные (данные клиента) с данными из Открытых наборов данных Azure или других общедоступных наборов данных.

granularities

Содержит функциональные возможности для определения мер времени и расстояния, используемых средствами обогащения.

Степени детализации — это меры времени или расстояния, используемые enrichers при обогащении (объединении) данных. Существуют степени детализации времени, например ежечасно или ежедневно, а также степень детализации расположения, например ближайшее расстояние.

selectors

Содержит функциональные возможности для выбора и объединения данных из набора данных клиента с данными из общедоступного набора данных.

Селекторы определяют логику, которая позволяет обогащать данные с помощью общедоступных наборов данных на основе мер времени и расстояния. Например, с помощью селектора можно найти общедоступные данные для объединения с имеющимися данными на основе ближайшего местоположения или путем округления до той же степени детализации по времени.

Укажите селекторы при работе с одним из классов в пакете enrichers.

Модули

environ

Определяет классы среды выполнения, в которых используются Открытые наборы данных Azure.

Классы в этом модуле обеспечивают оптимизацию функциональных возможностей Открытых наборов данных Azure для разных сред. В общем, вам не нужно создавать экземпляры классов среды или выполнять их реализацию. Вместо этого следует использовать функцию модуля get_environ для возврата среды.

Классы

BingCOVID19Data

Представляет набор данных Bing о ситуации с COVID-19.

Этот набор данных содержит данные Bing о ситуации с COVID-19 из нескольких проверенных надежных источников, включая ресурсы Всемирной организации здравоохранения (ВОЗ), Центров по контролю и профилактике заболеваний (CDC), национальных и государственных департаментов здравоохранения, BNO News, 24/7 Wall St. и сайт Википедия. Дополнительные сведения об этом наборе данных, включая описания столбцов, различные способы доступа к набору данных, а также примеры см. на странице Данные Bing о ситуации с COVID-19 в каталоге Открытых наборов данных Microsoft Azure.

Инициализация полей фильтрации.

BostonSafety

Представляет общедоступный набор данных о безопасности в Бостоне.

Этот набор данных содержит архив обращений в службу 311 в Бостоне. Дополнительные сведения об этом наборе данных, включая описания столбцов, различные способы доступа к набору данных и примеры, приведены на странице Boston Safety Data (Данные о безопасности в Бостоне) в каталоге Открытых наборов данных Microsoft Azure.

Инициализация полей фильтрации.

COVID19OpenResearch

Представляет Открытый набор данных исследований по COVID-19.

Дополнительные сведения об этом наборе данных, включая описания столбцов, различные способы доступа к набору данных, а также примеры см. на странице COVID-19 Open Research Dataset (Открытый набор данных исследований по COVID-19) в каталоге Открытых наборов данных Microsoft Azure.

COVIDTrackingProject

Представляет набор данных проекта по отслеживанию распространения COVID.

Этот набор данных содержит набор данных проекта по отслеживанию распространения COVID, который предоставляет новейшие показатели по тестам, подтвержденным случаям, госпитализации и результатам лечения пациентов для каждого штата и региона США. Дополнительные сведения об этом наборе данных, включая описания столбцов, различные способы доступа к набору данных, а также примеры см. на странице набор данных проекта по отслеживанию распространения COVID в каталоге Открытых наборов данных Microsoft Azure.

Инициализация полей фильтрации.

ChicagoSafety

Представляет общедоступный набор данных о безопасности в Чикаго.

Этот набор данных содержит архив обращений в службу 311 города Чикаго, включающий жалобы на несоблюдение санитарных норм, дорожные выбоины и проблемы с уличным освещением. Дополнительные сведения об этом наборе данных, включая описания столбцов, различные способы доступа к набору данных и примеры, приведены на странице Chicago Safety Data (Данные о безопасности в Чикаго) в каталоге Открытых наборов данных Microsoft Azure.

Инициализация полей фильтрации.

CitySafety

Класс "Безопасность города" — это родительский класс, от которого может наследовать каждый отдельный город.

Инициализация полей фильтрации.

Diabetes

Представляет общедоступный набор данных "Выборка данных по диабету".

Набор данных Diabetes (Диабет) содержит 442 образца с 10 признаками. Он идеально подходит для начала работы с алгоритмами машинного обучения. Дополнительные сведения об этом наборе данных, включая описания столбцов, различные способы доступа к набору данных и примеры, приведены на странице Sample: Diabetes (Выборка данных по диабету) в каталоге Открытых наборов данных Microsoft Azure.

EcdcCOVIDCases

Представляет данные по случаям заболевания Covid-19 от Европейского центра профилактики и контроля заболеваний (ЕЦПКЗ).

Этот набор данных содержат сведения от Европейского центра профилактики и контроля заболеваний (ЕЦПКЗ). Каждая строка или запись содержит количество новых случаев заболеваний за день по отдельным странам или регионам. Дополнительные сведения об этом наборе данных, включая описания столбцов, различные способы доступа к набору данных и примеры, приведены на странице European Centre for Disease Prevention and Control (ECDC) Covid-19 Cases (Случаи заболевания Covid-19 от Европейского центра профилактики и контроля заболеваний (ЕЦПКЗ)) в каталоге Открытых наборов данных Microsoft Azure.

Инициализация полей фильтрации.

MNIST

Представляет набор данных MNIST для рукописных цифр.

База данных образцов рукописного написания цифр MNIST содержит 60 000 образцов наборов данных для обучения и тестовый набор из 10 000 образцов. Цифры были нормализованы по размеру и расположены в центре изображения фиксированного размера. Дополнительные сведения об этом наборе данных, включая описания столбцов, различные способы доступа к набору данных и примеры, приведены на странице The MNIST database of handwritten digits (База данных образцов рукописного написания цифр MNIST) в каталоге Открытых наборов данных Microsoft Azure.

Пример использования набора данных MNIST приведен в руководстве Обучение моделей классификации изображений с использованием данных MNIST и scikit-learn.

NoParameterOpenDatasetBase

Базовый класс "Занятое население США".

Инициализации.

NoaaGfsWeather

Представляет набор данных из глобальной системы прогнозирования (GFS) от Национального управления океанических и атмосферных исследований (NOAA).

Этот набор данных содержит сведения 15-дневного почасового прогноза погоды в США (например, температура, количество осадков, ветер) из глобальной системы прогнозирования (GFS) от Национального управления океанических и атмосферных исследований (NOAA). Дополнительные сведения об этом наборе данных, включая описания столбцов, различные способы доступа к набору данных, а также примеры см. на странице Национального управления океанических и атмосферных исследований США (NOAA) в каталоге Открытых наборов данных Microsoft Azure.

Инициализация полей фильтрации.

NoaaIsdWeather

Представляет набор данных из базы данных Integrated Surface Data (ISD) Национального управления океанических и атмосферных исследований (NOAA).

Этот набор данных содержит архив почасовых данных о погоде во всем мире (например, температуре, количестве осадков, ветре) от Национального управления океанических и атмосферных исследований (NOAA). Дополнительные сведения об этом наборе данных, включая описания столбцов, различные способы доступа к набору данных, а также примеры приведены на странице База данных Integrated Surface Data NOAA в каталоге Открытых наборов данных Microsoft Azure.

Инициализация полей фильтрации.

NycSafety

Представляет общедоступный набор данных о безопасности в Нью-Йорке.

Этот набор данных содержит все запросы в службу 311 города Нью-Йорка с 2010 г. до текущего момента. Дополнительные сведения об этом наборе данных, включая описания столбцов, различные способы доступа к набору данных, а также примеры приведены на странице Данные о безопасности в Нью-Йорке в каталоге Открытых наборов данных Microsoft Azure.

Инициализация полей фильтрации.

NycTaxiBase

Класс "Такси Нью-Йорка" — это родительский класс, который может быть унаследован.

Инициализация полей фильтрации.

NycTlcFhv

Представляет общедоступный набор данных Комиссии по & лимузинов Нью-Йорка.

Этот набор данных содержит записи о поездках, предоставленные For-Hire Vehicle (FHV), которые содержат поля с номером лицензии в диспетчерском центре, дату и время посадки пассажиров, а также идентификатор местоположения такси (файл ниже). Эти записи формируются на основе записей о поездках, отправляемых из баз компании FHV. Дополнительные сведения об этом наборе данных, включая описания столбцов, различные способы доступа к набору данных и примеры, см. в статье NYC Taxi & Limousine Commission - For-Hire Vehicle (FHV) trip records в каталоге Открытых наборов данных Microsoft Azure.

Инициализация полей фильтрации.

NycTlcGreen

Представляет общедоступный набор данных о поездках на такси Нью-Йорка & лимузина Комиссии по зеленым поездкам на такси.

Необработанные записи поездок в такси включают такие поля, как время или дата посадки и высадки пассажиров, пункты посадки и высадки, дальность поездки, детализированные пассажирские тарифы, виды тарифов, виды оплаты и отчет водителя о количестве пассажиров. Дополнительные сведения об этом наборе данных, включая описания столбцов, различные способы доступа к набору данных и примеры, см. в разделе NYC Taxi & Limousine Commission — зеленые записи о поездках на такси в каталоге Открытых наборов данных Microsoft Azure.

Пример использования класса NycTlcGreen см. в руководстве Использование автоматизированного машинного обучения для прогнозирования тарифов на такси.

Инициализация полей фильтрации.

NycTlcYellow

Представляет общедоступный набор данных о поездках на такси нью-йоркского & лимузинов желтого цвета.

Записи поездок в такси, отмеченные желтым, включают такие поля, как время или дата посадки и высадки пассажиров, пункты посадки и высадки, расстояние поездки, детализированные пассажирские тарифы, виды тарифа, виды оплаты и отчет водителя о количестве пассажиров. Дополнительные сведения об этом наборе данных, включая описания столбцов, различные способы доступа к набору данных и примеры, см. в статье NYC Taxi & Limousine Commission — желтые записи о поездках на такси в каталоге Открытых наборов данных Microsoft Azure.

Инициализация полей фильтрации.

OjSalesSimulated

Представляет набор данных "Пример: смоделированные данные по продажам апельсинового сока".

Дополнительные сведения об этом наборе данных, включая описания столбцов, различные способы доступа к набору данных и примеры, приведены на странице Sample: OJ Sales Simulated Data (Пример: смоделированные данные по продажам апельсинового сока) в каталоге Открытых наборов данных Microsoft Azure.

PublicHolidays

Представляет общедоступный набор данных со сведениями о государственных праздниках.

Этот набор данных содержит сведения о государственных праздниках 38 стран или регионов с 1970 по 2099 гг. из Википедии и пакета данных PyPI. В каждой строке указаны сведения о празднике для определенной даты, страны или региона, а также о том, является ли этот выходной день оплачиваемым для большинства занятого населения. Дополнительные сведения об этом наборе данных, включая описания столбцов, различные способы доступа к набору данных, а также примеры см. на странице Public Holidays (Государственные праздники) в каталоге Открытых наборов данных Microsoft Azure.

Инициализация полей фильтрации.

PublicHolidaysOffline

Представляет общедоступный набор данных со сведениями о государственных праздниках.

Описание строк см. в на странице Public Holidays (Государственные праздники) в каталоге Открытых наборов данных Microsoft Azure.

Инициализация полей фильтрации.

SampleDatasetBase

Представляет базовый класс "Пример набора данных".

SanFranciscoSafety

Представляет общедоступный набор данных по безопасности в Сан-Франциско.

Этот набор данных содержит архив вызовов пожарной службы и обращений в службу 311 в Сан-Франциско. Дополнительные сведения об этом наборе данных, включая описания столбцов, различные способы доступа к набору данных и примеры, приведены на странице Данные о безопасности в Сан-Франциско в каталоге Открытых наборов данных Microsoft Azure.

Инициализация полей фильтрации.

SeattleSafety

Представляет общедоступный набор данных о безопасности в Сиэтле.

Этот набор данных содержит данные диспетчерской службы пожарного департамента 911 города Сиэтла. Дополнительные сведения об этом наборе данных, включая описания столбцов, различные способы доступа к набору данных и примеры, приведены на странице Seattle Safety Data (Данные о безопасности в Сиэтле) в каталоге Открытых наборов данных Microsoft Azure.

Инициализация полей фильтрации.

UsLaborCPI

Представляет общедоступный набор данных об индексе розничных цен для потребителей в США.

Индекс розничных цен (CPI) — это измерение среднего изменения цен на потребительскую корзину, выплачиваемых городскими потребителями, в динамике. Дополнительные сведения об этом наборе данных, включая описания столбцов, различные способы доступа к набору данных, а также примеры см. на странице Индекс потребительских цен США в каталоге Открытых наборов данных Microsoft Azure.

Инициализации.

UsLaborEHENational

Представляет общедоступный набор данных по занятости и доходам населения в США.

Этот набор данных содержит отраслевые оценки занятости, часов и доходов несельскохозяйственных штатных работников в США. Дополнительные сведения об этом наборе данных, включая описания столбцов, различные способы доступа к набору данных и примеры, приведены на странице US National Employment Hours and Earning (Занятость и доходы населения в США) в каталоге Открытых наборов данных Microsoft Azure.

Инициализации.

UsLaborEHEState

Представляет общедоступный набор данных по занятости и доходам населения по штатам США.

Этот набор данных содержит отраслевые оценки занятости, часов и доходов несельскохозяйственных штатных работников в США. Дополнительные сведения об этом наборе данных, включая описания столбцов, различные способы доступа к набору данных и примеры, приведены на странице US State Employment Hours and Earning (Занятость и доходы населения по штатам в США) в каталоге Открытых наборов данных Microsoft Azure.

Инициализации.

UsLaborLAUS

Представляет общедоступный набор данных по статистике безработицы в США по географическим областям.

Этот набор данных содержит данные о трудоустройстве, безработице и занятости населения по регионам, округам, штатам, крупным городам с пригородами и многим городам США за месяц и за год. Дополнительные сведения об этом наборе данных, включая описания столбцов, различные способы доступа к набору данных и примеры, приведены на странице US Local Area Unemployment Statistics (Статистика безработицы в США по географическим областям) в каталоге Открытых наборов данных Microsoft Azure.

Инициализации.

UsLaborLFS

Представляет общедоступный набор данных со статистикой по занятому населению США.

Этот набор данных содержит данные о занятом населении в США, включая коэффициенты участия населения в трудовой деятельности, а также о гражданском неинституциональном населении с классификацией по возрасту, полу, расовой принадлежности и этническим группам. Дополнительные сведения об этом наборе данных, включая описания столбцов, различные способы доступа к набору данных и примеры, приведены на странице Статистика по занятому населению США в каталоге Открытых наборов данных Microsoft Azure.

Инициализации.

UsLaborPPICommodity

Представляет общедоступный набор данных со сведениями об индексе цен производителей в США (PPI) на товары.

Индекс цен производителей (PPI) — это показатель среднего изменения отпускных цен, выплаченных отечественным производителям за их продукцию, с течением времени. Цены, учитываемые при расчете PPI, определяются по первой коммерческой транзакции для соответствующих продуктов и услуг. Этот набор данных содержит PPI для отдельных продуктов и групп продуктов, выпускаемых ежемесячно. Дополнительные сведения об этом наборе данных, включая описания столбцов, различные способы доступа к набору данных и примеры, приведены на странице Индекс цен производителей в США на товары в каталоге Открытых наборов данных Microsoft Azure.

Инициализации.

UsLaborPPIIndustry

Представляет индекс цен производителей в США (PPI) — общедоступный отраслевой набор данных.

Индекс цен производителей (PPI) — это показатель среднего изменения отпускных цен, выплаченных отечественным производителям за их продукцию, с течением времени. Цены, учитываемые при расчете PPI, определяются по первой коммерческой транзакции для соответствующих продуктов и услуг. Этот набор данных содержит индексы PPI для широкого спектра отраслей экономики США. Дополнительные сведения об этом наборе данных, включая описания столбцов, различные способы доступа к набору данных и примеры, приведены на странице US Producer Price Index — Industry (Индекс цен производителей в США в различных отраслях) в каталоге Открытых наборов данных Microsoft Azure.

Общие сведения об Открытых наборах данных Azure см. в документации по Открытым наборам данных Azure.

Инициализации.

UsPopulationCounty

Представляет общедоступный набор данных о населении США по округам.

Этот набор данных содержит данные о населении США по половой и расовой принадлежности для каждого округа США. Источник — перепись населения, проводящаяся каждую декаду, за 2000 и 2010 годы. Дополнительные сведения об этом наборе данных, включая описания столбцов, различные способы доступа к набору данных и примеры, приведены на странице US Population by County (Население США по округам) в каталоге Открытых наборов данных Microsoft Azure.

Инициализации.

UsPopulationZip

Представляет общедоступный набор данных по населению США по почтовым индексам.

Этот набор данных содержит данные о населении США по половой и расовой принадлежности для каждого почтового индекса США. Источник — перепись населения, проводящаяся каждую декаду, за 2010 год. Дополнительные сведения об этом наборе данных, включая описания столбцов, различные способы доступа к набору данных и примеры, приведены на странице US Population by ZIP Code (Население США по почтовым индексам) в каталоге Открытых наборов данных Microsoft Azure.

Инициализации.