opendatasets 包

包含用于使用 Azure 开放数据集作为 DataFrame 以及扩充客户数据的功能。

Azure 开放数据集是精选公共数据集,可用于将方案专属特征添加到机器学习解决方案,以提高模型的准确度。 可以通过应用筛选器将这些公共数据集转换为 Spark 和 Pandas DataFrame。 对于某些数据集,可使用扩充器将公共数据与你的数据联接起来。 例如,可通过经度、纬度或邮政编码和时间将你的数据与天气数据联接起来。

Azure 开放数据集包括有关天气、人口普查、节假日、公共安全和位置的公共领域数据,有助于训练机器学习模型和扩充预测解决方案。 开放数据集位于 Microsoft Azure 云中,并已集成到 Azure 机器学习中。 有关使用 Azure 开放数据集的详细信息,请参阅使用 Azure 开放数据集创建数据集

有关 Azure 开放数据集的常规信息,请参阅 Azure 开放数据集文档

accessories

包含帮助标识数据列类型(包括纬度/经度、邮政编码和时间)的功能。

aggregators

包含用于定义如何聚合联接的数据的功能。

聚合器定义可以针对从两个数据集联接数据的结果执行的操作。 例如,在使用 enrichers 中的某个类时,可以指定聚合器作为操作的一部分。 如果不需要聚合,请使用 AggregatorAll

data

包含 publicholidays 模块中数据资源的 init 文件。

dataaccess

包含提供 Blob 文件访问方法的功能。

使用 opendatasets 包中的类(如 ChicagoSafety 类)时,此包中的 dataaccess 类和函数在内部使用。 一般情况下,无需直接使用 dataaccess 包中的功能。

enrichers

包含用于丰富并将来自两个数据集的数据联接在一起的功能。

通常,扩充器将来自不同源的数据联接在一起。 具体而言,扩充器能够将数据(客户数据)与 Azure 开放数据集或其他公共数据集中的数据联接在一起。

granularities

包含定义扩充器使用的时间和距离度量值的功能。

粒度是 enrichers 在扩充(连接)数据时使用的时间或距离的度量。 存在时间粒度(例如每小时或每天)和位置粒度(如最接近的距离)。

selectors

包含用于从客户数据集选择数据以及将数据与公共数据集中的数据联接的功能。

可通过选择器定义的逻辑基于时间和距离度量值使用公共数据集扩充数据。 例如,使用选择器,可以根据最近的位置或舍入到相同的时间粒度来查找要与数据联接的公共数据。

使用 enrichers 包中的一个类时指定选择器。

模块

environ

定义使用 Azure 开放数据集的运行时环境类。

此模块中的类确保针对不同环境优化 Azure 开放数据集功能。 一般情况下,无需实例化这些环境类,也无需担心它们的实现。 请改为使用 get_environ 模块函数来返回该环境。

BingCOVID19Data

表示必应新冠肺炎数据集。

数据集包含必应从多个可信任的可靠来源收集的 COVID-19 数据,包括世界卫生组织 (WHO)、疾病控制和预防中心 (CDC)、全国和各州公共健康部门、BNO News、24/7 Wall St. 和维基百科。 有关此数据集的详细信息(包括列说明、访问数据集的不同方法以及示例),请参阅 Microsoft Azure 开放数据集目录中的必应 COVID-19 数据

初始化筛选字段。

BostonSafety

表示波士顿安全公共数据集。

该数据集包含报告给波士顿市的 311 次通话。 有关此数据集的详细信息(包括列说明、访问数据集的不同方法以及示例),请参阅 Microsoft Azure 开放数据集目录中的波士顿安全数据

初始化筛选字段。

COVID19OpenResearch

表示新冠肺炎开放式研究数据集。

有关此数据集的详细信息(包括列说明、访问数据集的不同方法以及示例),请参阅 Microsoft Azure 开放数据集目录中的必应新冠肺炎开放式研究数据集

COVIDTrackingProject

表示 COVID 跟踪项目数据集。

此数据集包括新冠肺炎跟踪项目数据集,其中提供了美国各州和各区域有关测试、确诊病例、住院数和患者结果的最新数字。 有关此数据集的详细信息(包括列说明、访问数据集的不同方法以及示例),请参阅 Microsoft Azure 开放数据集目录中的新冠肺炎跟踪项目数据集

初始化筛选字段。

ChicagoSafety

表示波士顿安全公共数据集。

该数据集包含芝加哥市的 311 项服务请求,其中包括历史上的卫生法规投诉、报告的坑洞和路灯问题。 有关此数据集的详细信息(包括列说明、访问数据集的不同方法以及示例),请参阅 Microsoft Azure 开放数据集目录中的芝加哥安全数据

初始化筛选字段。

CitySafety

城市安全类 - 这是每个城市都可以继承的父类。

初始化筛选字段。

Diabetes

表示示例糖尿病公共数据集。

糖尿病数据集中包含带有 10 个特性的 442 个样本,因此非常适合用于机器学习算法入门练习。 有关此数据集的详细信息(包括列说明、访问数据集的不同方法以及示例),请参阅 Microsoft Azure 开放数据集目录中的示例:糖尿病

EcdcCOVIDCases

表示欧洲疾病预防与控制中心 (ECDC) 新冠肺炎病例。

此数据集包含来自欧洲疾病预防与控制中心 (ECDC)。 每行/每个条目包含各国家/地区每天报告的新增病例数。 有关此数据集(包括列说明、访问数据集的不同方式和示例)详细信息,请参阅 Microsoft Azure 开放数据集目录中的欧洲疾病预防与控制中心 (ECDC) 新冠肺炎病例

初始化筛选字段。

MNIST

表示手写数字的 MNIST 数据集。

包含手写数字的 MNIST 数据库有一个 60,000 示例的训练集,还有一个 10,000 示例的测试集。 这些数字已在大小方面规范化,在固定大小的图像中居中。 有关此数据集的详细信息(包括列说明、访问数据集的不同方法以及示例),请参阅 Microsoft Azure 开放数据集目录中的手写数字的 MNIST 数据库

有关使用 MNIST 数据集的示例,请参阅教程使用 Azure 机器学习通过 MNIST 数据和 scikit-learn 训练映像分类模型

NoParameterOpenDatasetBase

美国劳动力基类。

初始 化。

NoaaGfsWeather

表示美国国家海洋和气象局 (NOAA) 全球预报系统 (GFS) 数据集。

该数据集包含美国国家海洋和大气管理局 (NOAA) 的全球预报系统 (GFS) 所生成的美国天气预报数据(例如:温度、降水、风力),周期为 15 天,按小时记录。 有关此数据集的详细信息(包括列说明、访问数据集的不同方法以及示例),请参阅 Microsoft Azure 开放数据集目录中的 NOAA 全球预报系统

初始化筛选字段。

NoaaIsdWeather

表示美国国家海洋和气象局 (NOAA) 全球陆地数据集 (ISD)。

该数据集包括源自美国海洋与大气管理局 (NOAA) 的按小时记录的全球天气历史数据(例如:温度、降雨、风)。 有关此数据集的详细信息(包括列说明、访问数据集的不同方法以及示例),请参阅 Microsoft Azure 开放数据集目录中的 NOAA 全球陆地数据

初始化筛选字段。

NycSafety

表示纽约市安全公共数据集。

该数据集包含 2010 年至今纽约市的所有 311 服务请求。 有关此数据集的详细信息(包括列说明、访问数据集的不同方法以及示例),请参阅 Microsoft Azure 开放数据集目录中的纽约市安全数据

初始化筛选字段。

NycTaxiBase

纽约出租车类 - 这是个可以继承的父类。

初始化筛选字段。

NycTlcFhv

表示纽约市出租车 & 豪华轿车委员会公共数据集。

该数据集包含营运车辆 (FHV) 的行程记录,其中包括捕获调度基地许可证号、搭车日期、时间和出租车区域位置 ID 的字段(形成的文件如下)。 这些记录由基地所提交的 FHV 行程记录生成。 有关此数据集的详细信息,包括列说明、访问数据集的不同方式和示例,请参阅 Microsoft Azure 开放数据集目录中的 NYC 出租车 & 豪华轿车委员会 - For-Hire 车辆 (FHV) 行程记录

初始化筛选字段。

NycTlcGreen

表示纽约市出租车 & 豪华轿车委员会绿色出租车行程公共数据集。

绿色的出租车行程记录包括捕获以下信息的字段:上车和下车日期/时间、上车和下车位置、行程距离、逐条记录的车费、费率类型、付款类型和司机报告的乘客数。 有关此数据集的详细信息,包括列说明、访问数据集的不同方式和示例,请参阅 Microsoft Azure 开放数据集目录中的 NYC 出租车 & 豪华轿车委员会 - 绿色出租车行程记录

有关使用 NycTlcGreen 类的示例,请参阅教程使用自动化机器学习来预测出租车费用

初始化筛选字段。

NycTlcYellow

表示纽约市出租车 & 豪华轿车委员会黄色出租车行程公共数据集。

黄色的出租车行程记录包括捕获以下信息的字段:上车和下车日期/时间、上车和下车位置、行程距离、逐条记录的车费、费率类型、付款类型和司机报告的乘客数。 有关此数据集的详细信息(包括列说明、访问数据集的不同方式和示例),请参阅 Microsoft Azure 开放数据集目录中的 NYC 出租车 & 豪华轿车委员会 - 黄色出租车行程记录

初始化筛选字段。

OjSalesSimulated

表示"橙汁销售模拟数据示例"数据集。

有关此数据集的详细信息(包括列说明、访问数据集的不同方法以及示例),请参阅 Microsoft Azure 开放数据集目录中的示例:橙汁销售模拟数据

PublicHolidays

表示公共假日公共数据集。

数据集包含来自 PyPI holidays 数据包和维基百科的全球公共假日数据,其中包括 1970 年至 2099 年的 38 个国家或地区。 每一行表示某一特定日期、国家/地区的假日信息,以及大多数人是否带薪休假。 有关此数据集的详细信息(包括列说明、访问数据集的不同方法以及示例),请参阅 Microsoft Azure 开放数据集目录中的公共假日

初始化筛选字段。

PublicHolidaysOffline

表示公共假日离线公共数据集。

有关行的说明,请参阅 Microsoft Azure 开放数据集目录中的公共假日

初始化筛选字段。

SampleDatasetBase

表示示例数据集基类。

SanFranciscoSafety

表示旧金山安全公共数据集。

该数据集包含旧金山市消防部门呼叫服务和 311 项事件。 有关此数据集的详细信息(包括列说明、访问数据集的不同方法以及示例),请参阅 Microsoft Azure 开放数据集目录中的旧金山安全数据

初始化筛选字段。

SeattleSafety

表示西雅图安全公共数据集。

此数据集包含西雅图消防部门 911 调度数据。 有关此数据集的详细信息(包括列说明、访问数据集的不同方法以及示例),请参阅 Microsoft Azure 开放数据集目录中的芝加哥安全数据

初始化筛选字段。

UsLaborCPI

表示美国消费者价格索引公共数据集。

消费者价格指数 (CPI) 是衡量城市消费者为一系列市场消费商品和服务所支付的价格随时间变化的平均值。 有关此数据集的详细信息(包括列说明、访问数据集的不同方法以及示例),请参阅 Microsoft Azure 开放数据集目录中的美国消费者价格指数

初始 化。

UsLaborEHENational

表示美国全国雇佣小时数和收入公共数据集。

此数据集包含美国的非农就业、小时数和工人工资收入的行业估算。 有关此数据集的详细信息(包括列说明、访问数据集的不同方法以及示例),请参阅 Microsoft Azure 开放数据集目录中的美国全国就业小时数和收入

初始 化。

UsLaborEHEState

表示美国全国雇佣小时数和收入公共数据集。

此数据集包含美国的非农就业、小时数和工人工资收入的行业估算。 有关此数据集的详细信息(包括列说明、访问数据集的不同方法以及示例),请参阅 Microsoft Azure 开放数据集目录中的美国全国就业小时数和收入

初始 化。

UsLaborLAUS

表示美国当地失业统计数据公共数据集。

此数据集包含美国人口普查地区及分区、州、县、大都市区和许多城市的月度和年度就业、失业和劳动力数据。 有关此数据集的详细信息(包括列说明、访问数据集的不同方法以及示例),请参阅 Microsoft Azure 开放数据集目录中的美国当地失业统计数据

初始 化。

UsLaborLFS

表示美国劳动力统计信息公共数据集。

此数据集包含与美国劳动力相关的数据,包括劳动力参与率,以及按年龄、性别、种族和民族划分的民用非机构人口。 有关此数据集的详细信息(包括列说明、访问数据集的不同方法以及示例),请参阅 Microsoft Azure 开放数据集目录中的美国劳动力统计数据

初始 化。

UsLaborPPICommodity

表示美国生产者价格指数 (PPI) -大宗商品公共数据集。

生产价格指数 (PPI) 是国内生产者产品出售价格随时间变化平均值的测量值。 PPI 中包含的价格来自相关产品和服务的首次商业交易。 此数据集包含每月发布的单个产品和产品组的 PPI。 有关此数据集的详细信息(包括列说明、访问数据集的不同方法以及示例),请参阅 Microsoft Azure 开放数据集目录中的美国生产者价格指数

初始 化。

UsLaborPPIIndustry

表示美国生产者价格指数 (PPI) - 行业公共数据集。

生产价格指数 (PPI) 是国内生产者产品出售价格随时间变化平均值的测量值。 PPI 中包含的价格来自相关产品和服务的首次商业交易。 此数据集包含美国经济各行业领域的 PPI。 有关此数据集的详细信息(包括列说明、访问数据集的不同方法以及示例),请参阅 Microsoft Azure 开放数据集目录中的美国生产者价格指数 - 行业

有关 Azure 开放数据集的常规信息,请参阅 Azure 开放数据集文档

初始 化。

UsPopulationCounty

表示按县公共数据集统计的美国人口。

此数据集包含美国每个县按性别和种族划分的人口,数据来源于 2000 年和 2010 年十年一次的人口普查。 有关此数据集的详细信息(包括列说明、访问数据集的不同方法以及示例),请参阅 Microsoft Azure 开放数据集目录中的按县统计的美国人口

初始 化。

UsPopulationZip

表示按邮编公共数据集统计的美国人口。

此数据集包含美国每个邮编按性别和种族划分的人口,数据来源于 2010 年十年一次的人口普查。 有关此数据集的详细信息(包括列说明、访问数据集的不同方法以及示例),请参阅 Microsoft Azure 开放数据集目录中的按邮编统计的美国人口

初始 化。