在机器学习 Studio 中使用示例数据集（经典版）

适用于： 适用：机器学习 Studio（经典版）不适用： Azure 机器学习

重要

对机器学习工作室（经典）的支持将于 2024 年 8 月 31 日结束。建议按该日期过渡到 Azure 机器学习。

从 2021 年 12 月 1 日开始，你将无法创建新的机器学习工作室（经典）资源。在 2024 年 8 月 31 日之前，可继续使用现有的机器学习工作室（经典）资源。

请参阅有关将机器学习项目从 ML Studio（经典）移动到 Azure 机器学习的信息。
详细了解 Azure 机器学习

ML 工作室（经典）文档即将停用，将来可能不会更新。

在机器学习 Studio（经典版）中创建新工作区时，默认包含许多示例数据集和试验。其中许多示例数据集由 Azure AI 库中的示例模型使用。其他数据作为典型用于机器学习的各种类型的示例被包含在内。

一些数据集可在 Azure Blob 存储中使用。对于这些数据集，下表提供了直接链接。可以使用 “导入数据 ”模块在试验中使用这些数据集。

余下的这些示例数据集可在“保存的数据集”下的工作区中使用。可以在机器学习工作室（经典）中试验画布左侧的模块调色板中找到此项。通过将其中的任何数据集拖放到实验画布中，即可在自己的实验中使用它们。

数据集

数据集名称	数据集说明
成年人口收入二元分类数据集	1994 年人口普查数据库的子集（其中在职人士年龄大于 16，调整后的收入指数大于 100）。用法：通过人口统计数据对人群进行分类，以预测个人年收入是否超过5万元。相关研究：科维，R.，贝克尔，B.，（1996年）。 UCI 机器学习存储库 https://archive.ics.uci.edu/ml。欧文，CA：加州大学信息与计算机科学学院
机场代码数据集	美国机场代码。此数据集中的一行包含每一个美国机场，其中提供机场 ID 号和名称，以及所在位置的城市和州。
汽车价格数据（原始）	有关汽车品牌和型号的信息，包括价格、汽缸数和 MPG 等特性以及保险风险评分。风险评分最初与自动定价关联。然后，根据精算师所熟知的“符号化”过程，调整实际风险。值为 +3 表明汽车存在风险，值为 -3 表明汽车可能安全。用法：使用回归或多变量分类按特征预测风险评分。相关研究：Schlimmer, J.C. (1987)。 UCI 机器学习存储库 https://archive.ics.uci.edu/ml。欧文，CA：加州大学信息与计算机科学学院
自行车租赁 UCI 数据集	UCI 自行车租赁数据集基于 Capital Bikeshare 公司的实际数据，该公司维护着美国华盛顿特区的自行车租赁网络。该数据集中的一行对应于 2011 年和 2012 年中每一天的每个小时，总共 17,379 行。每小时自行车租车数范围从 1 到 977。
Bill Gates RGB 图像	转换为 CSV 数据的公开可用映像文件。使用 K-Means 聚类分析模型详细信息页在颜色量化中提供了转换图像的代码。
献血数据	来自台湾新竹市输血服务中心献血数据库的数据子集。捐献者数据包括自上次捐献的时隔月数和频率，或捐献总数、自上次捐献的时隔时间和献血量。用法：目标是通过分类预测捐赠者是否在 2007 年 3 月献血，其中 1 表示目标期间捐赠者，0 为非捐赠者。相关研究：叶，I.C.，（2008年）。 UCI 机器学习存储库 https://archive.ics.uci.edu/ml。欧文，CA：加州大学信息与计算机科学学院 Yeh, I-Cheng, Yang, King-Jang, 和 Ting, Tao-Ming, “利用伯努利序列进行 RFM 模型的知识发现”, 《专家系统与应用》, 2008 年, https://dx.doi.org/10.1016/j.eswa.2008.07.018
乳腺癌数据	肿瘤学研究所提供的三个癌症相关数据集之一，经常出现在机器学习文献中。将诊断信息与来自约 300 个组织样本的实验室分析的特征相结合。用法：根据 9 个属性对癌症类型进行分类，其中一些是线性的，有些是分类的。相关研究：Wohlberg, W.H.、Street, W.N. 和 Mangasarian, O.L. (1995)。 UCI 机器学习存储库 https://archive.ics.uci.edu/ml。欧文，CA：加州大学信息与计算机科学学院
乳腺癌特征	数据集包含 X 射线图像的 102K 个可疑区域（候选）的信息，每个由 117 个特征描述。这些特征是专有的，数据集创建者（即 Siemens Healthcare）不会透露其含义。
乳腺癌信息	数据集包含 X 射线图像的每个可疑区域的附加信息。每个示例提供关于乳腺癌特征数据集中的相应行数的信息（例如，标签、患者 ID、相对于整个图像的贴片坐标）。每位病人有一些例子。对于患有癌症的患者，一些示例是积极的，一些示例是消极的。对于未患癌症的患者，所有示例都是消极的。数据集有 102K 个示例。数据集有偏差，0.6％的点为正，其余为负。数据集由 Siemens Healthcare 提供。
共享的 CRM 亲和力标签	来自 KDD Cup 2009 客户关系预测挑战赛的标签 (orange_small_train_appetency.labels)。
共享的 CRM 流失情况标签	来自 KDD Cup 2009 客户关系预测挑战赛的标签 (orange_small_train_churn.labels)。
共享的 CRM 数据集	这些数据来自 KDD Cup 2009 客户关系预测挑战（orange_small_train.data.zip）。数据集包含法国电信公司 Orange 的 50K 个客户。每个客户都有 230 个匿名特征，其中 190 个是数字的，其余 40 个是分类的。特征非常稀疏。
已共享的 CRM 增销标签	来自 KDD Cup 2009 客户关系预测挑战赛的标签 (orange_large_train_upselling.labels)。
能效回归数据	模拟能量分布的集合，基于 12 种不同的建筑形状。建筑通过 8 个特征区分。这包括玻璃窗面积、玻璃窗面积分布和方向。用法：使用回归或分类来预测基于两个实际值响应之一的节能评级。对于多类分类，将响应变量四舍五入为最接近的整数。相关研究：西法拉， A. 和 Tsanas， A. （2012 年）。 UCI 机器学习存储库 https://archive.ics.uci.edu/ml。欧文，CA：加州大学信息与计算机科学学院
航班延误数据	从美国运输部（实时）收集的TranStats数据收集中获取的乘客航班准时性能数据。数据集涵盖 2013 年 4 月到 10 月的时间段。在上传到机器学习 Studio（经典版）之前，数据集已按如下所示进行处理：数据集经筛选，仅包含美国本土 70 个最繁忙的机场取消的航班标记为延误超过 15 分钟转降航班已筛选掉已选择以下各列：Year、Month、DayofMonth、DayOfWeek、Carrier、OriginAirportID、DestAirportID、CRSDepTime、DepDelay、DepDel15、CRSArrTime、ArrDelay、ArrDel15、Canceled
航班准点率（原始）	美国 2011 年 10 月航班到达和出发的记录。用法：预测航班延误。相关研究：来自美国运输部 https://www.transtats.bts.gov/DL_SelectFields.asp?Table_ID=236&DB_Short_Name=On-Time。
森林火灾数据	包含天气数据，如温度和湿度指数和风速。该数据取自葡萄牙东北部地区，并包含森林火灾记录。用法：这是一项困难的回归任务，目的是预测森林火灾的燃烧面积。相关研究：科特斯，P.，和莫莱斯，A.（2008年）。 UCI 机器学习存储库 https://archive.ics.uci.edu/ml。欧文，CA：加州大学信息与计算机科学学院 [Cortez 和 Morais，2007 年] P. Cortez 和 A. Morais。使用气象数据预测森林火灾的数据挖掘方法。 J. Neves、M. F. Santos 和 J. Machado 编辑，“人工智能新趋势”，2007 年第 13 届 EPIA 会议记录 - 有关人工智能的葡萄牙会议，2007 年 12 月，葡萄牙吉马良斯，第 512-523 页。 APPIA, ISBN-13 978-989-95618-0-9。如需获取，请访问 http://www.dsi.uminho.pt/~pcortez/fires.pdf。
德国信用卡 UCI 数据集	UCI Statlog（德国信用卡）数据集（Statlog+German+Credit+Data），使用 german.data 文件。数据集将用户（由一组属性描述）分为两类：低信用风险或高信用风险。每个示例表示一位用户。有 20 个特征，包括数值和分类，以及二进制标签（信用风险值）。高信用风险条目具有标签 = 2，低信用风险条目具有标签 = 1。将低风险示例错误分类为高的成本是 1，反之将高风险示例错误分类为低的成本是 5。
IMDB（互联网电影数据库）电影标题	数据集包含 Twitter 推文中给电影评分的有关信息：IMDB 电影 ID、电影名称、风格和制作年份。数据集中有 17K 个电影。数据集在论文“S. ”中被介绍。 Dooms、T. De Pessemier 和 L. Martens. MovieTweetings：从 Twitter 收集的电影评分数据集。适用于推荐系统的众包和人工计算研讨会，CrowdRec at RecSys 2013。
鸢尾花二分类数据	这可能是模式识别文献中最有名的数据库。数据集相对较小，三种鸢尾花品种的每个花瓣测量均包含 50 个示例。用途：通过测量值预测鸢尾花类型。相关研究：Fisher, R.A. (1988)。 UCI 机器学习存储库 https://archive.ics.uci.edu/ml。欧文，CA：加州大学信息与计算机科学学院
电影推文	该数据集是Movie Tweetings数据集的一个扩展版本。数据集中具有 170K 个电影评分，从 Twitter 上结构良好的推文中提取。每个实例表示一篇推文，是一个元组：用户 ID、IMDB 电影 ID、评分、时间戳、收藏此推文的数目和转发此推文的数目。数据集由 A. Said、S. Dooms、B. Loni 和 D. Tikk 提供，用于 Recommender Systems Challenge 2014。
各种汽车的 MPG 数据	此数据集是美国卡内基梅隆大学的 StatLib 库提供的数据集略有修改的版本。 1983 年美国统计协会博览会使用过该数据集。该数据列出各种汽车的油耗（以每加仑英里数为计量单位）。还包括汽缸数、发动机排量、马力、总重量和加速性能等信息。用法：基于三个多值离散属性和五个连续属性预测燃油经济性。相关研究： StatLib，卡内基梅隆大学，（1993年）。 UCI 机器学习存储库 https://archive.ics.uci.edu/ml。欧文，CA：加州大学信息与计算机科学学院
皮马族印地安人糖尿病二元分类数据集	美国国家糖尿病、消化和肾脏疾病研究所数据库数据的一个子集。数据集经筛选，重点研究皮马族印第安人后代的女性患者。数据包括葡萄糖和胰岛素水平等医疗数据，以及生活方式因素。用法：预测主题是否患有糖尿病（二元分类）。相关研究：西吉利托，V.（1990年）。 UCI 机器学习存储库 https://archive.ics.uci.edu/ml“。欧文，CA：加州大学信息与计算机科学学院
餐馆客户数据	一组关于客户的元数据，其中包括人口统计信息和偏好。用法：将此数据集与其他两个餐厅数据集结合使用来训练和测试推荐器系统。相关研究：巴奇，K.和利赫曼，M.（2013年）。 UCI 机器学习存储库 https://archive.ics.uci.edu/ml。加州大学欧文分校的信息与计算机科学学院。
餐馆特色数据	一组关于餐馆及其特色的元数据，如食物种类、就餐样式和位置。用法：将此数据集与其他两个餐厅数据集结合使用来训练和测试推荐器系统。相关研究：巴奇，K.和利赫曼，M.（2013年）。 UCI 机器学习存储库 https://archive.ics.uci.edu/ml。加州大学欧文分校的信息与计算机科学学院。
餐馆评分	包含用户对餐馆的评分，分数范围从 0 到 2。用法：将此数据集与其他两个餐厅数据集结合使用来训练和测试推荐器系统。相关研究：巴奇，K.和利赫曼，M.（2013年）。 UCI 机器学习存储库 https://archive.ics.uci.edu/ml。加州大学欧文分校的信息与计算机科学学院。
钢退火多类别数据集	该数据集包含钢退火实验的一系列记录。它包含生成钢种的物理属性（宽度、厚度、类型（卷材、板材等））。用法：预测两个数值类属性中的任何一个;强度或强度。还可以分析这些属性之间的相关性。钢种遵循由 SAE 和其他组织定义的一组标准。您正在寻找特定的“等级”（类变量），并且想要了解所需的值。相关研究：斯特林，D. 和邦廷，W.（NA）。 UCI 机器学习存储库 https://archive.ics.uci.edu/ml。欧文，CA：加州大学信息与计算机科学学院可在此处找到有关钢材等级的实用指南：https://www.steamforum.com/pictures/Outokumpu-steel-grades-properties-global-standards.pdf
望远镜数据	高能量伽玛粒子爆发以及背景噪声的记录，两者都使用蒙特卡洛方法模拟。该模拟的目的是提高地基大气切伦科夫伽玛望远镜的准确性。这通过使用统计方法来区分所需信号（Cherenkov 辐射淋浴）和背景噪声（由上层大气中的宇宙射线引发的强子淋浴）实现。已预处理数据，创建细长的群集，其中长轴朝向相机中心。该椭圆的特征（通常称为 Hillas 参数）是可以用于辨别的图像参数。用法：预测淋浴图像是否表示信号或背景噪音。笔记：简单分类准确性对于此数据没有意义，因为将后台事件分类为信号比将信号事件分类为后台更差。为了比较不同的分类器，应当使用 ROC 图。接受背景事件作为信号的概率必须低于以下阈值之一：0.01、0.02、0.05、0.1 或 0.2。另请注意，背景事件的数量（h 表示强子簇射）被低估。在实际测量中，h 或噪声类代表大部分事件。相关研究：Bock, R.K. (1995)。 UCI 机器学习存储库 https://archive.ics.uci.edu/ml。欧文，CA：加州大学信息学院
天气数据集	来自NOAA的每小时陆地天气观测（201304到201310期间的合并数据）。该天气数据包括从机场气象站获取的观测结果，涵盖的时间段为 2013 年 4 月到 10 月。在上传到机器学习 Studio（经典版）之前，数据集已按如下所示进行处理：气象站标识符已被映射到相应的机场标识符与 70 个最繁忙的机场无关的气象站已筛选掉 "日期列已拆分为单独的年、月和日列" 已选择以下各列：AirportID、Year、Month、Day、Time、TimeZone、SkyCondition、Visibility、WeatherType、干球温度（华氏）、干球温度（摄氏）、湿球温度（华氏）、湿球温度（摄氏）、露点温度（华氏）、露点温度（摄氏）、相对湿度、风速、风向、风特征值、站点气压、气压趋势、气压变化、海平面气压、记录类型、每小时降水量、高度表
维基百科 SP 500 数据集	数据来自维基百科 (https://www.wikipedia.org/)，基于每个标准普尔 500 强公司的文章，存储为 XML 数据。在上传到机器学习 Studio（经典版）之前，数据集已按如下所示进行处理：提取每个特定公司的文本内容去除维基百科的格式设置去除非字母数字字符将所有文本都转换为小写添加了已知的公司类别请注意，可能找不到某些公司的文章，因此记录数小于 500。
direct_marketing.csv	数据集包含客户数据和有关其响应直接邮寄活动的迹象。每一行表示一位客户。数据集包含 9 个关于用户统计信息和过往行为的特征，以及 3 个标签列（访问、转化和支出）。访问是一个二选一字段，表示客户是在市场营销活动后访问的。转化率表示客户购买了商品。支出为花费的金额。数据集由 Kevin Hillstrom 提供，用于 MineThatData E-Mail Analytics And Data Mining Challenge。
lyrl2004_tokens_test.csv	RCV1-V2 路透社新闻数据集中测试示例的特征。该数据集中具有 781K 个新闻文章及其 ID（数据集的第一列）。每篇文章已经过标记化、去除停用词和词干提取。数据集由 David 提供。 D. Lewis。
lyrl2004_tokens_train.csv	RCV1-V2 路透社新闻数据集中训练示例的特征。该数据集中具有 23K 个新闻文章及其 ID（数据集的第一列）。每篇文章已经过标记化、去除停用词和词干提取。数据集由 David 提供。 D. Lewis。
network_intrusion_detection.csv	KDD Cup 1999 知识发现和数据挖掘工具竞赛（kddcup99.html）中的数据集。数据集已下载并存储在 Azure Blob 存储（network_intrusion_detection.csv），并包括训练和测试数据集。训练数据集大约有 12.6 万行和 43 列，包括标签。 3 列是标签信息的组成部分，40 列由数字和字符串/分类特征组成，可用于训练模型。测试数据具有大约 22.5K 个测试示例，具有与训练数据相同的 43 列。
rcv1-v2.topics.qrels.csv	RCV1-V2 路透社新闻数据集中新闻文章的主题分配。可以分配给新闻文章多个主题。每行的格式为“<主题名称><文档 ID> 1”。数据集包含 260万个主题分配任务。数据集由 David 提供。 D. Lewis。
student_performance.txt	这些数据来自 KDD 杯 2010 学生绩效评估挑战（学生绩效评估）。使用的数据为 Algebra_2008_2009 训练集，Stamper, J.、Niculescu-Mizil, A.、Ritter, S.、Gordon, G.J. 和 Koedinger, K.R. (2010)。代数 I 2008-2009。来自 KDD Cup 2010 教育数据挖掘挑战赛的挑战数据集。在 downloads.jsp找到它。数据集已下载并存储在 Azure Blob 存储（student_performance.txt）中，其中包含学生辅导系统中的日志文件。提供的特征包含问题 ID 及其简要描述、学生 ID、时间戳以及学生在正确解决该问题之前尝试的次数。原始数据集具有 890 万条记录，此数据集已降低取样为前 10 万行。该数据集具有 23 个制表符分隔的各种类型的列：数值、分类和时间戳。

后续步骤

使用示例启动试验

Last updated on 2018-01-19

通过

在 机器学习 Studio 中使用示例数据集（经典版）

数据集

后续步骤

其他资源

在机器学习 Studio 中使用示例数据集（经典版）