机器学习类型

已完成

有多个类型的机器学习,必须应用适当的类型,具体取决于要预测的内容。 下图显示了常见机器学习类型的细分。

显示监督式机器学习(回归和分类)和无监督机器学习(聚类分析)的关系图。

监管式机器学习

监督 式机器学习是机器学习算法的一般术语,其中训练数据包括 特征 值和已知 标签 值。 监督式机器学习用于通过确定过去观察中的特征和标签之间的关系来训练模型,以便将来可以预测特征的未知标签。

回归

回归 是监督机器学习的一种形式,其中模型预测的标签是数值。 例如:

  • 给定一天销售的冰淇淋数量,基于温度、降雨量和风速。
  • 房产的售价基于其面积(平方英尺)、它包含的卧室数量以及其所在位置的社会经济指标。
  • 基于汽车的发动机大小、重量、宽度、高度和长度(以每加仑英里为单位)的燃油效率。

分类

分类 是一种监督式机器学习,其中标签表示分类或 。 有两种常见的分类方案。

二元分类

二元分类中,标签确定 观察到的项 是特定类的实例(还是 不是)。 或者用另一种方式,二元分类模型预测两个互斥结果中的一个。 例如:

  • 根据体重、年龄、血糖水平等临床指标,患者是否面临糖尿病风险。
  • 银行客户是否会根据收入、信用历史记录、年龄和其他因素违约贷款。
  • 邮件列表客户是否会根据人口统计属性和过去的购买情况积极响应市场营销产品/服务。

在所有这些示例中,模型针对单个可能的类别进行二元 true/false正/负 预测。

多类分类

多类分类 扩展二元分类,用于预测表示多个可能类之一的标签。 例如,

  • 企鹅的物种(阿德利企鹅、巴布亚企鹅或帽带企鹅),基于身体测量
  • 电影(喜剧恐怖浪漫冒险科幻小说)的流派,其演员、导演和预算。

在涉及一组已知多个类的方案中,多类分类用于预测相互排斥的标签。 例如,企鹅不能同时是 根图阿黛莉。 但是,也有一些算法可用于训练 多标签 分类模型,其中可能有多个有效标签用于单个观察。 例如,电影可能归类为 科幻小说喜剧

非监管式机器学习

无监督 机器学习涉及使用仅包含 特征值且 不包含任何已知标签的数据训练模型。 无监督机器学习算法确定训练数据中观察特征之间的关系。

集群

无监督机器学习的最常见形式是 聚类分析。 聚类分析算法根据观察特征标识观察之间的相似性,并将其分组到离散聚类中。 例如:

  • 根据它们的大小、叶数和花瓣数量对类似的花卉进行分组。
  • 根据人口统计属性和购买行为确定类似客户的组。

在某些方面,聚类分析类似于多类分类;其中,它将观察结果分类为离散组。 区别在于,使用分类时,你已经知道训练数据中观察值所属的类;因此,算法的工作原理是确定特征与已知分类标签之间的关系。 在聚类分析中,没有以前已知的分类标签,算法仅基于特征的相似性对数据观察进行分组。

在某些情况下,聚类分析用于确定在训练分类模型之前存在的类集。 例如,可以使用聚类分析将客户细分为组,然后分析这些组以识别和分类不同类别的客户(高价值 - 低量频繁的小购买者等)。 然后,可以使用分类来标记聚类结果中的观察值,并使用标记的数据来训练预测新客户可能属于哪个客户类别的分类模型。