了解机器学习的原则
机器学习是用于创建预测模型的编程技术。 与典型的编程不同,其中代码用于描述生成结果的特定步骤;机器学习依赖于 使用算法 来迭代探索数据实体 的特征 与生成的模型应预测 的标签 之间的关系。 机器学习算法基于概率理论和统计信息,依赖于用于训练模型的大量数据。
在简单级别,机器学习模型是一个 函数 ,它采用观察实体 的特征 (其特征),并对其执行计算以返回预测 的标签。 通常将特征称为 x,预测标签为 y;因此实际上,机器学习模型是表达式中的函数 y = f(x)
。
函数为计算标签值而对特征执行的特定作由用于训练模型的算法决定。
机器学习类型
从广义上讲,有两种常见的机器学习:
- 使用包含已知标签值的数据训练模型的监督式机器学习(因此算法使用现有数据在 x 和 y 之间建立关系),从而生成可应用于 x 以计算 y 的函数。
- 无监督机器学习中,模型仅使用特征(x)值进行训练,并将具有相似特征的观察分组(或聚类)。
监管式机器学习
本模块重点介绍监督式机器学习,这是最常见的方案。 在监督式机器学习的广泛定义中,有两种常见的机器学习算法:
标签是数值的回归算法,例如可以测量的价格、温度、金额或其他值。 回归算法生成的模型中,函数(f)作用于特征(x)以计算标签(y)的数值。
例如,回归算法可用于训练一个模型,该模型根据一年中、星期几、温度、湿度等特征预测公园内展台销售的预期冰淇淋数量。
分类算法中,标签是离散类别(或类)。 分类算法生成函数(f)对特征(x)进行作的模型,以计算每个可能类的 概率 值,并返回具有最高概率的类的标签(y)。
例如,分类算法可用于训练模型,该模型根据血液胰岛素水平、体重、身高、年龄等特征预测患者是否患有糖尿病。 标识两个可能类之一(如 true 或 false)的分类模型是 二元 分类的一个示例。 用于预测两类以上概率的算法(例如,在无糖尿病患者、1 型糖尿病或2型糖尿病之间区分)用于 多类 分类。
非监管式机器学习
非监督式学习的最常见形式是 聚类分析,其中数据事例的特征被视为多维空间中点的向量。 聚类分析算法的目标是定义对点进行分组的聚类,以便具有类似特征的事例紧密相连,但聚类显然彼此分离。
当你需要定义数据的不同类别,但没有预先定义的类别来分配现有的数据观察时,聚类是非常有用的。 例如,你可能希望根据客户档案的相似性对客户进行细分。 聚类分析还可用作构建分类解决方案的初始步骤-本质上,使用聚类来确定数据的适当类。