什么是机器学习?

已完成

机器学习的起源是统计信息和数据数学建模。 机器学习的基本理念是使用过去观察中的数据来预测未知结果或值。 例如:

  • 冰淇淋商店的所有者可能会使用一个应用,该应用结合了历史销售额和天气记录,以根据天气预报预测他们可能在给定的一天销售多少冰淇淋。
  • 医生可能会使用来自过去患者的临床数据来运行自动测试,以根据体重、血糖水平和其他测量等因素预测新患者是否面临糖尿病风险。
  • 南极的一名研究人员可能会利用过去的观测记录,根据鸟类的鳍、喙和其他物理特征的测量结果,自动识别不同种类的企鹅(如阿黛莉巴布亚钦斯特拉普)。

机器学习作为函数

由于机器学习基于数学和统计信息,因此通常以数学术语考虑机器学习模型。 从根本上说,机器学习模型是一个软件应用程序,它 封装函数以 基于一个或多个输入值计算输出值。 定义该函数的过程称为 训练。 定义函数后,可以使用它来预测名为 推理的进程中的新值。

让我们探讨训练和推理所涉及的步骤。

显示机器学习中的训练和推理阶段的关系图。

  1. 训练数据由过去的观察结果组成。 在大多数情况下,观察包括所观察事物的观测属性或 特征 ,以及要训练模型以预测(称为 标签)的已知值。

    在数学术语中,特征通常用速记变量名称 x 表示,而标签则用 y 表示。 通常,观察由多个特征值组成,因此 x实际上是矢量( 具有多个值的数组),如下所示: [x1,x2,x3,...]

    为了更清楚地说明这一点,让我们来看看前面所述的示例:

    • 在冰淇淋销售方案中,我们的目标是训练一个模型,该模型可以根据天气预测冰淇淋销售额。 当天(温度、降雨、风速等)的天气度量值是 特征x),每天出售的冰淇淋数量将是 标签y)。
    • 在医疗方案中,目标是根据患者的临床测量预测患者是否面临糖尿病风险。 患者的度量值(体重、血糖水平等)是 特征x),糖尿病的可能性(例如 ,1 为有风险, 0 为无风险)是 标签y)。
    • 在南极研究方案中,我们希望根据企鹅的物理特性来预测企鹅的物种。 企鹅的关键测量值(脚蹼的长度、喙的宽度等)是特征 (x),物种(例如,0 表示阿德利企鹅,1 表示白眉企鹅,2 表示帽带企鹅)是标签 (y)
  2. 将算法应用于数据,以尝试确定特征与标签之间的关系,并将该关系通用化为可在 x 上执行的计算来计算 y。 使用的特定算法取决于你尝试解决的预测问题类型(稍后对此进行更多讨论),但基本原则是尝试 将数据拟合 到一个函数中,其中特征的值可用于计算标签。

  3. 算法的结果是将算法派生的计算封装为函数模型 - 让我们将其称为 f。 在数学表示法中:

    y = f(x)

  4. 训练 阶段完成后 ,训练的模型可用于 推理。 该模型本质上是一个软件程序,用于封装训练过程生成的函数。 您可以输入一组特征值,并接收对应标签的预测结果。 由于模型的输出是由函数计算的预测值,而不是观察值,因此通常会看到函数的输出显示为 ŷ(这种表达方式生动地被称为“y-hat”)。