人类和机器学习模型的学习方式

已完成

机器学习模型的训练方式与人类的训练方式类似。 那么人类如何进行学习呢?

如果你走进一片区域,该区域生长着五种你从未见过的浆果,你会怎么做? 假设要求你随机摘取 100 个浆果,并且这五种不同浆果类型中每一种至少摘取一个。 你被会告知所摘取的浆果的名称,每种浆果对应一个名称。 有树莓、蓝莓、黑莓、草莓和越橘莓。 摘取的其他 95 个浆果也属于这些浆果类型。

通过为这五种不同的浆果类型命名,你确定可以识别随机摘取的剩余 95 个浆果的类型。 也许有些黑莓还没有成熟,看起来比较小并且有点像树莓。有些蓝莓还没有成熟,看起来有点像越橘莓。 但即便如此,对于这 100 个浆果来说,你明确知道每个浆果所属的类型,并且能够按照类型分类。

接下来,要求你在相邻的新区域只收集树莓。 你相信自己知道树莓长什么样子:

Photo of a raspberry.

你完成此任务并成功收集 10 个树莓!

回顾一下,最初的 100 个浆果位于初始数据集。 已向你提供输入(100 个浆果)和输出(浆果所属类型),然后你对自己进行了训练,以便能够识别所摘取的浆果。

然后对你进行了测试。 在浆果的新区域中,给定任何输入的情况下,识别浆果的类型,并只选择一个输出,即树莓。 你在浆果种植园行走时,看到了其他浆果(输入)。 你测试了浆果的心理模型,然后只摘取了树莓。 此时,你认为浆果的心理模型是 100% 精确的。

但随后,你看到一种与树莓类似但略有不同的浆果植物。 你不知道的是,在新的浆果采摘区域实际上有六种浆果。 你确实找到更多的树莓,但还收集了一些其他浆果,因为你认为它们可能实际上就是树莓,尽管看起来略有不同:

Photo of a hand holding a thimbleberry.

新的浆果品种和树莓看起来不同于其他四种类型的浆果,但它们看起来很相似。 但不是同一种类型的浆果。 你摘取的新品浆果是糙莓。

在这种情况下,数据集就不够广泛。 仅仅因为你认为它们属于以上五种浆果类型之一,并且不知道有有超过五种的浆果类型,而将糙莓和树莓放在一起,这是不准确的做法。 因为你不知道你需要知道的所有信息是否准确,所以实际上你对浆果的识别没有想象中那么准确。

识别浆果可能看起来微不足道,但其意义同样适用于机器学习解决方案。 这些类型的解决方案影响到人们的生活时(如火箭发射),必须避免出现此类数据分析错误。