了解 LLM

已完成

大型语言模型 (LLM) 是一类 AI,可以处理和生成自然语言文本。 它从大量来自书籍、文章、网页和图像等来源的数据中学习,以发现语言模式和规则。

它们有多大?

LLM 是使用神经网络体系结构生成的。 它接收一个输入内容,具有几个隐藏层,这些层可分解语言的不同方面,并在输出层生成内容。

我们经常说最新的基础模型比上一个模型大,但这意味着什么? 简言之,模型具有的参数越多,它可以处理、学习和生成的数据越多。

对于神经网络体系结构的每两个神经元之间的连接,有一个函数:weight * input + bias(权重 * 输入 + 偏差)。 此网络会生成数值,用于确定模型处理语言的方式。

LLM 确实很大,而且发展迅速。 一些模型在 2018 年已可计算数百万个参数。 但今天,GPT-4 可以计算数万亿个参数。

Diagram showing the different generations of LLMs associated with the number of parameters each model has.

基础模型在何处适合 LLM?

基础模型是指 LLM 的特定实例或版本。 例如,GPT-3、GPT-4 或 Codex。

基础模型是在大型文本库上训练和微调的,如果是 Codex 模型实例,则使用的是代码。

基础模型采用所有不同格式的训练数据,并使用转换器体系结构生成通用模型。 可以创建适应和专用化,以通过提示或微调来实现某些任务。

LLM 与更传统的自然语言处理 (NLP) 有何不同?

有一些内容可将传统 NLP 与 LLM 分开。

传统 NLP 大型语言模型
每个功能需要一个模型。 单个模型用于许多自然语言用例。
提供一组标记的数据来训练 ML 模型。 在基础模型中使用数 TB 的未标记数据。
用自然语言描述希望模型执行的操作。 针对特定用例进行高度优化。

LLM 不做什么?

与了解 LLM 可以执行的操作一样,了解它无法执行的操作同样重要,因为这样你可以选择适合作业的工具。

  • 了解语言:LLM 是一个预测引擎,它基于预先存在的文本拉取模式以生成更多文本。 LLM 不理解语言或数学。

  • 了解事实:LLM 没有单独的信息检索和创造性写作模式,它只会预测最有可能的下一个标记。

  • 了解礼仪、情感或道德:LLM 不能展示拟人观或理解伦理。 基础模型的输出是训练数据和提示的组合。