了解 LLM

大型语言模型 (LLM) 是一类 AI，可以处理和生成自然语言文本。它从大量来自书籍、文章、网页和图像等来源的数据中学习，以发现语言模式和规则。

它们有多大？

LLM 是使用神经网络体系结构生成的。它接收一个输入内容，具有几个隐藏层，这些层可分解语言的不同方面，并在输出层生成内容。

我们经常说最新的基础模型比上一个模型大，但这意味着什么？简言之，模型具有的参数越多，它可以处理、学习和生成的数据越多。

对于神经网络体系结构的每两个神经元之间的连接，有一个函数：weight * input + bias（权重 * 输入 + 偏差）。此网络会生成数值，用于确定模型处理语言的方式。

LLM 确实很大，而且发展迅速。一些模型在 2018 年已可计算数百万个参数。但今天，GPT-4 可以计算数万亿个参数。

Diagram showing the different generations of LLMs associated with the number of parameters each model has.

基础模型是指 LLM 的特定实例或版本。例如，GPT-3、GPT-4 或 Codex。

基础模型是在大型文本库上训练和微调的，如果是 Codex 模型实例，则使用的是代码。

基础模型采用所有不同格式的训练数据，并使用转换器体系结构生成通用模型。可以创建适应和专用化，以通过提示或微调来实现某些任务。

有一些内容可将传统 NLP 与 LLM 分开。

与了解 LLM 可以执行的操作一样，了解它无法执行的操作同样重要，因为这样你可以选择适合作业的工具。