了解大型语言模型 (LLM) 应用的开发生命周期

已完成

在了解如何使用提示流之前,让我们探索大型语言模型 (LLM) 应用程序的开发生命周期。

生命周期包含以下阶段:

开发生命周期的四个阶段的关系图。

  1. 初始化:定义用例并设计解决方案。
  2. 试验:使用小型数据集开发流和测试。
  3. 评估和优化:使用较大的数据集评估流。
  4. 生产:部署和监视流和应用程序。

在评估和优化和生产期间,你可能会发现解决方案需要改进。 可以回到实验阶段,不断完善你的流程,直到对结果感到满意。

让我们更详细地探讨其中每个阶段。

初始化

假设你想要设计和开发 LLM 应用程序来对新闻文章进行分类。 在开始创建任何内容之前,需要定义要作为输出的类别。 你需要了解典型的新闻文章的外观、如何将文章作为输入呈现给应用程序,以及应用程序如何生成所需的输出。

换句话说,在 初始化 期间,你需要:

初始化期间四个步骤的关系图。

  1. 定义 目标
  2. 收集 示例数据集
  3. 生成 基本提示
  4. 设计

若要设计、开发和测试 LLM 应用程序,需要一个用作输入的示例数据集。 示例数据集是代表最终应作为输入由你的 LLM 应用程序分析的数据的一小部分。

收集或创建示例数据集时,应确保数据的多样性,以涵盖各种方案和边缘情况。 还应从数据集中删除任何隐私敏感信息,以避免任何漏洞。

实验

你收集了新闻文章的示例数据集,并决定希望文章分类到哪些类别。 你设计了一个将新闻文章作为输入的流程,并使用 LLM 对文章进行分类。 若要测试流是否生成预期的输出,请针对示例数据集运行该输出。

试验期间四个步骤的关系图。

试验阶段是一个迭代过程,在此期间,你 (1) 针对示例数据集运行该流。 然后 (2) 评估提示的性能。 如果你对结果感到满意(3),则可以 继续 评估和优化。 如果你认为有改进的空间,则可以 (4) 通过更改提示或流本身来修改流。

评估和优化

如果对基于示例数据集分类新闻文章的流的输出感到满意,则可以根据较大的数据集评估流的性能。

通过在较大的数据集上测试流,可以评估 LLM 应用程序通用化到新数据的方式。 在评估期间,可以识别潜在的瓶颈或需要优化或改进的领域。

编辑流时,应先针对较小的数据集运行该流,然后再针对较大的数据集运行它。 使用较小的数据集测试流可以更快地响应任何问题。

一旦 LLM 应用程序在处理各种场景时显得稳健和可靠,就可以决定将其转入生产环境。

生产

最后,新闻文章分类应用程序已准备好 用于生产

生产过程中的三个步骤示意图。

在生产期间,你:

  1. 优化对传入文章进行分类的流程,以提高效率和有效性。
  2. 将流部署到终结点。 调用终结点时,将触发流以运行,并生成所需的输出。
  3. 通过收集使用情况数据和最终用户反馈来监视解决方案的性能。 通过了解应用程序的性能,可以在必要时改进流。

探索完整的开发生命周期

了解 LLM 应用程序开发生命周期的每个阶段后,可以浏览完整的概述:

所有阶段的关系图,包括其开发生命周期的步骤。