Azure Databricks 上的生成式 AI 和大型语言模型 (LLM)
本文概述了 Databricks 上的生成式 AI,并包含示例笔记本和演示的链接。
什么是生成式 AI?
生成式 AI 是一种人工智能,侧重于计算机使用模型创建图像、文本、代码和综合数据等内容的能力。
生成式 AI 应用程序基于大型语言模型 (LLM) 和基础模型来构建。
- LLM 是深度学习模型,使用和训练大规模数据集,从而在语言处理任务中脱颖而出。 它们基于其训练数据创建模仿自然语言的新的文本组合。
- 基础模型是预先训练的大型 ML 模型,目的是对其进行微调,以适应更具体的语言理解和生成任务。 这些模型用于识别输入数据中的模式。
这些模型完成学习过程后,将在出现提示时共同生成统计上可能的输出,并可用于完成各种任务,包括:
- 基于现有图像生成图像,或利用一幅图像的风格来修改或创建新图像。
- 语音任务,如听录、翻译、问答生成以及文本意向或含义的解释。
重要
虽然许多 LLM 或其他生成式 AI 模型具有安全措施,但它们仍然可能生成有害或不准确的信息。
生成式 AI 具有以下设计模式:
- 提示工程:制作专门的提示来引导 LLM 的行为
- 检索增强生成 (RAG):将 LLM 与外部知识检索相结合
- 微调:调整预训练的 LLM 以适应特定的域数据集
- 预训练:从头开始训练 LLM
在 Azure Databricks 上开发生成式 AI 和 LLM
Azure Databricks 将 AI 生命周期从数据收集和准备,到模型开发和 LLMOps,再到服务与监视统一起来。 以下功能经过专门优化,以促进生成式 AI 应用程序的开发:
- Unity Catalog,用于对数据、功能、模型和函数进行治理、发现、版本控制和访问控制。
- MLflow,用于模型开发跟踪和 LLM 评估。
- 特征工程和服务。
- Databricks 模型服务,用于部署 LLM。 可以配置专门用于访问基础模型的模型服务终结点:
- 使用基础模型 API 的最先进的开放式 LLM。
- 在 Databricks 外部托管的第三方模型。 请参阅 Databricks Model Serving 中的外部模型。
- Databricks 矢量搜索提供了一个可查询矢量数据库,用于存储嵌入矢量,并且可以配置为自动同步到你的知识库。
- Lakehouse Monitoring,用于使用自动有效负载日志记录和推理表进行数据监视和跟踪模型预测质量和偏移。
- AI 操场,用于从 Databricks 工作区测试基础模型。 可提示、比较和调整设置,例如系统提示和推理参数。
- 基础模型训练,用于使用自己的数据自定义基础模型,以优化其在特定应用程序中的性能。
其他资源
- 请参阅 Azure Databricks 上的检索增强生成 (RAG)。
- 有关在 Databricks 上使用 Hugging Face 模型的信息,请参阅 Hugging Face 转换器。
- Github 中的 databricks-ml-examples 存储库包含最先进 (SOTA) 的 LLM 的示例实现。
反馈
https://aka.ms/ContentUserFeedback。
即将发布:在整个 2024 年,我们将逐步淘汰作为内容反馈机制的“GitHub 问题”,并将其取代为新的反馈系统。 有关详细信息,请参阅:提交和查看相关反馈