你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

使用深度学习通过 NLP 建议内容标记

Azure 容器注册表
Azure AI 搜索
Azure Kubernetes 服务 (AKS)
Azure 机器学习

解决方案构想

本文是一种解决方案构想。 如果你希望我们在内容中扩充更多信息,例如潜在用例、备用服务、实现注意事项或定价指南,请通过提供 GitHub 反馈来告知我们。

本文介绍如何使用 Microsoft AI 通过将深度学习和自然语言处理 (NLP) 与特定于现场数据的搜索字词相结合来提高网站内容标记准确度。

体系结构

体系结构示意图:使用 Azure 机器学习帮助建议网站内容标记的概述。

下载此体系结构的 Visio 文件

数据流

  1. 数据根据其原始源以各种格式存储。 可将数据作为文件存储在 Azure Data Lake Storage 中,或者以表格格式存储在 Azure Synapse 或 Azure SQL 数据库中。

  2. Azure 机器学习 (ML) 可以连接和读取此类源,以便将数据引入到 NLP 管道以进行预处理、模型训练和后处理。

  3. NLP 预处理包括使用数据的多个步骤,目的是实现文本泛化。 将文本分解成句子后,可以使用 NLP 技术(例如词元化或词干化)以一般形式将语言标记化。

  4. 由于 NLP 模型已经过预先训练,因此迁移学习方法建议下载语言特定的嵌入项,并使用行业标准的模型进行多类文本分类,例如 BERT 的变体。

  5. NLP 后处理建议将模型存储在 Azure ML 的模型寄存器中,以跟踪模型指标。 此外,可以根据业务目标使用确定性定义的特定业务规则对文本进行后处理。 Microsoft 建议使用符合道德规范的 AI 工具来检测有偏见的语言,确保对语言模型进行公平训练。

  6. 可以通过 Azure Kubernetes 服务部署模型,同时运行 Kubernetes 托管的群集,其中的容器是从存储在 Azure 容器注册表中的映像部署的。 终结点可供前端应用程序使用。 可以通过用作实时终结点的 Azure Kubernetes 服务部署模型。

  7. 可将模型结果以文件形式或表格格式写入存储选项,然后由 Azure 认知搜索适当地编制索引。 模型以批量推理的形式运行,将结果存储在相应的数据存储中。

组件

方案详细信息

社交网站、论坛和其他文本繁多的 Q&A 服务在很大程度上依赖于内容标记来实现良好的索引编制和用户搜索。 但是,内容标记通常是用户自行决定的。 由于用户没有常用搜索字词的列表或者对站点结构没有深入的了解,因此他们经常错误地标记内容。 以后在需要时,很难甚至不可能找到错误标记的内容。

可能的用例

结合使用自然语言处理 (NLP) 和深度学习进行内容标记,可以启用一个可缩放的解决方案来为整个内容创建标记。 当用户按关键字搜索内容时,这种多类分类过程会使用标签来扩充未标记的内容,使你可以搜索文本的实质部分,从而改进信息检索过程。 将通过运行 NLP 推理来适当标记新的传入内容。

作者

本文由 Microsoft 维护, 它最初是由以下贡献者撰写的。

主要作者:

后续步骤

请参阅产品文档:

尝试学习以下 Microsoft Learn 模块:

参阅以下相关体系结构文章: