你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

了解 Azure OpenAI 服务中的嵌入

嵌入是一种特殊的数据表示格式,机器学习模型和算法可以轻松使用。 嵌入是一段文本的语义含义的信息密集表示。 每个嵌入是浮点数的一个向量,向量空间中两个嵌入之间的距离与原始格式的两个输入之间的语义相似性相关。 例如,如果两个文本相似,则它们的向量表示形式也应该相似。 嵌入支持在 Azure 数据库中进行矢量相似性搜索,例如 Azure Cosmos DB for MongoDB vCoreAzure SQL 数据库Azure Database for PostgreSQL - 灵活服务器

嵌入模型

创建不同的 Azure OpenAI 嵌入模型是为了更好地完成特定任务:

  • “相似性嵌入”擅长捕获两个或更多文本片段之间的语义相似性。
  • 文本搜索嵌入”可帮助度量长文档是否与简短查询相关。
  • “代码搜索嵌入”可用于嵌入代码片段和嵌入自然语言搜索查询。

嵌入捕获向量空间中的语义相似性,从而能更轻松地对表示字词的大型输入进行机器学习。 因此,您可以使用嵌入来确定两个文本区块在语义上是否相关或相似,并提供一个分数来评估相似性。

余弦相似性

Azure OpenAI 嵌入依赖于余弦相似性来计算文档和查询之间的相似性。

从数学角度来看,余弦相似性测量投射至多维空间中的两个向量之间的角度的余弦值。 这一度量是有帮助的,因为如果两个文档因为大小而在欧氏距离上相距甚远,它们之间也还能存在一个较小的角度,让我们能得出它们具有较高的余弦相似性。 有关余弦相似性等式的详细信息,请参阅余弦相似性

要识别相似的文档,另一种方法是计算文档之间相同的单词数。 这种方法是无法处理大规模文档的,因为在较大规模的文档中通常会检测到大量相同的单词,甚至对于话题不同的文档也是如此。 因此,余弦相似性可以提供更有效的替代方案。

后续步骤