你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

实体链接认知技能 (v3)

“实体链接”技能 (v3) 返回已识别实体的列表,其中包含指向知名知识库 (Wikipedia) 中文章的链接。

注意

此技能与 Azure AI 语言中的实体链接机器学习模型绑定,并且,对于超过每天每个索引器 20 个文档的事务,需要计费资源。 内置技能执行按现有 Azure AI 服务即用即付价格计费。

@odata.type

Microsoft.Skills.Text.V3.EntityLinkingSkill

数据限制

记录的最大大小应为 50,000 个字符,通过 String.Length 进行测量。 如果在将数据发送到实体链接技能之前需要对其进行拆分,请考虑使用文本拆分技能。 如果你使用文本拆分技能,请将页面长度设置为 5000 以获得最佳性能。

技能参数

参数名称区分大小写并且都是可选的。

参数名称 说明
defaultLanguageCode 输入文本的语言代码。 如果未指定默认语言代码,会将英语 (en) 用作默认语言代码。
请参阅支持的语言的完整列表
minimumPrecision 一个介于 0 和 1 之间的值。 如果置信度分数(在 entities 输出中)低于此值,则不会返回该实体。 默认值为 0。
modelVersion (可选)指定要在调用实体链接时使用的模型版本。 如果未指定,将默认为最新可用版本。 建议不要指定此值,除非必要。

技能输入

输入名称 说明
languageCode 表示记录的语言的字符串。 如果未指定此参数,将使用默认语言代码分析记录。
请参阅支持的语言的完整列表
text 要分析的文本。

技能输出

输出名称 说明
entities 复杂类型的数组,包含以下字段:
  • "name"(文本中显示的实际实体名称)
  • "id"
  • "language"(由技能决定的文本语言)
  • "url"(此实体的链接 URL)
  • bingId(此链接实体的 bingId)
  • "dataSource"(与 URL 关联的数据源)
  • "matches"(复杂类型的数组,包含 textoffsetlengthconfidenceScore

示例定义

  {
    "@odata.type": "#Microsoft.Skills.Text.V3.EntityLinkingSkill",
    "context": "/document",
    "defaultLanguageCode": "en", 
    "minimumPrecision": 0.5, 
    "inputs": [
        {
            "name": "text", 
            "source": "/document/content"
        },
        {
            "name": "languageCode", 
            "source": "/document/language"
        }
    ],
    "outputs": [
        {
            "name": "entities", 
            "targetName": "entities" 
        }
    ]
}

示例输入

{
    "values": [
      {
        "recordId": "1",
        "data":
           {
             "text": "Microsoft is liked by many.",
             "languageCode": "en"
           }
      }
    ]
}

示例输出

{
  "values": [
    {
      "recordId": "1",
      "data" : 
      {
        "entities": [
          {
            "name": "Microsoft", 
            "id": "Microsoft",
            "language": "en", 
            "url": "https://en.wikipedia.org/wiki/Microsoft", 
            "bingId": "a093e9b9-90f5-a3d5-c4b8-5855e1b01f85", 
            "dataSource": "Wikipedia", 
            "matches": [
                {
                    "text": "Microsoft", 
                    "offset": 0, 
                    "length": 9, 
                    "confidenceScore": 0.13 
                }
            ]
          }
        ],
      }
    }
  ]
}

在此技能的输出中,针对实体返回的偏移量是直接从语言服务 API 返回的,这意味着,如果使用这些偏移量为原始字符串编制索引,则应使用 .NET 中的 StringInfo 类来提取正确的内容。 有关详细信息,请参阅语言服务功能中的多语言和表情符号支持

警告情况

如果文档的语言代码不受支持,则会返回警告,并且不提取任何实体。

另请参阅