你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn 。
在 Azure AI 搜索中创建索引器
本文内容
先决条件
索引器模式
准备外部数据
准备数据源
准备索引
创建索引器
运行索引器
检查结果
更改检测和内部状态
相关内容
显示另外 6 个
本文重点介绍创建索引器的基本步骤。 根据具体的数据源和工作流,可能还需要进行更多的配置。
你可以在 Azure AI 搜索中使用索引器自动导入数据并编制索引。 索引器是搜索服务上的命名对象,它连接到外部 Azure 数据源、读取数据并将其传递给搜索引擎进行索引。 如果正在使用受支持的数据源,使用索引器可以显著减少需编写的代码量并降低代码的复杂度。
索引器支持两个工作流:
原始内容索引(纯文本或矢量) :从文本内容中提取字符串和元数据,用于全文搜索方案。 提取矢量搜索的原始矢量内容(例如,Azure SQL 数据库或 Azure Cosmos DB 集合中的矢量)。 在此工作流中,索引仅发生在你提供的现有内容上。
基于技能的索引 :通过创建或生成新的可搜索内容的内置技能或自定义技能扩展索引。 例如,可以添加集成机器学习,以便对图像和非结构化文本进行分析、提取或推断文本和结构。 或者,使用技能对文本和图像中的内容进行分块和矢量化。 基于技能的索引会创建或生成外部数据源中不存在的新内容。 将字段添加到接受传入数据的索引架构时,新内容将成为索引的一部分。 若要了解更多信息,请参阅 Azure AI 搜索中的 AI 扩充 。
创建索引器时,其定义分为以下两种模式:基于内容的索引 或基于技能的索引 。 这些模式相同,但基于技能的索引具有更多的定义。
全文或矢量搜索的基于内容的索引是索引器的主要用例。 对于此工作流,索引器类似于此示例。
{
"name": (required) String that uniquely identifies the indexer,
"description": (optional),
"dataSourceName": (required) String indicating which existing data source to use,
"targetIndexName": (required) String indicating which existing index to use,
"parameters": {
"batchSize": null,
"maxFailedItems": 0,
"maxFailedItemsPerBatch": 0,
"base64EncodeKeys": false,
"configuration": {}
},
"fieldMappings": (optional) unless field discrepancies need resolution,
"disabled": null,
"schedule": null,
"encryptionKey": null
}
索引器具有以下要求:
name
属性,用于唯一标识索引器集合中的索引器
dataSourceName
属性,指向数据源对象。 它指定与外部数据的连接
targetIndexName
属性,指向目标搜索索引
其他参数是可选的,并可修改运行时行为,例如,在使整个作业失败之前可接受多少个错误。 所需参数在所有索引器中指定,并记录在REST API 引用 中。
用于 blob、SQL 和 Azure Cosmos DB 的数据源特定索引器为特定于源的行为提供额外的 configuration
参数。 例如,如果源是 Blob 存储,就可以设置一个参数用于根据文件扩展名进行筛选,例如:
"parameters" : { "configuration" : { "indexedFileNameExtensions" : ".pdf,.docx" } }
如果源是 Azure SQL,则你可以设置查询超时参数。
如果数据源中的字段与搜索索引中的字段之间存在名称或类型差异,则字段映射 用于显式映射源到目标的字段。
默认情况下,在搜索服务中创建索引器时,该索引器将立即运行。 如果你不想要执行索引器,请在创建索引器时将 disabled
设置为 true 。
还可指定计划 或设置加密密钥 ,对索引器定义额外进行加密。
基于技能的索引使用 AI 扩充 来处理其原始格式不可搜索的内容。 以上所有属性和参数都适用,但以下额外属性特定于 AI 扩充:skillSetName
、cache
、outputFieldMappings
。
{
"name": (required) String that uniquely identifies the indexer,
"dataSourceName": (required) String, provides raw content that will be enriched,
"targetIndexName": (required) String, name of an existing index,
"skillsetName" : (required for AI enrichment) String, name of an existing skillset,
"cache": {
"storageConnectionString" : (required if you enable the cache) Connection string to a blob container,
"enableReprocessing": true
},
"parameters": { },
"fieldMappings": (optional) Maps fields in the underlying data source to fields in an index,
"outputFieldMappings" : (required) Maps skill outputs to fields in an index,
}
AI 扩充属于独立的主题领域,不在本文的讨论范围之内。 有关详细信息,请从以下文章入手:AI 扩充 、Azure AI 搜索中的技能组 、创建技能组 、映射扩充输出字段 和为 AI 扩充启用缓存 。
索引器处理数据集。 运行索引器时,它将连接到数据源,从容器或文件夹中检索数据,可以选择将其序列化为 JSON,然后将其传递到搜索引擎以编制索引。 本节介绍基于文本的索引编制对传入数据的要求。
展开表
源数据
任务
JSON 文档
JSON 文档可以包含文本、数字和矢量。 确保传入数据的结构或形状与搜索索引的架构相对应。 大多数索引相当平展,其中字段集合由同一级别的字段构成。 但是,可以通过复杂字段和集合 实现分层结构或嵌套结构。
关系
将数据作为平展行集提供,其中每一行将成为索引中的完整或部分搜索文档。 若要将关系数据平展为行集,应创建一个 SQL 视图,或生成一个查询用于返回同一行中的父记录和子记录。 例如,内置酒店示例数据集是一个 SQL 数据库,拥有 50 条记录(每个酒店一条记录),这些记录关联相关表中的房间记录。 将统一数据平展为行集的查询在每条酒店记录中的 JSON 文档内嵌入所有客房信息。 嵌入的客房信息是使用 FOR JSON AUTO 子句的查询生成的。 可以在定义返回嵌入式 JSON 的查询 中详细了解此方法。 这只是一个示例,还有一些方法具有相同的效果。
文件
索引器通常会为每个文件创建一个搜索文档,其中搜索文档包含内容和元数据的字段。 根据具体的文件类型,索引器有时可以将一个文件解析为多个搜索文档 。 例如,在 CSV 文件中,每一行都可以成为单独的搜索文档。
请记住,只需拉取可搜索和可筛选的数据:
可搜索数据是文本或矢量
可筛选数据是文本和数字(非矢量字段)
Azure AI 搜索无法对任何格式的二进制数据执行全文搜索,但它可以提取并推断图像文件的文本说明(请参阅 AI 扩充 )来创建可搜索的内容。 同样,可通过自然语言模型划分和分析大文本,以查找结构或相关信息,并生成可添加到搜索文档中的新内容。 它还可以通过嵌入执行矢量搜索,包括二进制格式的量化嵌入。
如果索引器不能解决数据问题,则可能需要其他形式的数据清理或处理。 有关详细信息,请参阅 Azure 数据库产品 的产品文档。
索引器需要可指定类型、容器和连接的数据源。
请确保使用的是受支持的数据源类型 。
创建一个数据源 定义。 以下数据源是较为常用的一些源:
如果数据源是数据库(例如 Azure SQL 或 Cosmos DB),请启用更改跟踪。 Azure 存储通过每个 blob、文件和表上的LastModified
属性进行内置更改跟踪。 各种数据源的链接解释了索引器支持哪些更改跟踪方法。
索引器还需要搜索索引。 请回想一下,索引器将数据传递给搜索引擎来编制索引。 如同索引器包含用于确定执行行为的属性一样,索引架构包含对字符串索引编制方式(只会分析并标记化字符串)产生深刻影响的属性。
从创建搜索索引 开始。
设置字段集合与字段属性。
只有字段才能接收外部内容。 根据字段在架构中的属性,会对每个字段的值进行分析、标记化,或将其存储为逐字字符串,以用于筛选器、模糊搜索和预先输入查询。
当名称和类型相同时,索引器可以自动将源字段映射到目标索引字段。 如果无法隐式映射字段,请记住,可以定义显式字段映射 ,以告知索引器如何路由内容。
查看每个字段的分析器分配。 分析器可以转换字符串。 因此,索引字符串可能不同于传入的字符串。 可以使用分析文本 (REST) 来评估分析器的效果。 有关分析器的详细信息,请参阅用于处理文本的分析器 。
在索引编制过程中,索引器仅检查字段名称和类型。 不会执行任何验证步骤来确保传入内容适合索引中对应的搜索字段。
准备好在远程搜索服务上创建索引器时,需要搜索客户端。 搜索客户端可以是 Azure 门户、REST 客户端,还可以是用于实例化索引器客户端的代码。 建议使用 Azure 门户或 REST API 进行早期开发和概念证明测试。
登录到 Azure 门户 ,然后查找你的搜索服务。
在搜索服务概览 页上,从两个选项中进行选择:
具有 REST 客户端的 Visual Studio Code 可以发送索引器请求。 使用此应用时,你可以连接到你的搜索服务,并发送创建索引器 (REST) 或创建或更新索引器 请求。
POST /indexers?api-version=[api-version]
{
"name": (required) String that uniquely identifies the indexer,
"dataSourceName": (required) String indicated which existing data source to use,
"targetIndexName": (required) String,
"parameters": {
"batchSize": null,
"maxFailedItems": null,
"maxFailedItemsPerBatch": null,
"configuration": {
"executionEnvironment": "standard"
}
},
"fieldMappings": [ optional unless there are field discrepancies that need resolution]
}
参数用于设置批大小以及对处理失败进行处理的方式。 执行环境 决定索引器和技能组处理是否可以使用 Microsoft 提供的多租户功能或专门分配给搜索服务的专用处理节点。 如果搜索服务是 Standard2 或更高版本,则可将 executionEnvironment
设置为专用,以将所有索引器处理固定到搜索服务群集。
有许多教程和示例演示了用于创建对象的 REST 客户端。 可参阅快速入门:使用 REST 进行文本搜索 来入门。
对于 Azure AI 搜索,Azure SDK 实现了正式发布的功能。 因此,可以使用任何 SDK 来创建索引器相关的对象。 它们全部都提供了一个 SearchIndexerClient
,其中包含用于创建索引器和相关对象(包括技能组)的方法。
展开表
默认情况下,在搜索服务中创建索引器时,该索引器将立即运行。 可通过在索引器定义中将 disabled
设置为 true 来替代此行为。 索引器执行是发现连接、字段映射或技能组构造是否出现问题的关键时刻。
可通过多种方式运行索引器:
计划执行通常在需要增量索引时实现,以便你可以获取最新的更改。 因此,计划对更改检测有依赖关系。
索引器是少数几个公开向其他 Azure 资源进行出站调用的子系统之一。 对于 Azure 角色而言,索引器没有单独的标识。从搜索引擎到另一个 Azure 资源的连接是使用搜索服务的系统或用户分配的托管标识 建立的。 如果索引器连接到虚拟网络上的 Azure 资源,则你应为该连接创建共享专用链接 。 有关安全连接的详细信息,请参阅 Azure AI 搜索中的安全性 。
监视索引器状态 以检查状态。 即便成功执行,仍可能出现警告和通知。 请务必在成功和失败状态的通知中检查作业的相关详细信息。
对于内容验证,可以针对填充的索引运行可返回整个文档或所选字段的查询 。
如果数据源支持更改检测,则索引器可以检测基础数据更改,索引器每次运行时仅处理新文档或已更新的文档,未更改的内容将保持原样。 如果索引器执行历史记录指出运行成功并已处理 0/0 个文档,则意味着索引器在基础数据源中未发现任何新的或者已更改的行或 blob。
更改检测逻辑内置于数据平台。 索引器支持更改检测的方式因数据源而异:
Microsoft Azure 存储具有内置的更改检测,这意味着索引器可以自动识别新的和更新的文档。 Blob 存储、Azure 表存储和 Azure Data Lake Storage Gen2 为每个 blob 或行更新标记日期和时间。 索引器自动使用此信息来确定要在索引中更新的文档。 有关删除检测的详细信息,请参阅使用 Azure 存储的索引器进行更改和删除检测 。
云数据库技术在其平台中提供可选的更改检测功能。 对于这些数据源,更改检测不是自动的。 需要在使用策略的数据源定义中指定:
索引器通过内部高水印 跟踪从数据源处理的最后一篇文档。 该标记永远不会在 API 中公开,但在内部,索引器会跟踪它的停止位置。 当索引编制通过按计划的运行或按需调用恢复时,索引器将引用高水位线,以便可以从上次停止的位置继续。
如果你需要清除高水位线以便彻底重新编制索引,可以使用重置索引器 。 若要更有选择性地重新编制索引,请使用重置技能 或重置文档 。 可以通过重置 API 清除内部状态,如果已启用增量扩充 ,则还可以刷新缓存。 有关每个重置选项的更多背景信息和比较,请参阅运行或重置索引器、技能和文档 。