使用索引器生成索引

已完成

若要为 Azure 存储中的文档编制索引,需要将文档从原始文件类型导出为 JSON。 为了将任何格式的数据导出为 JSON,并加载到索引中,我们使用索引器。

若要创建搜索文档,可以生成包含应用程序代码的 JSON 文档,也可以使用 Azure 的索引器将传入文档导出为 JSON。

使用 Azure AI 搜索,你可以采用两种方法创建 JSON 文档并将其加载到索引中:

  • 推送方法:通过 REST API 或 .NET SDK 将 JSON 数据推送到搜索索引。 推送数据具有最大的灵活性,因为它对数据源类型、位置或执行频率没有限制。

  • 拉取方法:搜索服务索引器可以从热门 Azure 数据源拉取数据,如有必要,可以将数据导出为 JSON(如果尚未采用该格式)。

使用拉取方法通过索引器加载数据

Azure AI 搜索的索引器是一种爬网程序,它可以从外部 Azure 数据源提取可搜索文本和元数据,并使用源数据与索引之间的字段到字段映射填充搜索索引。 使用索引器有时称为“拉取模型”方法,因为服务会拉入数据,而无需编写任何将数据添加到索引的代码。 索引器将源字段映射到其在索引中的匹配字段。

数据导入监视和验证

“搜索服务概述”页面有一个仪表板,通过该仪表板,可以快速查看搜索服务的运行状况。 在仪表板上,可以查看搜索服务中的文档数量、使用的索引数以及当前使用的存储空间。

将新文档加载到索引中时,可以通过单击索引的关联索引器来监视进度。 文档加载到索引中以后,文档计数将增加。 在某些情况下,门户页面可能需要几分钟才能显示最新的文档计数。 索引准备好进行查询后,可以使用搜索资源管理器验证结果。 成功加载第一个文档后,即可查询索引。

索引器只导入新的或更新的文档,因此看到索引了零个文档是正常的。

搜索资源管理器可执行快速搜索以检查索引的内容,并确保获得预期的搜索结果。 在门户中提供此工具,使你可以通过查看作为 JSON 文档返回的结果轻松地检查索引。

对索引进行更改

如果需要对字段定义进行更改,则必须删除并重新创建索引。 支持添加新字段,所有现有文档都具有 null 值。 使用基于代码的方法迭代设计会更快,因为在门户中工作需要删除索引、重新创建索引,并手动填写架构细节。

更新索引而不影响用户的方法是以其他名称创建一个新的索引。 可使用同一索引器和数据源。 导入数据后,可将应用切换为使用新索引。