如何在 Azure 認知搜尋中為純文字 Blob 和檔案編製索引
使用索引子擷取可搜尋的 Blob 文字或檔案內容,以執行全文搜尋時,您可以指派剖析模式,以獲得更理想的檢索結果。 預設情形下,索引子會將內容剖析為單一文字區塊。 然而,如果所有 Blob 和檔案都包含具有相同編碼的純文字,您可以使用 text
剖析模式,大幅提升檢索效能。
text
剖析的建議使用對象包括:
- 檔案類型為 .txt
- 任何類型的檔案,但內容本身為文字 (例如程式的原始程式碼、HTML、XML 等等)。 如果檔案使用標記式程式語言,所有語法字元都會以靜態文字的形式顯示。
別忘了,所有索引子都會序列化為 JSON。 預設情形下,整個文字檔的內容會在一個大型欄位內編製索引為 "content": "<file-contents>"
。 所有新行和傳回的指示會內嵌於內容欄位,以 \r\n\
的形式呈現。
如果您想獲得更精細的結果,而且檔案類型相容的話,可考慮採用以下解決方案:
delimitedText
剖析模式 (如果來源為 CSV)jsonArray
或jsonLines
(如果來源為 JSON)
將內容分成多個部分的第三種選項,需搭配使用 AI 擴充形式的進階功能。 這會加入分析作業,識別檔案區塊並指派給不同的搜尋欄位。 您可以透過內建技能找到完整或部分的解決方案,但較可能的解決方案是學習模型,此模型能瞭解您的內容、以自訂學習模型的方式表達,並包裝於自訂技能。
設定純文字索引編製
若要為純文字 Blob 編製索引,請在parsingMode
建立索引子text
要求上,使用 組態屬性 建立或更新索引子定義:
PUT https://[service name].search.windows.net/indexers/[indexer name]?api-version=2020-06-30
Content-Type: application/json
api-key: [admin key]
{
... other parts of indexer definition
"parameters" : { "configuration" : { "parsingMode" : "text" } }
}
根據預設,會假定使用 UTF-8
編碼。 若要指定其他編碼,請使用 encoding
設定屬性:
{
... other parts of indexer definition
"parameters" : { "configuration" : { "parsingMode" : "text", "encoding" : "windows-1252" } }
}
要求範例
剖析模式是在索引子定義中指定。
POST https://[service name].search.windows.net/indexers?api-version=2020-06-30
Content-Type: application/json
api-key: [admin key]
{
"name" : "my-plaintext-indexer",
"dataSourceName" : "my-blob-datasource",
"targetIndexName" : "my-target-index",
"parameters" : { "configuration" : { "parsingMode" : "delimitedText", "delimitedTextHeaders" : "id,datePublished,tags" } }
}