Indexování objektů blob a souborů ve formátu prostého textu ve službě Azure AI Search

Platí pro: Indexery objektů blob, indexery souborů

Při použití indexeru k extrakci prohledávatelného textu objektu blob nebo obsahu souboru pro fulltextové vyhledávání můžete přiřadit režim analýzy, abyste získali lepší výsledky indexování. Ve výchozím nastavení indexer parsuje vlastnost objektu blob content jako jeden blok textu. Pokud ale všechny objekty blob a soubory obsahují prostý text ve stejném kódování, můžete výrazně zlepšit výkon indexování pomocí text režimu analýzy.

Mezi doporučení pro text analýzu patří některé z následujících charakteristik:

  • Typ souboru je .txt
  • Soubory jsou libovolného typu, ale samotný obsah je text (například zdrojový kód programu, HTML, XML atd.). U souborů v jazyce revizí se znaky syntaxe přecházejí jako statický text.

Vzpomeňte si, že všechny indexery serializují do formátu JSON. Ve výchozím nastavení je obsah celého textového souboru indexován v rámci jednoho velkého pole jako "content": "<file-contents>". Nové řádky a návratové instrukce jsou vloženy do pole obsahu a vyjádřeny jako \r\n\.

Pokud chcete podrobnější nebo podrobnější výsledek a pokud je typ souboru kompatibilní, zvažte následující řešení:

Alternativní třetí možnost rozdělení obsahu do více částí vyžaduje pokročilé funkce ve formě rozšiřování AI. Přidává analýzu, která identifikuje a přiřadí bloky souboru k různým vyhledávacím polím. Úplné nebo částečné řešení můžete najít prostřednictvím integrovaných dovedností , jako je rozpoznávání entit nebo extrakce klíčových slov, ale pravděpodobnějším řešením může být vlastní výukový model, který rozumí vašemu obsahu zabaleným do vlastní dovednosti.

Nastavení indexování ve formátu prostého textu

Pokud chcete indexovat objekty blob ve formátu prostého textu, vytvořte nebo aktualizujte definici indexeru parsingMode s vlastností konfigurace nastavenou textna požadavek Create Indexer :

PUT https://[service name].search.windows.net/indexers/[indexer name]?api-version=2023-11-01
Content-Type: application/json
api-key: [admin key]

{
  ... other parts of indexer definition
  "parameters" : { "configuration" : { "parsingMode" : "text" } }
}

Ve výchozím nastavení UTF-8 se předpokládá kódování. Pokud chcete zadat jiné kódování, použijte encoding vlastnost konfigurace:

{
  ... other parts of indexer definition
  "parameters" : { "configuration" : { "parsingMode" : "text", "encoding" : "windows-1252" } }
}

Příklad požadavku

Režimy analýzy se zadají v definici indexeru.

POST https://[service name].search.windows.net/indexers?api-version=2023-11-01
Content-Type: application/json
api-key: [admin key]

{
  "name" : "my-plaintext-indexer",
  "dataSourceName" : "my-blob-datasource",
  "targetIndexName" : "my-target-index",
  "parameters" : { "configuration" : { "parsingMode" : "delimitedText", "delimitedTextHeaders" : "id,datePublished,tags" } }
}

Další kroky