Egyszerű szöveges blobok és fájlok indexelése az Azure AI Searchben
A következőkre vonatkozik: Blobindexerek, Fájlindexelők
Ha egy indexelővel kereshető blobszöveget vagy fájltartalmat nyer ki teljes szöveges kereséshez, elemzési módot rendelhet hozzá a jobb indexelési eredmények eléréséhez. Alapértelmezés szerint az indexelő egy blob tulajdonságát content
egyetlen szövegtömbként elemzi. Ha azonban minden blob és fájl egyszerű szöveget tartalmaz ugyanabban a kódolásban, az elemzési mód használatával jelentősen javíthatja az text
indexelési teljesítményt.
Az elemzési text
javaslatok a következő jellemzők valamelyikét tartalmazzák:
- A fájl típusa:
.txt
- A fájlok bármilyen típusúak, de maga a tartalom szöveg (például program forráskódja, HTML, XML stb.). A korrektúranyelven lévő fájlok esetében a szintaxis karakterek statikus szövegként jelennek meg.
Ne feledje, hogy minden indexelő szerializálva van a JSON-ra. Alapértelmezés szerint a teljes szövegfájl tartalma egy nagy mezőben van indexelve."content": "<file-contents>"
Az új sor- és visszatérési utasítások be vannak ágyazva a tartalommezőbe, és a következőképpen vannak kifejezve \r\n\
: .
Ha kifinomultabb vagy részletesebb eredményt szeretne, és ha a fájltípus kompatibilis, fontolja meg a következő megoldásokat:
delimitedText
elemzési mód, ha a forrás CSVjsonArray
vagyjsonLines
, ha a forrás JSON
A tartalom több részre való lebontásának alternatív harmadik lehetősége speciális funkciókat igényel AI-bővítés formájában. Elemzést ad hozzá, amely azonosítja és hozzárendeli a fájl egyes részeit a különböző keresési mezőkhöz. Előfordulhat, hogy egy teljes vagy részleges megoldást olyan beépített készségekkel talál, mint az entitásfelismerés vagy a kulcsszavak kinyerése, de valószínűbb megoldás lehet egy egyéni tanulási modell, amely egy egyéni képességbe csomagolva értelmezi a tartalmat.
Egyszerű szöveges indexelés beállítása
Egyszerű szöveges blobok indexeléséhez hozzon létre vagy frissítsen egy indexelődefiníciót az parsingMode
Indexelő létrehozása kérelemhez text
beállított konfigurációs tulajdonsággal:
PUT https://[service name].search.windows.net/indexers/[indexer name]?api-version=2024-07-01
Content-Type: application/json
api-key: [admin key]
{
... other parts of indexer definition
"parameters" : { "configuration" : { "parsingMode" : "text" } }
}
Alapértelmezés szerint a UTF-8
kódolás feltételezve van. Másik kódolás megadásához használja a encoding
konfigurációs tulajdonságot. A kódolások támogatott listája a .NET 5 és újabb támogatási oszlop alatt található.
{
... other parts of indexer definition
"parameters" : { "configuration" : { "parsingMode" : "text", "encoding" : "iso-8859-1" } }
}
Példa kérése
Az elemzési módok az indexelő definíciójában vannak megadva.
POST https://[service name].search.windows.net/indexers?api-version=2024-07-01
Content-Type: application/json
api-key: [admin key]
{
"name" : "my-plaintext-indexer",
"dataSourceName" : "my-blob-datasource",
"targetIndexName" : "my-target-index",
"parameters" : { "configuration" : { "parsingMode" : "delimitedText", "delimitedTextHeaders" : "id,datePublished,tags" } }
}