Nuta
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować się zalogować lub zmienić katalog.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
Dotyczy: indeksatory obiektów blob, indeksatory plików
W przypadku korzystania z indeksatora do wyodrębniania tekstu z obiektów blob lub zawartości plików na potrzeby wyszukiwania pełnotekstowego można przypisać tryb analizowania, aby uzyskać lepsze wyniki indeksowania. Domyślnie indeksator analizuje właściwość obiektu blob content jako pojedynczy fragment tekstu. Jeśli jednak wszystkie obiekty blob i pliki zawierają zwykły tekst w tym samym kodowaniu, możesz znacznie poprawić wydajność indeksowania przy użyciu text trybu analizowania.
Zalecenia dotyczące text analizowania obejmują jedną z dwóch następujących cech:
- Typ pliku to
.txt - Pliki są dowolnego typu, ale sama zawartość to tekst (na przykład kod źródłowy programu, HTML, XML itd.). W przypadku plików w języku znaczników znaki składni są przekazywane jako tekst statyczny.
Pamiętaj, że wszystkie indeksatory serializują do JSON. Domyślnie zawartość całego pliku tekstowego jest indeksowana w jednym dużym polu jako "content": "<file-contents>". Instrukcje nowego wiersza i powrotu są osadzone w polu zawartości i wyrażone jako \r\n\.
Jeśli chcesz uzyskać bardziej wyrafinowany lub szczegółowy wynik, a typ pliku jest zgodny, rozważ następujące rozwiązania:
-
delimitedTextTryb analizowania, jeśli źródłem jest PLIK CSV -
jsonArraylubjsonLines, jeśli źródłem jest JSON
Alternatywna trzecia opcja podziału zawartości na wiele części wymaga zaawansowanych funkcji w postaci wzbogacania sztucznej inteligencji. Dodaje analizę, która identyfikuje i przypisuje fragmenty pliku do różnych pól wyszukiwania. Możesz znaleźć pełne lub częściowe rozwiązanie, używając wbudowanych umiejętności, takich jak rozpoznawanie jednostek lub wyodrębnianie słów kluczowych, ale bardziej prawdopodobnym rozwiązaniem może być niestandardowy model uczenia, który rozumie zawartość, osadzony w niestandardowej umiejętności.
Konfigurowanie indeksowania zwykłego tekstu
Aby zindeksować obiekty blob w postaci zwykłego tekstu, utwórz lub zaktualizuj definicję indeksatora z właściwością konfiguracji ustawioną na wartość parsingMode w żądaniu text.
PUT https://[service name].search.windows.net/indexers/[indexer name]?api-version=2025-09-01
Content-Type: application/json
api-key: [admin key]
{
... other parts of indexer definition
"parameters" : { "configuration" : { "parsingMode" : "text" } }
}
Domyślnie przyjmuje się UTF-8 kodowanie. Aby określić inne kodowanie, użyj encoding właściwości konfiguracji. Obsługiwana lista kodowań znajduje się w kolumnie obsługa platformy .NET 5 lub nowszej .
{
... other parts of indexer definition
"parameters" : { "configuration" : { "parsingMode" : "text", "encoding" : "iso-8859-1" } }
}
Przykład zapytania
Tryby analizowania są określone w definicji indeksatora.
POST https://[service name].search.windows.net/indexers?api-version=2025-09-01
Content-Type: application/json
api-key: [admin key]
{
"name" : "my-plaintext-indexer",
"dataSourceName" : "my-blob-datasource",
"targetIndexName" : "my-target-index",
"parameters" : { "configuration" : { "parsingMode" : "delimitedText", "delimitedTextHeaders" : "id,datePublished,tags" } }
}