Indexes - Create Or Update
Tworzy nowy indeks wyszukiwania lub aktualizuje indeks, jeśli już istnieje.
PUT {endpoint}/indexes('{indexName}')?api-version=2023-11-01
PUT {endpoint}/indexes('{indexName}')?allowIndexDowntime={allowIndexDowntime}&api-version=2023-11-01
Parametry identyfikatora URI
Nazwa | W | Wymagane | Typ | Opis |
---|---|---|---|---|
endpoint
|
path | True |
string |
Adres URL punktu końcowego usługi wyszukiwania. |
index
|
path | True |
string |
Definicja indeksu do utworzenia lub zaktualizowania. |
api-version
|
query | True |
string |
Wersja interfejsu API klienta. |
allow
|
query |
boolean |
Umożliwia dodawanie nowych analizatorów, tokenizatorów, filtrów tokenów lub filtrów char do indeksu przez co najmniej kilka sekund przełączenie indeksu do trybu offline. Powoduje to tymczasowe niepowodzenie indeksowania i wysyłania zapytań do żądań. Wydajność i dostępność zapisu indeksu może być obniżona przez kilka minut po zaktualizowaniu indeksu lub dłużej dla bardzo dużych indeksów. |
Nagłówek żądania
Nazwa | Wymagane | Typ | Opis |
---|---|---|---|
x-ms-client-request-id |
string uuid |
Identyfikator śledzenia wysłany za pomocą żądania ułatwiającego debugowanie. |
|
If-Match |
string |
Definiuje warunek If-Match. Operacja zostanie wykonana tylko wtedy, gdy element ETag na serwerze jest zgodny z tą wartością. |
|
If-None-Match |
string |
Definiuje warunek If-None-Match. Operacja zostanie wykonana tylko wtedy, gdy element ETag na serwerze nie jest zgodny z tą wartością. |
|
Prefer | True |
string |
W przypadku żądań HTTP PUT usługa zwraca utworzony/zaktualizowany zasób w przypadku powodzenia. |
Treść żądania
Nazwa | Wymagane | Typ | Opis |
---|---|---|---|
fields | True |
Pola indeksu. |
|
name | True |
string |
Nazwa indeksu. |
@odata.etag |
string |
Element ETag indeksu. |
|
analyzers | LexicalAnalyzer[]: |
Analizatory indeksu. |
|
charFilters | CharFilter[]: |
Znaki filtruje indeks. |
|
corsOptions |
Opcje kontrolowania współużytkowania zasobów między źródłami (CORS) dla indeksu. |
||
defaultScoringProfile |
string |
Nazwa profilu oceniania, który ma być używany, jeśli w zapytaniu nie określono żadnego. Jeśli ta właściwość nie jest ustawiona, a w zapytaniu nie określono żadnego profilu oceniania, zostanie użyty domyślny ocenianie (tf-idf). |
|
encryptionKey |
Opis klucza szyfrowania utworzonego w usłudze Azure Key Vault. Ten klucz służy do zapewnienia dodatkowego poziomu szyfrowania danych magazynowanych, gdy chcesz mieć pełną pewność, że nikt, nawet firma Microsoft, nie może odszyfrować dane. Po zaszyfrowaniu danych zawsze pozostaną one zaszyfrowane. Usługa wyszukiwania zignoruje próby ustawienia tej właściwości na wartość null. Tę właściwość można zmienić zgodnie z potrzebami, jeśli chcesz obrócić klucz szyfrowania; Twoje dane nie będą miały wpływu. Szyfrowanie przy użyciu kluczy zarządzanych przez klienta nie jest dostępne dla bezpłatnych usług wyszukiwania i jest dostępne tylko dla płatnych usług utworzonych w dniu 1 stycznia 2019 r. lub po tym, jak 1 stycznia 2019 r. |
||
scoringProfiles |
Profile oceniania dla indeksu. |
||
semantic |
Definiuje parametry indeksu wyszukiwania, który ma wpływ na możliwości semantyczne. |
||
similarity | Similarity: |
Typ algorytmu podobieństwa do użycia podczas oceniania i klasyfikowania dokumentów pasujących do zapytania wyszukiwania. Algorytm podobieństwa można zdefiniować tylko w czasie tworzenia indeksu i nie można go modyfikować w istniejących indeksach. Jeśli ma wartość null, używany jest algorytm ClassicSimilarity. |
|
suggesters |
Sugestory indeksu. |
||
tokenFilters |
TokenFilter[]:
|
Token filtruje indeks. |
|
tokenizers | LexicalTokenizer[]: |
Tokenizatory indeksu. |
|
vectorSearch |
Zawiera opcje konfiguracji związane z wyszukiwaniem wektorów. |
Odpowiedzi
Nazwa | Typ | Opis |
---|---|---|
200 OK | ||
201 Created | ||
Other Status Codes |
Odpowiedź na błąd. |
Przykłady
SearchServiceCreateOrUpdateIndex
Sample Request
PUT https://myservice.search.windows.net/indexes('hotels')?allowIndexDowntime=False&api-version=2023-11-01
{
"name": "hotels",
"fields": [
{
"name": "hotelId",
"type": "Edm.String",
"key": true,
"searchable": false
},
{
"name": "baseRate",
"type": "Edm.Double"
},
{
"name": "description",
"type": "Edm.String",
"filterable": false,
"sortable": false,
"facetable": false
},
{
"name": "descriptionEmbedding",
"type": "Collection(Edm.Single)",
"dimensions": 1536,
"vectorSearchProfile": "myHnswProfile",
"searchable": true,
"retrievable": true
},
{
"name": "description_fr",
"type": "Edm.String",
"filterable": false,
"sortable": false,
"facetable": false,
"analyzer": "fr.lucene"
},
{
"name": "hotelName",
"type": "Edm.String"
},
{
"name": "category",
"type": "Edm.String"
},
{
"name": "tags",
"type": "Collection(Edm.String)",
"analyzer": "tagsAnalyzer"
},
{
"name": "parkingIncluded",
"type": "Edm.Boolean"
},
{
"name": "smokingAllowed",
"type": "Edm.Boolean"
},
{
"name": "lastRenovationDate",
"type": "Edm.DateTimeOffset"
},
{
"name": "rating",
"type": "Edm.Int32"
},
{
"name": "location",
"type": "Edm.GeographyPoint"
}
],
"scoringProfiles": [
{
"name": "geo",
"text": {
"weights": {
"hotelName": 5
}
},
"functions": [
{
"type": "distance",
"boost": 5,
"fieldName": "location",
"interpolation": "logarithmic",
"distance": {
"referencePointParameter": "currentLocation",
"boostingDistance": 10
}
}
]
}
],
"defaultScoringProfile": "geo",
"suggesters": [
{
"name": "sg",
"searchMode": "analyzingInfixMatching",
"sourceFields": [
"hotelName"
]
}
],
"analyzers": [
{
"name": "tagsAnalyzer",
"@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
"charFilters": [
"html_strip"
],
"tokenizer": "standard_v2"
}
],
"corsOptions": {
"allowedOrigins": [
"tempuri.org"
],
"maxAgeInSeconds": 60
},
"encryptionKey": {
"keyVaultKeyName": "myUserManagedEncryptionKey-createdinAzureKeyVault",
"keyVaultKeyVersion": "myKeyVersion-32charAlphaNumericString",
"keyVaultUri": "https://myKeyVault.vault.azure.net",
"accessCredentials": null
},
"similarity": {
"@odata.type": "#Microsoft.Azure.Search.ClassicSimilarity"
},
"semantic": {
"configurations": [
{
"name": "semanticHotels",
"prioritizedFields": {
"titleField": {
"fieldName": "hotelName"
},
"prioritizedContentFields": [
{
"fieldName": "description"
},
{
"fieldName": "description_fr"
}
],
"prioritizedKeywordsFields": [
{
"fieldName": "tags"
},
{
"fieldName": "category"
}
]
}
}
]
},
"vectorSearch": {
"profiles": [
{
"name": "myHnswProfile",
"algorithm": "myHnsw"
},
{
"name": "myAlgorithm",
"algorithm": "myExhaustive"
}
],
"algorithms": [
{
"name": "myHnsw",
"kind": "hnsw",
"hnswParameters": {
"m": 4,
"metric": "cosine"
}
},
{
"name": "myExhaustive",
"kind": "exhaustiveKnn",
"exhaustiveKnnParameters": {
"metric": "cosine"
}
}
]
}
}
Sample Response
{
"name": "hotels",
"fields": [
{
"name": "hotelId",
"type": "Edm.String",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": true,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "baseRate",
"type": "Edm.Double",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "description",
"type": "Edm.String",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "descriptionEmbedding",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": 1536,
"vectorSearchProfile": "myHnswProfile",
"synonymMaps": []
},
{
"name": "description_fr",
"type": "Edm.String",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": "fr.lucene",
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "hotelName",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "category",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "tags",
"type": "Collection(Edm.String)",
"searchable": true,
"filterable": true,
"retrievable": true,
"sortable": false,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": "tagsAnalyzer",
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "parkingIncluded",
"type": "Edm.Boolean",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "smokingAllowed",
"type": "Edm.Boolean",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "lastRenovationDate",
"type": "Edm.DateTimeOffset",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "rating",
"type": "Edm.Int32",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "location",
"type": "Edm.GeographyPoint",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
}
],
"scoringProfiles": [
{
"name": "geo",
"functionAggregation": "sum",
"text": {
"weights": {
"hotelName": 5
}
},
"functions": [
{
"type": "distance",
"boost": 5,
"fieldName": "location",
"interpolation": "logarithmic",
"distance": {
"referencePointParameter": "currentLocation",
"boostingDistance": 10
}
}
]
}
],
"defaultScoringProfile": "geo",
"suggesters": [
{
"name": "sg",
"searchMode": "analyzingInfixMatching",
"sourceFields": [
"hotelName"
]
}
],
"analyzers": [
{
"name": "tagsAnalyzer",
"@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
"charFilters": [
"html_strip"
],
"tokenizer": "standard_v2"
}
],
"tokenizers": [],
"tokenFilters": [],
"charFilters": [],
"corsOptions": {
"allowedOrigins": [
"tempuri.org"
],
"maxAgeInSeconds": 60
},
"encryptionKey": {
"keyVaultKeyName": "myUserManagedEncryptionKey-createdinAzureKeyVault",
"keyVaultKeyVersion": "myKeyVersion-32charAlphaNumericString",
"keyVaultUri": "https://myKeyVault.vault.azure.net",
"accessCredentials": null
},
"similarity": {
"@odata.type": "#Microsoft.Azure.Search.ClassicSimilarity"
},
"semantic": {
"configurations": [
{
"name": "semanticHotels",
"prioritizedFields": {
"titleField": {
"fieldName": "hotelName"
},
"prioritizedContentFields": [
{
"fieldName": "description"
},
{
"fieldName": "description_fr"
}
],
"prioritizedKeywordsFields": [
{
"fieldName": "tags"
},
{
"fieldName": "category"
}
]
}
}
]
},
"vectorSearch": {
"algorithms": [
{
"name": "myHnsw",
"kind": "hnsw",
"hnswParameters": {
"metric": "cosine",
"m": 4,
"efConstruction": 400,
"efSearch": 500
}
},
{
"name": "myExhaustive",
"kind": "exhaustiveKnn",
"exhaustiveKnnParameters": {
"metric": "cosine"
}
}
],
"profiles": [
{
"name": "myHnswProfile",
"algorithm": "myHnsw"
},
{
"name": "myAlgorithm",
"algorithm": "myExhaustive"
}
]
}
}
{
"name": "hotels",
"fields": [
{
"name": "hotelId",
"type": "Edm.String",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": true,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "baseRate",
"type": "Edm.Double",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "description",
"type": "Edm.String",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "descriptionEmbedding",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": 1536,
"vectorSearchProfile": "myHnswProfile",
"synonymMaps": []
},
{
"name": "description_fr",
"type": "Edm.String",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": "fr.lucene",
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "hotelName",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "category",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "tags",
"type": "Collection(Edm.String)",
"searchable": true,
"filterable": true,
"retrievable": true,
"sortable": false,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": "tagsAnalyzer",
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "parkingIncluded",
"type": "Edm.Boolean",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "smokingAllowed",
"type": "Edm.Boolean",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "lastRenovationDate",
"type": "Edm.DateTimeOffset",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "rating",
"type": "Edm.Int32",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "location",
"type": "Edm.GeographyPoint",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
}
],
"scoringProfiles": [
{
"name": "geo",
"functionAggregation": "sum",
"text": {
"weights": {
"hotelName": 5
}
},
"functions": [
{
"type": "distance",
"boost": 5,
"fieldName": "location",
"interpolation": "logarithmic",
"distance": {
"referencePointParameter": "currentLocation",
"boostingDistance": 10
}
}
]
}
],
"defaultScoringProfile": "geo",
"suggesters": [
{
"name": "sg",
"searchMode": "analyzingInfixMatching",
"sourceFields": [
"hotelName"
]
}
],
"analyzers": [
{
"name": "tagsAnalyzer",
"@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
"charFilters": [
"html_strip"
],
"tokenizer": "standard_v2"
}
],
"tokenizers": [],
"tokenFilters": [],
"charFilters": [],
"corsOptions": {
"allowedOrigins": [
"tempuri.org"
],
"maxAgeInSeconds": 60
},
"encryptionKey": {
"keyVaultKeyName": "myUserManagedEncryptionKey-createdinAzureKeyVault",
"keyVaultKeyVersion": "myKeyVersion-32charAlphaNumericString",
"keyVaultUri": "https://myKeyVault.vault.azure.net",
"accessCredentials": null
},
"semantic": {
"configurations": [
{
"name": "semanticHotels",
"prioritizedFields": {
"titleField": {
"fieldName": "hotelName"
},
"prioritizedContentFields": [
{
"fieldName": "description"
},
{
"fieldName": "description_fr"
}
],
"prioritizedKeywordsFields": [
{
"fieldName": "tags"
},
{
"fieldName": "category"
}
]
}
}
]
},
"vectorSearch": {
"algorithms": [
{
"name": "myHnsw",
"kind": "hnsw",
"hnswParameters": {
"metric": "cosine",
"m": 4,
"efConstruction": 400,
"efSearch": 500
}
},
{
"name": "myExhaustive",
"kind": "exhaustiveKnn",
"exhaustiveKnnParameters": {
"metric": "cosine"
}
}
],
"profiles": [
{
"name": "myHnswProfile",
"algorithm": "myHnsw"
},
{
"name": "myAlgorithm",
"algorithm": "myExhaustive"
}
]
}
}
Definicje
Nazwa | Opis |
---|---|
Ascii |
Konwertuje znaki alfabetyczne, numeryczne i symboliczne Znaki Unicode, które nie znajdują się w pierwszych 127 znakach ASCII (blok "Basic Latin" Unicode) na ich odpowiedniki ASCII, jeśli takie odpowiedniki istnieją. Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene. |
Azure |
Poświadczenia zarejestrowanej aplikacji utworzonej dla usługi wyszukiwania używane do uwierzytelnionego dostępu do kluczy szyfrowania przechowywanych w usłudze Azure Key Vault. |
BM25Similarity |
Funkcja klasyfikacji oparta na algorytmie podobieństwa Okapi BM25. BM25 to algorytm podobny do serwera TF-IDF, który obejmuje normalizację długości (kontrolowaną przez parametr "b"), a także nasycenie częstotliwości terminów (kontrolowane przez parametr "k1"). |
Char |
Definiuje nazwy wszystkich filtrów znaków obsługiwanych przez wyszukiwarkę. |
Cjk |
Tworzy bigramy terminów CJK generowanych na podstawie standardowego tokenizatora. Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene. |
Cjk |
Skrypty, które mogą być ignorowane przez CjkBigramTokenFilter. |
Classic |
Starszy algorytm podobieństwa, który używa implementacji TFIDFSimilarity Lucene tf-IDF. Ta odmiana funkcji TF-IDF wprowadza statyczną normalizację długości dokumentu, a także koordynuje czynniki, które karują dokumenty, które tylko częściowo pasują do wyszukiwanych zapytań. |
Classic |
Tokenizator oparty na gramatyce, który jest odpowiedni do przetwarzania większości dokumentów w języku europejskim. Ten tokenizer jest implementowany przy użyciu platformy Apache Lucene. |
Common |
Konstruowanie bigramów dla często występujących terminów podczas indeksowania. Pojedyncze terminy są również indeksowane, a bigramy nakładają się. Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene. |
Cors |
Definiuje opcje kontrolowania współużytkowania zasobów między źródłami (CORS) dla indeksu. |
Custom |
Umożliwia przejęcie kontroli nad procesem konwertowania tekstu na tokeny indeksowalne/wyszukiwalne. Jest to konfiguracja zdefiniowana przez użytkownika składająca się z jednego wstępnie zdefiniowanego tokenizatora i co najmniej jednego filtru. Tokenizer jest odpowiedzialny za podzielenie tekstu na tokeny, a filtry do modyfikowania tokenów emitowanych przez tokenizator. |
Dictionary |
Rozkłada złożone wyrazy znalezione w wielu językach niemieckich. Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene. |
Distance |
Definiuje funkcję, która zwiększa wyniki na podstawie odległości od lokalizacji geograficznej. |
Distance |
Udostępnia wartości parametrów funkcji oceniania odległości. |
Edge |
Generuje n-gramy danych rozmiarów, zaczynając od przodu lub z tyłu tokenu wejściowego. Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene. |
Edge |
Określa, z której strony wejściowej ma zostać wygenerowany n-gram. |
Edge |
Generuje n-gramy danych rozmiarów, zaczynając od przodu lub z tyłu tokenu wejściowego. Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene. |
Edge |
Tokenizuje dane wejściowe z krawędzi do n-gramów podanych rozmiarów. Ten tokenizer jest implementowany przy użyciu platformy Apache Lucene. |
Elision |
Usuwa elizji. Na przykład "l'avion" (płaszczyzna) zostanie przekonwertowana na "avion" (płaszczyzna). Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene. |
Exhaustive |
Zawiera parametry specyficzne dla wyczerpującego algorytmu KNN. |
Exhaustive |
Zawiera opcje konfiguracji specyficzne dla wyczerpującego algorytmu KNN używanego podczas wykonywania zapytań, co spowoduje przeprowadzenie wyszukiwania siłowego w całym indeksie wektorów. |
Freshness |
Definiuje funkcję, która zwiększa wyniki na podstawie wartości pola daty i godziny. |
Freshness |
Udostępnia wartości parametrów funkcji oceniania świeżości. |
Hnsw |
Zawiera parametry specyficzne dla algorytmu HNSW. |
Hnsw |
Zawiera opcje konfiguracji specyficzne dla algorytmu najbliższego sąsiada HNSW używanego podczas indeksowania i wykonywania zapytań. Algorytm HNSW oferuje możliwą do dostosowania kompromis między szybkością wyszukiwania a dokładnością. |
Keep |
Filtr tokenu, który przechowuje tylko tokeny z tekstem zawartym na określonej liście wyrazów. Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene. |
Keyword |
Oznacza terminy jako słowa kluczowe. Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene. |
Keyword |
Emituje całe dane wejściowe jako pojedynczy token. Ten tokenizer jest implementowany przy użyciu platformy Apache Lucene. |
Keyword |
Emituje całe dane wejściowe jako pojedynczy token. Ten tokenizer jest implementowany przy użyciu platformy Apache Lucene. |
Length |
Usuwa wyrazy, które są za długie lub zbyt krótkie. Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene. |
Lexical |
Definiuje nazwy wszystkich analizatorów tekstu obsługiwanych przez wyszukiwarkę. |
Lexical |
Definiuje nazwy wszystkich tokenizatorów obsługiwanych przez wyszukiwarkę. |
Limit |
Ogranicza liczbę tokenów podczas indeksowania. Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene. |
Lucene |
Standardowy analizator Apache Lucene; Składa się ze standardowego tokenizatora, małych liter i filtru zatrzymania. |
Lucene |
Przerywa tekst po regułach segmentacji tekstu Unicode. Ten tokenizer jest implementowany przy użyciu platformy Apache Lucene. |
Lucene |
Dzieli tekst zgodnie z regułami segmentacji tekstu Unicode. Ten tokenizer jest implementowany przy użyciu platformy Apache Lucene. |
Magnitude |
Definiuje funkcję, która zwiększa wyniki na podstawie wielkości pola liczbowego. |
Magnitude |
Udostępnia wartości parametrów funkcji oceniania wielkości. |
Mapping |
Filtr znaków, który stosuje mapowania zdefiniowane za pomocą opcji mapowań. Dopasowanie jest chciwy (najdłuższy wzór pasujący w danym punkcie wygrywa). Zastąpienie może być pustym ciągiem. Ten filtr znaków jest implementowany przy użyciu platformy Apache Lucene. |
Microsoft |
Dzieli tekst przy użyciu reguł specyficznych dla języka i zmniejsza liczbę wyrazów do ich formularzy podstawowych. |
Microsoft |
Dzieli tekst przy użyciu reguł specyficznych dla języka. |
Microsoft |
Listy języków obsługiwanych przez tokenizatora macierzystego języka firmy Microsoft. |
Microsoft |
Listy języków obsługiwanych przez tokenizator języka firmy Microsoft. |
NGram |
Generuje n-gramy dla danego rozmiaru. Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene. |
NGram |
Generuje n-gramy dla danego rozmiaru. Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene. |
NGram |
Tokenizuje dane wejściowe do n-gramów podanych rozmiarów. Ten tokenizer jest implementowany przy użyciu platformy Apache Lucene. |
Path |
Tokenizer dla hierarchii podobnych do ścieżki. Ten tokenizer jest implementowany przy użyciu platformy Apache Lucene. |
Pattern |
Elastycznie oddziela tekst na terminy za pomocą wzorca wyrażenia regularnego. Ten analizator jest implementowany przy użyciu platformy Apache Lucene. |
Pattern |
Używa wyrażeń regularnych Języka Java do emitowania wielu tokenów — jednej dla każdej grupy przechwytywania w co najmniej jednym wzorze. Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene. |
Pattern |
Filtr znaków, który zastępuje znaki w ciągu wejściowym. Używa wyrażenia regularnego do identyfikowania sekwencji znaków w celu zachowania i wzorca zastępczego w celu zidentyfikowania znaków do zastąpienia. Na przykład, biorąc pod uwagę tekst wejściowy "aa bb aa bb", wzorzec "(aa)\s+(bb)" i zastąpienie "$1#$2", wynik będzie "aa#bb aa#bb". Ten filtr znaków jest implementowany przy użyciu platformy Apache Lucene. |
Pattern |
Filtr znaków, który zastępuje znaki w ciągu wejściowym. Używa wyrażenia regularnego do identyfikowania sekwencji znaków w celu zachowania i wzorca zamiany w celu zidentyfikowania znaków do zastąpienia. Na przykład, biorąc pod uwagę tekst wejściowy "aa bb aa bb", wzorzec "(aa)\s+(bb)" i zastąpienie wartości "$1#$2", wynikiem będzie "aa#bb aa#bb". Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene. |
Pattern |
Tokenizer, który używa dopasowania wzorca regularnego do konstruowania odrębnych tokenów. Ten tokenizer jest implementowany przy użyciu platformy Apache Lucene. |
Phonetic |
Określa typ kodera fonetycznego do użycia z PhoneticTokenFilter. |
Phonetic |
Tworzenie tokenów dla dopasowań fonetycznych. Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene. |
Prioritized |
Opisuje pola tytułu, zawartości i słów kluczowych, które mają być używane do klasyfikacji semantycznej, podpisów, wyróżnień i odpowiedzi. |
Regex |
Definiuje flagi, które można połączyć w celu kontrolowania sposobu użycia wyrażeń regularnych w analizatorze wzorców i tokenizatorze wzorca. |
Scoring |
Definiuje funkcję agregacji używaną do łączenia wyników wszystkich funkcji oceniania w profilu oceniania. |
Scoring |
Definiuje funkcję używaną do interpolacji wyników zwiększających liczbę dokumentów w wielu dokumentach. |
Scoring |
Definiuje parametry indeksu wyszukiwania, który ma wpływ na ocenianie w zapytaniach wyszukiwania. |
Search |
Opisuje warunek błędu dla interfejsu API. |
Search |
Reprezentuje pole w definicji indeksu, które opisuje nazwę, typ danych i zachowanie wyszukiwania pola. |
Search |
Definiuje typ danych pola w indeksie wyszukiwania. |
Search |
Reprezentuje definicję indeksu wyszukiwania, która opisuje pola i zachowanie wyszukiwania indeksu. |
Search |
Klucz szyfrowania zarządzany przez klienta w usłudze Azure Key Vault. Klucze tworzone i zarządzane mogą służyć do szyfrowania lub odszyfrowywania danych magazynowanych w usłudze wyszukiwania, takich jak indeksy i mapy synonimów. |
Semantic |
Definiuje określoną konfigurację do użycia w kontekście funkcji semantycznych. |
Semantic |
Pole, które jest używane jako część konfiguracji semantycznej. |
Semantic |
Definiuje parametry indeksu wyszukiwania, który ma wpływ na możliwości semantyczne. |
Shingle |
Tworzy kombinacje tokenów jako pojedynczy token. Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene. |
Snowball |
Filtr, który tworzy wyrazy przy użyciu stemmeru wygenerowanego przez snowball. Ten filtr tokenu jest implementowany przy użyciu rozwiązania Apache Lucene. |
Snowball |
Język używany dla filtru tokenu Snowball. |
Stemmer |
Zapewnia możliwość zastępowania innych filtrów macierzystych przy użyciu niestandardowego ściągnięcia opartego na słowniku. Wszystkie terminy powiązane ze słownikiem zostaną oznaczone jako słowa kluczowe, aby nie zostały one powstrzymane od stemmers w dół łańcucha. Należy umieścić przed wszelkimi filtrami macierzystymi. Ten filtr tokenu jest implementowany przy użyciu rozwiązania Apache Lucene. |
Stemmer |
Filtr macierzysty specyficzny dla języka. Ten filtr tokenu jest implementowany przy użyciu rozwiązania Apache Lucene. |
Stemmer |
Język używany dla filtru tokenu stemmer. |
Stop |
Dzieli tekst na litery inne niż litery; Stosuje małe litery i filtry tokenów stopword. Ten analizator jest implementowany przy użyciu platformy Apache Lucene. |
Stopwords |
Identyfikuje wstępnie zdefiniowaną listę słów przestawnych specyficznych dla języka. |
Stopwords |
Usuwa słowa zatrzymania ze strumienia tokenu. Ten filtr tokenu jest implementowany przy użyciu rozwiązania Apache Lucene. |
Suggester |
Definiuje sposób stosowania interfejsu API sugerowanego do grupy pól w indeksie. |
Suggester |
Wartość wskazująca możliwości sugestora. |
Synonym |
Dopasuje synonimy pojedyncze lub wielosypowe w strumieniu tokenu. Ten filtr tokenu jest implementowany przy użyciu rozwiązania Apache Lucene. |
Tag |
Definiuje funkcję, która zwiększa wyniki dokumentów z wartościami ciągów pasującymi do danej listy tagów. |
Tag |
Udostępnia wartości parametrów funkcji oceniania tagów. |
Text |
Definiuje wagi pól indeksu, dla których dopasowania powinny zwiększyć ocenianie w zapytaniach wyszukiwania. |
Token |
Reprezentuje klasy znaków, na których może działać filtr tokenu. |
Token |
Definiuje nazwy wszystkich filtrów tokenów obsługiwanych przez wyszukiwarkę. |
Truncate |
Obcina terminy do określonej długości. Ten filtr tokenu jest implementowany przy użyciu rozwiązania Apache Lucene. |
Uax |
Tokenizuje adresy URL i wiadomości e-mail jako jeden token. Ten tokenizer jest implementowany przy użyciu platformy Apache Lucene. |
Unique |
Filtruje tokeny z tym samym tekstem co poprzedni token. Ten filtr tokenu jest implementowany przy użyciu rozwiązania Apache Lucene. |
Vector |
Zawiera opcje konfiguracji związane z wyszukiwaniem wektorów. |
Vector |
Algorytm używany do indeksowania i wykonywania zapytań. |
Vector |
Metryka podobieństwa do użycia dla porównań wektorów. |
Vector |
Definiuje kombinację konfiguracji do użycia z wyszukiwaniem wektorów. |
Word |
Dzieli wyrazy na podwordse i wykonuje opcjonalne przekształcenia w grupach podrzędnych. Ten filtr tokenu jest implementowany przy użyciu rozwiązania Apache Lucene. |
AsciiFoldingTokenFilter
Konwertuje znaki alfabetyczne, numeryczne i symboliczne Znaki Unicode, które nie znajdują się w pierwszych 127 znakach ASCII (blok "Basic Latin" Unicode) na ich odpowiedniki ASCII, jeśli takie odpowiedniki istnieją. Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene.
Nazwa | Typ | Wartość domyślna | Opis |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ filtru tokenu. |
|
name |
string |
Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się wyłącznie znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
|
preserveOriginal |
boolean |
False |
Wartość wskazująca, czy oryginalny token będzie przechowywany. Wartość domyślna to false. |
AzureActiveDirectoryApplicationCredentials
Poświadczenia zarejestrowanej aplikacji utworzonej dla usługi wyszukiwania używane do uwierzytelnionego dostępu do kluczy szyfrowania przechowywanych w usłudze Azure Key Vault.
Nazwa | Typ | Opis |
---|---|---|
applicationId |
string |
Identyfikator aplikacji usługi AAD, który otrzymał wymagane uprawnienia dostępu do usługi Azure Key Vault, który ma być używany podczas szyfrowania danych magazynowanych. Identyfikator aplikacji nie powinien być mylony z identyfikatorem obiektu aplikacji usługi AAD. |
applicationSecret |
string |
Klucz uwierzytelniania określonej aplikacji usługi AAD. |
BM25Similarity
Funkcja klasyfikacji oparta na algorytmie podobieństwa Okapi BM25. BM25 to algorytm podobny do serwera TF-IDF, który obejmuje normalizację długości (kontrolowaną przez parametr "b"), a także nasycenie częstotliwości terminów (kontrolowane przez parametr "k1").
Nazwa | Typ | Opis |
---|---|---|
@odata.type |
string:
#Microsoft. |
|
b |
number |
Ta właściwość określa, jak długość dokumentu wpływa na ocenę istotności. Domyślnie jest używana wartość 0,75. Wartość 0,0 oznacza, że nie zastosowano normalizacji długości, a wartość 1,0 oznacza, że wynik jest w pełni znormalizowany przez długość dokumentu. |
k1 |
number |
Ta właściwość steruje funkcją skalowania między częstotliwością terminów poszczególnych pasujących terminów a końcowym wynikiem istotności pary zapytań dokumentów. Domyślnie jest używana wartość 1.2. Wartość 0,0 oznacza, że wynik nie jest skalowany ze wzrostem częstotliwości terminów. |
CharFilterName
Definiuje nazwy wszystkich filtrów znaków obsługiwanych przez wyszukiwarkę.
Nazwa | Typ | Opis |
---|---|---|
html_strip |
string |
Filtr znaków, który próbuje usunąć konstrukcje HTML. Zobacz https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html |
CjkBigramTokenFilter
Tworzy bigramy terminów CJK generowanych na podstawie standardowego tokenizatora. Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene.
Nazwa | Typ | Wartość domyślna | Opis |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ filtru tokenu. |
|
ignoreScripts |
Skrypty do zignorowania. |
||
name |
string |
Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się wyłącznie znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
|
outputUnigrams |
boolean |
False |
Wartość wskazująca, czy dane wyjściowe mają zawierać zarówno unigramy, jak i bigramy (jeśli to prawda), czy tylko bigramy (jeśli jest to fałsz). Wartość domyślna to false. |
CjkBigramTokenFilterScripts
Skrypty, które mogą być ignorowane przez CjkBigramTokenFilter.
Nazwa | Typ | Opis |
---|---|---|
han |
string |
Ignoruj skrypt Han podczas tworzenia bigramów terminów CJK. |
hangul |
string |
Ignoruj skrypt Hangul podczas tworzenia bigramów terminów CJK. |
hiragana |
string |
Ignoruj skrypt Hiragana podczas tworzenia bigramów terminów CJK. |
katakana |
string |
Ignoruj skrypt Katakana podczas tworzenia bigramów terminów CJK. |
ClassicSimilarity
Starszy algorytm podobieństwa, który używa implementacji TFIDFSimilarity Lucene tf-IDF. Ta odmiana funkcji TF-IDF wprowadza statyczną normalizację długości dokumentu, a także koordynuje czynniki, które karują dokumenty, które tylko częściowo pasują do wyszukiwanych zapytań.
Nazwa | Typ | Opis |
---|---|---|
@odata.type |
string:
#Microsoft. |
ClassicTokenizer
Tokenizator oparty na gramatyce, który jest odpowiedni do przetwarzania większości dokumentów w języku europejskim. Ten tokenizer jest implementowany przy użyciu platformy Apache Lucene.
Nazwa | Typ | Wartość domyślna | Opis |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ tokenizatora. |
|
maxTokenLength |
integer |
255 |
Maksymalna długość tokenu. Wartość domyślna to 255. Tokeny dłuższe niż maksymalna długość są podzielone. Maksymalna długość tokenu, która może być używana, to 300 znaków. |
name |
string |
Nazwa tokenizatora. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się tylko znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
CommonGramTokenFilter
Konstruowanie bigramów dla często występujących terminów podczas indeksowania. Pojedyncze terminy są również indeksowane, a bigramy nakładają się. Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene.
Nazwa | Typ | Wartość domyślna | Opis |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ filtru tokenu. |
|
commonWords |
string[] |
Zestaw typowych słów. |
|
ignoreCase |
boolean |
False |
Wartość wskazująca, czy dopasowywanie typowych słów będzie uwzględniać wielkość liter. Wartość domyślna to false. |
name |
string |
Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się wyłącznie znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
|
queryMode |
boolean |
False |
Wartość wskazująca, czy filtr tokenu jest w trybie zapytania. W trybie zapytania filtr tokenu generuje bigramy, a następnie usuwa typowe słowa i pojedyncze terminy, po których następuje słowo wspólne. Wartość domyślna to false. |
CorsOptions
Definiuje opcje kontrolowania współużytkowania zasobów między źródłami (CORS) dla indeksu.
Nazwa | Typ | Opis |
---|---|---|
allowedOrigins |
string[] |
Lista źródeł, z których kod JavaScript otrzyma dostęp do indeksu. Może zawierać listę hostów formularza {protocol}://{w pełni kwalifikowana-nazwa-domeny}[:{port#}] lub pojedynczy |
maxAgeInSeconds |
integer |
Czas trwania, dla którego przeglądarki powinny buforować odpowiedzi wstępne CORS. Wartość domyślna to 5 minut. |
CustomAnalyzer
Umożliwia przejęcie kontroli nad procesem konwertowania tekstu na tokeny indeksowalne/wyszukiwalne. Jest to konfiguracja zdefiniowana przez użytkownika składająca się z jednego wstępnie zdefiniowanego tokenizatora i co najmniej jednego filtru. Tokenizer jest odpowiedzialny za podzielenie tekstu na tokeny, a filtry do modyfikowania tokenów emitowanych przez tokenizator.
Nazwa | Typ | Opis |
---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ analizatora. |
charFilters |
Lista filtrów znaków używanych do przygotowywania tekstu wejściowego przed jego przetworzeniem przez tokenizator. Mogą na przykład zastąpić niektóre znaki lub symbole. Filtry są uruchamiane w kolejności, w której są wyświetlane. |
|
name |
string |
Nazwa analizatora. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się tylko znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
tokenFilters |
Lista filtrów tokenów używanych do filtrowania lub modyfikowania tokenów generowanych przez tokenizator. Można na przykład określić małe litery filtru, który konwertuje wszystkie znaki na małe litery. Filtry są uruchamiane w kolejności, w której są wyświetlane. |
|
tokenizer |
Nazwa tokenizatora używanego do dzielenia tekstu ciągłego na sekwencję tokenów, na przykład dzielenie zdania na wyrazy. |
DictionaryDecompounderTokenFilter
Rozkłada złożone wyrazy znalezione w wielu językach niemieckich. Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene.
Nazwa | Typ | Wartość domyślna | Opis |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ filtru tokenu. |
|
maxSubwordSize |
integer |
15 |
Maksymalny rozmiar podordu. Tylko subwords krótsze niż te są zwracane. Domyślną jest 15. Wartość maksymalna to 300. |
minSubwordSize |
integer |
2 |
Minimalny rozmiar podordu. Tylko podwsieci dłuższe niż te są wyświetlane. Wartość domyślna to 2. Wartość maksymalna to 300. |
minWordSize |
integer |
5 |
Minimalny rozmiar wyrazu. Tylko wyrazy dłuższe niż te są przetwarzane. Wartość domyślna to 5. Wartość maksymalna to 300. |
name |
string |
Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się wyłącznie znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
|
onlyLongestMatch |
boolean |
False |
Wartość wskazująca, czy do danych wyjściowych ma zostać dodany tylko najdłuższy pasujący podord. Wartość domyślna to false. |
wordList |
string[] |
Lista wyrazów do dopasowania. |
DistanceScoringFunction
Definiuje funkcję, która zwiększa wyniki na podstawie odległości od lokalizacji geograficznej.
Nazwa | Typ | Opis |
---|---|---|
boost |
number |
Mnożnik dla nieprzetworzonego wyniku. Musi być liczbą dodatnią, która nie jest równa 1,0. |
distance |
Wartości parametrów dla funkcji oceniania odległości. |
|
fieldName |
string |
Nazwa pola używanego jako dane wejściowe funkcji oceniania. |
interpolation |
Wartość wskazująca, jak zwiększenie będzie interpolowane w wynikach dokumentu; wartość domyślna to "Liniowa". |
|
type |
string:
distance |
Wskazuje typ funkcji do użycia. Prawidłowe wartości obejmują wielkość, świeżość, odległość i tag. Typ funkcji musi mieć małe litery. |
DistanceScoringParameters
Udostępnia wartości parametrów funkcji oceniania odległości.
Nazwa | Typ | Opis |
---|---|---|
boostingDistance |
number |
Odległość w kilometrach od lokalizacji referencyjnej, w której kończy się zwiększający się zakres. |
referencePointParameter |
string |
Nazwa parametru przekazanego w zapytaniach wyszukiwania w celu określenia lokalizacji referencyjnej. |
EdgeNGramTokenFilter
Generuje n-gramy danych rozmiarów, zaczynając od przodu lub z tyłu tokenu wejściowego. Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene.
Nazwa | Typ | Wartość domyślna | Opis |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ filtru tokenu. |
|
maxGram |
integer |
2 |
Maksymalna długość n-grama. Wartość domyślna to 2. |
minGram |
integer |
1 |
Minimalna długość n-grama. Domyślna wartość wynosi 1. Musi być mniejsza niż wartość maxGram. |
name |
string |
Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się wyłącznie znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
|
side | front |
Określa, z której strony wejściowej ma zostać wygenerowany n-gram. Wartość domyślna to "front". |
EdgeNGramTokenFilterSide
Określa, z której strony wejściowej ma zostać wygenerowany n-gram.
Nazwa | Typ | Opis |
---|---|---|
back |
string |
Określa, że n-gram powinny być generowane z tyłu danych wejściowych. |
front |
string |
Określa, że n-gram powinny być generowane z przodu danych wejściowych. |
EdgeNGramTokenFilterV2
Generuje n-gramy danych rozmiarów, zaczynając od przodu lub z tyłu tokenu wejściowego. Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene.
Nazwa | Typ | Wartość domyślna | Opis |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ filtru tokenu. |
|
maxGram |
integer |
2 |
Maksymalna długość n-grama. Wartość domyślna to 2. Wartość maksymalna to 300. |
minGram |
integer |
1 |
Minimalna długość n-grama. Domyślna wartość wynosi 1. Wartość maksymalna to 300. Musi być mniejsza niż wartość maxGram. |
name |
string |
Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się wyłącznie znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
|
side | front |
Określa, z której strony wejściowej ma zostać wygenerowany n-gram. Wartość domyślna to "front". |
EdgeNGramTokenizer
Tokenizuje dane wejściowe z krawędzi do n-gramów podanych rozmiarów. Ten tokenizer jest implementowany przy użyciu platformy Apache Lucene.
Nazwa | Typ | Wartość domyślna | Opis |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ tokenizatora. |
|
maxGram |
integer |
2 |
Maksymalna długość n-grama. Wartość domyślna to 2. Maksymalna wartość to 300. |
minGram |
integer |
1 |
Minimalna długość n-grama. Domyślna wartość wynosi 1. Maksymalna wartość to 300. Musi być mniejsza niż wartość maxGram. |
name |
string |
Nazwa tokenizatora. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się tylko znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
|
tokenChars |
Klasy znaków do przechowywania w tokenach. |
ElisionTokenFilter
Usuwa elizji. Na przykład "l'avion" (płaszczyzna) zostanie przekonwertowana na "avion" (płaszczyzna). Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene.
Nazwa | Typ | Opis |
---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ filtru tokenu. |
articles |
string[] |
Zestaw artykułów do usunięcia. |
name |
string |
Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się wyłącznie znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
ExhaustiveKnnParameters
Zawiera parametry specyficzne dla wyczerpującego algorytmu KNN.
Nazwa | Typ | Opis |
---|---|---|
metric |
Metryka podobieństwa do użycia dla porównań wektorów. |
ExhaustiveKnnVectorSearchAlgorithmConfiguration
Zawiera opcje konfiguracji specyficzne dla wyczerpującego algorytmu KNN używanego podczas wykonywania zapytań, co spowoduje przeprowadzenie wyszukiwania siłowego w całym indeksie wektorów.
Nazwa | Typ | Opis |
---|---|---|
exhaustiveKnnParameters |
Zawiera parametry specyficzne dla wyczerpującego algorytmu KNN. |
|
kind |
string:
exhaustive |
Nazwa rodzaju algorytmu skonfigurowanego do użycia z wyszukiwaniem wektorowym. |
name |
string |
Nazwa do skojarzenia z tą konkretną konfiguracją. |
FreshnessScoringFunction
Definiuje funkcję, która zwiększa wyniki na podstawie wartości pola daty i godziny.
Nazwa | Typ | Opis |
---|---|---|
boost |
number |
Mnożnik dla nieprzetworzonego wyniku. Musi być liczbą dodatnią, która nie jest równa 1,0. |
fieldName |
string |
Nazwa pola używanego jako dane wejściowe funkcji oceniania. |
freshness |
Wartości parametrów dla funkcji oceniania świeżości. |
|
interpolation |
Wartość wskazująca, jak zwiększenie będzie interpolowane w wynikach dokumentu; wartość domyślna to "Liniowa". |
|
type |
string:
freshness |
Wskazuje typ funkcji do użycia. Prawidłowe wartości obejmują wielkość, świeżość, odległość i tag. Typ funkcji musi mieć małe litery. |
FreshnessScoringParameters
Udostępnia wartości parametrów funkcji oceniania świeżości.
Nazwa | Typ | Opis |
---|---|---|
boostingDuration |
string |
Okres wygaśnięcia, po którym zwiększenie zostanie zatrzymane dla określonego dokumentu. |
HnswParameters
Zawiera parametry specyficzne dla algorytmu HNSW.
Nazwa | Typ | Wartość domyślna | Opis |
---|---|---|---|
efConstruction |
integer |
400 |
Rozmiar listy dynamicznej zawierającej najbliższych sąsiadów, który jest używany w czasie indeksu. Zwiększenie tego parametru może poprawić jakość indeksu, kosztem zwiększonego czasu indeksowania. W pewnym momencie zwiększenie tego parametru prowadzi do zmniejszenia zwrotów. |
efSearch |
integer |
500 |
Rozmiar listy dynamicznej zawierającej najbliższych sąsiadów, który jest używany w czasie wyszukiwania. Zwiększenie tego parametru może poprawić wyniki wyszukiwania kosztem wolniejszego wyszukiwania. W pewnym momencie zwiększenie tego parametru prowadzi do zmniejszenia zwrotów. |
m |
integer |
4 |
Liczba łączy dwukierunkowych utworzonych dla każdego nowego elementu podczas budowy. Zwiększenie tej wartości parametru może poprawić czas wycofywania i zmniejszyć czas pobierania zestawów danych z wysokim wymiarem wewnętrznym kosztem zwiększonego zużycia pamięci i dłuższego czasu indeksowania. |
metric |
Metryka podobieństwa do użycia dla porównań wektorów. |
HnswVectorSearchAlgorithmConfiguration
Zawiera opcje konfiguracji specyficzne dla algorytmu najbliższego sąsiada HNSW używanego podczas indeksowania i wykonywania zapytań. Algorytm HNSW oferuje możliwą do dostosowania kompromis między szybkością wyszukiwania a dokładnością.
Nazwa | Typ | Opis |
---|---|---|
hnswParameters |
Zawiera parametry specyficzne dla algorytmu HNSW. |
|
kind |
string:
hnsw |
Nazwa rodzaju algorytmu skonfigurowanego do użycia z wyszukiwaniem wektorowym. |
name |
string |
Nazwa do skojarzenia z tą konkretną konfiguracją. |
KeepTokenFilter
Filtr tokenu, który przechowuje tylko tokeny z tekstem zawartym na określonej liście wyrazów. Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene.
Nazwa | Typ | Wartość domyślna | Opis |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ filtru tokenu. |
|
keepWords |
string[] |
Lista wyrazów do zachowania. |
|
keepWordsCase |
boolean |
False |
Wartość wskazująca, czy najpierw ma być małe litery wszystkich wyrazów. Wartość domyślna to false. |
name |
string |
Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się wyłącznie znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
KeywordMarkerTokenFilter
Oznacza terminy jako słowa kluczowe. Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene.
Nazwa | Typ | Wartość domyślna | Opis |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ filtru tokenu. |
|
ignoreCase |
boolean |
False |
Wartość wskazująca, czy ignorować wielkość liter. Jeśli wartość true, wszystkie wyrazy są najpierw konwertowane na małe litery. Wartość domyślna to false. |
keywords |
string[] |
Lista wyrazów do oznaczania jako słów kluczowych. |
|
name |
string |
Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się wyłącznie znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
KeywordTokenizer
Emituje całe dane wejściowe jako pojedynczy token. Ten tokenizer jest implementowany przy użyciu platformy Apache Lucene.
Nazwa | Typ | Wartość domyślna | Opis |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ tokenizatora. |
|
bufferSize |
integer |
256 |
Rozmiar buforu odczytu w bajtach. Wartość domyślna to 256. |
name |
string |
Nazwa tokenizatora. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się tylko znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
KeywordTokenizerV2
Emituje całe dane wejściowe jako pojedynczy token. Ten tokenizer jest implementowany przy użyciu platformy Apache Lucene.
Nazwa | Typ | Wartość domyślna | Opis |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ tokenizatora. |
|
maxTokenLength |
integer |
256 |
Maksymalna długość tokenu. Wartość domyślna to 256. Tokeny dłuższe niż maksymalna długość są podzielone. Maksymalna długość tokenu, która może być używana, to 300 znaków. |
name |
string |
Nazwa tokenizatora. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się tylko znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
LengthTokenFilter
Usuwa wyrazy, które są za długie lub zbyt krótkie. Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene.
Nazwa | Typ | Wartość domyślna | Opis |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ filtru tokenu. |
|
max |
integer |
300 |
Maksymalna długość znaków. Wartość domyślna i maksymalna to 300. |
min |
integer |
0 |
Minimalna długość znaków. Wartość domyślna to 0. Wartość maksymalna to 300. Musi być mniejsza niż wartość maksymalna. |
name |
string |
Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się wyłącznie znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
LexicalAnalyzerName
Definiuje nazwy wszystkich analizatorów tekstu obsługiwanych przez wyszukiwarkę.
Nazwa | Typ | Opis |
---|---|---|
ar.lucene |
string |
Analizator Lucene dla języka arabskiego. |
ar.microsoft |
string |
Analizator firmy Microsoft dla języka arabskiego. |
bg.lucene |
string |
Analizator Lucene dla Bułgarskiego. |
bg.microsoft |
string |
Analizator firmy Microsoft dla języka bułgarskiego. |
bn.microsoft |
string |
Analizator firmy Microsoft dla Bangla. |
ca.lucene |
string |
Analizator Lucene dla Katalończyka. |
ca.microsoft |
string |
Analizator firmy Microsoft dla katalońskiego. |
cs.lucene |
string |
Analizator Lucene dla języka czeskiego. |
cs.microsoft |
string |
Analizator firmy Microsoft dla języka czeskiego. |
da.lucene |
string |
Analizator Lucene dla języka duńskiego. |
da.microsoft |
string |
Analizator firmy Microsoft dla języka duńskiego. |
de.lucene |
string |
Analizator Lucene dla języka niemieckiego. |
de.microsoft |
string |
Analizator firmy Microsoft dla języka niemieckiego. |
el.lucene |
string |
Analizator Lucene dla języka greckiego. |
el.microsoft |
string |
Analizator firmy Microsoft dla języka greckiego. |
en.lucene |
string |
Analizator Lucene dla języka angielskiego. |
en.microsoft |
string |
Microsoft analyzer dla języka angielskiego. |
es.lucene |
string |
Analizator Lucene dla języka hiszpańskiego. |
es.microsoft |
string |
Analizator firmy Microsoft dla języka hiszpańskiego. |
et.microsoft |
string |
Analizator firmy Microsoft dla języka estońskiego. |
eu.lucene |
string |
Analizator Lucene dla Basków. |
fa.lucene |
string |
Analizator Lucene dla Perskiego. |
fi.lucene |
string |
Analizator Lucene dla fińskiego. |
fi.microsoft |
string |
Analizator firmy Microsoft dla języka fińskiego. |
fr.lucene |
string |
Analizator Lucene dla języka francuskiego. |
fr.microsoft |
string |
Analizator firmy Microsoft dla języka francuskiego. |
ga.lucene |
string |
Analizator Lucene dla Irlandii. |
gl.lucene |
string |
Analizator Lucene dla Galicji. |
gu.microsoft |
string |
Analizator firmy Microsoft dla Gujarati. |
he.microsoft |
string |
Analizator firmy Microsoft dla języka hebrajskiego. |
hi.lucene |
string |
Analizator Lucene dla języka hindi. |
hi.microsoft |
string |
Analizator firmy Microsoft dla języka hindi. |
hr.microsoft |
string |
Analizator firmy Microsoft dla Chorwacji. |
hu.lucene |
string |
Analizator Lucene dla języka węgierskiego. |
hu.microsoft |
string |
Analizator firmy Microsoft dla języka węgierskiego. |
hy.lucene |
string |
Analizator Lucene dla Ormiańskiego. |
id.lucene |
string |
Analizator Lucene dla indonezyjskiego. |
id.microsoft |
string |
Analizator firmy Microsoft dla indonezyjskiego (Bahasa). |
is.microsoft |
string |
Analizator firmy Microsoft dla islandii. |
it.lucene |
string |
Analizator Lucene dla Włocha. |
it.microsoft |
string |
Analizator firmy Microsoft dla języka włoskiego. |
ja.lucene |
string |
Analizator Lucene dla języka japońskiego. |
ja.microsoft |
string |
Analizator firmy Microsoft dla języka japońskiego. |
keyword |
string |
Traktuje całą zawartość pola jako pojedynczy token. Jest to przydatne w przypadku danych, takich jak kody pocztowe, identyfikatory i niektóre nazwy produktów. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html |
kn.microsoft |
string |
Microsoft analyzer dla Kannada. |
ko.lucene |
string |
Analizator Lucene dla języka koreańskiego. |
ko.microsoft |
string |
Analizator firmy Microsoft dla języka koreańskiego. |
lt.microsoft |
string |
Analizator firmy Microsoft dla Litwy. |
lv.lucene |
string |
Analizator Lucene dla Łotewskiego. |
lv.microsoft |
string |
Analizator firmy Microsoft dla Łotewskiego. |
ml.microsoft |
string |
Analizator firmy Microsoft dla malajalamu. |
mr.microsoft |
string |
Microsoft analyzer dla Marathi. |
ms.microsoft |
string |
Microsoft analyzer dla Malay (łaciński). |
nb.microsoft |
string |
Analizator firmy Microsoft dla języka norweskiego (Bokmål). |
nl.lucene |
string |
Analizator Lucene dla Holendra. |
nl.microsoft |
string |
Analizator firmy Microsoft dla języka holenderskiego. |
no.lucene |
string |
Analizator Lucene dla norweskiego. |
pa.microsoft |
string |
Analizator firmy Microsoft dla Punjabi. |
pattern |
string |
Elastycznie oddziela tekst na terminy za pomocą wzorca wyrażenia regularnego. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html |
pl.lucene |
string |
Analizator Lucene dla polski. |
pl.microsoft |
string |
Microsoft analyzer dla polski. |
pt-BR.lucene |
string |
Analizator Lucene dla portugalskiego (Brazylia). |
pt-BR.microsoft |
string |
Analizator firmy Microsoft dla języka portugalskiego (Brazylia). |
pt-PT.lucene |
string |
Analizator Lucene dla portugalskiego (Portugalia). |
pt-PT.microsoft |
string |
Analizator firmy Microsoft dla portugalskiego (Portugalia). |
ro.lucene |
string |
Analizator Lucene dla rumuńskiego. |
ro.microsoft |
string |
Analizator firmy Microsoft dla rumunii. |
ru.lucene |
string |
Analizator Lucene dla języka rosyjskiego. |
ru.microsoft |
string |
Analizator firmy Microsoft dla języka rosyjskiego. |
simple |
string |
Dzieli tekst na litery inne niż litery i konwertuje je na małe litery. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html |
sk.microsoft |
string |
Analizator firmy Microsoft dla języka słowackiego. |
sl.microsoft |
string |
Analizator firmy Microsoft dla Słowenii. |
sr-cyrillic.microsoft |
string |
Analizator firmy Microsoft dla serbskiego (cyrylica). |
sr-latin.microsoft |
string |
Analizator firmy Microsoft dla serbskiego (łacińskiego). |
standard.lucene |
string |
Analizator Lucene w warstwie Standardowa. |
standardasciifolding.lucene |
string |
Standardowy analizator Lucene składania ASCII. Zobacz https://docs.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers |
stop |
string |
Dzieli tekst na litery inne niż litery; Stosuje małe litery i filtry tokenów stopword. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html |
sv.lucene |
string |
Analizator Lucene dla szwedzkiego. |
sv.microsoft |
string |
Analizator firmy Microsoft dla szwedzkiego. |
ta.microsoft |
string |
Analizator firmy Microsoft dla Tamil. |
te.microsoft |
string |
Analizator firmy Microsoft dla usługi Telugu. |
th.lucene |
string |
Analizator Lucene dla języka tajskiego. |
th.microsoft |
string |
Analizator firmy Microsoft dla języka tajskiego. |
tr.lucene |
string |
Analizator Lucene dla języka tureckiego. |
tr.microsoft |
string |
Analizator firmy Microsoft dla języka tureckiego. |
uk.microsoft |
string |
Analizator firmy Microsoft dla Ukrainy. |
ur.microsoft |
string |
Analizator firmy Microsoft dla urdu. |
vi.microsoft |
string |
Analizator firmy Microsoft dla wietnamskich. |
whitespace |
string |
Analizator używający tokenizatora odstępów. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html |
zh-Hans.lucene |
string |
Analizator Lucene dla języka chińskiego (uproszczony). |
zh-Hans.microsoft |
string |
Analizator firmy Microsoft dla języka chińskiego (uproszczony). |
zh-Hant.lucene |
string |
Analizator Lucene dla języka chińskiego (tradycyjny). |
zh-Hant.microsoft |
string |
Analizator firmy Microsoft dla języka chińskiego (tradycyjny). |
LexicalTokenizerName
Definiuje nazwy wszystkich tokenizatorów obsługiwanych przez wyszukiwarkę.
Nazwa | Typ | Opis |
---|---|---|
classic |
string |
Tokenizator oparty na gramatyce, który jest odpowiedni do przetwarzania większości dokumentów w języku europejskim. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html |
edgeNGram |
string |
Tokenizuje dane wejściowe z krawędzi do n-gramów podanych rozmiarów. Zobacz https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html |
keyword_v2 |
string |
Emituje całe dane wejściowe jako pojedynczy token. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html |
letter |
string |
Dzieli tekst na litery inne niż litery. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html |
lowercase |
string |
Dzieli tekst na litery inne niż litery i konwertuje je na małe litery. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html |
microsoft_language_stemming_tokenizer |
string |
Dzieli tekst przy użyciu reguł specyficznych dla języka i zmniejsza liczbę wyrazów do ich formularzy podstawowych. |
microsoft_language_tokenizer |
string |
Dzieli tekst przy użyciu reguł specyficznych dla języka. |
nGram |
string |
Tokenizuje dane wejściowe do n-gramów podanych rozmiarów. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html |
path_hierarchy_v2 |
string |
Tokenizer dla hierarchii podobnych do ścieżki. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html |
pattern |
string |
Tokenizer, który używa dopasowania wzorca regularnego do konstruowania odrębnych tokenów. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html |
standard_v2 |
string |
Analizator Lucene w warstwie Standardowa; Składa się ze standardowego tokenizatora, małych liter i filtru zatrzymania. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html |
uax_url_email |
string |
Tokenizuje adresy URL i wiadomości e-mail jako jeden token. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html |
whitespace |
string |
Dzieli tekst na białe znaki. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html |
LimitTokenFilter
Ogranicza liczbę tokenów podczas indeksowania. Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene.
Nazwa | Typ | Wartość domyślna | Opis |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ filtru tokenu. |
|
consumeAllTokens |
boolean |
False |
Wartość wskazująca, czy wszystkie tokeny z danych wejściowych muszą być używane, nawet jeśli parametr maxTokenCount zostanie osiągnięty. Wartość domyślna to false. |
maxTokenCount |
integer |
1 |
Maksymalna liczba tokenów do utworzenia. Domyślna wartość wynosi 1. |
name |
string |
Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się wyłącznie znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
LuceneStandardAnalyzer
Standardowy analizator Apache Lucene; Składa się ze standardowego tokenizatora, małych liter i filtru zatrzymania.
Nazwa | Typ | Wartość domyślna | Opis |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ analizatora. |
|
maxTokenLength |
integer |
255 |
Maksymalna długość tokenu. Wartość domyślna to 255. Tokeny dłuższe niż maksymalna długość są podzielone. Maksymalna długość tokenu, która może być używana, to 300 znaków. |
name |
string |
Nazwa analizatora. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się tylko znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
|
stopwords |
string[] |
Lista stopwords. |
LuceneStandardTokenizer
Przerywa tekst po regułach segmentacji tekstu Unicode. Ten tokenizer jest implementowany przy użyciu platformy Apache Lucene.
Nazwa | Typ | Wartość domyślna | Opis |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ tokenizatora. |
|
maxTokenLength |
integer |
255 |
Maksymalna długość tokenu. Wartość domyślna to 255. Tokeny dłuższe niż maksymalna długość są podzielone. |
name |
string |
Nazwa tokenizatora. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się wyłącznie znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
LuceneStandardTokenizerV2
Dzieli tekst zgodnie z regułami segmentacji tekstu Unicode. Ten tokenizer jest implementowany przy użyciu platformy Apache Lucene.
Nazwa | Typ | Wartość domyślna | Opis |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ tokenizatora. |
|
maxTokenLength |
integer |
255 |
Maksymalna długość tokenu. Wartość domyślna to 255. Tokeny dłuższe niż maksymalna długość są dzielone. Maksymalna długość tokenu, która może być używana, to 300 znaków. |
name |
string |
Nazwa tokenizatora. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się wyłącznie znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
MagnitudeScoringFunction
Definiuje funkcję, która zwiększa wyniki na podstawie wielkości pola liczbowego.
Nazwa | Typ | Opis |
---|---|---|
boost |
number |
Mnożnik dla nieprzetworzonego wyniku. Musi być liczbą dodatnią, która nie jest równa 1,0. |
fieldName |
string |
Nazwa pola używanego jako dane wejściowe funkcji oceniania. |
interpolation |
Wartość wskazująca, jak zwiększenie będzie interpolowane w wynikach dokumentu; wartość domyślna to "Liniowa". |
|
magnitude |
Wartości parametrów dla funkcji oceniania wielkości. |
|
type |
string:
magnitude |
Wskazuje typ funkcji do użycia. Prawidłowe wartości obejmują wielkość, świeżość, odległość i tag. Typ funkcji musi mieć małe litery. |
MagnitudeScoringParameters
Udostępnia wartości parametrów funkcji oceniania wielkości.
Nazwa | Typ | Opis |
---|---|---|
boostingRangeEnd |
number |
Wartość pola, w której kończy się zwiększenie. |
boostingRangeStart |
number |
Wartość pola, w której rozpoczyna się zwiększanie. |
constantBoostBeyondRange |
boolean |
Wartość wskazująca, czy zastosować stały impuls dla wartości pól poza wartością końcową zakresu; wartość domyślna to false. |
MappingCharFilter
Filtr znaków, który stosuje mapowania zdefiniowane za pomocą opcji mapowań. Dopasowanie jest chciwy (najdłuższy wzór pasujący w danym punkcie wygrywa). Zastąpienie może być pustym ciągiem. Ten filtr znaków jest implementowany przy użyciu platformy Apache Lucene.
Nazwa | Typ | Opis |
---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ filtru znaków. |
mappings |
string[] |
Lista mapowań w następującym formacie: "a=>b" (wszystkie wystąpienia znaku "a" zostaną zastąpione znakiem "b"). |
name |
string |
Nazwa filtru char. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się tylko znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
MicrosoftLanguageStemmingTokenizer
Dzieli tekst przy użyciu reguł specyficznych dla języka i zmniejsza liczbę wyrazów do ich formularzy podstawowych.
Nazwa | Typ | Wartość domyślna | Opis |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ tokenizatora. |
|
isSearchTokenizer |
boolean |
False |
Wartość wskazująca sposób użycia tokenizatora. Ustaw wartość true, jeśli jest używana jako tokenizer wyszukiwania, ustaw wartość false, jeśli jest używana jako tokenizer indeksowania. Wartość domyślna to false. |
language |
Język do użycia. Wartość domyślna to angielski. |
||
maxTokenLength |
integer |
255 |
Maksymalna długość tokenu. Tokeny dłuższe niż maksymalna długość są podzielone. Maksymalna długość tokenu, która może być używana, to 300 znaków. Tokeny dłuższe niż 300 znaków są najpierw podzielone na tokeny o długości 300, a następnie każdy z tych tokenów jest podzielony na podstawie zestawu maksymalnej długości tokenu. Wartość domyślna to 255. |
name |
string |
Nazwa tokenizatora. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się tylko znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
MicrosoftLanguageTokenizer
Dzieli tekst przy użyciu reguł specyficznych dla języka.
Nazwa | Typ | Wartość domyślna | Opis |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ tokenizatora. |
|
isSearchTokenizer |
boolean |
False |
Wartość wskazująca sposób użycia tokenizatora. Ustaw wartość true, jeśli jest używana jako tokenizer wyszukiwania, ustaw wartość false, jeśli jest używana jako tokenizer indeksowania. Wartość domyślna to false. |
language |
Język do użycia. Wartość domyślna to angielski. |
||
maxTokenLength |
integer |
255 |
Maksymalna długość tokenu. Tokeny dłuższe niż maksymalna długość są podzielone. Maksymalna długość tokenu, która może być używana, to 300 znaków. Tokeny dłuższe niż 300 znaków są najpierw podzielone na tokeny o długości 300, a następnie każdy z tych tokenów jest podzielony na podstawie zestawu maksymalnej długości tokenu. Wartość domyślna to 255. |
name |
string |
Nazwa tokenizatora. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się tylko znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
MicrosoftStemmingTokenizerLanguage
Listy języków obsługiwanych przez tokenizatora macierzystego języka firmy Microsoft.
Nazwa | Typ | Opis |
---|---|---|
arabic |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla języka arabskiego. |
bangla |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla Bangla. |
bulgarian |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla języka bułgarskiego. |
catalan |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla języka katalońskiego. |
croatian |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla Chorwacji. |
czech |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla języka czeskiego. |
danish |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla języka duńskiego. |
dutch |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla języka holenderskiego. |
english |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla języka angielskiego. |
estonian |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla języka estońskiego. |
finnish |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla języka fińskiego. |
french |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla języka francuskiego. |
german |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla języka niemieckiego. |
greek |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla języka greckiego. |
gujarati |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla Gujarati. |
hebrew |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla języka hebrajskiego. |
hindi |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla języka hindi. |
hungarian |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla języka węgierskiego. |
icelandic |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla Islandii. |
indonesian |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla języka indonezyjskiego. |
italian |
string |
Wybiera wystawcę tokenizatora macierzystego firmy Microsoft dla języka włoskiego. |
kannada |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla kannady. |
latvian |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla Łotewskiego. |
lithuanian |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla Litwy. |
malay |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla Malay. |
malayalam |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla malajlamu. |
marathi |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla marathi. |
norwegianBokmaal |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla języka norweskiego (Bokmål). |
polish |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla języka polskiego. |
portuguese |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla języka portugalskiego. |
portugueseBrazilian |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla języka portugalskiego (Brazylia). |
punjabi |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla Punjabi. |
romanian |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla języka rumuńskiego. |
russian |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla języka rosyjskiego. |
serbianCyrillic |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla serbskiego (cyrylica). |
serbianLatin |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla serbskiego (łacińskiego). |
slovak |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla języka słowackiego. |
slovenian |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla słowenii. |
spanish |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla języka hiszpańskiego. |
swedish |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla języka szwedzkiego. |
tamil |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla Tamilu. |
telugu |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla aplikacji Telugu. |
turkish |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla języka tureckiego. |
ukrainian |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla języka ukraińskiego. |
urdu |
string |
Wybiera wystawcę tokenizatora macierzystego firmy Microsoft dla urdu. |
MicrosoftTokenizerLanguage
Listy języków obsługiwanych przez tokenizator języka firmy Microsoft.
Nazwa | Typ | Opis |
---|---|---|
bangla |
string |
Wybiera tokenizator firmy Microsoft dla Bangla. |
bulgarian |
string |
Wybiera tokenizator firmy Microsoft dla języka bułgarskiego. |
catalan |
string |
Wybiera tokenizator firmy Microsoft dla języka katalońskiego. |
chineseSimplified |
string |
Wybiera tokenizator firmy Microsoft dla języka chińskiego (uproszczony). |
chineseTraditional |
string |
Wybiera tokenizator firmy Microsoft dla języka chińskiego (tradycyjny). |
croatian |
string |
Wybiera tokenizator firmy Microsoft dla Chorwacji. |
czech |
string |
Wybiera tokenizator firmy Microsoft dla języka czeskiego. |
danish |
string |
Wybiera tokenizator firmy Microsoft dla języka duńskiego. |
dutch |
string |
Wybiera tokenizator firmy Microsoft dla języka holenderskiego. |
english |
string |
Wybiera tokenizator firmy Microsoft dla języka angielskiego. |
french |
string |
Wybiera tokenizator firmy Microsoft dla języka francuskiego. |
german |
string |
Wybiera tokenizator firmy Microsoft dla języka niemieckiego. |
greek |
string |
Wybiera tokenizator firmy Microsoft dla języka greckiego. |
gujarati |
string |
Wybiera tokenizator firmy Microsoft dla gudżarati. |
hindi |
string |
Wybiera tokenizator firmy Microsoft dla języka hindi. |
icelandic |
string |
Wybiera tokenizator firmy Microsoft dla islandii. |
indonesian |
string |
Wybiera tokenizator firmy Microsoft dla języka indonezyjskiego. |
italian |
string |
Wybiera tokenizator firmy Microsoft dla języka włoskiego. |
japanese |
string |
Wybiera tokenizator firmy Microsoft dla języka japońskiego. |
kannada |
string |
Wybiera tokenizator firmy Microsoft dla aplikacji Kannada. |
korean |
string |
Wybiera tokenizator firmy Microsoft dla języka koreańskiego. |
malay |
string |
Wybiera tokenizator firmy Microsoft dla malaji. |
malayalam |
string |
Wybiera tokenizator firmy Microsoft dla malajalamu. |
marathi |
string |
Wybiera tokenizator firmy Microsoft dla programu Marathi. |
norwegianBokmaal |
string |
Wybiera tokenizator firmy Microsoft dla języka norweskiego (Bokmål). |
polish |
string |
Wybiera tokenizator firmy Microsoft dla języka polskiego. |
portuguese |
string |
Wybiera tokenizator firmy Microsoft dla języka portugalskiego. |
portugueseBrazilian |
string |
Wybiera tokenizator firmy Microsoft dla języka portugalskiego (Brazylia). |
punjabi |
string |
Wybiera tokenizator firmy Microsoft dla Punjabi. |
romanian |
string |
Wybiera tokenizator firmy Microsoft dla języka rumuńskiego. |
russian |
string |
Wybiera tokenizator firmy Microsoft dla języka rosyjskiego. |
serbianCyrillic |
string |
Wybiera tokenizator firmy Microsoft dla serbskiego (cyrylica). |
serbianLatin |
string |
Wybiera tokenizator firmy Microsoft dla języka serbskiego (łacińskiego). |
slovenian |
string |
Wybiera tokenizator firmy Microsoft dla słowenii. |
spanish |
string |
Wybiera tokenizator firmy Microsoft dla języka hiszpańskiego. |
swedish |
string |
Wybiera tokenizator firmy Microsoft dla języka szwedzkiego. |
tamil |
string |
Wybiera tokenizator firmy Microsoft dla Tamilu. |
telugu |
string |
Wybiera tokenizator firmy Microsoft dla aplikacji Telugu. |
thai |
string |
Wybiera tokenizator firmy Microsoft dla języka tajskiego. |
ukrainian |
string |
Wybiera tokenizator firmy Microsoft dla języka ukraińskiego. |
urdu |
string |
Wybiera tokenizator firmy Microsoft dla urdu. |
vietnamese |
string |
Wybiera tokenizator firmy Microsoft dla wietnamskich. |
NGramTokenFilter
Generuje n-gramy dla danego rozmiaru. Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene.
Nazwa | Typ | Wartość domyślna | Opis |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ filtru tokenu. |
|
maxGram |
integer |
2 |
Maksymalna długość n-grama. Wartość domyślna to 2. |
minGram |
integer |
1 |
Minimalna długość n-grama. Domyślna wartość wynosi 1. Musi być mniejsza niż wartość maxGram. |
name |
string |
Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się wyłącznie znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
NGramTokenFilterV2
Generuje n-gramy dla danego rozmiaru. Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene.
Nazwa | Typ | Wartość domyślna | Opis |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ filtru tokenu. |
|
maxGram |
integer |
2 |
Maksymalna długość n-grama. Wartość domyślna to 2. Wartość maksymalna to 300. |
minGram |
integer |
1 |
Minimalna długość n-grama. Domyślna wartość wynosi 1. Wartość maksymalna to 300. Musi być mniejsza niż wartość maxGram. |
name |
string |
Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się wyłącznie znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
NGramTokenizer
Tokenizuje dane wejściowe do n-gramów podanych rozmiarów. Ten tokenizer jest implementowany przy użyciu platformy Apache Lucene.
Nazwa | Typ | Wartość domyślna | Opis |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ tokenizatora. |
|
maxGram |
integer |
2 |
Maksymalna długość n-grama. Wartość domyślna to 2. Maksymalna wartość to 300. |
minGram |
integer |
1 |
Minimalna długość n-grama. Domyślna wartość wynosi 1. Maksymalna wartość to 300. Musi być mniejsza niż wartość maxGram. |
name |
string |
Nazwa tokenizatora. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się tylko znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
|
tokenChars |
Klasy znaków do przechowywania w tokenach. |
PathHierarchyTokenizerV2
Tokenizer dla hierarchii podobnych do ścieżki. Ten tokenizer jest implementowany przy użyciu platformy Apache Lucene.
Nazwa | Typ | Wartość domyślna | Opis |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ tokenizatora. |
|
delimiter |
string |
/ |
Znak ogranicznika do użycia. Wartość domyślna to "/". |
maxTokenLength |
integer |
300 |
Maksymalna długość tokenu. Wartość domyślna i maksymalna to 300. |
name |
string |
Nazwa tokenizatora. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się tylko znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
|
replacement |
string |
/ |
Wartość, która w przypadku ustawienia zastępuje znak ogranicznika. Wartość domyślna to "/". |
reverse |
boolean |
False |
Wartość wskazująca, czy wygenerować tokeny w odwrotnej kolejności. Wartość domyślna to false. |
skip |
integer |
0 |
Liczba tokenów początkowych do pominięcia. Wartość domyślna to 0. |
PatternAnalyzer
Elastycznie oddziela tekst na terminy za pomocą wzorca wyrażenia regularnego. Ten analizator jest implementowany przy użyciu platformy Apache Lucene.
Nazwa | Typ | Wartość domyślna | Opis |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ analizatora. |
|
flags |
Flagi wyrażeń regularnych. |
||
lowercase |
boolean |
True |
Wartość wskazująca, czy terminy powinny być małe litery. Wartość domyślna to „true”. |
name |
string |
Nazwa analizatora. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się tylko znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
|
pattern |
string |
\W+ |
Wzorzec wyrażenia regularnego odpowiadający separatorom tokenów. Wartość domyślna to wyrażenie zgodne z co najmniej jednym znakiem innym niż słowo. |
stopwords |
string[] |
Lista stopwords. |
PatternCaptureTokenFilter
Używa wyrażeń regularnych Języka Java do emitowania wielu tokenów — jednej dla każdej grupy przechwytywania w co najmniej jednym wzorze. Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene.
Nazwa | Typ | Wartość domyślna | Opis |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ filtru tokenu. |
|
name |
string |
Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się wyłącznie znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
|
patterns |
string[] |
Lista wzorców, które mają być zgodne z poszczególnymi tokenami. |
|
preserveOriginal |
boolean |
True |
Wartość wskazująca, czy zwracać oryginalny token, nawet jeśli jeden z wzorców jest zgodny. Wartość domyślna to „true”. |
PatternReplaceCharFilter
Filtr znaków, który zastępuje znaki w ciągu wejściowym. Używa wyrażenia regularnego do identyfikowania sekwencji znaków w celu zachowania i wzorca zastępczego w celu zidentyfikowania znaków do zastąpienia. Na przykład, biorąc pod uwagę tekst wejściowy "aa bb aa bb", wzorzec "(aa)\s+(bb)" i zastąpienie "$1#$2", wynik będzie "aa#bb aa#bb". Ten filtr znaków jest implementowany przy użyciu platformy Apache Lucene.
Nazwa | Typ | Opis |
---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ filtru znaków. |
name |
string |
Nazwa filtru char. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się tylko znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
pattern |
string |
Wzorzec wyrażenia regularnego. |
replacement |
string |
Tekst zastępczy. |
PatternReplaceTokenFilter
Filtr znaków, który zastępuje znaki w ciągu wejściowym. Używa wyrażenia regularnego do identyfikowania sekwencji znaków w celu zachowania i wzorca zamiany w celu zidentyfikowania znaków do zastąpienia. Na przykład, biorąc pod uwagę tekst wejściowy "aa bb aa bb", wzorzec "(aa)\s+(bb)" i zastąpienie wartości "$1#$2", wynikiem będzie "aa#bb aa#bb". Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene.
Nazwa | Typ | Opis |
---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ filtru tokenu. |
name |
string |
Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się wyłącznie znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
pattern |
string |
Wzorzec wyrażenia regularnego. |
replacement |
string |
Tekst zastępczy. |
PatternTokenizer
Tokenizer, który używa dopasowania wzorca regularnego do konstruowania odrębnych tokenów. Ten tokenizer jest implementowany przy użyciu platformy Apache Lucene.
Nazwa | Typ | Wartość domyślna | Opis |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ tokenizatora. |
|
flags |
Flagi wyrażeń regularnych. |
||
group |
integer |
-1 |
Porządkowość oparta na zerowej grupie pasującej we wzorcu wyrażenia regularnego w celu wyodrębnienia do tokenów. Użyj -1, jeśli chcesz użyć całego wzorca, aby podzielić dane wejściowe na tokeny, niezależnie od pasujących grup. Wartość domyślna to -1. |
name |
string |
Nazwa tokenizatora. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się tylko znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
|
pattern |
string |
\W+ |
Wzorzec wyrażenia regularnego odpowiadający separatorom tokenów. Wartość domyślna to wyrażenie zgodne z co najmniej jednym znakiem innym niż słowo. |
PhoneticEncoder
Określa typ kodera fonetycznego do użycia z PhoneticTokenFilter.
Nazwa | Typ | Opis |
---|---|---|
beiderMorse |
string |
Koduje token do wartości Beider-Morse. |
caverphone1 |
string |
Koduje token do wartości Caverphone 1.0. |
caverphone2 |
string |
Koduje token do wartości Caverphone 2.0. |
cologne |
string |
Koduje token do wartości fonetycznej w Kolonii. |
doubleMetaphone |
string |
Koduje token do podwójnej wartości metafonu. |
haasePhonetik |
string |
Koduje token przy użyciu uściślenia Haase algorytmu Kölner Phonetik. |
koelnerPhonetik |
string |
Koduje token przy użyciu algorytmu Kölner Phonetik. |
metaphone |
string |
Koduje token do wartości metafonu. |
nysiis |
string |
Koduje token do wartości NYSIIS. |
refinedSoundex |
string |
Koduje token do wartości uściślonego elementu Soundex. |
soundex |
string |
Koduje token do wartości Soundex. |
PhoneticTokenFilter
Tworzenie tokenów dla dopasowań fonetycznych. Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene.
Nazwa | Typ | Wartość domyślna | Opis |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ filtru tokenu. |
|
encoder | metaphone |
Koder fonetyczny do użycia. Wartość domyślna to "metaphone". |
|
name |
string |
Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się wyłącznie znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
|
replace |
boolean |
True |
Wartość wskazująca, czy zakodowane tokeny powinny zastąpić oryginalne tokeny. W przypadku wartości false tokeny zakodowane są dodawane jako synonimy. Wartość domyślna to „true”. |
PrioritizedFields
Opisuje pola tytułu, zawartości i słów kluczowych, które mają być używane do klasyfikacji semantycznej, podpisów, wyróżnień i odpowiedzi.
Nazwa | Typ | Opis |
---|---|---|
prioritizedContentFields |
Definiuje pola zawartości, które mają być używane do semantycznego klasyfikowania, podpisów, wyróżniania i odpowiedzi. Aby uzyskać najlepszy wynik, wybrane pola powinny zawierać tekst w formularzu języka naturalnego. Kolejność pól w tablicy reprezentuje ich priorytet. Pola o niższym priorytecie mogą zostać obcięte, jeśli zawartość jest długa. |
|
prioritizedKeywordsFields |
Definiuje pola słów kluczowych, które mają być używane do semantycznego klasyfikowania, podpisów, wyróżniania i odpowiedzi. Aby uzyskać najlepszy wynik, wybrane pola powinny zawierać listę słów kluczowych. Kolejność pól w tablicy reprezentuje ich priorytet. Pola o niższym priorytecie mogą zostać obcięte, jeśli zawartość jest długa. |
|
titleField |
Definiuje pole tytułu, które ma być używane do semantycznego klasyfikowania, podpisów, wyróżniania i odpowiedzi. Jeśli nie masz pola tytułu w indeksie, pozostaw to pole puste. |
RegexFlags
Definiuje flagi, które można połączyć w celu kontrolowania sposobu użycia wyrażeń regularnych w analizatorze wzorców i tokenizatorze wzorca.
Nazwa | Typ | Opis |
---|---|---|
CANON_EQ |
string |
Umożliwia równoważność kanoniczną. |
CASE_INSENSITIVE |
string |
Włącza dopasowywanie bez uwzględniania wielkości liter. |
COMMENTS |
string |
Zezwala na białe znaki i komentarze we wzorcu. |
DOTALL |
string |
Włącza tryb dotall. |
LITERAL |
string |
Włącza analizowanie literałów wzorca. |
MULTILINE |
string |
Włącza tryb wielowierszowy. |
UNICODE_CASE |
string |
Umożliwia składanie wielkości liter obsługujących kod Unicode. |
UNIX_LINES |
string |
Włącza tryb linii systemu Unix. |
ScoringFunctionAggregation
Definiuje funkcję agregacji używaną do łączenia wyników wszystkich funkcji oceniania w profilu oceniania.
Nazwa | Typ | Opis |
---|---|---|
average |
string |
Zwiększ wyniki według średniej wszystkich wyników funkcji oceniania. |
firstMatching |
string |
Zwiększ wyniki przy użyciu pierwszej odpowiedniej funkcji oceniania w profilu oceniania. |
maximum |
string |
Zwiększ wyniki według maksymalnej liczby wszystkich wyników funkcji oceniania. |
minimum |
string |
Zwiększ wyniki według minimum wszystkich wyników funkcji oceniania. |
sum |
string |
Zwiększ wyniki według sumy wszystkich wyników funkcji oceniania. |
ScoringFunctionInterpolation
Definiuje funkcję używaną do interpolacji wyników zwiększających liczbę dokumentów w wielu dokumentach.
Nazwa | Typ | Opis |
---|---|---|
constant |
string |
Zwiększa wyniki według stałego współczynnika. |
linear |
string |
Zwiększa wyniki przez liniowo malejącą kwotę. Jest to domyślna interpolacja dla funkcji oceniania. |
logarithmic |
string |
Zwiększa wyniki o kwotę, która zmniejsza logarytmicznie. Impulsy szybko zmniejszają się w przypadku wyższych wyników i wolniej w miarę spadku wyników. Ta opcja interpolacji nie jest dozwolona w funkcjach oceniania tagów. |
quadratic |
string |
Zwiększa wyniki o kwotę, która zmniejsza ćwiartkę. Impulsy powoli zmniejszają się w przypadku wyższych wyników i szybciej, gdy wyniki spadają. Ta opcja interpolacji nie jest dozwolona w funkcjach oceniania tagów. |
ScoringProfile
Definiuje parametry indeksu wyszukiwania, który ma wpływ na ocenianie w zapytaniach wyszukiwania.
Nazwa | Typ | Opis |
---|---|---|
functionAggregation |
Wartość wskazująca sposób łączenia wyników poszczególnych funkcji oceniania. Wartość domyślna to "Suma". Ignorowane, jeśli nie ma żadnych funkcji oceniania. |
|
functions | ScoringFunction[]: |
Kolekcja funkcji mających wpływ na ocenianie dokumentów. |
name |
string |
Nazwa profilu oceniania. |
text |
Parametry zwiększające ocenianie na podstawie dopasowań tekstu w niektórych polach indeksu. |
SearchError
Opisuje warunek błędu dla interfejsu API.
Nazwa | Typ | Opis |
---|---|---|
code |
string |
Jeden z zdefiniowanych przez serwer zestaw kodów błędów. |
details |
Tablica szczegółów dotyczących określonych błędów, które doprowadziły do tego zgłoszonego błędu. |
|
message |
string |
Czytelna dla człowieka reprezentacja błędu. |
SearchField
Reprezentuje pole w definicji indeksu, które opisuje nazwę, typ danych i zachowanie wyszukiwania pola.
Nazwa | Typ | Opis |
---|---|---|
analyzer |
Nazwa analizatora do użycia dla pola. Tej opcji można używać tylko z polami z możliwością wyszukiwania i nie można jej ustawić razem z parametrem searchAnalyzer lub indexAnalyzer. Po wybraniu analizatora nie można go zmienić dla pola. Musi mieć wartość null dla pól złożonych. |
|
dimensions |
integer |
Wymiarowość pola wektorowego. |
facetable |
boolean |
Wartość wskazująca, czy umożliwić odwoływanie się do pola w zapytaniach aspektowych. Zazwyczaj używane w prezentacji wyników wyszukiwania, które obejmują liczbę trafień według kategorii (na przykład wyszukiwanie cyfrowych aparatów fotograficznych i wyświetlanie trafień według marki, przez megapięci, według ceny itd.). Ta właściwość musi mieć wartość null dla pól złożonych. Pola typu Edm.GeographyPoint lub Collection(Edm.GeographyPoint) nie mogą być aspektami. Wartość domyślna ma wartość true dla wszystkich innych prostych pól. |
fields |
Lista pól podrzędnych, jeśli jest to pole typu Edm.ComplexType lub Collection(Edm.ComplexType). Musi mieć wartość null lub być pusta dla prostych pól. |
|
filterable |
boolean |
Wartość wskazująca, czy umożliwić przywoływanie pola w zapytaniach $filter. funkcja filtrowania różni się od możliwości wyszukiwania w sposobie obsługi ciągów. Pola typu Edm.String lub Collection(Edm.String), które można filtrować, nie są poddawane łamaniu wyrazów, więc porównania dotyczą tylko dokładnych dopasowań. Jeśli na przykład ustawisz takie pole f na "słoneczny dzień", $filter=f eq "sunny" nie znajdzie dopasowań, ale $filter=f eq "słoneczny dzień". Ta właściwość musi mieć wartość null dla pól złożonych. Wartość domyślna dotyczy prostych pól i wartości null dla pól złożonych. |
indexAnalyzer |
Nazwa analizatora używanego w czasie indeksowania dla pola. Tej opcji można używać tylko z polami z możliwością wyszukiwania. Należy go ustawić razem z elementem searchAnalyzer i nie można go ustawić razem z opcją analizatora. Nie można ustawić tej właściwości na nazwę analizatora języka; Zamiast tego należy użyć właściwości analizatora, jeśli potrzebujesz analizatora języka. Po wybraniu analizatora nie można go zmienić dla pola. Musi mieć wartość null dla pól złożonych. |
|
key |
boolean |
Wartość wskazująca, czy pole jednoznacznie identyfikuje dokumenty w indeksie. Należy wybrać dokładnie jedno pole najwyższego poziomu w każdym indeksie jako pole klucza i musi mieć typ Edm.String. Pola kluczy mogą służyć do bezpośredniego wyszukiwania dokumentów i aktualizowania lub usuwania określonych dokumentów. Wartość domyślna to false dla prostych pól i wartości null dla pól złożonych. |
name |
string |
Nazwa pola, które musi być unikatowe w kolekcji pól indeksu lub pola nadrzędnego. |
retrievable |
boolean |
Wartość wskazująca, czy pole może być zwracane w wynikach wyszukiwania. Możesz wyłączyć tę opcję, jeśli chcesz użyć pola (na przykład marginesu) jako mechanizmu filtrowania, sortowania lub oceniania, ale nie chcesz, aby pole było widoczne dla użytkownika końcowego. Ta właściwość musi mieć wartość true dla pól klucza i musi mieć wartość null dla pól złożonych. Tę właściwość można zmienić w istniejących polach. Włączenie tej właściwości nie powoduje wzrostu wymagań dotyczących magazynu indeksów. Wartość domyślna dotyczy prostych pól i wartości null dla pól złożonych. |
searchAnalyzer |
Nazwa analizatora używanego w czasie wyszukiwania pola. Tej opcji można używać tylko z polami z możliwością wyszukiwania. Należy go ustawić razem z parametrem indexAnalyzer i nie można go ustawić razem z opcją analizatora. Nie można ustawić tej właściwości na nazwę analizatora języka; Zamiast tego należy użyć właściwości analizatora, jeśli potrzebujesz analizatora języka. Ten analizator można zaktualizować w istniejącym polu. Musi mieć wartość null dla pól złożonych. |
|
searchable |
boolean |
Wartość wskazująca, czy pole jest możliwe do przeszukiwania pełnotekstowego. Oznacza to, że zostanie ona poddana analizie, takiej jak łamanie wyrazów podczas indeksowania. Ustawienie wartości „sunny day” dla pola z możliwością wyszukiwania spowoduje podział na dwa oddzielne tokeny „sunny” i „day”. Umożliwia to wyszukiwanie pełnotekstowe dla tych terminów. Pola typu Edm.String lub Collection(Edm.String) można wyszukiwać domyślnie. Ta właściwość musi być fałszem dla prostych pól innych typów danych innych niż ciąg i musi mieć wartość null dla pól złożonych. Uwaga: pola z możliwością wyszukiwania zużywają dodatkowe miejsce w indeksie, aby pomieścić dodatkowe tokenizowane wersje wartości pola na potrzeby wyszukiwania pełnotekstowego. Jeśli chcesz zaoszczędzić miejsce w indeksie i nie potrzebujesz pola, które ma zostać uwzględnione w wyszukiwaniach, ustaw wartość false. |
sortable |
boolean |
Wartość wskazująca, czy pole ma być przywoływane w wyrażeniach $orderby. Domyślnie wyszukiwarka sortuje wyniki według wyniku, ale w wielu środowiskach użytkownicy będą chcieli sortować według pól w dokumentach. Proste pole można sortować tylko wtedy, gdy jest jednowartościowe (ma jedną wartość w zakresie dokumentu nadrzędnego). Proste pola kolekcji nie mogą być sortowane, ponieważ są wielowartośćowe. Proste podpola złożonych kolekcji są również wielowartościowe i dlatego nie mogą być sortowalne. Dotyczy to zarówno natychmiastowego pola nadrzędnego, jak i pola nadrzędnego, czyli kolekcji złożonej. Pola złożone nie mogą być sortowalne, a właściwość sortowalna musi mieć wartość null dla takich pól. Wartość domyślna sortowania dotyczy pól prostych z jedną wartością, wartości false dla pól prostych z wieloma wartościami i wartości null dla pól złożonych. |
synonymMaps |
string[] |
Lista nazw synonimów map do skojarzenia z tym polem. Tej opcji można używać tylko z polami z możliwością wyszukiwania. Obecnie jest obsługiwana tylko jedna mapa synonimów na pole. Przypisanie mapy synonimów do pola zapewnia, że terminy zapytania przeznaczone dla tego pola są rozwijane w czasie wykonywania zapytań przy użyciu reguł na mapie synonimów. Ten atrybut można zmienić w istniejących polach. Musi mieć wartość null lub pustą kolekcję dla pól złożonych. |
type |
Typ danych pola. |
|
vectorSearchProfile |
string |
Nazwa profilu wyszukiwania wektorowego, który określa algorytm do użycia podczas wyszukiwania pola wektorowego. |
SearchFieldDataType
Definiuje typ danych pola w indeksie wyszukiwania.
Nazwa | Typ | Opis |
---|---|---|
Edm.Boolean |
string |
Wskazuje, że pole zawiera wartość logiczną (prawda lub fałsz). |
Edm.ComplexType |
string |
Wskazuje, że pole zawiera jeden lub więcej złożonych obiektów, które z kolei mają podpola innych typów. |
Edm.DateTimeOffset |
string |
Wskazuje, że pole zawiera wartość daty/godziny, w tym informacje o strefie czasowej. |
Edm.Double |
string |
Wskazuje, że pole zawiera liczbę zmiennoprzecinkową IEEE o podwójnej precyzji. |
Edm.GeographyPoint |
string |
Wskazuje, że pole zawiera lokalizację geograficzną pod względem długości geograficznej i szerokości geograficznej. |
Edm.Int32 |
string |
Wskazuje, że pole zawiera 32-bitową liczbę całkowitą ze znakiem. |
Edm.Int64 |
string |
Wskazuje, że pole zawiera 64-bitową liczbę całkowitą ze znakiem. |
Edm.Single |
string |
Wskazuje, że pole zawiera liczbę zmiennoprzecinkową o pojedynczej precyzji. Jest to prawidłowe tylko w przypadku użycia z kolekcją (Edm.Single). |
Edm.String |
string |
Wskazuje, że pole zawiera ciąg. |
SearchIndex
Reprezentuje definicję indeksu wyszukiwania, która opisuje pola i zachowanie wyszukiwania indeksu.
Nazwa | Typ | Opis |
---|---|---|
@odata.etag |
string |
Element ETag indeksu. |
analyzers | LexicalAnalyzer[]: |
Analizatory indeksu. |
charFilters | CharFilter[]: |
Znaki filtruje indeks. |
corsOptions |
Opcje kontrolowania współużytkowania zasobów między źródłami (CORS) dla indeksu. |
|
defaultScoringProfile |
string |
Nazwa profilu oceniania, który ma być używany, jeśli w zapytaniu nie określono żadnego. Jeśli ta właściwość nie jest ustawiona i nie określono profilu oceniania w zapytaniu, zostanie użyta domyślna ocenianie (tf-idf). |
encryptionKey |
Opis klucza szyfrowania tworzonego w usłudze Azure Key Vault. Ten klucz służy do zapewnienia dodatkowego poziomu szyfrowania danych magazynowanych, gdy chcesz mieć pełną pewność, że nikt, nawet firma Microsoft, nie może odszyfrować dane. Po zaszyfrowaniu danych zawsze pozostaną one zaszyfrowane. Usługa wyszukiwania zignoruje próby ustawienia tej właściwości na wartość null. Tę właściwość można zmienić w razie potrzeby, jeśli chcesz obrócić klucz szyfrowania; Twoje dane nie będą miały wpływu. Szyfrowanie za pomocą kluczy zarządzanych przez klienta nie jest dostępne dla bezpłatnych usług wyszukiwania i jest dostępne tylko dla płatnych usług utworzonych 1 stycznia 2019 r. lub później. |
|
fields |
Pola indeksu. |
|
name |
string |
Nazwa indeksu. |
scoringProfiles |
Profile oceniania dla indeksu. |
|
semantic |
Definiuje parametry indeksu wyszukiwania, który ma wpływ na możliwości semantyczne. |
|
similarity | Similarity: |
Typ algorytmu podobieństwa, który ma być używany podczas oceniania i klasyfikowania dokumentów pasujących do zapytania wyszukiwania. Algorytm podobieństwa można zdefiniować tylko w czasie tworzenia indeksu i nie można go modyfikować w istniejących indeksach. Jeśli ma wartość null, jest używany algorytm ClassicSimilarity. |
suggesters |
Sugestory indeksu. |
|
tokenFilters |
TokenFilter[]:
|
Token filtruje indeks. |
tokenizers | LexicalTokenizer[]: |
Tokenizatory indeksu. |
vectorSearch |
Zawiera opcje konfiguracji związane z wyszukiwaniem wektorów. |
SearchResourceEncryptionKey
Klucz szyfrowania zarządzany przez klienta w usłudze Azure Key Vault. Klucze tworzone i zarządzane mogą służyć do szyfrowania lub odszyfrowywania danych magazynowanych w usłudze wyszukiwania, takich jak indeksy i mapy synonimów.
Nazwa | Typ | Opis |
---|---|---|
accessCredentials |
Opcjonalne poświadczenia usługi Azure Active Directory używane do uzyskiwania dostępu do usługi Azure Key Vault. Nie jest wymagane, jeśli zamiast tego używasz tożsamości zarządzanej. |
|
keyVaultKeyName |
string |
Nazwa klucza Key Vault platformy Azure, który ma być używany do szyfrowania danych magazynowanych. |
keyVaultKeyVersion |
string |
Wersja klucza Key Vault platformy Azure, która ma być używana do szyfrowania danych magazynowanych. |
keyVaultUri |
string |
Identyfikator URI usługi Azure Key Vault, nazywany również nazwą DNS, który zawiera klucz używany do szyfrowania danych magazynowanych. Przykładowy identyfikator URI może mieć wartość |
SemanticConfiguration
Definiuje określoną konfigurację do użycia w kontekście funkcji semantycznych.
Nazwa | Typ | Opis |
---|---|---|
name |
string |
Nazwa konfiguracji semantycznej. |
prioritizedFields |
Opisuje pola tytułu, zawartości i słowa kluczowego, które mają być używane do klasyfikacji semantycznej, podpisów, wyróżnień i odpowiedzi. Należy ustawić co najmniej jedną z trzech właściwości podrzędnych (titleField, priorytetizedKeywordsFields i priorytetizedContentFields). |
SemanticField
Pole, które jest używane jako część konfiguracji semantycznej.
Nazwa | Typ | Opis |
---|---|---|
fieldName |
string |
SemanticSettings
Definiuje parametry indeksu wyszukiwania, który ma wpływ na możliwości semantyczne.
Nazwa | Typ | Opis |
---|---|---|
configurations |
Konfiguracje semantyczne dla indeksu. |
|
defaultConfiguration |
string |
Umożliwia ustawienie nazwy domyślnej konfiguracji semantycznej w indeksie, dzięki czemu można ją opcjonalnie przekazać jako parametr zapytania za każdym razem. |
ShingleTokenFilter
Tworzy kombinacje tokenów jako pojedynczy token. Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene.
Nazwa | Typ | Wartość domyślna | Opis |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ filtru tokenu. |
|
filterToken |
string |
_ |
Ciąg do wstawienia dla każdej pozycji, w której nie ma tokenu. Wartość domyślna to podkreślenie ("_"). |
maxShingleSize |
integer |
2 |
Maksymalny rozmiar shingle. Wartość domyślna i minimalna to 2. |
minShingleSize |
integer |
2 |
Minimalny rozmiar shingle. Wartość domyślna i minimalna to 2. Wartość parametru maxShingleSize musi być mniejsza niż wartość parametru maxShingleSize. |
name |
string |
Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się tylko znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
|
outputUnigrams |
boolean |
True |
Wartość wskazująca, czy strumień wyjściowy będzie zawierać tokeny wejściowe (unigramy), a także shingles. Wartość domyślna to „true”. |
outputUnigramsIfNoShingles |
boolean |
False |
Wartość wskazująca, czy wyprowadź unigramy dla tych czasów, gdy nie są dostępne żadne shingles. Ta właściwość ma pierwszeństwo, gdy parametr outputUnigrams jest ustawiony na wartość false. Wartość domyślna to false. |
tokenSeparator |
string |
Ciąg do użycia podczas łączenia sąsiednich tokenów w celu utworzenia shingle. Wartość domyślna to pojedyncza spacja (" "). |
SnowballTokenFilter
Filtr, który tworzy wyrazy przy użyciu stemmeru wygenerowanego przez snowball. Ten filtr tokenu jest implementowany przy użyciu rozwiązania Apache Lucene.
Nazwa | Typ | Opis |
---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ filtru tokenu. |
language |
Język do użycia. |
|
name |
string |
Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się tylko znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
SnowballTokenFilterLanguage
Język używany dla filtru tokenu Snowball.
Nazwa | Typ | Opis |
---|---|---|
armenian |
string |
Wybiera lucene Snowball stemming tokenizer dla Ormiański. |
basque |
string |
Wybiera tokenizator macierzysty Lucene Snowball dla Basków. |
catalan |
string |
Wybiera lucene Snowball stemming tokenizer dla Katalończyka. |
danish |
string |
Wybiera tokenizatora macierzystego Lucene Snowball dla języka duńskiego. |
dutch |
string |
Wybiera tokenizatora macierzystego Lucene Snowball dla Holendrów. |
english |
string |
Wybiera tokenizator lucene Snowball dla języka angielskiego. |
finnish |
string |
Wybiera tokenizatora macierzystego Lucene Snowball dla fińskiego. |
french |
string |
Wybiera tokenizatora macierzystego Lucene Snowball dla języka francuskiego. |
german |
string |
Wybiera tokenizator lucene Snowball dla języka niemieckiego. |
german2 |
string |
Wybiera tokenizator macierzysty Lucene Snowball, który używa niemieckiego algorytmu wariantu. |
hungarian |
string |
Wybiera tokenizatora macierzystego Lucene Snowball dla Węgier. |
italian |
string |
Wybiera lucene Snowball macierzysty tokenizer dla Włoch. |
kp |
string |
Wybiera tokenizator macierzysty Lucene Snowball dla Holendrów, który używa Kraaij-Pohlmann algorytmu macierzystego. |
lovins |
string |
Wybiera tokenizator macierzysty Lucene Snowball dla języka angielskiego, który używa algorytmu macierzystego Lovins. |
norwegian |
string |
Wybiera tokenizator macierzysty Lucene Snowball dla Norwega. |
porter |
string |
Wybiera tokenizator macierzysty Lucene Snowball dla języka angielskiego, który używa algorytmu macierzystego portera. |
portuguese |
string |
Wybiera tokenizatora macierzystego Lucene Snowball dla języka portugalskiego. |
romanian |
string |
Wybiera tokenizatora macierzystego Lucene Snowball dla języka rumuńskiego. |
russian |
string |
Wybiera lucene Snowball stemming tokenizer dla Rosji. |
spanish |
string |
Wybiera tokenizator Lucene Snowball dla języka hiszpańskiego. |
swedish |
string |
Wybiera tokenizatora macierzystego Lucene Snowball dla szwedzkiego. |
turkish |
string |
Wybiera tokenizatora macierzystego Lucene Snowball dla języka tureckiego. |
StemmerOverrideTokenFilter
Zapewnia możliwość zastępowania innych filtrów macierzystych przy użyciu niestandardowego ściągnięcia opartego na słowniku. Wszystkie terminy powiązane ze słownikiem zostaną oznaczone jako słowa kluczowe, aby nie zostały one powstrzymane od stemmers w dół łańcucha. Należy umieścić przed wszelkimi filtrami macierzystymi. Ten filtr tokenu jest implementowany przy użyciu rozwiązania Apache Lucene.
Nazwa | Typ | Opis |
---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ filtru tokenu. |
name |
string |
Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się tylko znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
rules |
string[] |
Lista reguł macierzystych w następującym formacie: "word => stem", na przykład: "ran => run". |
StemmerTokenFilter
Filtr macierzysty specyficzny dla języka. Ten filtr tokenu jest implementowany przy użyciu rozwiązania Apache Lucene.
Nazwa | Typ | Opis |
---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ filtru tokenu. |
language |
Język do użycia. |
|
name |
string |
Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się tylko znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
StemmerTokenFilterLanguage
Język używany dla filtru tokenu stemmer.
Nazwa | Typ | Opis |
---|---|---|
arabic |
string |
Wybiera tokenizatora macierzystego Lucene dla języka arabskiego. |
armenian |
string |
Wybiera tokenizatora macierzystego Lucene dla Ormiańskiego. |
basque |
string |
Wybiera tokenizatora macierzystego Lucene dla baskijskich. |
brazilian |
string |
Wybiera tokenizatora macierzystego Lucene dla języka portugalskiego (Brazylia). |
bulgarian |
string |
Wybiera tokenizatora macierzystego Lucene dla Bułgara. |
catalan |
string |
Wybiera tokenizatora macierzystego Lucene dla Katalończyka. |
czech |
string |
Wybiera tokenizatora macierzystego Lucene dla Czech. |
danish |
string |
Wybiera tokenizatora macierzystego Lucene dla języka duńskiego. |
dutch |
string |
Wybiera tokenizatora macierzystego Lucene dla języka holenderskiego. |
dutchKp |
string |
Wybiera tokenizatora macierzystego Lucene dla języka holenderskiego, który używa Kraaij-Pohlmann algorytmu macierzystego. |
english |
string |
Wybiera tokenizatora macierzystego Lucene dla języka angielskiego. |
finnish |
string |
Wybiera tokenizatora macierzystego Lucene dla języka fińskiego. |
french |
string |
Wybiera tokenizatora macierzystego Lucene dla języka francuskiego. |
galician |
string |
Wybiera tokenizatora macierzystego Lucene dla Galicji. |
german |
string |
Wybiera tokenizatora macierzystego Lucene dla języka niemieckiego. |
german2 |
string |
Wybiera tokenizatora macierzystego Lucene, który używa niemieckiego algorytmu wariantu. |
greek |
string |
Wybiera tokenizatora macierzystego Lucene dla języka greckiego. |
hindi |
string |
Wybiera tokenizatora macierzystego Lucene dla języka Hindi. |
hungarian |
string |
Wybiera tokenizatora macierzystego Lucene dla języka węgierskiego. |
indonesian |
string |
Wybiera tokenizatora macierzystego Lucene dla języka indonezyjskiego. |
irish |
string |
Wybiera tokenizatora macierzystego Lucene dla Irlandii. |
italian |
string |
Wybiera tokenizatora macierzystego Lucene dla języka włoskiego. |
latvian |
string |
Wybiera tokenizatora macierzystego Lucene dla Łotewskiego. |
lightEnglish |
string |
Wybiera tokenizatora macierzystego Lucene dla języka angielskiego, który ma światło wynikające. |
lightFinnish |
string |
Wybiera tokenizatora macierzystego Lucene dla fińskiego, który robi światło wynikające. |
lightFrench |
string |
Wybiera tokenizatora macierzystego Lucene dla języka francuskiego, który ma światło wynikające. |
lightGerman |
string |
Wybiera tokenizatora macierzystego Lucene dla języka niemieckiego, który ma światło wynikające. |
lightHungarian |
string |
Wybiera tokenizatora macierzystego Lucene dla Węgier, który robi światło wynikające. |
lightItalian |
string |
Wybiera lucene stemming tokenizer dla Włocha, który robi światło wynika. |
lightNorwegian |
string |
Wybiera tokenizatora macierzystego Lucene dla norweskiego (Bokmål), który robi lekkie łodygi. |
lightNynorsk |
string |
Wybiera tokenizatora macierzystego Lucene dla norweskiego (Nynorsk), który robi lekkie łodygi. |
lightPortuguese |
string |
Wybiera tokenizatora macierzystego Lucene dla portugalczyka, który ma światło wynikające. |
lightRussian |
string |
Wybiera lucene stemming tokenizer dla Rosji, który robi światło wynika. |
lightSpanish |
string |
Wybiera tokenizator lucene dla języka hiszpańskiego, który ma światło wynikające. |
lightSwedish |
string |
Wybiera tokenizatora macierzystego Lucene dla języka szwedzkiego, który nie jest lekki. |
lovins |
string |
Wybiera tokenizatora macierzystego Lucene dla języka angielskiego, który używa algorytmu macierzystego Lovins. |
minimalEnglish |
string |
Wybiera tokenizatora macierzystego Lucene dla języka angielskiego, który ma minimalny wynik. |
minimalFrench |
string |
Wybiera tokenizatora macierzystego Lucene dla języka francuskiego, który ma minimalny wynik. |
minimalGalician |
string |
Wybiera tokenizatora macierzystego Lucene dla Galicji, który ma minimalne następstwa. |
minimalGerman |
string |
Wybiera tokenizatora macierzystego Lucene dla języka niemieckiego, który ma minimalny wynik. |
minimalNorwegian |
string |
Wybiera tokenizatora macierzystego Lucene dla norweskiego (Bokmål), który ma minimalne następstwa. |
minimalNynorsk |
string |
Wybiera tokenizatora macierzystego Lucene dla norweskiego (Nynorsk), który ma minimalne łodygi. |
minimalPortuguese |
string |
Wybiera tokenizatora macierzystego Lucene dla języka portugalskiego, który ma minimalny wynik. |
norwegian |
string |
Wybiera tokenizatora macierzystego Lucene dla języka norweskiego (Bokmål). |
porter2 |
string |
Wybiera moduł tokenizatora macierzystego Lucene dla języka angielskiego, który używa algorytmu macierzystego Porter2. |
portuguese |
string |
Wybiera tokenizatora macierzystego Lucene dla języka portugalskiego. |
portugueseRslp |
string |
Wybiera moduł tokenizatora macierzystego Lucene dla języka portugalskiego, który używa algorytmu ściągniającego RSLP. |
possessiveEnglish |
string |
Wybiera tokenizator Lucene dla języka angielskiego, który usuwa końcowych opętaczy ze słów. |
romanian |
string |
Wybiera tokenizatora macierzystego Lucene dla języka rumuńskiego. |
russian |
string |
Wybiera tokenizatora macierzystego Lucene dla Języka Rosyjskiego. |
sorani |
string |
Wybiera tokenizatora macierzystego Lucene dla Sorani. |
spanish |
string |
Wybiera tokenizatora macierzystego Lucene dla języka hiszpańskiego. |
swedish |
string |
Wybiera tokenizatora macierzystego Lucene dla języka szwedzkiego. |
turkish |
string |
Wybiera tokenizatora macierzystego Lucene dla języka tureckiego. |
StopAnalyzer
Dzieli tekst na litery inne niż litery; Stosuje małe litery i filtry tokenów stopword. Ten analizator jest implementowany przy użyciu platformy Apache Lucene.
Nazwa | Typ | Opis |
---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ analizatora. |
name |
string |
Nazwa analizatora. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się tylko znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
stopwords |
string[] |
Lista stopwords. |
StopwordsList
Identyfikuje wstępnie zdefiniowaną listę słów przestawnych specyficznych dla języka.
Nazwa | Typ | Opis |
---|---|---|
arabic |
string |
Wybiera listę stopwordu dla języka arabskiego. |
armenian |
string |
Wybiera listę stopwordów dla Ormiańskiego. |
basque |
string |
Wybiera listę stopword dla baskijskich. |
brazilian |
string |
Wybiera listę stopwordów dla języka portugalskiego (Brazylia). |
bulgarian |
string |
Wybiera listę stopwordów dla języka bułgarskiego. |
catalan |
string |
Wybiera listę stopwordu katalońskiego. |
czech |
string |
Wybiera listę stopwordów dla języka czeskiego. |
danish |
string |
Wybiera listę stopwordów dla języka duńskiego. |
dutch |
string |
Wybiera listę stopwordów dla języka holenderskiego. |
english |
string |
Wybiera listę stopword dla języka angielskiego. |
finnish |
string |
Wybiera listę stopwordu dla języka fińskiego. |
french |
string |
Wybiera listę stopwordu dla języka francuskiego. |
galician |
string |
Wybiera listę stopwordów galicyjskich. |
german |
string |
Wybiera listę stopwordu dla języka niemieckiego. |
greek |
string |
Wybiera listę stopwordu dla języka greckiego. |
hindi |
string |
Wybiera listę stopwordów dla języka hindi. |
hungarian |
string |
Wybiera listę stopwordów dla języka węgierskiego. |
indonesian |
string |
Wybiera listę stopwordów dla języka indonezyjskiego. |
irish |
string |
Wybiera listę stopwordów dla języka irlandzkiego. |
italian |
string |
Wybiera listę stopwordu dla języka włoskiego. |
latvian |
string |
Wybiera listę stopwordów dla Łotewskiego. |
norwegian |
string |
Wybiera listę stopwordów dla języka norweskiego. |
persian |
string |
Wybiera listę stopwordów perskich. |
portuguese |
string |
Wybiera listę stopword dla języka portugalskiego. |
romanian |
string |
Wybiera listę stopwordu dla języka rumuńskiego. |
russian |
string |
Wybiera listę stopwordu dla języka rosyjskiego. |
sorani |
string |
Wybiera listę stopword dla elementu Sorani. |
spanish |
string |
Wybiera listę stopword dla języka hiszpańskiego. |
swedish |
string |
Wybiera listę stopwordu dla języka szwedzkiego. |
thai |
string |
Wybiera listę stopword dla języka tajskiego. |
turkish |
string |
Wybiera listę stopwordu dla języka tureckiego. |
StopwordsTokenFilter
Usuwa słowa zatrzymania ze strumienia tokenu. Ten filtr tokenu jest implementowany przy użyciu rozwiązania Apache Lucene.
Nazwa | Typ | Wartość domyślna | Opis |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ filtru tokenu. |
|
ignoreCase |
boolean |
False |
Wartość wskazująca, czy zignorować wielkość liter. W przypadku wartości true wszystkie wyrazy są najpierw konwertowane na małe litery. Wartość domyślna to false. |
name |
string |
Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się tylko znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
|
removeTrailing |
boolean |
True |
Wartość wskazująca, czy zignorować ostatni termin wyszukiwania, jeśli jest to wyraz zatrzymania. Wartość domyślna to „true”. |
stopwords |
string[] |
Lista stopwords. Nie można ustawić tej właściwości i właściwości listy stopwords. |
|
stopwordsList | english |
Wstępnie zdefiniowana lista stopwords do użycia. Nie można ustawić tej właściwości i właściwości stopwords. Wartość domyślna to angielski. |
Suggester
Definiuje sposób stosowania interfejsu API sugerowanego do grupy pól w indeksie.
Nazwa | Typ | Opis |
---|---|---|
name |
string |
Nazwa sugestora. |
searchMode |
Wartość wskazująca możliwości sugestora. |
|
sourceFields |
string[] |
Lista nazw pól, do których ma zastosowanie sugestor. Każde pole musi być możliwe do przeszukiwania. |
SuggesterSearchMode
Wartość wskazująca możliwości sugestora.
Nazwa | Typ | Opis |
---|---|---|
analyzingInfixMatching |
string |
Pasuje do kolejnych całych terminów i prefiksów w polu. Na przykład w polu "Najszybszy brązowy lis" zapytania "szybkie" i "najszybsze brwi" będą zgodne. |
SynonymTokenFilter
Dopasuje synonimy pojedyncze lub wielosypowe w strumieniu tokenu. Ten filtr tokenu jest implementowany przy użyciu rozwiązania Apache Lucene.
Nazwa | Typ | Wartość domyślna | Opis |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ filtru tokenu. |
|
expand |
boolean |
True |
Wartość wskazująca, czy wszystkie wyrazy na liście synonimów (jeśli => notacja nie jest używana) będą mapować się na siebie. Jeśli wartość true, wszystkie wyrazy na liście synonimów (jeśli => notacja nie jest używana) będą mapować się na siebie nawzajem. Poniższa lista: niesamowita, niewiarygodna, bajeczna, niesamowita jest równoważna: niesamowite, niewiarygodne, wspaniałe, niesamowite => niesamowite, niewiarygodne, wspaniałe, niesamowite. Jeśli fałsz, następująca lista: niesamowita, niewiarygodna, niesamowita, niesamowita będzie równoważna: niesamowite, niewiarygodne, wspaniałe, niesamowite => niesamowite. Wartość domyślna to „true”. |
ignoreCase |
boolean |
False |
Wartość wskazująca, czy należy złożyć wielkość liter danych wejściowych w celu dopasowania. Wartość domyślna to false. |
name |
string |
Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się tylko znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
|
synonyms |
string[] |
Lista synonimów w jednym z dwóch formatów: 1. niesamowite, niewiarygodne, bajeczne => niesamowite - wszystkie terminy po lewej stronie => symbol zostaną zastąpione wszystkimi terminami po prawej stronie; 2. niesamowita, niewiarygodna, bajeczna, niesamowita - rozdzielona przecinkami lista równoważnych słów. Ustaw opcję rozwijania, aby zmienić sposób interpretacji tej listy. |
TagScoringFunction
Definiuje funkcję, która zwiększa wyniki dokumentów z wartościami ciągów pasującymi do danej listy tagów.
Nazwa | Typ | Opis |
---|---|---|
boost |
number |
Mnożnik dla nieprzetworzonego wyniku. Musi być liczbą dodatnią, która nie jest równa 1,0. |
fieldName |
string |
Nazwa pola używanego jako dane wejściowe funkcji oceniania. |
interpolation |
Wartość wskazująca, jak zwiększenie będzie interpolowane w wynikach dokumentu; wartość domyślna to "Liniowa". |
|
tag |
Wartości parametrów dla funkcji oceniania tagów. |
|
type |
string:
tag |
Wskazuje typ funkcji do użycia. Prawidłowe wartości obejmują wielkość, świeżość, odległość i tag. Typ funkcji musi mieć małe litery. |
TagScoringParameters
Udostępnia wartości parametrów funkcji oceniania tagów.
Nazwa | Typ | Opis |
---|---|---|
tagsParameter |
string |
Nazwa parametru przekazanego w zapytaniach wyszukiwania, aby określić listę tagów do porównania z polem docelowym. |
TextWeights
Definiuje wagi pól indeksu, dla których dopasowania powinny zwiększyć ocenianie w zapytaniach wyszukiwania.
Nazwa | Typ | Opis |
---|---|---|
weights |
object |
Słownik wag dla poszczególnych pól, aby zwiększyć ocenianie dokumentów. Klucze są nazwami pól, a wartości to wagi dla każdego pola. |
TokenCharacterKind
Reprezentuje klasy znaków, na których może działać filtr tokenu.
Nazwa | Typ | Opis |
---|---|---|
digit |
string |
Przechowuje cyfry w tokenach. |
letter |
string |
Przechowuje litery w tokenach. |
punctuation |
string |
Utrzymuje interpunkcję w tokenach. |
symbol |
string |
Przechowuje symbole w tokenach. |
whitespace |
string |
Zachowuje odstępy w tokenach. |
TokenFilterName
Definiuje nazwy wszystkich filtrów tokenów obsługiwanych przez wyszukiwarkę.
TruncateTokenFilter
Obcina terminy do określonej długości. Ten filtr tokenu jest implementowany przy użyciu rozwiązania Apache Lucene.
Nazwa | Typ | Wartość domyślna | Opis |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ filtru tokenu. |
|
length |
integer |
300 |
Długość, w której terminy zostaną obcięte. Wartość domyślna i maksymalna to 300. |
name |
string |
Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się tylko znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
UaxUrlEmailTokenizer
Tokenizuje adresy URL i wiadomości e-mail jako jeden token. Ten tokenizer jest implementowany przy użyciu platformy Apache Lucene.
Nazwa | Typ | Wartość domyślna | Opis |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ tokenizatora. |
|
maxTokenLength |
integer |
255 |
Maksymalna długość tokenu. Wartość domyślna to 255. Tokeny dłuższe niż maksymalna długość są dzielone. Maksymalna długość tokenu, która może być używana, to 300 znaków. |
name |
string |
Nazwa tokenizatora. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się wyłącznie znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
UniqueTokenFilter
Filtruje tokeny z tym samym tekstem co poprzedni token. Ten filtr tokenu jest implementowany przy użyciu rozwiązania Apache Lucene.
Nazwa | Typ | Wartość domyślna | Opis |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ filtru tokenu. |
|
name |
string |
Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się tylko znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
|
onlyOnSamePosition |
boolean |
False |
Wartość wskazująca, czy usunąć duplikaty tylko w tej samej pozycji. Wartość domyślna to false. |
VectorSearch
Zawiera opcje konfiguracji związane z wyszukiwaniem wektorów.
Nazwa | Typ | Opis |
---|---|---|
algorithms | VectorSearchAlgorithmConfiguration[]: |
Zawiera opcje konfiguracji specyficzne dla algorytmu używanego podczas indeksowania lub wykonywania zapytań. |
profiles |
Definiuje kombinacje konfiguracji do użycia z wyszukiwaniem wektorów. |
VectorSearchAlgorithmKind
Algorytm używany do indeksowania i wykonywania zapytań.
Nazwa | Typ | Opis |
---|---|---|
exhaustiveKnn |
string |
Wyczerpujący algorytm KNN, który będzie wykonywać wyszukiwanie siłowe. |
hnsw |
string |
HNSW (Hierarchiczna nawigacja mały świat), typ przybliżonego algorytmu najbliższych sąsiadów. |
VectorSearchAlgorithmMetric
Metryka podobieństwa do użycia dla porównań wektorów.
Nazwa | Typ | Opis |
---|---|---|
cosine |
string |
|
dotProduct |
string |
|
euclidean |
string |
VectorSearchProfile
Definiuje kombinację konfiguracji do użycia z wyszukiwaniem wektorów.
Nazwa | Typ | Opis |
---|---|---|
algorithm |
string |
Nazwa konfiguracji algorytmu wyszukiwania wektorowego, która określa algorytm i parametry opcjonalne. |
name |
string |
Nazwa do skojarzenia z tym konkretnym profilem wyszukiwania wektorów. |
WordDelimiterTokenFilter
Dzieli wyrazy na podwordse i wykonuje opcjonalne przekształcenia w grupach podrzędnych. Ten filtr tokenu jest implementowany przy użyciu rozwiązania Apache Lucene.
Nazwa | Typ | Wartość domyślna | Opis |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ filtru tokenu. |
|
catenateAll |
boolean |
False |
Wartość wskazująca, czy wszystkie części podrzędne będą podzielone na elementy podrzędne. Jeśli na przykład ustawiono wartość true, wartość "Azure-Search-1" zostanie ustawiona na wartość "AzureSearch1". Wartość domyślna to false. |
catenateNumbers |
boolean |
False |
Wartość wskazująca, czy maksymalna liczba przebiegów części będzie podzielona na kategoryzowane. Jeśli na przykład ustawiono wartość true, wartość "1–2" zostanie ustawiona na "12". Wartość domyślna to false. |
catenateWords |
boolean |
False |
Wartość wskazująca, czy maksymalna liczba przebiegów części wyrazów zostanie podzielona na kategoryzowane. Jeśli na przykład ustawiono wartość true, wartość "Azure-Search" zostanie ustawiona na "AzureSearch". Wartość domyślna to false. |
generateNumberParts |
boolean |
True |
Wartość wskazująca, czy wygenerować podwłoki liczbowe. Wartość domyślna to „true”. |
generateWordParts |
boolean |
True |
Wartość wskazująca, czy generować wyrazy części. W przypadku ustawienia powoduje wygenerowanie części wyrazów; na przykład "AzureSearch" staje się "Azure" "Search". Wartość domyślna to „true”. |
name |
string |
Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się tylko znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
|
preserveOriginal |
boolean |
False |
Wartość wskazująca, czy oryginalne wyrazy zostaną zachowane i dodane do listy podordów. Wartość domyślna to false. |
protectedWords |
string[] |
Lista tokenów do ochrony przed ogranicznikami. |
|
splitOnCaseChange |
boolean |
True |
Wartość wskazująca, czy podzielić wyrazy na caseChange. Jeśli na przykład ustawiono wartość true, wyrażenie "AzureSearch" stanie się "Azure" "Search". Wartość domyślna to „true”. |
splitOnNumerics |
boolean |
True |
Wartość wskazująca, czy należy podzielić liczby. Jeśli na przykład ustawiono wartość true, wyrażenie "Azure1Search" stanie się "Azure" "1" "Wyszukaj". Wartość domyślna to „true”. |
stemEnglishPossessive |
boolean |
True |
Wartość wskazująca, czy usunąć końcowe "", dla każdego podordu. Wartość domyślna to „true”. |