Indexes - Create
Tworzy nowy indeks wyszukiwania.
POST {endpoint}/indexes?api-version=2024-07-01
Parametry identyfikatora URI
Nazwa | W | Wymagane | Typ | Opis |
---|---|---|---|---|
endpoint
|
path | True |
string |
Adres URL punktu końcowego usługi wyszukiwania. |
api-version
|
query | True |
string |
Wersja interfejsu API klienta. |
Nagłówek żądania
Nazwa | Wymagane | Typ | Opis |
---|---|---|---|
x-ms-client-request-id |
string uuid |
Identyfikator śledzenia wysłany z żądaniem, aby ułatwić debugowanie. |
Treść żądania
Nazwa | Wymagane | Typ | Opis |
---|---|---|---|
fields | True |
Pola indeksu. |
|
name | True |
string |
Nazwa indeksu. |
@odata.etag |
string |
Element ETag indeksu. |
|
analyzers | LexicalAnalyzer[]: |
Analizatory indeksu. |
|
charFilters | CharFilter[]: |
Znaki filtruje indeks. |
|
corsOptions |
Opcje kontrolowania współużytkowania zasobów między źródłami (CORS) dla indeksu. |
||
defaultScoringProfile |
string |
Nazwa profilu oceniania, który ma być używany, jeśli w zapytaniu nie określono żadnego. Jeśli ta właściwość nie jest ustawiona i w zapytaniu nie określono żadnego profilu oceniania, zostanie użyty domyślny ocenianie (tf-idf). |
|
encryptionKey |
Opis klucza szyfrowania utworzonego w usłudze Azure Key Vault. Ten klucz służy do zapewnienia dodatkowego poziomu szyfrowania danych magazynowanych, gdy chcesz mieć pełną pewność, że nikt, nawet firma Microsoft, nie może odszyfrować dane. Po zaszyfrowaniu danych zawsze pozostaną one zaszyfrowane. Usługa wyszukiwania zignoruje próby ustawienia tej właściwości na wartość null. Tę właściwość można zmienić w razie potrzeby, jeśli chcesz obrócić klucz szyfrowania; Twoje dane nie będą miały wpływu. Szyfrowanie za pomocą kluczy zarządzanych przez klienta nie jest dostępne dla bezpłatnych usług wyszukiwania i jest dostępne tylko dla płatnych usług utworzonych w dniu 1 stycznia 2019 r. lub po 1 stycznia 2019 r. |
||
scoringProfiles |
Profile oceniania dla indeksu. |
||
semantic |
Definiuje parametry indeksu wyszukiwania mającego wpływ na możliwości semantyczne. |
||
similarity | Similarity: |
Typ algorytmu podobieństwa, który ma być używany podczas oceniania i klasyfikowania dokumentów pasujących do zapytania wyszukiwania. Algorytm podobieństwa można zdefiniować tylko w czasie tworzenia indeksu i nie można go modyfikować w istniejących indeksach. Jeśli ma wartość null, używany jest algorytm ClassicSimilarity. |
|
suggesters |
Sugestory indeksu. |
||
tokenFilters |
TokenFilter[]:
|
Token filtruje indeks. |
|
tokenizers | LexicalTokenizer[]: |
Tokenizatory indeksu. |
|
vectorSearch |
Zawiera opcje konfiguracji związane z wyszukiwaniem wektorów. |
Odpowiedzi
Nazwa | Typ | Opis |
---|---|---|
201 Created | ||
Other Status Codes |
Odpowiedź na błąd. |
Przykłady
SearchServiceCreateIndex
Przykładowe żądanie
POST https://myservice.search.windows.net/indexes?api-version=2024-07-01
{
"name": "hotels",
"fields": [
{
"name": "hotelId",
"type": "Edm.String",
"key": true,
"searchable": false
},
{
"name": "baseRate",
"type": "Edm.Double"
},
{
"name": "description",
"type": "Edm.String",
"filterable": false,
"sortable": false,
"facetable": false
},
{
"name": "descriptionEmbedding",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"synonymMaps": [],
"dimensions": 1536,
"vectorSearchProfile": "myHnswSQProfile"
},
{
"name": "descriptionEmbedding_notstored",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": false,
"stored": false,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"synonymMaps": [],
"dimensions": 1536,
"vectorSearchProfile": "myHnswSQProfile"
},
{
"name": "descriptionEmbedding_forBQ",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"synonymMaps": [],
"dimensions": 1536,
"vectorSearchProfile": "myHnswBQProfile"
},
{
"name": "description_fr",
"type": "Edm.String",
"filterable": false,
"sortable": false,
"facetable": false,
"analyzer": "fr.lucene"
},
{
"name": "hotelName",
"type": "Edm.String"
},
{
"name": "nameEmbedding",
"type": "Collection(Edm.Half)",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"synonymMaps": [],
"dimensions": 1536,
"vectorSearchProfile": "myHnswProfile"
},
{
"name": "category",
"type": "Edm.String"
},
{
"name": "tags",
"type": "Collection(Edm.String)",
"analyzer": "tagsAnalyzer"
},
{
"name": "parkingIncluded",
"type": "Edm.Boolean"
},
{
"name": "smokingAllowed",
"type": "Edm.Boolean"
},
{
"name": "lastRenovationDate",
"type": "Edm.DateTimeOffset"
},
{
"name": "rating",
"type": "Edm.Int32"
},
{
"name": "location",
"type": "Edm.GeographyPoint"
}
],
"scoringProfiles": [
{
"name": "geo",
"text": {
"weights": {
"hotelName": 5
}
},
"functions": [
{
"type": "distance",
"boost": 5,
"fieldName": "location",
"interpolation": "logarithmic",
"distance": {
"referencePointParameter": "currentLocation",
"boostingDistance": 10
}
}
]
}
],
"defaultScoringProfile": "geo",
"suggesters": [
{
"name": "sg",
"searchMode": "analyzingInfixMatching",
"sourceFields": [
"hotelName"
]
}
],
"analyzers": [
{
"name": "tagsAnalyzer",
"@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
"charFilters": [
"html_strip"
],
"tokenizer": "standard_v2"
}
],
"corsOptions": {
"allowedOrigins": [
"tempuri.org"
],
"maxAgeInSeconds": 60
},
"encryptionKey": {
"keyVaultKeyName": "myUserManagedEncryptionKey-createdinAzureKeyVault",
"keyVaultKeyVersion": "myKeyVersion-32charAlphaNumericString",
"keyVaultUri": "https://myKeyVault.vault.azure.net",
"accessCredentials": {
"applicationId": "00000000-0000-0000-0000-000000000000",
"applicationSecret": "<applicationSecret>"
}
},
"similarity": {
"@odata.type": "#Microsoft.Azure.Search.BM25Similarity",
"b": 0.5,
"k1": 1.3
},
"semantic": {
"configurations": [
{
"name": "semanticHotels",
"prioritizedFields": {
"titleField": {
"fieldName": "hotelName"
},
"prioritizedContentFields": [
{
"fieldName": "description"
},
{
"fieldName": "description_fr"
}
],
"prioritizedKeywordsFields": [
{
"fieldName": "tags"
},
{
"fieldName": "category"
}
]
}
}
]
},
"vectorSearch": {
"profiles": [
{
"name": "myHnswProfile",
"algorithm": "myHnsw"
},
{
"name": "myHnswSQProfile",
"algorithm": "myHnsw",
"compression": "mySQ8"
},
{
"name": "myHnswBQProfile",
"algorithm": "myHnsw",
"compression": "myBQ"
},
{
"name": "myAlgorithm",
"algorithm": "myExhaustive"
}
],
"algorithms": [
{
"name": "myHnsw",
"kind": "hnsw",
"hnswParameters": {
"m": 4,
"metric": "cosine"
}
},
{
"name": "myExhaustive",
"kind": "exhaustiveKnn",
"exhaustiveKnnParameters": {
"metric": "cosine"
}
}
],
"compressions": [
{
"name": "mySQ8",
"kind": "scalarQuantization",
"scalarQuantizationParameters": {
"quantizedDataType": "int8"
},
"rerankWithOriginalVectors": true,
"defaultOversampling": 10
},
{
"name": "myBQ",
"kind": "binaryQuantization",
"rerankWithOriginalVectors": true,
"defaultOversampling": 10
}
]
}
}
Przykładowa odpowiedź
{
"name": "hotels",
"fields": [
{
"name": "hotelId",
"type": "Edm.String",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": true,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "baseRate",
"type": "Edm.Double",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "description",
"type": "Edm.String",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "descriptionEmbedding",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": 1536,
"vectorSearchProfile": "myHnswSQProfile",
"synonymMaps": []
},
{
"name": "descriptionEmbedding_notstored",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": false,
"stored": false,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"synonymMaps": [],
"dimensions": 1536,
"vectorSearchProfile": "myHnswSQProfile"
},
{
"name": "descriptionEmbedding_forBQ",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": 1536,
"vectorSearchProfile": "myHnswBQProfile",
"synonymMaps": []
},
{
"name": "description_fr",
"type": "Edm.String",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": "fr.lucene",
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "hotelName",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "nameEmbedding",
"type": "Collection(Edm.Half)",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": 1536,
"vectorSearchProfile": "myHnswProfile",
"synonymMaps": []
},
{
"name": "category",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "tags",
"type": "Collection(Edm.String)",
"searchable": true,
"filterable": true,
"retrievable": true,
"sortable": false,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": "tagsAnalyzer",
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "parkingIncluded",
"type": "Edm.Boolean",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "smokingAllowed",
"type": "Edm.Boolean",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "lastRenovationDate",
"type": "Edm.DateTimeOffset",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "rating",
"type": "Edm.Int32",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "location",
"type": "Edm.GeographyPoint",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
}
],
"scoringProfiles": [
{
"name": "geo",
"functionAggregation": "sum",
"text": {
"weights": {
"hotelName": 5
}
},
"functions": [
{
"fieldName": "location",
"interpolation": "logarithmic",
"type": "distance",
"boost": 5,
"distance": {
"referencePointParameter": "currentLocation",
"boostingDistance": 10
}
}
]
}
],
"defaultScoringProfile": "geo",
"suggesters": [
{
"name": "sg",
"searchMode": "analyzingInfixMatching",
"sourceFields": [
"hotelName"
]
}
],
"analyzers": [
{
"name": "tagsAnalyzer",
"@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
"charFilters": [
"html_strip"
],
"tokenFilters": [],
"tokenizer": "standard_v2"
}
],
"tokenizers": [],
"tokenFilters": [],
"charFilters": [],
"corsOptions": {
"allowedOrigins": [
"tempuri.org"
],
"maxAgeInSeconds": 60
},
"encryptionKey": {
"keyVaultKeyName": "myUserManagedEncryptionKey-createdinAzureKeyVault",
"keyVaultKeyVersion": "myKeyVersion-32charAlphaNumericString",
"keyVaultUri": "https://myKeyVault.vault.azure.net",
"accessCredentials": {
"applicationId": "00000000-0000-0000-0000-000000000000",
"applicationSecret": null
}
},
"similarity": {
"@odata.type": "#Microsoft.Azure.Search.BM25Similarity",
"b": 0.5,
"k1": 1.3
},
"semantic": {
"configurations": [
{
"name": "semanticHotels",
"prioritizedFields": {
"titleField": {
"fieldName": "hotelName"
},
"prioritizedContentFields": [
{
"fieldName": "description"
},
{
"fieldName": "description_fr"
}
],
"prioritizedKeywordsFields": [
{
"fieldName": "tags"
},
{
"fieldName": "category"
}
]
}
}
]
},
"vectorSearch": {
"algorithms": [
{
"name": "myHnsw",
"kind": "hnsw",
"hnswParameters": {
"metric": "cosine",
"m": 4,
"efConstruction": 400,
"efSearch": 500
}
},
{
"name": "myExhaustive",
"kind": "exhaustiveKnn",
"exhaustiveKnnParameters": {
"metric": "cosine"
}
}
],
"profiles": [
{
"name": "myHnswProfile",
"algorithm": "myHnsw"
},
{
"name": "myHnswSQProfile",
"algorithm": "myHnsw",
"compression": "mySQ8"
},
{
"name": "myHnswBQProfile",
"algorithm": "myHnsw",
"vectorizer": "myOpenAi",
"compression": "myBQ"
},
{
"name": "myAlgorithm",
"algorithm": "myExhaustive"
}
],
"compressions": [
{
"name": "mySQ8",
"kind": "scalarQuantization",
"scalarQuantizationParameters": {
"quantizedDataType": "int8"
},
"rerankWithOriginalVectors": true,
"defaultOversampling": 10
},
{
"name": "myBQ",
"kind": "binaryQuantization",
"rerankWithOriginalVectors": true,
"defaultOversampling": 10
}
]
}
}
Definicje
Nazwa | Opis |
---|---|
Ascii |
Konwertuje znaki alfabetyczne, liczbowe i symboliczne Unicode, które nie znajdują się w pierwszych 127 znakach ASCII (bloku Unicode "Basic Latin") na ich odpowiedniki ASCII, jeśli takie odpowiedniki istnieją. Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene. |
Azure |
Poświadczenia zarejestrowanej aplikacji utworzonej dla usługi wyszukiwania używane do uwierzytelnionego dostępu do kluczy szyfrowania przechowywanych w usłudze Azure Key Vault. |
Azure |
Umożliwia wygenerowanie wektora osadzania dla danego tekstu wejściowego przy użyciu zasobu Azure OpenAI. |
Azure |
Nazwa modelu usługi Azure Open AI, która zostanie wywołana. |
Azure |
Określa parametry nawiązywania połączenia z zasobem usługi Azure OpenAI. |
Azure |
Określa zasób azure OpenAI używany do wektoryzacji ciągu zapytania. |
Binary |
Zawiera opcje konfiguracji specyficzne dla binarnej metody kompresji kwantyzacji używanej podczas indeksowania i wykonywania zapytań. |
BM25Similarity |
Funkcja klasyfikacji oparta na algorytmie podobieństwa okapi BM25. BM25 to algorytm podobny do tf-IDF, który obejmuje normalizację długości (kontrolowaną przez parametr "b"), a także nasycenie częstotliwości terminów (kontrolowane przez parametr "k1"). |
Char |
Definiuje nazwy wszystkich filtrów znaków obsługiwanych przez wyszukiwarkę. |
Cjk |
Tworzy bigramy terminów CJK generowanych na podstawie standardowego tokenizatora. Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene. |
Cjk |
Skrypty, które mogą być ignorowane przez CjkBigramTokenFilter. |
Classic |
Starszy algorytm podobieństwa, który używa implementacji TFIDFSimilarity Lucene tf-IDF. Ta odmiana TF-IDF wprowadza normalizację długości dokumentu statycznego, a także koordynujące czynniki, które karują dokumenty, które częściowo pasują tylko do wyszukiwanych zapytań. |
Classic |
Tokenizator oparty na gramatyce, który jest odpowiedni do przetwarzania większości dokumentów w języku europejskim. Ten tokenizer jest implementowany przy użyciu platformy Apache Lucene. |
Common |
Konstruowanie bigramów dla często występujących terminów podczas indeksowania. Pojedyncze terminy są również indeksowane, a bigramy są nakładane. Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene. |
Cors |
Definiuje opcje kontrolowania współużytkowania zasobów między źródłami (CORS) dla indeksu. |
Custom |
Umożliwia przejęcie kontroli nad procesem konwertowania tekstu na tokeny z możliwością indeksowania/wyszukiwania. Jest to konfiguracja zdefiniowana przez użytkownika składająca się z jednego wstępnie zdefiniowanego tokenizera i co najmniej jednego filtru. Tokenizer jest odpowiedzialny za podzielenie tekstu na tokeny i filtry modyfikowania tokenów emitowanych przez tokenizatora. |
Dictionary |
Rozkłada złożone wyrazy znalezione w wielu językach niemieckich. Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene. |
Distance |
Definiuje funkcję, która zwiększa wyniki na podstawie odległości od lokalizacji geograficznej. |
Distance |
Udostępnia wartości parametrów funkcji oceniania odległości. |
Edge |
Generuje n-gramy danego rozmiaru, zaczynając od przodu lub z tyłu tokenu wejściowego. Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene. |
Edge |
Określa, która strona danych wejściowych ma zostać wygenerowana n-gram. |
Edge |
Generuje n-gramy danego rozmiaru, zaczynając od przodu lub z tyłu tokenu wejściowego. Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene. |
Edge |
Tokenizuje dane wejściowe z krawędzi do n-gramów danego rozmiaru. Ten tokenizer jest implementowany przy użyciu platformy Apache Lucene. |
Elision |
Usuwa elizji. Na przykład "l'avion" (płaszczyzna) zostanie przekonwertowana na "avion" (płaszczyzna). Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene. |
Error |
Dodatkowe informacje o błędzie zarządzania zasobami. |
Error |
Szczegóły błędu. |
Error |
Odpowiedź na błąd |
Exhaustive |
Zawiera parametry specyficzne dla wyczerpującego algorytmu KNN. |
Exhaustive |
Zawiera opcje konfiguracji specyficzne dla wyczerpującego algorytmu KNN używanego podczas wykonywania zapytań, które będą wykonywać wyszukiwanie siłowe w całym indeksie wektorów. |
Freshness |
Definiuje funkcję, która zwiększa wyniki na podstawie wartości pola daty i godziny. |
Freshness |
Udostępnia wartości parametrów funkcji oceniania świeżości. |
Hnsw |
Zawiera parametry specyficzne dla algorytmu HNSW. |
Hnsw |
Zawiera opcje konfiguracji specyficzne dla algorytmu HNSW przybliżonego najbliższego sąsiada używanego podczas indeksowania i wykonywania zapytań. Algorytm HNSW oferuje możliwość dostosowania między szybkością wyszukiwania a dokładnością. |
Input |
Mapowanie pól wejściowych dla umiejętności. |
Keep |
Filtr tokenu, który przechowuje tylko tokeny z tekstem zawartym na określonej liście wyrazów. Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene. |
Keyword |
Oznacza terminy jako słowa kluczowe. Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene. |
Keyword |
Emituje całe dane wejściowe jako pojedynczy token. Ten tokenizer jest implementowany przy użyciu platformy Apache Lucene. |
Keyword |
Emituje całe dane wejściowe jako pojedynczy token. Ten tokenizer jest implementowany przy użyciu platformy Apache Lucene. |
Length |
Usuwa wyrazy, które są za długie lub za krótkie. Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene. |
Lexical |
Definiuje nazwy wszystkich analizatorów tekstu obsługiwanych przez wyszukiwarkę. |
Lexical |
Definiuje nazwy wszystkich tokenizatorów obsługiwanych przez wyszukiwarkę. |
Limit |
Ogranicza liczbę tokenów podczas indeksowania. Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene. |
Lucene |
Standardowy analizator Apache Lucene; Składa się z standardowego tokenizatora, małe litery filtru i filtru zatrzymania. |
Lucene |
Podział tekstu zgodnie z regułami segmentacji tekstu Unicode. Ten tokenizer jest implementowany przy użyciu platformy Apache Lucene. |
Lucene |
Podział tekstu zgodnie z regułami segmentacji tekstu Unicode. Ten tokenizer jest implementowany przy użyciu platformy Apache Lucene. |
Magnitude |
Definiuje funkcję, która zwiększa wyniki na podstawie wielkości pola liczbowego. |
Magnitude |
Dostarcza wartości parametrów do funkcji oceniania wielkości. |
Mapping |
Filtr znaków, który stosuje mapowania zdefiniowane za pomocą opcji mapowania. Dopasowanie jest chciwe (najdłuższe dopasowanie wzorca w danym punkcie wygrywa). Zastąpienie może być pustym ciągiem. Ten filtr znaków jest implementowany przy użyciu platformy Apache Lucene. |
Microsoft |
Dzieli tekst przy użyciu reguł specyficznych dla języka i zmniejsza liczbę wyrazów do ich podstawowych formularzy. |
Microsoft |
Dzieli tekst przy użyciu reguł specyficznych dla języka. |
Microsoft |
Wyświetla listę języków obsługiwanych przez tokenizatora macierzystego języka firmy Microsoft. |
Microsoft |
Wyświetla listę języków obsługiwanych przez tokenizator języka firmy Microsoft. |
NGram |
Generuje n-gramy danego rozmiaru. Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene. |
NGram |
Generuje n-gramy danego rozmiaru. Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene. |
NGram |
Tokenizuje dane wejściowe do n-gramów danego rozmiaru. Ten tokenizer jest implementowany przy użyciu platformy Apache Lucene. |
Output |
Mapowanie pól wyjściowych dla umiejętności. |
Path |
Tokenizer dla hierarchii przypominających ścieżkę. Ten tokenizer jest implementowany przy użyciu platformy Apache Lucene. |
Pattern |
Elastycznie oddziela tekst na terminy za pomocą wzorca wyrażenia regularnego. Ten analizator jest implementowany przy użyciu platformy Apache Lucene. |
Pattern |
Używa wyrażeń regularnych Języka Java do emitowania wielu tokenów — jednej dla każdej grupy przechwytywania w co najmniej jednym wzorze. Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene. |
Pattern |
Filtr znaków, który zastępuje znaki w ciągu wejściowym. Używa wyrażenia regularnego do identyfikowania sekwencji znaków w celu zachowania i wzorca zastępczego w celu zidentyfikowania znaków do zastąpienia. Na przykład, biorąc pod uwagę tekst wejściowy "aa bb aa bb", wzorzec "(aa)\s+(bb)" i zastąpienie wartości "$1#$2", wynikiem będzie "aa#bb aa#bb". Ten filtr znaków jest implementowany przy użyciu platformy Apache Lucene. |
Pattern |
Filtr znaków, który zastępuje znaki w ciągu wejściowym. Używa wyrażenia regularnego do identyfikowania sekwencji znaków w celu zachowania i wzorca zastępczego w celu zidentyfikowania znaków do zastąpienia. Na przykład, biorąc pod uwagę tekst wejściowy "aa bb aa bb", wzorzec "(aa)\s+(bb)" i zastąpienie wartości "$1#$2", wynikiem będzie "aa#bb aa#bb". Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene. |
Pattern |
Tokenizer, który używa dopasowania wzorca wyrażeń regularnych do konstruowania unikatowych tokenów. Ten tokenizer jest implementowany przy użyciu platformy Apache Lucene. |
Phonetic |
Określa typ kodera fonetycznego do użycia z PhoneticTokenFilter. |
Phonetic |
Tworzenie tokenów dla dopasowań fonetycznych. Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene. |
Prioritized |
Opisuje pola tytułów, zawartości i słów kluczowych, które mają być używane do semantycznego klasyfikowania, podpisów, wyróżnień i odpowiedzi. |
Regex |
Definiuje flagi, które można połączyć w celu kontrolowania sposobu użycia wyrażeń regularnych w analizatorze wzorców i tokenizatorze wzorca. |
Scalar |
Zawiera parametry specyficzne dla kwantyzacji skalarnych. |
Scalar |
Zawiera opcje konfiguracji specyficzne dla metody kompresji kwantyzacji skalarnej używanej podczas indeksowania i wykonywania zapytań. |
Scoring |
Definiuje funkcję agregacji używaną do łączenia wyników wszystkich funkcji oceniania w profilu oceniania. |
Scoring |
Definiuje funkcję używaną do interpolacji wskaźnika zwiększającego poziom w wielu dokumentach. |
Scoring |
Definiuje parametry indeksu wyszukiwania mającego wpływ na ocenianie w zapytaniach wyszukiwania. |
Search |
Reprezentuje pole w definicji indeksu, które opisuje nazwę, typ danych i zachowanie wyszukiwania pola. |
Search |
Definiuje typ danych pola w indeksie wyszukiwania. |
Search |
Reprezentuje definicję indeksu wyszukiwania, która opisuje pola i zachowanie wyszukiwania indeksu. |
Search |
Czyści właściwość tożsamości źródła danych. |
Search |
Określa tożsamość źródła danych do użycia. |
Search |
Klucz szyfrowania zarządzany przez klienta w usłudze Azure Key Vault. Klucze tworzone i zarządzane mogą służyć do szyfrowania lub odszyfrowywania danych magazynowanych, takich jak indeksy i mapy synonimów. |
Semantic |
Definiuje określoną konfigurację, która ma być używana w kontekście możliwości semantycznych. |
Semantic |
Pole używane w ramach konfiguracji semantycznej. |
Semantic |
Definiuje parametry indeksu wyszukiwania mającego wpływ na możliwości semantyczne. |
Shingle |
Tworzy kombinacje tokenów jako pojedynczy token. Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene. |
Snowball |
Filtr, który wynika ze słów przy użyciu stemmeru wygenerowanego przez Śnieżkę. Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene. |
Snowball |
Język używany do filtrowania tokenu Snowball. |
Stemmer |
Zapewnia możliwość zastępowania innych filtrów ściągnięcia za pomocą niestandardowego ściągnięcia opartego na słowniku. Wszystkie terminy oparte na słowniku będą oznaczone jako słowa kluczowe, aby nie były one stemmers w dół łańcucha. Należy umieścić przed wszelkimi filtrami macierzystymi. Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene. |
Stemmer |
Filtr macierzysty specyficzny dla języka. Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene. |
Stemmer |
Język używany dla filtru tokenu stemmer. |
Stop |
Dzieli tekst na litery inne niż litery; Stosuje małe litery i filtry tokenu stopword. Ten analizator jest implementowany przy użyciu platformy Apache Lucene. |
Stopwords |
Identyfikuje wstępnie zdefiniowaną listę stopwords specyficznych dla języka. |
Stopwords |
Usuwa słowa zatrzymania ze strumienia tokenu. Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene. |
Suggester |
Definiuje sposób stosowania interfejsu API sugerowanego do grupy pól w indeksie. |
Suggester |
Wartość wskazująca możliwości sugestora. |
Synonym |
Pasuje do synonimów pojedynczych lub wieloznanych w strumieniu tokenu. Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene. |
Tag |
Definiuje funkcję, która zwiększa wyniki dokumentów przy użyciu wartości ciągów pasujących do danej listy tagów. |
Tag |
Udostępnia wartości parametrów funkcji oceniania tagów. |
Text |
Definiuje wagi pól indeksu, dla których dopasowania powinny zwiększyć ocenianie w zapytaniach wyszukiwania. |
Token |
Reprezentuje klasy znaków, na których może działać filtr tokenu. |
Token |
Definiuje nazwy wszystkich filtrów tokenów obsługiwanych przez wyszukiwarkę. |
Truncate |
Obcina terminy do określonej długości. Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene. |
Uax |
Tokenizuje adresy URL i wiadomości e-mail jako jeden token. Ten tokenizer jest implementowany przy użyciu platformy Apache Lucene. |
Unique |
Filtruje tokeny z tym samym tekstem co poprzedni token. Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene. |
Vector |
Format kodowania do interpretowania zawartości pola wektora. |
Vector |
Zawiera opcje konfiguracji związane z wyszukiwaniem wektorów. |
Vector |
Algorytm używany do indeksowania i wykonywania zapytań. |
Vector |
Metryka podobieństwa do użycia na potrzeby porównań wektorów. Zaleca się wybranie tej samej metryki podobieństwa co model osadzania został wytrenowany. |
Vector |
Metoda kompresji używana do indeksowania i wykonywania zapytań. |
Vector |
Kwantyzowany typ danych skompresowanych wartości wektorów. |
Vector |
Definiuje kombinację konfiguracji do użycia z wyszukiwaniem wektorowym. |
Vector |
Metoda wektoryzacji, która ma być używana w czasie zapytania. |
Web |
Określa właściwości nawiązywania połączenia z wektoryzatorem zdefiniowanym przez użytkownika. |
Web |
Określa wektoryzator zdefiniowany przez użytkownika do generowania wektora osadzania ciągu zapytania. Integracja zewnętrznego wektoryzatora jest osiągana przy użyciu niestandardowego internetowego interfejsu API zestawu umiejętności. |
Word |
Dzieli wyrazy na subwords i wykonuje opcjonalne przekształcenia w grupach podrzędnych. Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene. |
AsciiFoldingTokenFilter
Konwertuje znaki alfabetyczne, liczbowe i symboliczne Unicode, które nie znajdują się w pierwszych 127 znakach ASCII (bloku Unicode "Basic Latin") na ich odpowiedniki ASCII, jeśli takie odpowiedniki istnieją. Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene.
Nazwa | Typ | Domyślna wartość | Opis |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ filtru tokenu. |
|
name |
string |
Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się tylko znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
|
preserveOriginal |
boolean |
False |
Wartość wskazująca, czy oryginalny token będzie przechowywany. Wartość domyślna to false. |
AzureActiveDirectoryApplicationCredentials
Poświadczenia zarejestrowanej aplikacji utworzonej dla usługi wyszukiwania używane do uwierzytelnionego dostępu do kluczy szyfrowania przechowywanych w usłudze Azure Key Vault.
Nazwa | Typ | Opis |
---|---|---|
applicationId |
string |
Identyfikator aplikacji usługi AAD, któremu udzielono wymaganych uprawnień dostępu do usługi Azure Key Vault, która ma być używana podczas szyfrowania danych magazynowanych. Identyfikator aplikacji nie powinien być mylony z identyfikatorem obiektu aplikacji usługi AAD. |
applicationSecret |
string |
Klucz uwierzytelniania określonej aplikacji usługi AAD. |
AzureOpenAIEmbeddingSkill
Umożliwia wygenerowanie wektora osadzania dla danego tekstu wejściowego przy użyciu zasobu Azure OpenAI.
Nazwa | Typ | Opis |
---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ umiejętności. |
apiKey |
string |
Klucz interfejsu API wyznaczonego zasobu usługi Azure OpenAI. |
authIdentity | SearchIndexerDataIdentity: |
Tożsamość zarządzana przypisana przez użytkownika używana na potrzeby połączeń wychodzących. |
context |
string |
Reprezentuje poziom, na którym odbywają się operacje, takie jak zawartość katalogu głównego lub dokumentu dokumentu (na przykład /document lub /document/content). Wartość domyślna to /document. |
deploymentId |
string |
Identyfikator wdrożenia modelu Usługi Azure OpenAI w wyznaczonym zasobie. |
description |
string |
Opis umiejętności opisujący dane wejściowe, dane wyjściowe i użycie umiejętności. |
dimensions |
integer |
Liczba wymiarów, które powinny mieć wynikowe osadzanie danych wyjściowych. Obsługiwane tylko w modelach osadzania tekstu-3 i nowszych. |
inputs |
Dane wejściowe umiejętności mogą być kolumną w zestawie danych źródłowych lub danymi wyjściowymi umiejętności nadrzędnych. |
|
modelName |
Nazwa modelu osadzania wdrożonego w podanej ścieżce deploymentId. |
|
name |
string |
Nazwa umiejętności, która jednoznacznie identyfikuje ją w zestawie umiejętności. Umiejętność bez zdefiniowanej nazwy będzie mieć domyślną nazwę swojego 1-opartego na indeksie w tablicy umiejętności, poprzedzoną znakiem "#". |
outputs |
Dane wyjściowe umiejętności to pole w indeksie wyszukiwania lub wartość, która może być zużywana jako dane wejściowe przez inną umiejętność. |
|
resourceUri |
string |
Identyfikator URI zasobu usługi Azure OpenAI. |
AzureOpenAIModelName
Nazwa modelu usługi Azure Open AI, która zostanie wywołana.
Nazwa | Typ | Opis |
---|---|---|
text-embedding-3-large |
string |
|
text-embedding-3-small |
string |
|
text-embedding-ada-002 |
string |
AzureOpenAIParameters
Określa parametry nawiązywania połączenia z zasobem usługi Azure OpenAI.
Nazwa | Typ | Opis |
---|---|---|
apiKey |
string |
Klucz interfejsu API wyznaczonego zasobu usługi Azure OpenAI. |
authIdentity | SearchIndexerDataIdentity: |
Tożsamość zarządzana przypisana przez użytkownika używana na potrzeby połączeń wychodzących. |
deploymentId |
string |
Identyfikator wdrożenia modelu Usługi Azure OpenAI w wyznaczonym zasobie. |
modelName |
Nazwa modelu osadzania wdrożonego w podanej ścieżce deploymentId. |
|
resourceUri |
string |
Identyfikator URI zasobu usługi Azure OpenAI. |
AzureOpenAIVectorizer
Określa zasób azure OpenAI używany do wektoryzacji ciągu zapytania.
Nazwa | Typ | Opis |
---|---|---|
azureOpenAIParameters | AzureOpenAIParameters: |
Zawiera parametry specyficzne dla wektoryzacji osadzania usługi Azure OpenAI. |
kind |
string:
azure |
Nazwa metody wektoryzacji, która jest konfigurowana do użycia z wyszukiwaniem wektorowym. |
name |
string |
Nazwa do skojarzenia z tą konkretną metodą wektoryzacji. |
BinaryQuantizationVectorSearchCompressionConfiguration
Zawiera opcje konfiguracji specyficzne dla binarnej metody kompresji kwantyzacji używanej podczas indeksowania i wykonywania zapytań.
Nazwa | Typ | Domyślna wartość | Opis |
---|---|---|---|
defaultOversampling |
number |
Domyślny współczynnik oversampling. Oversampling będzie wewnętrznie żądać większej liczby dokumentów (określonych przez ten mnożnik) w początkowym wyszukiwaniu. Zwiększa to zestaw wyników, które zostaną ponownie sklasyfikowane przy użyciu wyników ponownej kompilacji wyników podobieństwa z wektorów o pełnej precyzji. Wartość minimalna to 1, co oznacza brak przeampowania (1x). Ten parametr można ustawić tylko wtedy, gdy parametr rerankWithOriginalVectors ma wartość true. Wyższe wartości zwiększają kompletność kosztem opóźnienia. |
|
kind |
string:
binary |
Nazwa rodzaju metody kompresji, która jest konfigurowana do użycia z wyszukiwaniem wektorowym. |
|
name |
string |
Nazwa do skojarzenia z tą konkretną konfiguracją. |
|
rerankWithOriginalVectors |
boolean |
True |
Jeśli zostanie ustawiona wartość true, po uzyskaniu uporządkowanego zestawu wyników przy użyciu skompresowanych wektorów zostaną ponownie sklasyfikowane przez ponowne obliczenie wyników o pełnej precyzji. Poprawi to kompletność kosztem opóźnienia. |
BM25Similarity
Funkcja klasyfikacji oparta na algorytmie podobieństwa okapi BM25. BM25 to algorytm podobny do tf-IDF, który obejmuje normalizację długości (kontrolowaną przez parametr "b"), a także nasycenie częstotliwości terminów (kontrolowane przez parametr "k1").
Nazwa | Typ | Opis |
---|---|---|
@odata.type |
string:
#Microsoft. |
|
b |
number |
Ta właściwość określa, jak długość dokumentu wpływa na ocenę istotności. Domyślnie jest używana wartość 0,75. Wartość 0,0 oznacza, że nie zastosowano normalizacji długości, podczas gdy wartość 1,0 oznacza, że wynik jest w pełni znormalizowany przez długość dokumentu. |
k1 |
number |
Ta właściwość steruje funkcją skalowania między częstotliwością terminów poszczególnych pasujących terminów a ostatecznym wynikiem istotności pary dokumentów-zapytania. Domyślnie jest używana wartość 1.2. Wartość 0,0 oznacza, że wynik nie jest skalowany ze wzrostem częstotliwości terminów. |
CharFilterName
Definiuje nazwy wszystkich filtrów znaków obsługiwanych przez wyszukiwarkę.
Nazwa | Typ | Opis |
---|---|---|
html_strip |
string |
Filtr znaków, który próbuje usunąć konstrukcje HTML. Zobacz https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html |
CjkBigramTokenFilter
Tworzy bigramy terminów CJK generowanych na podstawie standardowego tokenizatora. Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene.
Nazwa | Typ | Domyślna wartość | Opis |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ filtru tokenu. |
|
ignoreScripts |
Skrypty do zignorowania. |
||
name |
string |
Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się tylko znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
|
outputUnigrams |
boolean |
False |
Wartość wskazująca, czy dane wyjściowe mają być zarówno unigramy, jak i bigramy (jeśli prawda), czy tylko bigramy (jeśli fałsz). Wartość domyślna to false. |
CjkBigramTokenFilterScripts
Skrypty, które mogą być ignorowane przez CjkBigramTokenFilter.
Nazwa | Typ | Opis |
---|---|---|
han |
string |
Ignoruj skrypt Han podczas tworzenia bigramów terminów CJK. |
hangul |
string |
Ignoruj skrypt Hangul podczas tworzenia bigramów terminów CJK. |
hiragana |
string |
Ignoruj skrypt Hiragana podczas tworzenia bigramów terminów CJK. |
katakana |
string |
Ignoruj skrypt Katakana podczas tworzenia bigramów terminów CJK. |
ClassicSimilarity
Starszy algorytm podobieństwa, który używa implementacji TFIDFSimilarity Lucene tf-IDF. Ta odmiana TF-IDF wprowadza normalizację długości dokumentu statycznego, a także koordynujące czynniki, które karują dokumenty, które częściowo pasują tylko do wyszukiwanych zapytań.
Nazwa | Typ | Opis |
---|---|---|
@odata.type |
string:
#Microsoft. |
ClassicTokenizer
Tokenizator oparty na gramatyce, który jest odpowiedni do przetwarzania większości dokumentów w języku europejskim. Ten tokenizer jest implementowany przy użyciu platformy Apache Lucene.
Nazwa | Typ | Domyślna wartość | Opis |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ tokenizatora. |
|
maxTokenLength |
integer |
255 |
Maksymalna długość tokenu. Wartość domyślna to 255. Tokeny dłuższe niż maksymalna długość są dzielone. Maksymalna długość tokenu, która może być używana, to 300 znaków. |
name |
string |
Nazwa tokenizatora. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się tylko znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
CommonGramTokenFilter
Konstruowanie bigramów dla często występujących terminów podczas indeksowania. Pojedyncze terminy są również indeksowane, a bigramy są nakładane. Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene.
Nazwa | Typ | Domyślna wartość | Opis |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ filtru tokenu. |
|
commonWords |
string[] |
Zestaw typowych słów. |
|
ignoreCase |
boolean |
False |
Wartość wskazująca, czy typowe słowa pasujące będą bez uwzględniania wielkości liter. Wartość domyślna to false. |
name |
string |
Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się tylko znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
|
queryMode |
boolean |
False |
Wartość wskazująca, czy filtr tokenu jest w trybie zapytania. W trybie zapytania filtr tokenu generuje bigramy, a następnie usuwa typowe słowa i pojedyncze terminy, po których następuje słowo wspólne. Wartość domyślna to false. |
CorsOptions
Definiuje opcje kontrolowania współużytkowania zasobów między źródłami (CORS) dla indeksu.
Nazwa | Typ | Opis |
---|---|---|
allowedOrigins |
string[] |
Lista źródeł, z których kod JavaScript otrzyma dostęp do indeksu. Może zawierać listę hostów formularza {protocol}://{w pełni kwalifikowana nazwa-domeny}[:{port#}] lub jeden element "*", aby zezwolić na wszystkie źródła (niezalecane). |
maxAgeInSeconds |
integer |
Czas trwania, przez który przeglądarki powinny buforować odpowiedzi wstępne CORS. Wartość domyślna to 5 minut. |
CustomAnalyzer
Umożliwia przejęcie kontroli nad procesem konwertowania tekstu na tokeny z możliwością indeksowania/wyszukiwania. Jest to konfiguracja zdefiniowana przez użytkownika składająca się z jednego wstępnie zdefiniowanego tokenizera i co najmniej jednego filtru. Tokenizer jest odpowiedzialny za podzielenie tekstu na tokeny i filtry modyfikowania tokenów emitowanych przez tokenizatora.
Nazwa | Typ | Opis |
---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ analizatora. |
charFilters |
Lista filtrów znaków używanych do przygotowywania tekstu wejściowego przed jego przetworzeniem przez tokenizatora. Mogą na przykład zastąpić niektóre znaki lub symbole. Filtry są uruchamiane w kolejności, w której są wyświetlane. |
|
name |
string |
Nazwa analizatora. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się tylko znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
tokenFilters |
Lista filtrów tokenów używanych do filtrowania lub modyfikowania tokenów wygenerowanych przez tokenizator. Można na przykład określić filtr małych liter, który konwertuje wszystkie znaki na małe litery. Filtry są uruchamiane w kolejności, w której są wyświetlane. |
|
tokenizer |
Nazwa tokenizatora używanego do dzielenia tekstu ciągłego na sekwencję tokenów, na przykład dzielenie zdania na wyrazy. |
DictionaryDecompounderTokenFilter
Rozkłada złożone wyrazy znalezione w wielu językach niemieckich. Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene.
Nazwa | Typ | Domyślna wartość | Opis |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ filtru tokenu. |
|
maxSubwordSize |
integer |
15 |
Maksymalny rozmiar podordu. Tylko subwords krótsze niż te są zwracane. Wartość domyślna to 15. Wartość maksymalna to 300. |
minSubwordSize |
integer |
2 |
Minimalny rozmiar podordu. Tylko subwords dłuższe niż te dane są zwracane. Wartość domyślna to 2. Wartość maksymalna to 300. |
minWordSize |
integer |
5 |
Minimalny rozmiar wyrazu. Tylko wyrazy dłuższe niż te są przetwarzane. Wartość domyślna to 5. Wartość maksymalna to 300. |
name |
string |
Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się tylko znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
|
onlyLongestMatch |
boolean |
False |
Wartość wskazująca, czy do danych wyjściowych ma zostać dodany tylko najdłuższy pasujący podword. Wartość domyślna to false. |
wordList |
string[] |
Lista wyrazów do dopasowania. |
DistanceScoringFunction
Definiuje funkcję, która zwiększa wyniki na podstawie odległości od lokalizacji geograficznej.
Nazwa | Typ | Opis |
---|---|---|
boost |
number |
Mnożnik nieprzetworzonego wyniku. Musi być liczbą dodatnią, która nie jest równa 1,0. |
distance |
Wartości parametrów funkcji oceniania odległości. |
|
fieldName |
string |
Nazwa pola używanego jako dane wejściowe funkcji oceniania. |
interpolation |
Wartość wskazująca, jak zwiększenie będzie interpolowane w wynikach dokumentu; wartość domyślna to "Linear". |
|
type |
string:
distance |
Wskazuje typ funkcji do użycia. Prawidłowe wartości obejmują wielkość, świeżość, odległość i tag. Typ funkcji musi mieć małe litery. |
DistanceScoringParameters
Udostępnia wartości parametrów funkcji oceniania odległości.
Nazwa | Typ | Opis |
---|---|---|
boostingDistance |
number |
Odległość w kilometrach od lokalizacji referencyjnej, w której kończy się zakres zwiększający. |
referencePointParameter |
string |
Nazwa parametru przekazanego w zapytaniach wyszukiwania w celu określenia lokalizacji referencyjnej. |
EdgeNGramTokenFilter
Generuje n-gramy danego rozmiaru, zaczynając od przodu lub z tyłu tokenu wejściowego. Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene.
Nazwa | Typ | Domyślna wartość | Opis |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ filtru tokenu. |
|
maxGram |
integer |
2 |
Maksymalna długość n-grama. Wartość domyślna to 2. |
minGram |
integer |
1 |
Minimalna długość n-grama. Wartość domyślna to 1. Musi być mniejsza niż wartość maxGram. |
name |
string |
Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się tylko znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
|
side | front |
Określa, z której strony danych wejściowych ma zostać wygenerowany n-gram. Wartość domyślna to "front". |
EdgeNGramTokenFilterSide
Określa, która strona danych wejściowych ma zostać wygenerowana n-gram.
Nazwa | Typ | Opis |
---|---|---|
back |
string |
Określa, że n-gram powinien być generowany z tyłu danych wejściowych. |
front |
string |
Określa, że n-gram powinien być generowany z przodu danych wejściowych. |
EdgeNGramTokenFilterV2
Generuje n-gramy danego rozmiaru, zaczynając od przodu lub z tyłu tokenu wejściowego. Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene.
Nazwa | Typ | Domyślna wartość | Opis |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ filtru tokenu. |
|
maxGram |
integer |
2 |
Maksymalna długość n-grama. Wartość domyślna to 2. Wartość maksymalna to 300. |
minGram |
integer |
1 |
Minimalna długość n-grama. Wartość domyślna to 1. Wartość maksymalna to 300. Musi być mniejsza niż wartość maxGram. |
name |
string |
Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się tylko znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
|
side | front |
Określa, z której strony danych wejściowych ma zostać wygenerowany n-gram. Wartość domyślna to "front". |
EdgeNGramTokenizer
Tokenizuje dane wejściowe z krawędzi do n-gramów danego rozmiaru. Ten tokenizer jest implementowany przy użyciu platformy Apache Lucene.
Nazwa | Typ | Domyślna wartość | Opis |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ tokenizatora. |
|
maxGram |
integer |
2 |
Maksymalna długość n-grama. Wartość domyślna to 2. Wartość maksymalna to 300. |
minGram |
integer |
1 |
Minimalna długość n-grama. Wartość domyślna to 1. Wartość maksymalna to 300. Musi być mniejsza niż wartość maxGram. |
name |
string |
Nazwa tokenizatora. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się tylko znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
|
tokenChars |
Klasy znaków do przechowywania w tokenach. |
ElisionTokenFilter
Usuwa elizji. Na przykład "l'avion" (płaszczyzna) zostanie przekonwertowana na "avion" (płaszczyzna). Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene.
Nazwa | Typ | Opis |
---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ filtru tokenu. |
articles |
string[] |
Zestaw artykułów do usunięcia. |
name |
string |
Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się tylko znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
ErrorAdditionalInfo
Dodatkowe informacje o błędzie zarządzania zasobami.
Nazwa | Typ | Opis |
---|---|---|
info |
object |
Dodatkowe informacje. |
type |
string |
Dodatkowy typ informacji. |
ErrorDetail
Szczegóły błędu.
Nazwa | Typ | Opis |
---|---|---|
additionalInfo |
Dodatkowe informacje o błędzie. |
|
code |
string |
Kod błędu. |
details |
Szczegóły błędu. |
|
message |
string |
Komunikat o błędzie. |
target |
string |
Element docelowy błędu. |
ErrorResponse
Odpowiedź na błąd
Nazwa | Typ | Opis |
---|---|---|
error |
Obiekt błędu. |
ExhaustiveKnnParameters
Zawiera parametry specyficzne dla wyczerpującego algorytmu KNN.
Nazwa | Typ | Opis |
---|---|---|
metric |
Metryka podobieństwa do użycia na potrzeby porównań wektorów. |
ExhaustiveKnnVectorSearchAlgorithmConfiguration
Zawiera opcje konfiguracji specyficzne dla wyczerpującego algorytmu KNN używanego podczas wykonywania zapytań, które będą wykonywać wyszukiwanie siłowe w całym indeksie wektorów.
Nazwa | Typ | Opis |
---|---|---|
exhaustiveKnnParameters |
Zawiera parametry specyficzne dla wyczerpującego algorytmu KNN. |
|
kind |
string:
exhaustive |
Nazwa rodzaju algorytmu konfigurowanego do użycia z wyszukiwaniem wektorowym. |
name |
string |
Nazwa do skojarzenia z tą konkretną konfiguracją. |
FreshnessScoringFunction
Definiuje funkcję, która zwiększa wyniki na podstawie wartości pola daty i godziny.
Nazwa | Typ | Opis |
---|---|---|
boost |
number |
Mnożnik nieprzetworzonego wyniku. Musi być liczbą dodatnią, która nie jest równa 1,0. |
fieldName |
string |
Nazwa pola używanego jako dane wejściowe funkcji oceniania. |
freshness |
Wartości parametrów dla funkcji oceniania świeżości. |
|
interpolation |
Wartość wskazująca, jak zwiększenie będzie interpolowane w wynikach dokumentu; wartość domyślna to "Linear". |
|
type |
string:
freshness |
Wskazuje typ funkcji do użycia. Prawidłowe wartości obejmują wielkość, świeżość, odległość i tag. Typ funkcji musi mieć małe litery. |
FreshnessScoringParameters
Udostępnia wartości parametrów funkcji oceniania świeżości.
Nazwa | Typ | Opis |
---|---|---|
boostingDuration |
string |
Okres wygaśnięcia, po którym zwiększenie zostanie zatrzymane dla określonego dokumentu. |
HnswParameters
Zawiera parametry specyficzne dla algorytmu HNSW.
Nazwa | Typ | Domyślna wartość | Opis |
---|---|---|---|
efConstruction |
integer |
400 |
Rozmiar listy dynamicznej zawierającej najbliższych sąsiadów, który jest używany w czasie indeksu. Zwiększenie tego parametru może poprawić jakość indeksu kosztem zwiększonego czasu indeksowania. W pewnym momencie zwiększenie tego parametru prowadzi do zmniejszenia zwrotów. |
efSearch |
integer |
500 |
Rozmiar listy dynamicznej zawierającej najbliższych sąsiadów, który jest używany w czasie wyszukiwania. Zwiększenie tego parametru może poprawić wyniki wyszukiwania kosztem wolniejszego wyszukiwania. W pewnym momencie zwiększenie tego parametru prowadzi do zmniejszenia zwrotów. |
m |
integer |
4 |
Liczba linków dwukierunkowych utworzonych dla każdego nowego elementu podczas budowy. Zwiększenie tej wartości parametru może poprawić liczbę odwołań i skrócić czas pobierania zestawów danych z wysoką wymiarowością wewnętrzną kosztem zwiększonego zużycia pamięci i dłuższego czasu indeksowania. |
metric |
Metryka podobieństwa do użycia na potrzeby porównań wektorów. |
HnswVectorSearchAlgorithmConfiguration
Zawiera opcje konfiguracji specyficzne dla algorytmu HNSW przybliżonego najbliższego sąsiada używanego podczas indeksowania i wykonywania zapytań. Algorytm HNSW oferuje możliwość dostosowania między szybkością wyszukiwania a dokładnością.
Nazwa | Typ | Opis |
---|---|---|
hnswParameters |
Zawiera parametry specyficzne dla algorytmu HNSW. |
|
kind |
string:
hnsw |
Nazwa rodzaju algorytmu konfigurowanego do użycia z wyszukiwaniem wektorowym. |
name |
string |
Nazwa do skojarzenia z tą konkretną konfiguracją. |
InputFieldMappingEntry
Mapowanie pól wejściowych dla umiejętności.
Nazwa | Typ | Opis |
---|---|---|
inputs |
Rekursywne dane wejściowe używane podczas tworzenia typu złożonego. |
|
name |
string |
Nazwa danych wejściowych. |
source |
string |
Źródło danych wejściowych. |
sourceContext |
string |
Kontekst źródłowy używany do wybierania cyklicznych danych wejściowych. |
KeepTokenFilter
Filtr tokenu, który przechowuje tylko tokeny z tekstem zawartym na określonej liście wyrazów. Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene.
Nazwa | Typ | Domyślna wartość | Opis |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ filtru tokenu. |
|
keepWords |
string[] |
Lista wyrazów, które należy zachować. |
|
keepWordsCase |
boolean |
False |
Wartość wskazująca, czy najpierw wszystkie wyrazy mają być małe. Wartość domyślna to false. |
name |
string |
Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się tylko znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
KeywordMarkerTokenFilter
Oznacza terminy jako słowa kluczowe. Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene.
Nazwa | Typ | Domyślna wartość | Opis |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ filtru tokenu. |
|
ignoreCase |
boolean |
False |
Wartość wskazująca, czy zignorować wielkość liter. Jeśli wartość true, wszystkie wyrazy są najpierw konwertowane na małe litery. Wartość domyślna to false. |
keywords |
string[] |
Lista wyrazów do oznaczania jako słów kluczowych. |
|
name |
string |
Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się tylko znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
KeywordTokenizer
Emituje całe dane wejściowe jako pojedynczy token. Ten tokenizer jest implementowany przy użyciu platformy Apache Lucene.
Nazwa | Typ | Domyślna wartość | Opis |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ tokenizatora. |
|
bufferSize |
integer |
256 |
Rozmiar buforu odczytu w bajtach. Wartość domyślna to 256. |
name |
string |
Nazwa tokenizatora. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się tylko znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
KeywordTokenizerV2
Emituje całe dane wejściowe jako pojedynczy token. Ten tokenizer jest implementowany przy użyciu platformy Apache Lucene.
Nazwa | Typ | Domyślna wartość | Opis |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ tokenizatora. |
|
maxTokenLength |
integer |
256 |
Maksymalna długość tokenu. Wartość domyślna to 256. Tokeny dłuższe niż maksymalna długość są dzielone. Maksymalna długość tokenu, która może być używana, to 300 znaków. |
name |
string |
Nazwa tokenizatora. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się tylko znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
LengthTokenFilter
Usuwa wyrazy, które są za długie lub za krótkie. Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene.
Nazwa | Typ | Domyślna wartość | Opis |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ filtru tokenu. |
|
max |
integer |
300 |
Maksymalna długość znaków. Wartość domyślna i maksymalna to 300. |
min |
integer |
0 |
Minimalna długość znaków. Wartość domyślna to 0. Wartość maksymalna to 300. Musi być mniejsza niż wartość maksymalna. |
name |
string |
Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się tylko znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
LexicalAnalyzerName
Definiuje nazwy wszystkich analizatorów tekstu obsługiwanych przez wyszukiwarkę.
Nazwa | Typ | Opis |
---|---|---|
ar.lucene |
string |
Analizator Lucene dla języka arabskiego. |
ar.microsoft |
string |
Analizator firmy Microsoft dla języka arabskiego. |
bg.lucene |
string |
Analizator Lucene dla Bułgara. |
bg.microsoft |
string |
Analizator firmy Microsoft dla języka bułgarskiego. |
bn.microsoft |
string |
Analizator firmy Microsoft dla Bangla. |
ca.lucene |
string |
Analizator Lucene dla Katalończyka. |
ca.microsoft |
string |
Analizator firmy Microsoft dla Katalończyków. |
cs.lucene |
string |
Analizator Lucene dla Czech. |
cs.microsoft |
string |
Analizator firmy Microsoft dla Czech. |
da.lucene |
string |
Analizator Lucene dla języka duńskiego. |
da.microsoft |
string |
Analizator firmy Microsoft dla języka duńskiego. |
de.lucene |
string |
Analizator Lucene dla języka niemieckiego. |
de.microsoft |
string |
Analizator firmy Microsoft dla języka niemieckiego. |
el.lucene |
string |
Analizator Lucene dla języka greckiego. |
el.microsoft |
string |
Analizator firmy Microsoft dla języka greckiego. |
en.lucene |
string |
Analizator Lucene dla języka angielskiego. |
en.microsoft |
string |
Analizator firmy Microsoft dla języka angielskiego. |
es.lucene |
string |
Analizator Lucene dla języka hiszpańskiego. |
es.microsoft |
string |
Analizator firmy Microsoft dla języka hiszpańskiego. |
et.microsoft |
string |
Analizator firmy Microsoft dla estońskiego. |
eu.lucene |
string |
Analizator Lucene dla Basków. |
fa.lucene |
string |
Analizator Lucene dla perskiego. |
fi.lucene |
string |
Analizator Lucene dla fińskiego. |
fi.microsoft |
string |
Analizator firmy Microsoft dla języka fińskiego. |
fr.lucene |
string |
Analizator Lucene dla języka francuskiego. |
fr.microsoft |
string |
Analizator firmy Microsoft dla języka francuskiego. |
ga.lucene |
string |
Analizator Lucene dla Irlandii. |
gl.lucene |
string |
Analizator Lucene dla Galicji. |
gu.microsoft |
string |
Analizator firmy Microsoft dla Gujarati. |
he.microsoft |
string |
Analizator firmy Microsoft dla języka hebrajskiego. |
hi.lucene |
string |
Analizator Lucene dla języka hindi. |
hi.microsoft |
string |
Analizator firmy Microsoft dla języka hindi. |
hr.microsoft |
string |
Analizator firmy Microsoft dla chorwackiego. |
hu.lucene |
string |
Analizator Lucene dla Węgier. |
hu.microsoft |
string |
Analizator firmy Microsoft dla węgier. |
hy.lucene |
string |
Analizator Lucene dla Ormiańskiego. |
id.lucene |
string |
Analizator Lucene dla indonezyjskiego. |
id.microsoft |
string |
Analizator firmy Microsoft dla indonezyjskiego (Bahasa). |
is.microsoft |
string |
Analizator firmy Microsoft dla Islandii. |
it.lucene |
string |
Analizator Lucene dla włocha. |
it.microsoft |
string |
Analizator firmy Microsoft dla języka włoskiego. |
ja.lucene |
string |
Analizator Lucene dla języka japońskiego. |
ja.microsoft |
string |
Analizator firmy Microsoft dla języka japońskiego. |
keyword |
string |
Traktuje całą zawartość pola jako pojedynczy token. Jest to przydatne w przypadku danych, takich jak kody pocztowe, identyfikatory i niektóre nazwy produktów. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html |
kn.microsoft |
string |
Analizator firmy Microsoft dla kannada. |
ko.lucene |
string |
Analizator Lucene dla języka koreańskiego. |
ko.microsoft |
string |
Analizator firmy Microsoft dla języka koreańskiego. |
lt.microsoft |
string |
Analizator firmy Microsoft dla Litewskiego. |
lv.lucene |
string |
Analizator Lucene dla Łotewskiego. |
lv.microsoft |
string |
Analizator firmy Microsoft dla Łotewskiego. |
ml.microsoft |
string |
Microsoft analyzer for Malayalam. |
mr.microsoft |
string |
Analizator firmy Microsoft dla Marathi. |
ms.microsoft |
string |
Analizator firmy Microsoft dla Malay (łaciński). |
nb.microsoft |
string |
Analizator firmy Microsoft dla norweskiego (Bokmål). |
nl.lucene |
string |
Analizator Lucene dla Holandii. |
nl.microsoft |
string |
Analizator firmy Microsoft dla holendrów. |
no.lucene |
string |
Analizator Lucene dla Norweskiego. |
pa.microsoft |
string |
Analizator firmy Microsoft dla Punjabi. |
pattern |
string |
Elastycznie oddziela tekst na terminy za pomocą wzorca wyrażenia regularnego. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html |
pl.lucene |
string |
Analizator Lucene dla polski. |
pl.microsoft |
string |
Analizator firmy Microsoft dla polski. |
pt-BR.lucene |
string |
Analizator Lucene dla języka portugalskiego (Brazylia). |
pt-BR.microsoft |
string |
Analizator firmy Microsoft dla języka portugalskiego (Brazylia). |
pt-PT.lucene |
string |
Analizator Lucene dla portugalskiego (Portugalia). |
pt-PT.microsoft |
string |
Analizator firmy Microsoft dla portugalskich (Portugalia). |
ro.lucene |
string |
Analizator Lucene dla rumuńskiego. |
ro.microsoft |
string |
Analizator firmy Microsoft dla języka rumuńskiego. |
ru.lucene |
string |
Analizator Lucene dla Rosji. |
ru.microsoft |
string |
Analizator firmy Microsoft dla języka rosyjskiego. |
simple |
string |
Dzieli tekst na litery inne niż litery i konwertuje je na małe litery. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html |
sk.microsoft |
string |
Analizator firmy Microsoft dla słowaków. |
sl.microsoft |
string |
Analizator firmy Microsoft dla Słowenii. |
sr-cyrillic.microsoft |
string |
Analizator firmy Microsoft dla serbskiego (cyrylica). |
sr-latin.microsoft |
string |
Analizator firmy Microsoft dla serbskiego (łaciński). |
standard.lucene |
string |
Standardowy analizator Lucene. |
standardasciifolding.lucene |
string |
Standardowy analizator Lucene składania ASCII. Zobacz https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers |
stop |
string |
Dzieli tekst na litery inne niż litery; Stosuje małe litery i filtry tokenu stopword. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html |
sv.lucene |
string |
Analizator Lucene dla szwedzkiego. |
sv.microsoft |
string |
Analizator firmy Microsoft dla języka szwedzkiego. |
ta.microsoft |
string |
Analizator firmy Microsoft dla Tamilu. |
te.microsoft |
string |
Microsoft analyzer for Telugu. |
th.lucene |
string |
Analizator Lucene dla języka tajskiego. |
th.microsoft |
string |
Analizator firmy Microsoft dla języka tajskiego. |
tr.lucene |
string |
Analizator Lucene dla języka tureckiego. |
tr.microsoft |
string |
Analizator firmy Microsoft dla języka tureckiego. |
uk.microsoft |
string |
Analizator firmy Microsoft dla Ukrainy. |
ur.microsoft |
string |
Microsoft analyzer for Urdu. |
vi.microsoft |
string |
Analizator firmy Microsoft dla wietnamskich. |
whitespace |
string |
Analizator używający tokenizatora odstępów. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html |
zh-Hans.lucene |
string |
Analizator Lucene dla języka chińskiego (uproszczony). |
zh-Hans.microsoft |
string |
Analizator firmy Microsoft dla języka chińskiego (uproszczony). |
zh-Hant.lucene |
string |
Analizator Lucene dla języka chińskiego (tradycyjny). |
zh-Hant.microsoft |
string |
Analizator firmy Microsoft dla języka chińskiego (tradycyjny). |
LexicalTokenizerName
Definiuje nazwy wszystkich tokenizatorów obsługiwanych przez wyszukiwarkę.
Nazwa | Typ | Opis |
---|---|---|
classic |
string |
Tokenizator oparty na gramatyce, który jest odpowiedni do przetwarzania większości dokumentów w języku europejskim. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html |
edgeNGram |
string |
Tokenizuje dane wejściowe z krawędzi do n-gramów danego rozmiaru. Zobacz https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html |
keyword_v2 |
string |
Emituje całe dane wejściowe jako pojedynczy token. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html |
letter |
string |
Dzieli tekst na litery inne niż litery. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html |
lowercase |
string |
Dzieli tekst na litery inne niż litery i konwertuje je na małe litery. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html |
microsoft_language_stemming_tokenizer |
string |
Dzieli tekst przy użyciu reguł specyficznych dla języka i zmniejsza liczbę wyrazów do ich podstawowych formularzy. |
microsoft_language_tokenizer |
string |
Dzieli tekst przy użyciu reguł specyficznych dla języka. |
nGram |
string |
Tokenizuje dane wejściowe do n-gramów danego rozmiaru. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html |
path_hierarchy_v2 |
string |
Tokenizer dla hierarchii przypominających ścieżkę. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html |
pattern |
string |
Tokenizer, który używa dopasowania wzorca wyrażeń regularnych do konstruowania unikatowych tokenów. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html |
standard_v2 |
string |
Standardowy analizator Lucene; Składa się z standardowego tokenizatora, małe litery filtru i filtru zatrzymania. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html |
uax_url_email |
string |
Tokenizuje adresy URL i wiadomości e-mail jako jeden token. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html |
whitespace |
string |
Dzieli tekst na białe znaki. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html |
LimitTokenFilter
Ogranicza liczbę tokenów podczas indeksowania. Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene.
Nazwa | Typ | Domyślna wartość | Opis |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ filtru tokenu. |
|
consumeAllTokens |
boolean |
False |
Wartość wskazująca, czy wszystkie tokeny z danych wejściowych muszą być używane, nawet jeśli wartość maxTokenCount zostanie osiągnięta. Wartość domyślna to false. |
maxTokenCount |
integer |
1 |
Maksymalna liczba tokenów do utworzenia. Wartość domyślna to 1. |
name |
string |
Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się tylko znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
LuceneStandardAnalyzer
Standardowy analizator Apache Lucene; Składa się z standardowego tokenizatora, małe litery filtru i filtru zatrzymania.
Nazwa | Typ | Domyślna wartość | Opis |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ analizatora. |
|
maxTokenLength |
integer |
255 |
Maksymalna długość tokenu. Wartość domyślna to 255. Tokeny dłuższe niż maksymalna długość są dzielone. Maksymalna długość tokenu, która może być używana, to 300 znaków. |
name |
string |
Nazwa analizatora. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się tylko znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
|
stopwords |
string[] |
Lista stopwords. |
LuceneStandardTokenizer
Podział tekstu zgodnie z regułami segmentacji tekstu Unicode. Ten tokenizer jest implementowany przy użyciu platformy Apache Lucene.
Nazwa | Typ | Domyślna wartość | Opis |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ tokenizatora. |
|
maxTokenLength |
integer |
255 |
Maksymalna długość tokenu. Wartość domyślna to 255. Tokeny dłuższe niż maksymalna długość są dzielone. |
name |
string |
Nazwa tokenizatora. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się tylko znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
LuceneStandardTokenizerV2
Podział tekstu zgodnie z regułami segmentacji tekstu Unicode. Ten tokenizer jest implementowany przy użyciu platformy Apache Lucene.
Nazwa | Typ | Domyślna wartość | Opis |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ tokenizatora. |
|
maxTokenLength |
integer |
255 |
Maksymalna długość tokenu. Wartość domyślna to 255. Tokeny dłuższe niż maksymalna długość są dzielone. Maksymalna długość tokenu, która może być używana, to 300 znaków. |
name |
string |
Nazwa tokenizatora. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się tylko znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
MagnitudeScoringFunction
Definiuje funkcję, która zwiększa wyniki na podstawie wielkości pola liczbowego.
Nazwa | Typ | Opis |
---|---|---|
boost |
number |
Mnożnik nieprzetworzonego wyniku. Musi być liczbą dodatnią, która nie jest równa 1,0. |
fieldName |
string |
Nazwa pola używanego jako dane wejściowe funkcji oceniania. |
interpolation |
Wartość wskazująca, jak zwiększenie będzie interpolowane w wynikach dokumentu; wartość domyślna to "Linear". |
|
magnitude |
Wartości parametrów dla funkcji oceniania wielkości. |
|
type |
string:
magnitude |
Wskazuje typ funkcji do użycia. Prawidłowe wartości obejmują wielkość, świeżość, odległość i tag. Typ funkcji musi mieć małe litery. |
MagnitudeScoringParameters
Dostarcza wartości parametrów do funkcji oceniania wielkości.
Nazwa | Typ | Opis |
---|---|---|
boostingRangeEnd |
number |
Wartość pola, na której kończy się zwiększenie. |
boostingRangeStart |
number |
Wartość pola, przy której rozpoczyna się zwiększanie. |
constantBoostBeyondRange |
boolean |
Wartość wskazująca, czy zastosować stały impuls dla wartości pól poza wartością końcową zakresu; wartość domyślna to false. |
MappingCharFilter
Filtr znaków, który stosuje mapowania zdefiniowane za pomocą opcji mapowania. Dopasowanie jest chciwe (najdłuższe dopasowanie wzorca w danym punkcie wygrywa). Zastąpienie może być pustym ciągiem. Ten filtr znaków jest implementowany przy użyciu platformy Apache Lucene.
Nazwa | Typ | Opis |
---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ filtru znaków. |
mappings |
string[] |
Lista mapowań w następującym formacie: "a=>b" (wszystkie wystąpienia znaku "a" zostaną zastąpione znakiem "b"). |
name |
string |
Nazwa filtru char. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się tylko znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
MicrosoftLanguageStemmingTokenizer
Dzieli tekst przy użyciu reguł specyficznych dla języka i zmniejsza liczbę wyrazów do ich podstawowych formularzy.
Nazwa | Typ | Domyślna wartość | Opis |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ tokenizatora. |
|
isSearchTokenizer |
boolean |
False |
Wartość wskazująca sposób użycia tokenizatora. Ustaw wartość true, jeśli jest używana jako tokenizer wyszukiwania, ustaw wartość false, jeśli jest używana jako tokenizer indeksowania. Wartość domyślna to false. |
language |
Język do użycia. Wartość domyślna to angielski. |
||
maxTokenLength |
integer |
255 |
Maksymalna długość tokenu. Tokeny dłuższe niż maksymalna długość są dzielone. Maksymalna długość tokenu, która może być używana, to 300 znaków. Tokeny dłuższe niż 300 znaków są najpierw podzielone na tokeny o długości 300, a następnie każdy z tych tokenów jest podzielony na podstawie zestawu maksymalnej długości tokenu. Wartość domyślna to 255. |
name |
string |
Nazwa tokenizatora. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się tylko znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
MicrosoftLanguageTokenizer
Dzieli tekst przy użyciu reguł specyficznych dla języka.
Nazwa | Typ | Domyślna wartość | Opis |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ tokenizatora. |
|
isSearchTokenizer |
boolean |
False |
Wartość wskazująca sposób użycia tokenizatora. Ustaw wartość true, jeśli jest używana jako tokenizer wyszukiwania, ustaw wartość false, jeśli jest używana jako tokenizer indeksowania. Wartość domyślna to false. |
language |
Język do użycia. Wartość domyślna to angielski. |
||
maxTokenLength |
integer |
255 |
Maksymalna długość tokenu. Tokeny dłuższe niż maksymalna długość są dzielone. Maksymalna długość tokenu, która może być używana, to 300 znaków. Tokeny dłuższe niż 300 znaków są najpierw podzielone na tokeny o długości 300, a następnie każdy z tych tokenów jest podzielony na podstawie zestawu maksymalnej długości tokenu. Wartość domyślna to 255. |
name |
string |
Nazwa tokenizatora. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się tylko znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
MicrosoftStemmingTokenizerLanguage
Wyświetla listę języków obsługiwanych przez tokenizatora macierzystego języka firmy Microsoft.
Nazwa | Typ | Opis |
---|---|---|
arabic |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla języka arabskiego. |
bangla |
string |
Wybiera wystawcę tokenizatora macierzystego firmy Microsoft dla Bangla. |
bulgarian |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla języka bułgarskiego. |
catalan |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla Katalonii. |
croatian |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla Języka Chorwackiego. |
czech |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla języka czeskiego. |
danish |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla języka duńskiego. |
dutch |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla holendrów. |
english |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla języka angielskiego. |
estonian |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla języka estońskiego. |
finnish |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla języka fińskiego. |
french |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla języka francuskiego. |
german |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla języka niemieckiego. |
greek |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla języka greckiego. |
gujarati |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla Gujarati. |
hebrew |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla języka hebrajskiego. |
hindi |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla języka hindi. |
hungarian |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla języka węgierskiego. |
icelandic |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla Islandii. |
indonesian |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla języka indonezyjskiego. |
italian |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla języka włoskiego. |
kannada |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla platformy Kannada. |
latvian |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla Łotewskiego. |
lithuanian |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla Litewskiego. |
malay |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla Malay. |
malayalam |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla Malajalam. |
marathi |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla marathi. |
norwegianBokmaal |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla języka norweskiego (Bokmål). |
polish |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla języka polskiego. |
portuguese |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla języka portugalskiego. |
portugueseBrazilian |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla języka portugalskiego (Brazylia). |
punjabi |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla Punjabi. |
romanian |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla języka rumuńskiego. |
russian |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla języka rosyjskiego. |
serbianCyrillic |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla serbskiego (cyrylica). |
serbianLatin |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla serbskiego (łacińskiego). |
slovak |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla języka słowackiego. |
slovenian |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla Słowenii. |
spanish |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla języka hiszpańskiego. |
swedish |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla języka szwedzkiego. |
tamil |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla Tamilu. |
telugu |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla aplikacji Telugu. |
turkish |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla języka tureckiego. |
ukrainian |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla Ukrainy. |
urdu |
string |
Wybiera wystawcę tokenizatora macierzystego firmy Microsoft dla platformy Urdu. |
MicrosoftTokenizerLanguage
Wyświetla listę języków obsługiwanych przez tokenizator języka firmy Microsoft.
Nazwa | Typ | Opis |
---|---|---|
bangla |
string |
Wybiera tokenizator firmy Microsoft dla Bangla. |
bulgarian |
string |
Wybiera tokenizator firmy Microsoft dla języka bułgarskiego. |
catalan |
string |
Wybiera tokenizator firmy Microsoft dla katalońskiego. |
chineseSimplified |
string |
Wybiera tokenizator firmy Microsoft dla języka chińskiego (uproszczony). |
chineseTraditional |
string |
Wybiera tokenizator firmy Microsoft dla języka chińskiego (tradycyjny). |
croatian |
string |
Wybiera tokenizator firmy Microsoft dla języka chorwackiego. |
czech |
string |
Wybiera tokenizator firmy Microsoft dla języka czeskiego. |
danish |
string |
Wybiera tokenizator firmy Microsoft dla języka duńskiego. |
dutch |
string |
Wybiera tokenizator firmy Microsoft dla holendrów. |
english |
string |
Wybiera tokenizator firmy Microsoft dla języka angielskiego. |
french |
string |
Wybiera tokenizator firmy Microsoft dla języka francuskiego. |
german |
string |
Wybiera tokenizator firmy Microsoft dla języka niemieckiego. |
greek |
string |
Wybiera tokenizator firmy Microsoft dla języka greckiego. |
gujarati |
string |
Wybiera tokenizator firmy Microsoft dla usługi Gujarati. |
hindi |
string |
Wybiera tokenizator firmy Microsoft dla języka hindi. |
icelandic |
string |
Wybiera tokenizator firmy Microsoft dla Islandii. |
indonesian |
string |
Wybiera tokenizator firmy Microsoft dla języka indonezyjskiego. |
italian |
string |
Wybiera tokenizator firmy Microsoft dla języka włoskiego. |
japanese |
string |
Wybiera tokenizator firmy Microsoft dla języka japońskiego. |
kannada |
string |
Wybiera tokenizer firmy Microsoft dla aplikacji Kannada. |
korean |
string |
Wybiera tokenizator firmy Microsoft dla języka koreańskiego. |
malay |
string |
Wybiera tokenizator firmy Microsoft dla Malay. |
malayalam |
string |
Wybiera tokenizer firmy Microsoft dla malajalamu. |
marathi |
string |
Wybiera tokenizator firmy Microsoft dla programu Marathi. |
norwegianBokmaal |
string |
Wybiera tokenizator firmy Microsoft dla języka norweskiego (Bokmål). |
polish |
string |
Wybiera tokenizator firmy Microsoft dla języka polskiego. |
portuguese |
string |
Wybiera tokenizator firmy Microsoft dla języka portugalskiego. |
portugueseBrazilian |
string |
Wybiera tokenizator firmy Microsoft dla języka portugalskiego (Brazylia). |
punjabi |
string |
Wybiera tokenizator firmy Microsoft dla Pendżabi. |
romanian |
string |
Wybiera tokenizator firmy Microsoft dla języka rumuńskiego. |
russian |
string |
Wybiera tokenizator firmy Microsoft dla języka rosyjskiego. |
serbianCyrillic |
string |
Wybiera tokenizator firmy Microsoft dla serbskiego (cyrylica). |
serbianLatin |
string |
Wybiera tokenizator firmy Microsoft dla serbskiego (łacińskiego). |
slovenian |
string |
Wybiera tokenizator firmy Microsoft dla Słowenii. |
spanish |
string |
Wybiera tokenizator firmy Microsoft dla języka hiszpańskiego. |
swedish |
string |
Wybiera tokenizator firmy Microsoft dla języka szwedzkiego. |
tamil |
string |
Wybiera tokenizator firmy Microsoft dla Tamilu. |
telugu |
string |
Wybiera tokenizator firmy Microsoft dla aplikacji Telugu. |
thai |
string |
Wybiera tokenizator firmy Microsoft dla języka tajskiego. |
ukrainian |
string |
Wybiera tokenizator firmy Microsoft dla Ukrainy. |
urdu |
string |
Wybiera tokenizator firmy Microsoft dla platformy Urdu. |
vietnamese |
string |
Wybiera tokenizator firmy Microsoft dla wietnamskich. |
NGramTokenFilter
Generuje n-gramy danego rozmiaru. Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene.
Nazwa | Typ | Domyślna wartość | Opis |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ filtru tokenu. |
|
maxGram |
integer |
2 |
Maksymalna długość n-grama. Wartość domyślna to 2. |
minGram |
integer |
1 |
Minimalna długość n-grama. Wartość domyślna to 1. Musi być mniejsza niż wartość maxGram. |
name |
string |
Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się tylko znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
NGramTokenFilterV2
Generuje n-gramy danego rozmiaru. Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene.
Nazwa | Typ | Domyślna wartość | Opis |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ filtru tokenu. |
|
maxGram |
integer |
2 |
Maksymalna długość n-grama. Wartość domyślna to 2. Wartość maksymalna to 300. |
minGram |
integer |
1 |
Minimalna długość n-grama. Wartość domyślna to 1. Wartość maksymalna to 300. Musi być mniejsza niż wartość maxGram. |
name |
string |
Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się tylko znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
NGramTokenizer
Tokenizuje dane wejściowe do n-gramów danego rozmiaru. Ten tokenizer jest implementowany przy użyciu platformy Apache Lucene.
Nazwa | Typ | Domyślna wartość | Opis |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ tokenizatora. |
|
maxGram |
integer |
2 |
Maksymalna długość n-grama. Wartość domyślna to 2. Wartość maksymalna to 300. |
minGram |
integer |
1 |
Minimalna długość n-grama. Wartość domyślna to 1. Wartość maksymalna to 300. Musi być mniejsza niż wartość maxGram. |
name |
string |
Nazwa tokenizatora. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się tylko znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
|
tokenChars |
Klasy znaków do przechowywania w tokenach. |
OutputFieldMappingEntry
Mapowanie pól wyjściowych dla umiejętności.
Nazwa | Typ | Opis |
---|---|---|
name |
string |
Nazwa danych wyjściowych zdefiniowanych przez umiejętności. |
targetName |
string |
Nazwa docelowa danych wyjściowych. Jest to opcjonalne i domyślne nazwa. |
PathHierarchyTokenizerV2
Tokenizer dla hierarchii przypominających ścieżkę. Ten tokenizer jest implementowany przy użyciu platformy Apache Lucene.
Nazwa | Typ | Domyślna wartość | Opis |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ tokenizatora. |
|
delimiter |
string |
/ |
Znak ogranicznika do użycia. Wartość domyślna to "/". |
maxTokenLength |
integer |
300 |
Maksymalna długość tokenu. Wartość domyślna i maksymalna to 300. |
name |
string |
Nazwa tokenizatora. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się tylko znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
|
replacement |
string |
/ |
Wartość, która, jeśli jest ustawiona, zastępuje znak ogranicznika. Wartość domyślna to "/". |
reverse |
boolean |
False |
Wartość wskazująca, czy tokeny mają być generowane w odwrotnej kolejności. Wartość domyślna to false. |
skip |
integer |
0 |
Liczba tokenów początkowych do pominięcia. Wartość domyślna to 0. |
PatternAnalyzer
Elastycznie oddziela tekst na terminy za pomocą wzorca wyrażenia regularnego. Ten analizator jest implementowany przy użyciu platformy Apache Lucene.
Nazwa | Typ | Domyślna wartość | Opis |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ analizatora. |
|
flags |
Flagi wyrażeń regularnych. |
||
lowercase |
boolean |
True |
Wartość wskazująca, czy terminy powinny być małe litery. Wartość domyślna to true. |
name |
string |
Nazwa analizatora. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się tylko znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
|
pattern |
string |
\W+ |
Wzorzec wyrażenia regularnego odpowiadający separatorom tokenów. Wartość domyślna to wyrażenie zgodne z co najmniej jednym znakiem innym niż wyraz. |
stopwords |
string[] |
Lista stopwords. |
PatternCaptureTokenFilter
Używa wyrażeń regularnych Języka Java do emitowania wielu tokenów — jednej dla każdej grupy przechwytywania w co najmniej jednym wzorze. Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene.
Nazwa | Typ | Domyślna wartość | Opis |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ filtru tokenu. |
|
name |
string |
Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się tylko znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
|
patterns |
string[] |
Lista wzorców, które mają być zgodne z każdym tokenem. |
|
preserveOriginal |
boolean |
True |
Wartość wskazująca, czy zwracać oryginalny token, nawet jeśli jeden z wzorców jest zgodny. Wartość domyślna to true. |
PatternReplaceCharFilter
Filtr znaków, który zastępuje znaki w ciągu wejściowym. Używa wyrażenia regularnego do identyfikowania sekwencji znaków w celu zachowania i wzorca zastępczego w celu zidentyfikowania znaków do zastąpienia. Na przykład, biorąc pod uwagę tekst wejściowy "aa bb aa bb", wzorzec "(aa)\s+(bb)" i zastąpienie wartości "$1#$2", wynikiem będzie "aa#bb aa#bb". Ten filtr znaków jest implementowany przy użyciu platformy Apache Lucene.
Nazwa | Typ | Opis |
---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ filtru znaków. |
name |
string |
Nazwa filtru char. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się tylko znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
pattern |
string |
Wzorzec wyrażenia regularnego. |
replacement |
string |
Tekst zastępczy. |
PatternReplaceTokenFilter
Filtr znaków, który zastępuje znaki w ciągu wejściowym. Używa wyrażenia regularnego do identyfikowania sekwencji znaków w celu zachowania i wzorca zastępczego w celu zidentyfikowania znaków do zastąpienia. Na przykład, biorąc pod uwagę tekst wejściowy "aa bb aa bb", wzorzec "(aa)\s+(bb)" i zastąpienie wartości "$1#$2", wynikiem będzie "aa#bb aa#bb". Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene.
Nazwa | Typ | Opis |
---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ filtru tokenu. |
name |
string |
Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się tylko znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
pattern |
string |
Wzorzec wyrażenia regularnego. |
replacement |
string |
Tekst zastępczy. |
PatternTokenizer
Tokenizer, który używa dopasowania wzorca wyrażeń regularnych do konstruowania unikatowych tokenów. Ten tokenizer jest implementowany przy użyciu platformy Apache Lucene.
Nazwa | Typ | Domyślna wartość | Opis |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ tokenizatora. |
|
flags |
Flagi wyrażeń regularnych. |
||
group |
integer |
-1 |
Porządkowy na podstawie zera pasującej grupy we wzorcu wyrażenia regularnego w celu wyodrębnienia do tokenów. Użyj -1, jeśli chcesz użyć całego wzorca, aby podzielić dane wejściowe na tokeny niezależnie od pasujących grup. Wartość domyślna to -1. |
name |
string |
Nazwa tokenizatora. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się tylko znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
|
pattern |
string |
\W+ |
Wzorzec wyrażenia regularnego odpowiadający separatorom tokenów. Wartość domyślna to wyrażenie zgodne z co najmniej jednym znakiem innym niż wyraz. |
PhoneticEncoder
Określa typ kodera fonetycznego do użycia z PhoneticTokenFilter.
Nazwa | Typ | Opis |
---|---|---|
beiderMorse |
string |
Koduje token do wartości Beider-Morse. |
caverphone1 |
string |
Koduje token do wartości Caverphone 1.0. |
caverphone2 |
string |
Koduje token do wartości Caverphone 2.0. |
cologne |
string |
Koduje token do wartości fonetycznej w Kolonii. |
doubleMetaphone |
string |
Koduje token do podwójnej wartości metafonu. |
haasePhonetik |
string |
Koduje token przy użyciu uściślenia Haase algorytmu Kölner Phonetik. |
koelnerPhonetik |
string |
Koduje token przy użyciu algorytmu Kölner Phonetik. |
metaphone |
string |
Koduje token do wartości metafonu. |
nysiis |
string |
Koduje token do wartości NYSIIS. |
refinedSoundex |
string |
Koduje token do wartości uściślonego elementu Soundex. |
soundex |
string |
Koduje token do wartości Soundex. |
PhoneticTokenFilter
Tworzenie tokenów dla dopasowań fonetycznych. Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene.
Nazwa | Typ | Domyślna wartość | Opis |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ filtru tokenu. |
|
encoder | metaphone |
Koder fonetyczny do użycia. Wartość domyślna to "metafon". |
|
name |
string |
Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się tylko znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
|
replace |
boolean |
True |
Wartość wskazująca, czy zakodowane tokeny powinny zastąpić oryginalne tokeny. Jeśli wartość false, zakodowane tokeny są dodawane jako synonimy. Wartość domyślna to true. |
PrioritizedFields
Opisuje pola tytułów, zawartości i słów kluczowych, które mają być używane do semantycznego klasyfikowania, podpisów, wyróżnień i odpowiedzi.
Nazwa | Typ | Opis |
---|---|---|
prioritizedContentFields |
Definiuje pola zawartości, które mają być używane do semantycznego klasyfikowania, podpisów, wyróżniania i odpowiedzi. W celu uzyskania najlepszego wyniku wybrane pola powinny zawierać tekst w formularzu języka naturalnego. Kolejność pól w tablicy reprezentuje ich priorytet. Pola o niższym priorytecie mogą zostać obcięte, jeśli zawartość jest długa. |
|
prioritizedKeywordsFields |
Definiuje pola słów kluczowych, które mają być używane do semantycznego klasyfikowania, podpisów, wyróżniania i odpowiedzi. Aby uzyskać najlepszy wynik, wybrane pola powinny zawierać listę słów kluczowych. Kolejność pól w tablicy reprezentuje ich priorytet. Pola o niższym priorytecie mogą zostać obcięte, jeśli zawartość jest długa. |
|
titleField |
Definiuje pole tytułu, które ma być używane do semantycznego klasyfikowania, podpisów, wyróżniania i odpowiedzi. Jeśli nie masz pola tytułu w indeksie, pozostaw to pole puste. |
RegexFlags
Definiuje flagi, które można połączyć w celu kontrolowania sposobu użycia wyrażeń regularnych w analizatorze wzorców i tokenizatorze wzorca.
Nazwa | Typ | Opis |
---|---|---|
CANON_EQ |
string |
Umożliwia równoważność kanoniczną. |
CASE_INSENSITIVE |
string |
Włącza dopasowywanie bez uwzględniania wielkości liter. |
COMMENTS |
string |
Zezwala na białe znaki i komentarze we wzorcu. |
DOTALL |
string |
Włącza tryb dotall. |
LITERAL |
string |
Umożliwia analizowanie literałów wzorca. |
MULTILINE |
string |
Włącza tryb wielowierszowy. |
UNICODE_CASE |
string |
Umożliwia składanie wielkości liter z uwzględnieniem formatu Unicode. |
UNIX_LINES |
string |
Włącza tryb wierszy systemu Unix. |
ScalarQuantizationParameters
Zawiera parametry specyficzne dla kwantyzacji skalarnych.
Nazwa | Typ | Opis |
---|---|---|
quantizedDataType |
Kwantyzowany typ danych skompresowanych wartości wektorów. |
ScalarQuantizationVectorSearchCompressionConfiguration
Zawiera opcje konfiguracji specyficzne dla metody kompresji kwantyzacji skalarnej używanej podczas indeksowania i wykonywania zapytań.
Nazwa | Typ | Domyślna wartość | Opis |
---|---|---|---|
defaultOversampling |
number |
Domyślny współczynnik oversampling. Oversampling będzie wewnętrznie żądać większej liczby dokumentów (określonych przez ten mnożnik) w początkowym wyszukiwaniu. Zwiększa to zestaw wyników, które zostaną ponownie sklasyfikowane przy użyciu wyników ponownej kompilacji wyników podobieństwa z wektorów o pełnej precyzji. Wartość minimalna to 1, co oznacza brak przeampowania (1x). Ten parametr można ustawić tylko wtedy, gdy parametr rerankWithOriginalVectors ma wartość true. Wyższe wartości zwiększają kompletność kosztem opóźnienia. |
|
kind |
string:
scalar |
Nazwa rodzaju metody kompresji, która jest konfigurowana do użycia z wyszukiwaniem wektorowym. |
|
name |
string |
Nazwa do skojarzenia z tą konkretną konfiguracją. |
|
rerankWithOriginalVectors |
boolean |
True |
Jeśli zostanie ustawiona wartość true, po uzyskaniu uporządkowanego zestawu wyników przy użyciu skompresowanych wektorów zostaną ponownie sklasyfikowane przez ponowne obliczenie wyników o pełnej precyzji. Poprawi to kompletność kosztem opóźnienia. |
scalarQuantizationParameters |
Zawiera parametry specyficzne dla kwantyzacji skalarnych. |
ScoringFunctionAggregation
Definiuje funkcję agregacji używaną do łączenia wyników wszystkich funkcji oceniania w profilu oceniania.
Nazwa | Typ | Opis |
---|---|---|
average |
string |
Zwiększ wyniki według średniej wszystkich wyników funkcji oceniania. |
firstMatching |
string |
Zwiększ wyniki przy użyciu pierwszej odpowiedniej funkcji oceniania w profilu oceniania. |
maximum |
string |
Zwiększ wyniki według maksymalnej liczby wszystkich wyników funkcji oceniania. |
minimum |
string |
Zwiększ wyniki według minimum wszystkich wyników funkcji oceniania. |
sum |
string |
Zwiększ wyniki według sumy wszystkich wyników funkcji oceniania. |
ScoringFunctionInterpolation
Definiuje funkcję używaną do interpolacji wskaźnika zwiększającego poziom w wielu dokumentach.
Nazwa | Typ | Opis |
---|---|---|
constant |
string |
Zwiększa wyniki według stałego współczynnika. |
linear |
string |
Zwiększa wyniki według liniowo malejącej kwoty. Jest to domyślna interpolacja funkcji oceniania. |
logarithmic |
string |
Zwiększa wyniki o kwotę, która zmniejsza logarytmicznie. Wzrosty szybko zmniejszają się w przypadku wyższych wyników i wolniej, gdy wyniki spadają. Ta opcja interpolacji nie jest dozwolona w funkcjach oceniania tagów. |
quadratic |
string |
Zwiększa wyniki o kwotę, która zmniejsza ćwiartkę. Wzrost zmniejsza się powoli w przypadku wyższych wyników i szybciej, gdy wyniki spadają. Ta opcja interpolacji nie jest dozwolona w funkcjach oceniania tagów. |
ScoringProfile
Definiuje parametry indeksu wyszukiwania mającego wpływ na ocenianie w zapytaniach wyszukiwania.
Nazwa | Typ | Opis |
---|---|---|
functionAggregation |
Wartość wskazująca sposób łączenia wyników poszczególnych funkcji oceniania. Wartość domyślna to "Suma". Ignorowane, jeśli nie ma funkcji oceniania. |
|
functions | ScoringFunction[]: |
Kolekcja funkcji mających wpływ na ocenianie dokumentów. |
name |
string |
Nazwa profilu oceniania. |
text |
Parametry zwiększające ocenianie na podstawie dopasowań tekstu w niektórych polach indeksu. |
SearchField
Reprezentuje pole w definicji indeksu, które opisuje nazwę, typ danych i zachowanie wyszukiwania pola.
Nazwa | Typ | Opis |
---|---|---|
analyzer |
Nazwa analizatora do użycia dla pola. Tej opcji można używać tylko z polami z możliwością wyszukiwania i nie można jej ustawić razem z elementem searchAnalyzer lub indexAnalyzer. Po wybraniu analizatora nie można go zmienić dla pola. Musi mieć wartość null dla pól złożonych. |
|
dimensions |
integer |
Wymiarowość pola wektora. |
facetable |
boolean |
Wartość wskazująca, czy pole ma być przywołyne w zapytaniach aspektowych. Zazwyczaj używane w prezentacji wyników wyszukiwania, które obejmują liczbę trafień według kategorii (na przykład wyszukiwanie aparatów cyfrowych i wyświetlanie trafień według marki, megapikseli, ceny itd.). Ta właściwość musi mieć wartość null dla pól złożonych. Pola typu Edm.GeographyPoint lub Collection(Edm.GeographyPoint) nie mogą być aspektami. Wartość domyślna dotyczy wszystkich innych prostych pól. |
fields |
Lista pól podrzędnych, jeśli jest to pole typu Edm.ComplexType lub Collection(Edm.ComplexType). Musi mieć wartość null lub być pusta dla prostych pól. |
|
filterable |
boolean |
Wartość wskazująca, czy pole ma być przywołyne w zapytaniach $filter. funkcja filtrowania różni się od możliwości wyszukiwania w sposobie obsługi ciągów. Pola typu Edm.String lub Collection(Edm.String), które można filtrować, nie są poddawane łamaniu wyrazów, dlatego porównania są przeznaczone tylko dla dokładnych dopasowań. Jeśli na przykład ustawisz takie pole f na "słoneczny dzień", $filter=f eq "sunny" nie znajdzie dopasowań, ale $filter=f eq "słoneczny dzień". Ta właściwość musi mieć wartość null dla pól złożonych. Wartość domyślna dotyczy prostych pól i wartości null dla pól złożonych. |
indexAnalyzer |
Nazwa analizatora używanego w czasie indeksowania dla pola. Tej opcji można używać tylko z polami z możliwością wyszukiwania. Należy go ustawić razem z elementem searchAnalyzer i nie można go ustawić razem z opcją analizatora. Nie można ustawić tej właściwości na nazwę analizatora języka; Zamiast tego należy użyć właściwości analizatora, jeśli potrzebujesz analizatora języka. Po wybraniu analizatora nie można go zmienić dla pola. Musi mieć wartość null dla pól złożonych. |
|
key |
boolean |
Wartość wskazująca, czy pole jednoznacznie identyfikuje dokumenty w indeksie. Należy wybrać dokładnie jedno pole najwyższego poziomu w każdym indeksie jako pole klucza i musi mieć typ Edm.String. Pola klucza mogą służyć do bezpośredniego wyszukiwania dokumentów i aktualizowania lub usuwania określonych dokumentów. Wartość domyślna to fałsz dla prostych pól i wartości null dla pól złożonych. |
name |
string |
Nazwa pola, które musi być unikatowe w kolekcji pól indeksu lub pola nadrzędnego. |
retrievable |
boolean |
Wartość wskazująca, czy pole może być zwracane w wynikach wyszukiwania. Możesz wyłączyć tę opcję, jeśli chcesz użyć pola (na przykład marginesu) jako mechanizmu filtrowania, sortowania lub oceniania, ale nie chcesz, aby pole było widoczne dla użytkownika końcowego. Ta właściwość musi mieć wartość true dla pól klucza i musi mieć wartość null dla pól złożonych. Tę właściwość można zmienić w istniejących polach. Włączenie tej właściwości nie powoduje zwiększenia wymagań dotyczących magazynu indeksów. Wartość domyślna dotyczy prostych pól, wartości false dla pól wektorów i wartości null dla pól złożonych. |
searchAnalyzer |
Nazwa analizatora używanego w czasie wyszukiwania pola. Tej opcji można używać tylko z polami z możliwością wyszukiwania. Należy go ustawić razem z elementem indexAnalyzer i nie można go ustawić razem z opcją analizatora. Nie można ustawić tej właściwości na nazwę analizatora języka; Zamiast tego należy użyć właściwości analizatora, jeśli potrzebujesz analizatora języka. Ten analizator można zaktualizować w istniejącym polu. Musi mieć wartość null dla pól złożonych. |
|
searchable |
boolean |
Wartość wskazująca, czy pole można przeszukiwać pełnotekstowo. Oznacza to, że zostanie ona poddana analizie, takiej jak łamanie wyrazów podczas indeksowania. Jeśli ustawisz pole z możliwością wyszukiwania na wartość podobną do "słonecznego dnia", wewnętrznie zostanie ono podzielone na poszczególne tokeny "słoneczne" i "dzień". Umożliwia to wyszukiwanie pełnotekstowe dla tych terminów. Pola typu Edm.String lub Collection(Edm.String) można wyszukiwać domyślnie. Ta właściwość musi być fałszem dla prostych pól innych typów danych, które nie są ciągami, i musi mieć wartość null dla pól złożonych. Uwaga: pola z możliwością wyszukiwania zużywają dodatkowe miejsce w indeksie, aby uwzględnić dodatkowe tokenizowane wersje wartości pola na potrzeby wyszukiwania pełnotekstowego. Jeśli chcesz zaoszczędzić miejsce w indeksie i nie musisz uwzględniać pola w wyszukiwaniu, ustaw wartość false. |
sortable |
boolean |
Wartość wskazująca, czy pole ma być przywoływane w wyrażeniach $orderby. Domyślnie wyszukiwarka sortuje wyniki według wyniku, ale w wielu środowiskach użytkownicy będą chcieli sortować według pól w dokumentach. Proste pole może być sortowane tylko wtedy, gdy jest jednowartościowe (ma jedną wartość w zakresie dokumentu nadrzędnego). Proste pola kolekcji nie mogą być sortowane, ponieważ są wielowartośćowe. Proste podpola złożonych kolekcji są również wielowartościowe i dlatego nie można sortować. Dotyczy to zarówno natychmiastowego pola nadrzędnego, jak i pola przodka, czyli kolekcji złożonej. Pola złożone nie mogą być sortowalne, a właściwość sortowalna musi mieć wartość null dla takich pól. Wartość domyślna sortowania dotyczy pól prostych z jedną wartością, wartości false dla pól prostych z wieloma wartościami i wartości null dla pól złożonych. |
stored |
boolean |
Niezmienna wartość wskazująca, czy pole będzie utrwalane oddzielnie na dysku, który ma zostać zwrócony w wynikach wyszukiwania. Tę opcję można wyłączyć, jeśli nie planujesz zwracać zawartości pola w odpowiedzi wyszukiwania, aby zaoszczędzić obciążenie magazynu. Można to ustawić tylko podczas tworzenia indeksu i tylko dla pól wektorów. Tej właściwości nie można zmienić dla istniejących pól ani ustawić jako false dla nowych pól. Jeśli ta właściwość jest ustawiona jako false, właściwość "pobieranie" musi być również ustawiona na wartość false. Ta właściwość musi być równa true lub nie jest ustawiona dla pól klucza, dla nowych pól i dla pól niewektorowych, a dla pól złożonych musi mieć wartość null. Wyłączenie tej właściwości spowoduje zmniejszenie wymagań dotyczących magazynu indeksów. Wartość domyślna to true dla pól wektorowych. |
synonymMaps |
string[] |
Lista nazw map synonimów do skojarzenia z tym polem. Tej opcji można używać tylko z polami z możliwością wyszukiwania. Obecnie obsługiwana jest tylko jedna mapa synonimów na pole. Przypisanie mapy synonimów do pola zapewnia, że terminy zapytania przeznaczone dla tego pola są rozszerzane w czasie wykonywania zapytań przy użyciu reguł w mapie synonimów. Ten atrybut można zmienić w istniejących polach. Musi mieć wartość null lub pustą kolekcję dla pól złożonych. |
type |
Typ danych pola. |
|
vectorEncoding |
Format kodowania do interpretowania zawartości pola. |
|
vectorSearchProfile |
string |
Nazwa profilu wyszukiwania wektorowego, który określa algorytm i wektoryzator używany podczas wyszukiwania pola wektorowego. |
SearchFieldDataType
Definiuje typ danych pola w indeksie wyszukiwania.
Nazwa | Typ | Opis |
---|---|---|
Edm.Boolean |
string |
Wskazuje, że pole zawiera wartość logiczną (prawda lub fałsz). |
Edm.Byte |
string |
Wskazuje, że pole zawiera 8-bitową niepodpisaną liczbę całkowitą. Jest to prawidłowe tylko w przypadku użycia z kolekcją (Edm.Byte). |
Edm.ComplexType |
string |
Wskazuje, że pole zawiera jeden lub więcej złożonych obiektów, które z kolei mają podpola innych typów. |
Edm.DateTimeOffset |
string |
Wskazuje, że pole zawiera wartość daty/godziny, w tym informacje o strefie czasowej. |
Edm.Double |
string |
Wskazuje, że pole zawiera liczbę zmiennoprzecinkową IEEE o podwójnej precyzji. |
Edm.GeographyPoint |
string |
Wskazuje, że pole zawiera lokalizację geograficzną pod względem długości geograficznej i szerokości geograficznej. |
Edm.Half |
string |
Wskazuje, że pole zawiera liczbę zmiennoprzecinkową o pół precyzji. Jest to prawidłowe tylko w przypadku użycia z kolekcją (Edm.Half). |
Edm.Int16 |
string |
Wskazuje, że pole zawiera 16-bitową liczbę całkowitą ze znakiem. Jest to prawidłowe tylko w przypadku użycia z kolekcją (Edm.Int16). |
Edm.Int32 |
string |
Wskazuje, że pole zawiera 32-bitową liczbę całkowitą ze znakiem. |
Edm.Int64 |
string |
Wskazuje, że pole zawiera 64-bitową liczbę całkowitą ze znakiem. |
Edm.SByte |
string |
Wskazuje, że pole zawiera 8-bitową liczbę całkowitą ze znakiem. Jest to prawidłowe tylko w przypadku użycia z kolekcją (Edm.SByte). |
Edm.Single |
string |
Wskazuje, że pole zawiera liczbę zmiennoprzecinkową o pojedynczej precyzji. Jest to prawidłowe tylko w przypadku użycia z kolekcją (Edm.Single). |
Edm.String |
string |
Wskazuje, że pole zawiera ciąg. |
SearchIndex
Reprezentuje definicję indeksu wyszukiwania, która opisuje pola i zachowanie wyszukiwania indeksu.
Nazwa | Typ | Opis |
---|---|---|
@odata.etag |
string |
Element ETag indeksu. |
analyzers | LexicalAnalyzer[]: |
Analizatory indeksu. |
charFilters | CharFilter[]: |
Znaki filtruje indeks. |
corsOptions |
Opcje kontrolowania współużytkowania zasobów między źródłami (CORS) dla indeksu. |
|
defaultScoringProfile |
string |
Nazwa profilu oceniania, który ma być używany, jeśli w zapytaniu nie określono żadnego. Jeśli ta właściwość nie jest ustawiona i w zapytaniu nie określono żadnego profilu oceniania, zostanie użyty domyślny ocenianie (tf-idf). |
encryptionKey |
Opis klucza szyfrowania utworzonego w usłudze Azure Key Vault. Ten klucz służy do zapewnienia dodatkowego poziomu szyfrowania danych magazynowanych, gdy chcesz mieć pełną pewność, że nikt, nawet firma Microsoft, nie może odszyfrować dane. Po zaszyfrowaniu danych zawsze pozostaną one zaszyfrowane. Usługa wyszukiwania zignoruje próby ustawienia tej właściwości na wartość null. Tę właściwość można zmienić w razie potrzeby, jeśli chcesz obrócić klucz szyfrowania; Twoje dane nie będą miały wpływu. Szyfrowanie za pomocą kluczy zarządzanych przez klienta nie jest dostępne dla bezpłatnych usług wyszukiwania i jest dostępne tylko dla płatnych usług utworzonych w dniu 1 stycznia 2019 r. lub po 1 stycznia 2019 r. |
|
fields |
Pola indeksu. |
|
name |
string |
Nazwa indeksu. |
scoringProfiles |
Profile oceniania dla indeksu. |
|
semantic |
Definiuje parametry indeksu wyszukiwania mającego wpływ na możliwości semantyczne. |
|
similarity | Similarity: |
Typ algorytmu podobieństwa, który ma być używany podczas oceniania i klasyfikowania dokumentów pasujących do zapytania wyszukiwania. Algorytm podobieństwa można zdefiniować tylko w czasie tworzenia indeksu i nie można go modyfikować w istniejących indeksach. Jeśli ma wartość null, używany jest algorytm ClassicSimilarity. |
suggesters |
Sugestory indeksu. |
|
tokenFilters |
TokenFilter[]:
|
Token filtruje indeks. |
tokenizers | LexicalTokenizer[]: |
Tokenizatory indeksu. |
vectorSearch |
Zawiera opcje konfiguracji związane z wyszukiwaniem wektorów. |
SearchIndexerDataNoneIdentity
Czyści właściwość tożsamości źródła danych.
Nazwa | Typ | Opis |
---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ tożsamości. |
SearchIndexerDataUserAssignedIdentity
Określa tożsamość źródła danych do użycia.
Nazwa | Typ | Opis |
---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ tożsamości. |
userAssignedIdentity |
string |
W pełni kwalifikowany identyfikator zasobu platformy Azure przypisanej przez użytkownika tożsamości zarządzanej zazwyczaj w postaci "/subscriptions/12345678-1234-1234-1234-1234567890ab/resourceGroups/rg/providers/Microsoft.ManagedIdentity/userAssignedIdentities/myId", który powinien zostać przypisany do usługi wyszukiwania. |
SearchResourceEncryptionKey
Klucz szyfrowania zarządzany przez klienta w usłudze Azure Key Vault. Klucze tworzone i zarządzane mogą służyć do szyfrowania lub odszyfrowywania danych magazynowanych, takich jak indeksy i mapy synonimów.
Nazwa | Typ | Opis |
---|---|---|
accessCredentials |
Opcjonalne poświadczenia usługi Azure Active Directory używane do uzyskiwania dostępu do usługi Azure Key Vault. Nie jest wymagane, jeśli zamiast tego używasz tożsamości zarządzanej. |
|
keyVaultKeyName |
string |
Nazwa klucza usługi Azure Key Vault, który ma być używany do szyfrowania danych magazynowanych. |
keyVaultKeyVersion |
string |
Wersja klucza usługi Azure Key Vault, która ma być używana do szyfrowania danych magazynowanych. |
keyVaultUri |
string |
Identyfikator URI usługi Azure Key Vault, nazywany również nazwą DNS, który zawiera klucz używany do szyfrowania danych magazynowanych. Przykładowy identyfikator URI może być |
SemanticConfiguration
Definiuje określoną konfigurację, która ma być używana w kontekście możliwości semantycznych.
Nazwa | Typ | Opis |
---|---|---|
name |
string |
Nazwa konfiguracji semantycznej. |
prioritizedFields |
Opisuje pola tytułów, zawartości i słów kluczowych, które mają być używane do semantycznego klasyfikowania, podpisów, wyróżnień i odpowiedzi. Należy ustawić co najmniej jedną z trzech właściwości podrzędnych (titleField, priorytetizedKeywordsFields i priorytizedContentFields). |
SemanticField
Pole używane w ramach konfiguracji semantycznej.
Nazwa | Typ | Opis |
---|---|---|
fieldName |
string |
SemanticSettings
Definiuje parametry indeksu wyszukiwania mającego wpływ na możliwości semantyczne.
Nazwa | Typ | Opis |
---|---|---|
configurations |
Konfiguracje semantyczne dla indeksu. |
|
defaultConfiguration |
string |
Umożliwia ustawienie nazwy domyślnej konfiguracji semantycznej w indeksie, dzięki czemu można ją opcjonalnie przekazać jako parametr zapytania za każdym razem. |
ShingleTokenFilter
Tworzy kombinacje tokenów jako pojedynczy token. Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene.
Nazwa | Typ | Domyślna wartość | Opis |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ filtru tokenu. |
|
filterToken |
string |
_ |
Ciąg do wstawienia dla każdej pozycji, w której nie ma tokenu. Wartość domyślna to podkreślenie ("_"). |
maxShingleSize |
integer |
2 |
Maksymalny rozmiar shingle. Wartość domyślna i minimalna to 2. |
minShingleSize |
integer |
2 |
Minimalny rozmiar shingle. Wartość domyślna i minimalna to 2. Musi być mniejsza niż wartość maxShingleSize. |
name |
string |
Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się tylko znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
|
outputUnigrams |
boolean |
True |
Wartość wskazująca, czy strumień wyjściowy będzie zawierać tokeny wejściowe (unigramy), a także shingles. Wartość domyślna to true. |
outputUnigramsIfNoShingles |
boolean |
False |
Wartość wskazująca, czy wyprowadź unigramy dla tych czasów, gdy nie są dostępne żadne shingles. Ta właściwość ma pierwszeństwo, gdy parametr outputUnigrams jest ustawiony na wartość false. Wartość domyślna to false. |
tokenSeparator |
string |
Ciąg do użycia podczas łączenia sąsiednich tokenów w celu utworzenia shingle. Wartość domyślna to pojedyncza spacja (" "). |
SnowballTokenFilter
Filtr, który wynika ze słów przy użyciu stemmeru wygenerowanego przez Śnieżkę. Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene.
Nazwa | Typ | Opis |
---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ filtru tokenu. |
language |
Język do użycia. |
|
name |
string |
Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się tylko znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
SnowballTokenFilterLanguage
Język używany do filtrowania tokenu Snowball.
Nazwa | Typ | Opis |
---|---|---|
armenian |
string |
Wybiera Lucene Snowball wynikający tokenizer dla Ormiańskiego. |
basque |
string |
Wybiera lucene Snowball stemming tokenizer dla Basków. |
catalan |
string |
Wybiera Lucene Snowball wynikające tokenizer dla Katalończyka. |
danish |
string |
Wybiera lucene Snowball stemming tokenizer for Danish. |
dutch |
string |
Wybiera lucene Snowball wynikający tokenizer dla Holendrów. |
english |
string |
Wybiera tokenizator Lucene Snowball dla języka angielskiego. |
finnish |
string |
Wybiera lucene Snowball stemming tokenizer for Finnish. |
french |
string |
Wybiera lucene Snowball stemming tokenizer dla Francuzów. |
german |
string |
Wybiera lucene Snowball wynikające tokenizer dla Niemiec. |
german2 |
string |
Wybiera tokenizator lucene Snowball, który używa niemieckiego algorytmu wariantu. |
hungarian |
string |
Wybiera Lucene Snowball wynikające tokenizer dla Węgier. |
italian |
string |
Wybiera lucene Snowball wynikające tokenizer dla Włoch. |
kp |
string |
Wybiera lucene Snowball macierzysty tokenizer dla Holendra, który używa Kraaij-Pohlmann algorytmu macierzystego. |
lovins |
string |
Wybiera tokenizator Lucene Snowball dla języka angielskiego, który używa algorytmu macierzystego Lovins. |
norwegian |
string |
Wybiera Lucene Snowball macierzystą tokenizator dla Norweskiego. |
porter |
string |
Wybiera tokenizator Lucene Snowball dla języka angielskiego, który używa algorytmu macierzystego Porter. |
portuguese |
string |
Wybiera tokenizatora lucene Snowball dla portugalii. |
romanian |
string |
Wybiera Lucene Snowball wynikający tokenizer dla Rumunii. |
russian |
string |
Wybiera Lucene Snowball wynikający tokenizer dla Rosji. |
spanish |
string |
Wybiera lucene Snowball wynikający tokenizer dla języka hiszpańskiego. |
swedish |
string |
Wybiera lucene Snowball wynikający tokenizer dla Szwecji. |
turkish |
string |
Wybiera lucene Snowball stemming tokenizer dla Turcji. |
StemmerOverrideTokenFilter
Zapewnia możliwość zastępowania innych filtrów ściągnięcia za pomocą niestandardowego ściągnięcia opartego na słowniku. Wszystkie terminy oparte na słowniku będą oznaczone jako słowa kluczowe, aby nie były one stemmers w dół łańcucha. Należy umieścić przed wszelkimi filtrami macierzystymi. Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene.
Nazwa | Typ | Opis |
---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ filtru tokenu. |
name |
string |
Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się tylko znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
rules |
string[] |
Lista reguł macierzystych w następującym formacie: "word => stem", na przykład: "ran => run". |
StemmerTokenFilter
Filtr macierzysty specyficzny dla języka. Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene.
Nazwa | Typ | Opis |
---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ filtru tokenu. |
language |
Język do użycia. |
|
name |
string |
Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się tylko znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
StemmerTokenFilterLanguage
Język używany dla filtru tokenu stemmer.
Nazwa | Typ | Opis |
---|---|---|
arabic |
string |
Wybiera tokenizator lucene stemming dla języka arabskiego. |
armenian |
string |
Wybiera tokenizator lucene stemming dla Ormiański. |
basque |
string |
Wybiera tokenizatora macierzystego Lucene dla Basków. |
brazilian |
string |
Wybiera tokenizatora macierzystego Lucene dla portugalskiego (Brazylia). |
bulgarian |
string |
Wybiera tokenizatora macierzystego Lucene dla Bułgara. |
catalan |
string |
Wybiera tokenizator Lucene dla Katalończyka. |
czech |
string |
Wybiera tokenizator Lucene dla Czech. |
danish |
string |
Wybiera tokenizatora macierzystego Lucene dla języka duńskiego. |
dutch |
string |
Wybiera tokenizatora macierzystego Lucene dla Holendra. |
dutchKp |
string |
Wybiera tokenizatora macierzystego Lucene dla Holendra, który używa Kraaij-Pohlmann algorytmu macierzystego. |
english |
string |
Wybiera tokenizatora macierzystego Lucene dla języka angielskiego. |
finnish |
string |
Wybiera tokenizatora macierzystego Lucene dla języka fińskiego. |
french |
string |
Wybiera tokenizatora macierzystego Lucene dla języka francuskiego. |
galician |
string |
Wybiera tokenizator lucene stemming dla Galicji. |
german |
string |
Wybiera tokenizatora macierzystego Lucene dla języka niemieckiego. |
german2 |
string |
Wybiera tokenizatora lucene, który używa niemieckiego algorytmu wariantu. |
greek |
string |
Wybiera tokenizator Lucene dla języka greckiego. |
hindi |
string |
Wybiera tokenizatora macierzystego Lucene dla języka hindi. |
hungarian |
string |
Wybiera tokenizatora macierzystego Lucene dla Węgier. |
indonesian |
string |
Wybiera tokenizator lucene stemming dla Indonezyjczyka. |
irish |
string |
Wybiera tokenizatora macierzystego Lucene dla Irlandii. |
italian |
string |
Wybiera tokenizator lucene dla języka włoskiego. |
latvian |
string |
Wybiera tokenizatora macierzystego Lucene dla Łotewskiego. |
lightEnglish |
string |
Wybiera tokenizator lucene stemming dla języka angielskiego, który robi światło wynikające. |
lightFinnish |
string |
Wybiera tokenizator lucene wynikający z fińskiego, który robi światło wynikające. |
lightFrench |
string |
Wybiera tokenizator lucene wynikający z języka francuskiego, który ma światło wynikające. |
lightGerman |
string |
Wybiera tokenizator lucene wynikający z języka niemieckiego, który ma światło wynikające. |
lightHungarian |
string |
Wybiera tokenizator Lucene dla Węgier, który robi światło wynikające. |
lightItalian |
string |
Wybiera tokenizator lucene wynikający z języka włoskiego, który ma światło wynikające. |
lightNorwegian |
string |
Wybiera tokenizatora macierzystego Lucene dla norweskiego (Bokmål), który robi światło wynikające. |
lightNynorsk |
string |
Wybiera tokenizator lucene stemming dla norweskiego (Nynorsk), który robi światło wynikające. |
lightPortuguese |
string |
Wybiera tokenizator lucene wynikający z języka portugalskiego, który ma światło wynikające. |
lightRussian |
string |
Wybiera lucene wynikający tokenizer dla Rosjan, który robi światło wynikające. |
lightSpanish |
string |
Wybiera tokenizator lucene wynikający z języka hiszpańskiego, który ma światło wynikające. |
lightSwedish |
string |
Wybiera tokenizator lucene wynikający ze szwedzkiego, który ma światło wynikające. |
lovins |
string |
Wybiera tokenizator lucene stemming dla języka angielskiego, który używa algorytmu macierzystego Lovins. |
minimalEnglish |
string |
Wybiera moduł tokenizatora macierzystego Lucene dla języka angielskiego, który ma minimalną wartość ściągniętą. |
minimalFrench |
string |
Wybiera tokenizatora lucene dla języka francuskiego, który ma minimalną wartość wynikającą. |
minimalGalician |
string |
Wybiera tokenizator lucene stemming dla Galicji, który ma minimalny wynik. |
minimalGerman |
string |
Wybiera tokenizator lucene wynikający z języka niemieckiego, który ma minimalny wynik. |
minimalNorwegian |
string |
Wybiera tokenizatora macierzystego Lucene dla norweskiego (Bokmål), który ma minimalną wartość wynikającą. |
minimalNynorsk |
string |
Wybiera tokenizatora lucene stemming dla norweskiego (Nynorsk), który ma minimalny wynik. |
minimalPortuguese |
string |
Wybiera tokenizatora lucene dla portugalskiego, który ma minimalną wartość wynikającą. |
norwegian |
string |
Wybiera tokenizatora macierzystego Lucene dla norweskiego (Bokmål). |
porter2 |
string |
Wybiera tokenizator lucene stemming dla języka angielskiego, który używa algorytmu macierzystego Porter2. |
portuguese |
string |
Wybiera tokenizator lucene dla języka portugalskiego. |
portugueseRslp |
string |
Wybiera tokenizator lucene dla języka portugalskiego, który używa algorytmu macierzystego RSLP. |
possessiveEnglish |
string |
Wybiera tokenizator Lucene dla języka angielskiego, który usuwa końcowe opętacze ze słów. |
romanian |
string |
Wybiera tokenizatora macierzystego Lucene dla Rumuńskiego. |
russian |
string |
Wybiera tokenizator Lucene dla Rosjan. |
sorani |
string |
Wybiera tokenizatora macierzystego Lucene dla Sorani. |
spanish |
string |
Wybiera tokenizator Lucene dla języka hiszpańskiego. |
swedish |
string |
Wybiera tokenizatora macierzystego Lucene dla języka szwedzkiego. |
turkish |
string |
Wybiera tokenizatora macierzystego Lucene dla języka tureckiego. |
StopAnalyzer
Dzieli tekst na litery inne niż litery; Stosuje małe litery i filtry tokenu stopword. Ten analizator jest implementowany przy użyciu platformy Apache Lucene.
Nazwa | Typ | Opis |
---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ analizatora. |
name |
string |
Nazwa analizatora. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się tylko znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
stopwords |
string[] |
Lista stopwords. |
StopwordsList
Identyfikuje wstępnie zdefiniowaną listę stopwords specyficznych dla języka.
Nazwa | Typ | Opis |
---|---|---|
arabic |
string |
Wybiera listę stopword dla języka arabskiego. |
armenian |
string |
Wybiera listę stopword dla Ormiańskiego. |
basque |
string |
Wybiera listę stopword dla Basków. |
brazilian |
string |
Wybiera listę stopword dla języka portugalskiego (Brazylia). |
bulgarian |
string |
Wybiera listę stopword dla języka bułgarskiego. |
catalan |
string |
Wybiera listę stopwordu katalońskiego. |
czech |
string |
Wybiera listę stopwordu dla języka Czeskiego. |
danish |
string |
Wybiera listę stopword dla języka duńskiego. |
dutch |
string |
Wybiera listę stopwordu holenderskiego. |
english |
string |
Wybiera listę stopword dla języka angielskiego. |
finnish |
string |
Wybiera listę stopwordu dla języka fińskiego. |
french |
string |
Wybiera listę stopword dla języka francuskiego. |
galician |
string |
Wybiera listę stopwordów dla Galicji. |
german |
string |
Wybiera listę stopword dla języka niemieckiego. |
greek |
string |
Wybiera listę stopword dla języka greckiego. |
hindi |
string |
Wybiera listę stopword dla języka hindi. |
hungarian |
string |
Wybiera listę stopwordów dla Węgier. |
indonesian |
string |
Wybiera listę stopwordu indonezyjskiego. |
irish |
string |
Wybiera listę stopword dla irlandzkich. |
italian |
string |
Wybiera listę stopword dla języka włoskiego. |
latvian |
string |
Wybiera listę stopword dla Łotewskiego. |
norwegian |
string |
Wybiera listę stopwordu dla języka Norweskiego. |
persian |
string |
Wybiera listę stopwordu perskiego. |
portuguese |
string |
Wybiera listę stopword dla języka portugalskiego. |
romanian |
string |
Wybiera listę stopwordu dla języka rumuńskiego. |
russian |
string |
Wybiera listę stopwordu dla języka rosyjskiego. |
sorani |
string |
Wybiera listę stopword dla elementu Sorani. |
spanish |
string |
Wybiera listę stopword dla języka hiszpańskiego. |
swedish |
string |
Wybiera listę stopword dla języka szwedzkiego. |
thai |
string |
Wybiera listę stopword dla języka tajskiego. |
turkish |
string |
Wybiera listę stopwordu dla języka tureckiego. |
StopwordsTokenFilter
Usuwa słowa zatrzymania ze strumienia tokenu. Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene.
Nazwa | Typ | Domyślna wartość | Opis |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ filtru tokenu. |
|
ignoreCase |
boolean |
False |
Wartość wskazująca, czy zignorować wielkość liter. Jeśli wartość true, wszystkie wyrazy są najpierw konwertowane na małe litery. Wartość domyślna to false. |
name |
string |
Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się tylko znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
|
removeTrailing |
boolean |
True |
Wartość wskazująca, czy ignorować ostatni termin wyszukiwania, jeśli jest to wyraz zatrzymania. Wartość domyślna to true. |
stopwords |
string[] |
Lista stopwords. Nie można ustawić tej właściwości i właściwości listy stopwords. |
|
stopwordsList | english |
Wstępnie zdefiniowana lista stopwords do użycia. Nie można ustawić tej właściwości i właściwości stopwords. Wartość domyślna to angielski. |
Suggester
Definiuje sposób stosowania interfejsu API sugerowanego do grupy pól w indeksie.
Nazwa | Typ | Opis |
---|---|---|
name |
string |
Nazwa sugestora. |
searchMode |
Wartość wskazująca możliwości sugestora. |
|
sourceFields |
string[] |
Lista nazw pól, do których ma zastosowanie sugestor. Każde pole musi być przeszukiwalne. |
SuggesterSearchMode
Wartość wskazująca możliwości sugestora.
Nazwa | Typ | Opis |
---|---|---|
analyzingInfixMatching |
string |
Dopasuje kolejne terminy i prefiksy w polu. Na przykład w przypadku pola "Najszybszy brązowy lis" zapytania "szybkie" i "najszybsze brwi" będą zgodne. |
SynonymTokenFilter
Pasuje do synonimów pojedynczych lub wieloznanych w strumieniu tokenu. Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene.
Nazwa | Typ | Domyślna wartość | Opis |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ filtru tokenu. |
|
expand |
boolean |
True |
Wartość wskazująca, czy wszystkie wyrazy na liście synonimów (jeśli => notacja nie jest używana) będą mapować się na siebie. Jeśli wartość true, wszystkie wyrazy na liście synonimów (jeśli => notacja nie jest używana) będą mapować się na siebie. Poniższa lista: niesamowita, niewiarygodna, wspaniała, niesamowita jest odpowiednikiem: niesamowite, niewiarygodne, wspaniałe, niesamowite => niesamowite, niewiarygodne, wspaniałe, niesamowite. Jeśli fałsz, następująca lista: niesamowita, niewiarygodna, wspaniała, niesamowita będzie równoważna: niesamowite, niewiarygodne, wspaniałe, niesamowite => niesamowite. Wartość domyślna to true. |
ignoreCase |
boolean |
False |
Wartość wskazująca, czy należy składać wielkość liter danych wejściowych w celu dopasowania. Wartość domyślna to false. |
name |
string |
Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się tylko znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
|
synonyms |
string[] |
Lista synonimów w jednym z dwóch formatów: 1. niesamowite, niewiarygodne, wspaniałe => niesamowite - wszystkie terminy po lewej stronie => symbol zostaną zastąpione wszystkimi terminami po prawej stronie; 2. niesamowita, niewiarygodna, bajeczna, niesamowita - rozdzielona przecinkami lista równoważnych słów. Ustaw opcję rozwijania, aby zmienić sposób interpretowania tej listy. |
TagScoringFunction
Definiuje funkcję, która zwiększa wyniki dokumentów przy użyciu wartości ciągów pasujących do danej listy tagów.
Nazwa | Typ | Opis |
---|---|---|
boost |
number |
Mnożnik nieprzetworzonego wyniku. Musi być liczbą dodatnią, która nie jest równa 1,0. |
fieldName |
string |
Nazwa pola używanego jako dane wejściowe funkcji oceniania. |
interpolation |
Wartość wskazująca, jak zwiększenie będzie interpolowane w wynikach dokumentu; wartość domyślna to "Linear". |
|
tag |
Wartości parametrów dla funkcji oceniania tagów. |
|
type |
string:
tag |
Wskazuje typ funkcji do użycia. Prawidłowe wartości obejmują wielkość, świeżość, odległość i tag. Typ funkcji musi mieć małe litery. |
TagScoringParameters
Udostępnia wartości parametrów funkcji oceniania tagów.
Nazwa | Typ | Opis |
---|---|---|
tagsParameter |
string |
Nazwa parametru przekazanego w zapytaniach wyszukiwania w celu określenia listy tagów do porównania z polem docelowym. |
TextWeights
Definiuje wagi pól indeksu, dla których dopasowania powinny zwiększyć ocenianie w zapytaniach wyszukiwania.
Nazwa | Typ | Opis |
---|---|---|
weights |
object |
Słownik wag poszczególnych pól w celu zwiększenia oceniania dokumentów. Klucze to nazwy pól, a wartości to wagi dla każdego pola. |
TokenCharacterKind
Reprezentuje klasy znaków, na których może działać filtr tokenu.
Nazwa | Typ | Opis |
---|---|---|
digit |
string |
Przechowuje cyfry w tokenach. |
letter |
string |
Przechowuje litery w tokenach. |
punctuation |
string |
Utrzymuje interpunkcję w tokenach. |
symbol |
string |
Przechowuje symbole w tokenach. |
whitespace |
string |
Zachowuje odstępy w tokenach. |
TokenFilterName
Definiuje nazwy wszystkich filtrów tokenów obsługiwanych przez wyszukiwarkę.
TruncateTokenFilter
Obcina terminy do określonej długości. Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene.
Nazwa | Typ | Domyślna wartość | Opis |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ filtru tokenu. |
|
length |
integer |
300 |
Długość, w której terminy zostaną obcięte. Wartość domyślna i maksymalna to 300. |
name |
string |
Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się tylko znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
UaxUrlEmailTokenizer
Tokenizuje adresy URL i wiadomości e-mail jako jeden token. Ten tokenizer jest implementowany przy użyciu platformy Apache Lucene.
Nazwa | Typ | Domyślna wartość | Opis |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ tokenizatora. |
|
maxTokenLength |
integer |
255 |
Maksymalna długość tokenu. Wartość domyślna to 255. Tokeny dłuższe niż maksymalna długość są dzielone. Maksymalna długość tokenu, która może być używana, to 300 znaków. |
name |
string |
Nazwa tokenizatora. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się tylko znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
UniqueTokenFilter
Filtruje tokeny z tym samym tekstem co poprzedni token. Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene.
Nazwa | Typ | Domyślna wartość | Opis |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ filtru tokenu. |
|
name |
string |
Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się tylko znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
|
onlyOnSamePosition |
boolean |
False |
Wartość wskazująca, czy usunąć duplikaty tylko w tej samej pozycji. Wartość domyślna to false. |
VectorEncodingFormat
Format kodowania do interpretowania zawartości pola wektora.
Nazwa | Typ | Opis |
---|---|---|
packedBit |
string |
Format kodowania reprezentujący bity pakowane w szerszy typ danych. |
VectorSearch
Zawiera opcje konfiguracji związane z wyszukiwaniem wektorów.
Nazwa | Typ | Opis |
---|---|---|
algorithms | VectorSearchAlgorithmConfiguration[]: |
Zawiera opcje konfiguracji specyficzne dla algorytmu używanego podczas indeksowania lub wykonywania zapytań. |
compressions | VectorSearchCompressionConfiguration[]: |
Zawiera opcje konfiguracji specyficzne dla metody kompresji używanej podczas indeksowania lub wykonywania zapytań. |
profiles |
Definiuje kombinacje konfiguracji do użycia z wyszukiwaniem wektorów. |
|
vectorizers | VectorSearchVectorizer[]: |
Zawiera opcje konfiguracji dotyczące sposobu wektoryzacji zapytań wektorów tekstowych. |
VectorSearchAlgorithmKind
Algorytm używany do indeksowania i wykonywania zapytań.
Nazwa | Typ | Opis |
---|---|---|
exhaustiveKnn |
string |
Wyczerpujący algorytm KNN, który będzie wykonywać wyszukiwanie siłowe. |
hnsw |
string |
HNSW (hierarchiczny nawigowalny mały świat), typ przybliżonego algorytmu najbliższych sąsiadów. |
VectorSearchAlgorithmMetric
Metryka podobieństwa do użycia na potrzeby porównań wektorów. Zaleca się wybranie tej samej metryki podobieństwa co model osadzania został wytrenowany.
Nazwa | Typ | Opis |
---|---|---|
cosine |
string |
Mierzy kąt między wektorami, aby określić ich podobieństwo, lekceważąc wielkość. Im mniejszy kąt, tym bliżej podobieństwa. |
dotProduct |
string |
Oblicza sumę produktów mądrych elementów w celu pomiaru wyrównania i podobieństwa wielkości. Im większa i bardziej pozytywna, tym bliżej podobieństwa. |
euclidean |
string |
Oblicza odległość liniową między wektorami w przestrzeni wielowymiarowej. Im mniejsza odległość, tym bliżej podobieństwa. |
hamming |
string |
Dotyczy tylko typów danych binarnych pakowanych bitowo. Określa różnice, licząc różne pozycje w wektorach binarnych. Im mniej różnic, tym bliżej podobieństwa. |
VectorSearchCompressionKind
Metoda kompresji używana do indeksowania i wykonywania zapytań.
Nazwa | Typ | Opis |
---|---|---|
binaryQuantization |
string |
Kwantyzacja binarna, typ metody kompresji. W kwantyzacji binarnej oryginalne wartości wektorów są kompresowane do węższego typu binarnego przez dyskretyzowanie i reprezentowanie każdego składnika wektora przy użyciu wartości binarnych, zmniejszając w ten sposób ogólny rozmiar danych. |
scalarQuantization |
string |
Kwantyzacja skalarna, typ metody kompresji. W kwantyzacji skalarnej wartości oryginalnych wektorów są kompresowane do węższego typu przez dyskretyzowanie i reprezentowanie każdego składnika wektora przy użyciu ograniczonego zestawu kwantyzowanych wartości, zmniejszając w ten sposób ogólny rozmiar danych. |
VectorSearchCompressionTargetDataType
Kwantyzowany typ danych skompresowanych wartości wektorów.
Nazwa | Typ | Opis |
---|---|---|
int8 |
string |
VectorSearchProfile
Definiuje kombinację konfiguracji do użycia z wyszukiwaniem wektorowym.
Nazwa | Typ | Opis |
---|---|---|
algorithm |
string |
Nazwa konfiguracji algorytmu wyszukiwania wektorowego, która określa algorytm i parametry opcjonalne. |
compression |
string |
Nazwa konfiguracji metody kompresji, która określa metodę kompresji i parametry opcjonalne. |
name |
string |
Nazwa do skojarzenia z tym konkretnym profilem wyszukiwania wektorów. |
vectorizer |
string |
Nazwa wektoryzacji skonfigurowanej do użycia z wyszukiwaniem wektorowym. |
VectorSearchVectorizerKind
Metoda wektoryzacji, która ma być używana w czasie zapytania.
Nazwa | Typ | Opis |
---|---|---|
azureOpenAI |
string |
Generowanie osadzania przy użyciu zasobu usługi Azure OpenAI w czasie wykonywania zapytania. |
customWebApi |
string |
Generowanie osadzania przy użyciu niestandardowego internetowego punktu końcowego w czasie wykonywania zapytań. |
WebApiParameters
Określa właściwości nawiązywania połączenia z wektoryzatorem zdefiniowanym przez użytkownika.
Nazwa | Typ | Opis |
---|---|---|
authIdentity | SearchIndexerDataIdentity: |
Tożsamość zarządzana przypisana przez użytkownika używana na potrzeby połączeń wychodzących. Jeśli podano identyfikator authResourceId i nie zostanie określony, zostanie użyta tożsamość zarządzana przypisana przez system. W przypadku aktualizacji indeksatora, jeśli tożsamość jest nieokreślona, wartość pozostaje niezmieniona. W przypadku ustawienia wartości "none" wartość tej właściwości zostanie wyczyszczone. |
authResourceId |
string |
Dotyczy niestandardowych punktów końcowych łączących się z kodem zewnętrznym w funkcji platformy Azure lub inną aplikacją, która udostępnia przekształcenia. Ta wartość powinna być identyfikatorem aplikacji utworzonym dla funkcji lub aplikacji, gdy została zarejestrowana w usłudze Azure Active Directory. Po określeniu wektoryzacja łączy się z funkcją lub aplikacją przy użyciu identyfikatora zarządzanego (systemu lub przypisanego przez użytkownika) usługi wyszukiwania oraz tokenu dostępu funkcji lub aplikacji przy użyciu tej wartości jako identyfikatora zasobu do utworzenia zakresu tokenu dostępu. |
httpHeaders |
object |
Nagłówki wymagane do wykonania żądania HTTP. |
httpMethod |
string |
Metoda żądania HTTP. |
timeout |
string |
Żądany limit czasu żądania. Wartość domyślna to 30 sekund. |
uri |
string |
Identyfikator URI internetowego interfejsu API dostarczający wektoryzator. |
WebApiVectorizer
Określa wektoryzator zdefiniowany przez użytkownika do generowania wektora osadzania ciągu zapytania. Integracja zewnętrznego wektoryzatora jest osiągana przy użyciu niestandardowego internetowego interfejsu API zestawu umiejętności.
Nazwa | Typ | Opis |
---|---|---|
customWebApiParameters |
Określa właściwości wektoryzatora zdefiniowanego przez użytkownika. |
|
kind |
string:
custom |
Nazwa metody wektoryzacji, która jest konfigurowana do użycia z wyszukiwaniem wektorowym. |
name |
string |
Nazwa do skojarzenia z tą konkretną metodą wektoryzacji. |
WordDelimiterTokenFilter
Dzieli wyrazy na subwords i wykonuje opcjonalne przekształcenia w grupach podrzędnych. Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene.
Nazwa | Typ | Domyślna wartość | Opis |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ filtru tokenu. |
|
catenateAll |
boolean |
False |
Wartość wskazująca, czy wszystkie części podrzędne zostaną podzielone. Jeśli na przykład ustawiono wartość true, wartość "Azure-Search-1" zostanie ustawiona na wartość "AzureSearch1". Wartość domyślna to false. |
catenateNumbers |
boolean |
False |
Wartość wskazująca, czy maksymalna liczba przebiegów części będzie podzielona na podział. Jeśli na przykład ustawiono wartość true, wartość "1–2" zostanie ustawiona na wartość "12". Wartość domyślna to false. |
catenateWords |
boolean |
False |
Wartość wskazująca, czy maksymalna liczba uruchomień części wyrazów zostanie podzielona. Jeśli na przykład ustawiono wartość true, wartość "Azure-Search" zostanie ustawiona na "AzureSearch". Wartość domyślna to false. |
generateNumberParts |
boolean |
True |
Wartość wskazująca, czy wygenerować subwords liczbowe. Wartość domyślna to true. |
generateWordParts |
boolean |
True |
Wartość wskazująca, czy generować wyrazy części. W przypadku ustawienia powoduje wygenerowanie części wyrazów; na przykład "AzureSearch" staje się "Azure" "Search". Wartość domyślna to true. |
name |
string |
Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się tylko znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
|
preserveOriginal |
boolean |
False |
Wartość wskazująca, czy oryginalne wyrazy zostaną zachowane i dodane do listy podwordów. Wartość domyślna to false. |
protectedWords |
string[] |
Lista tokenów chroniących przed ogranicznikami. |
|
splitOnCaseChange |
boolean |
True |
Wartość wskazująca, czy należy podzielić wyrazy na caseChange. Jeśli na przykład ustawiono wartość true, wartość "AzureSearch" stanie się "Azure" "Search". Wartość domyślna to true. |
splitOnNumerics |
boolean |
True |
Wartość wskazująca, czy należy podzielić liczby. Jeśli na przykład ustawiono wartość true, wartość "Azure1Search" stanie się "Azure" "1" "Search". Wartość domyślna to true. |
stemEnglishPossessive |
boolean |
True |
Wartość wskazująca, czy usunąć końcowe "s" dla każdego podwordu. Wartość domyślna to true. |