Indexes - Create
Vytvoří nový vyhledávací index.
POST {endpoint}/indexes?api-version=2025-09-01
Parametry identifikátoru URI
| Name | V | Vyžadováno | Typ | Description |
|---|---|---|---|---|
|
endpoint
|
path | True |
string |
Adresa URL koncového bodu vyhledávací služby. |
|
api-version
|
query | True |
string |
Verze rozhraní API klienta. |
Hlavička požadavku
| Name | Vyžadováno | Typ | Description |
|---|---|---|---|
| x-ms-client-request-id |
string (uuid) |
ID sledování odeslané s požadavkem na pomoc s laděním. |
Text požadavku
| Name | Vyžadováno | Typ | Description |
|---|---|---|---|
| fields | True |
Pole rejstříku. |
|
| name | True |
string |
Název indexu. |
| @odata.etag |
string |
ETag indexu. |
|
| analyzers | LexicalAnalyzer[]: |
Analyzátory pro index. |
|
| charFilters | CharFilter[]: |
Filtry znaků pro rejstřík. |
|
| corsOptions |
Možnosti řízení sdílení prostředků mezi zdroji (CORS) pro index. |
||
| defaultScoringProfile |
string |
Název profilu vyhodnocování, který se má použít, pokud není v dotazu zadán žádný. Pokud tato vlastnost není nastavena a v dotazu není zadán žádný profil vyhodnocování, použije se výchozí bodování (tf-idf). |
|
| description |
string |
Popis rejstříku. |
|
| encryptionKey |
Popis šifrovacího klíče, který vytvoříte v Azure Key Vault. Tento klíč se používá k poskytnutí další úrovně šifrování neaktivních uložených dat v případě, že chcete mít plnou jistotu, že nikdo, ani Microsoft, nemůže vaše data dešifrovat. Jakmile svá data zašifrujete, zůstanou vždy zašifrována. Vyhledávací služba bude ignorovat pokusy o nastavení této vlastnosti na hodnotu null. Tuto vlastnost můžete podle potřeby změnit, pokud chcete šifrovací klíč otočit; Vaše údaje nebudou ovlivněny. Šifrování pomocí klíčů spravovaných zákazníkem není k dispozici pro bezplatné vyhledávací služby a je k dispozici pouze pro placené služby vytvořené 1. ledna 2019 nebo později. |
||
| normalizers | LexicalNormalizer[]: |
Normalizátory pro index. |
|
| scoringProfiles |
Profily hodnocení pro index. |
||
| semantic |
Definuje parametry pro vyhledávací index, které ovlivňují sémantické schopnosti. |
||
| similarity | Similarity: |
Typ algoritmu podobnosti, který se má použít při bodování a řazení dokumentů odpovídajících vyhledávacímu dotazu. Algoritmus podobnosti lze definovat pouze při vytváření indexu a nelze jej upravit na existujících indexech. Pokud je null, použije se algoritmus ClassicSimilarity. |
|
| suggesters |
Navrhovatelé pro index. |
||
| tokenFilters |
TokenFilter[]:
|
Filtr tokenu pro index. |
|
| tokenizers | LexicalTokenizer[]: |
Tokenizátory pro index. |
|
| vectorSearch |
Obsahuje konfigurační volby související s vektorovým vyhledáváním. |
Odpovědi
| Name | Typ | Description |
|---|---|---|
| 201 Created | ||
| Other Status Codes |
Chybová odpověď. |
Příklady
SearchServiceCreateIndex
Ukázkový požadavek
POST https://stableexampleservice.search.windows.net/indexes?api-version=2025-09-01
{
"name": "temp-stable-test",
"description": "description",
"fields": [
{
"name": "id",
"type": "Edm.String",
"key": true,
"sortable": true
},
{
"name": "vector1",
"type": "Collection(Edm.Single)",
"retrievable": true,
"searchable": true,
"dimensions": 20,
"vectorSearchProfile": "config1"
},
{
"name": "vector1b",
"type": "Collection(Edm.Single)",
"retrievable": true,
"searchable": true,
"dimensions": 10,
"vectorSearchProfile": "config2"
},
{
"name": "vector2",
"type": "Collection(Edm.Single)",
"retrievable": true,
"searchable": true,
"dimensions": 5,
"vectorSearchProfile": "config3"
},
{
"name": "vector3",
"type": "Collection(Edm.Single)",
"retrievable": true,
"searchable": true,
"dimensions": 5,
"vectorSearchProfile": "config3"
},
{
"name": "vector22",
"type": "Collection(Edm.Single)",
"retrievable": true,
"searchable": true,
"dimensions": 10,
"vectorSearchProfile": "config2"
},
{
"name": "name",
"type": "Edm.String",
"retrievable": true,
"searchable": true,
"filterable": true,
"sortable": true,
"facetable": true,
"analyzer": "en.lucene"
},
{
"name": "description",
"type": "Edm.String",
"retrievable": true,
"searchable": true,
"filterable": true,
"sortable": true,
"facetable": true,
"analyzer": "standard.lucene"
},
{
"name": "category",
"type": "Edm.String",
"retrievable": true,
"searchable": true,
"filterable": true,
"sortable": true,
"facetable": true,
"analyzer": "en.lucene",
"normalizer": "standard"
},
{
"name": "ownerId",
"type": "Edm.String",
"retrievable": true,
"searchable": true,
"filterable": true,
"sortable": true,
"facetable": true,
"analyzer": "en.lucene"
}
],
"scoringProfiles": [
{
"name": "stringFieldBoost",
"text": {
"weights": {
"name": 3,
"description": 1,
"category": 2,
"ownerId": 1
}
},
"functions": [
{
"tag": {
"tagsParameter": "categoryTag"
},
"type": "tag",
"fieldName": "category",
"boost": 2
}
]
}
],
"defaultScoringProfile": "stringFieldBoost",
"corsOptions": {
"allowedOrigins": [
"https://www.example.com/foo"
],
"maxAgeInSeconds": 10
},
"suggesters": [
{
"name": "sg",
"searchMode": "analyzingInfixMatching",
"sourceFields": [
"category",
"ownerId"
]
}
],
"analyzers": [
{
"tokenizer": "standard_v2",
"tokenFilters": [
"common_grams"
],
"charFilters": [
"html_strip"
],
"@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
"name": "tagsAnalyzer"
}
],
"tokenizers": [
{
"maxTokenLength": 100,
"@odata.type": "#Microsoft.Azure.Search.StandardTokenizerV2",
"name": "my_tokenizer"
}
],
"tokenFilters": [
{
"preserveOriginal": false,
"@odata.type": "#Microsoft.Azure.Search.AsciiFoldingTokenFilter",
"name": "my_tokenFilter"
}
],
"charFilters": [
{
"mappings": [
".=>,",
"_=>-"
],
"@odata.type": "#Microsoft.Azure.Search.MappingCharFilter",
"name": "my_mapping"
}
],
"normalizers": [
{
"tokenFilters": [
"asciifolding"
],
"charFilters": [
"my_mapping"
],
"@odata.type": "#Microsoft.Azure.Search.CustomNormalizer",
"name": "tagsNormalizer"
}
],
"similarity": {
"k1": 10,
"b": 0.1,
"@odata.type": "#Microsoft.Azure.Search.BM25Similarity"
},
"semantic": {
"defaultConfiguration": "testconfig",
"configurations": [
{
"name": "testconfig",
"prioritizedFields": {
"titleField": {
"fieldName": "category"
},
"prioritizedContentFields": [
{
"fieldName": "description"
}
],
"prioritizedKeywordsFields": [
{
"fieldName": "ownerId"
}
]
},
"rankingOrder": "BoostedRerankerScore"
}
]
},
"vectorSearch": {
"profiles": [
{
"name": "config1",
"algorithm": "cosine",
"vectorizer": "openai",
"compression": "mySQ8"
},
{
"name": "config2",
"algorithm": "euclidean",
"vectorizer": "custom-web-api",
"compression": "mySQ8"
},
{
"name": "config3",
"algorithm": "dotProduct",
"vectorizer": "custom-web-api",
"compression": "myBQC"
}
],
"algorithms": [
{
"hnswParameters": {
"metric": "cosine"
},
"name": "cosine",
"kind": "hnsw"
},
{
"hnswParameters": {
"metric": "euclidean"
},
"name": "euclidean",
"kind": "hnsw"
},
{
"hnswParameters": {
"metric": "dotProduct"
},
"name": "dotProduct",
"kind": "hnsw"
}
],
"vectorizers": [
{
"azureOpenAIParameters": {
"resourceUri": "https://test-sample.openai.azure.com/",
"deploymentId": "model",
"apiKey": "api-key",
"modelName": "text-embedding-3-large"
},
"name": "openai",
"kind": "azureOpenAI"
},
{
"customWebApiParameters": {
"uri": "https://my-custom-endpoint.org/",
"httpHeaders": {
"header1": "value1",
"header2": "value2"
},
"httpMethod": "POST",
"timeout": "PT1M",
"authResourceId": "api://f89d1c93-58a7-4b07-9a5b-5f89048b927b",
"authIdentity": {
"@odata.type": "#Microsoft.Azure.Search.DataNoneIdentity"
}
},
"name": "custom-web-api",
"kind": "customWebApi"
}
],
"compressions": [
{
"scalarQuantizationParameters": {
"quantizedDataType": "int8"
},
"name": "mySQ8",
"kind": "scalarQuantization",
"truncationDimension": 2
},
{
"name": "myBQC",
"kind": "binaryQuantization",
"truncationDimension": 2
}
]
},
"@odata.etag": "0x1234568AE7E58A1"
}
Ukázková odpověď
{
"@odata.etag": "0x1234568AE7E58A1",
"name": "temp-stable-test",
"description": "description",
"defaultScoringProfile": "stringFieldBoost",
"fields": [
{
"name": "id",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"stored": true,
"sortable": true,
"facetable": true,
"key": true,
"synonymMaps": []
},
{
"name": "vector1",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"stored": true,
"sortable": false,
"facetable": false,
"key": false,
"dimensions": 20,
"vectorSearchProfile": "config1",
"synonymMaps": []
},
{
"name": "vector1b",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"stored": true,
"sortable": false,
"facetable": false,
"key": false,
"dimensions": 10,
"vectorSearchProfile": "config2",
"synonymMaps": []
},
{
"name": "vector2",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"stored": true,
"sortable": false,
"facetable": false,
"key": false,
"dimensions": 5,
"vectorSearchProfile": "config3",
"synonymMaps": []
},
{
"name": "vector3",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"stored": true,
"sortable": false,
"facetable": false,
"key": false,
"dimensions": 5,
"vectorSearchProfile": "config3",
"synonymMaps": []
},
{
"name": "vector22",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"stored": true,
"sortable": false,
"facetable": false,
"key": false,
"dimensions": 10,
"vectorSearchProfile": "config2",
"synonymMaps": []
},
{
"name": "name",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"stored": true,
"sortable": true,
"facetable": true,
"key": false,
"analyzer": "en.lucene",
"synonymMaps": []
},
{
"name": "description",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"stored": true,
"sortable": true,
"facetable": true,
"key": false,
"analyzer": "standard.lucene",
"synonymMaps": []
},
{
"name": "category",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"stored": true,
"sortable": true,
"facetable": true,
"key": false,
"analyzer": "en.lucene",
"normalizer": "standard",
"synonymMaps": []
},
{
"name": "ownerId",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"stored": true,
"sortable": true,
"facetable": true,
"key": false,
"analyzer": "en.lucene",
"synonymMaps": []
}
],
"scoringProfiles": [
{
"name": "stringFieldBoost",
"functionAggregation": "sum",
"text": {
"weights": {
"name": 3,
"description": 1,
"category": 2,
"ownerId": 1
}
},
"functions": [
{
"fieldName": "category",
"interpolation": "linear",
"type": "tag",
"boost": 2,
"tag": {
"tagsParameter": "categoryTag"
}
}
]
}
],
"corsOptions": {
"allowedOrigins": [
"https://www.example.com/foo"
],
"maxAgeInSeconds": 10
},
"suggesters": [
{
"name": "sg",
"searchMode": "analyzingInfixMatching",
"sourceFields": [
"category",
"ownerId"
]
}
],
"analyzers": [
{
"@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
"name": "tagsAnalyzer",
"tokenizer": "standard_v2",
"tokenFilters": [
"common_grams"
],
"charFilters": [
"html_strip"
]
}
],
"normalizers": [
{
"@odata.type": "#Microsoft.Azure.Search.CustomNormalizer",
"name": "tagsNormalizer",
"tokenFilters": [
"asciifolding"
],
"charFilters": [
"my_mapping"
]
}
],
"tokenizers": [
{
"@odata.type": "#Microsoft.Azure.Search.StandardTokenizerV2",
"name": "my_tokenizer",
"maxTokenLength": 100
}
],
"tokenFilters": [
{
"@odata.type": "#Microsoft.Azure.Search.AsciiFoldingTokenFilter",
"name": "my_tokenFilter",
"preserveOriginal": false
}
],
"charFilters": [
{
"@odata.type": "#Microsoft.Azure.Search.MappingCharFilter",
"name": "my_mapping",
"mappings": [
".=>,",
"_=>-"
]
}
],
"similarity": {
"@odata.type": "#Microsoft.Azure.Search.BM25Similarity",
"k1": 10,
"b": 0.1
},
"semantic": {
"defaultConfiguration": "testconfig",
"configurations": [
{
"name": "testconfig",
"rankingOrder": "BoostedRerankerScore",
"prioritizedFields": {
"titleField": {
"fieldName": "category"
},
"prioritizedContentFields": [
{
"fieldName": "description"
}
],
"prioritizedKeywordsFields": [
{
"fieldName": "ownerId"
}
]
}
}
]
},
"vectorSearch": {
"algorithms": [
{
"name": "cosine",
"kind": "hnsw",
"hnswParameters": {
"metric": "cosine",
"m": 4,
"efConstruction": 400,
"efSearch": 500
}
},
{
"name": "euclidean",
"kind": "hnsw",
"hnswParameters": {
"metric": "euclidean",
"m": 4,
"efConstruction": 400,
"efSearch": 500
}
},
{
"name": "dotProduct",
"kind": "hnsw",
"hnswParameters": {
"metric": "dotProduct",
"m": 4,
"efConstruction": 400,
"efSearch": 500
}
}
],
"profiles": [
{
"name": "config1",
"algorithm": "cosine",
"vectorizer": "openai",
"compression": "mySQ8"
},
{
"name": "config2",
"algorithm": "euclidean",
"vectorizer": "custom-web-api",
"compression": "mySQ8"
},
{
"name": "config3",
"algorithm": "dotProduct",
"vectorizer": "custom-web-api",
"compression": "myBQC"
}
],
"vectorizers": [
{
"name": "openai",
"kind": "azureOpenAI",
"azureOpenAIParameters": {
"resourceUri": "https://test-sample.openai.azure.com",
"deploymentId": "model",
"apiKey": "api-key",
"modelName": "text-embedding-3-large"
}
},
{
"name": "custom-web-api",
"kind": "customWebApi",
"customWebApiParameters": {
"httpMethod": "POST",
"uri": "https://my-custom-endpoint.org/",
"timeout": "PT1M",
"authResourceId": "api://f89d1c93-58a7-4b07-9a5b-5f89048b927b",
"httpHeaders": {
"header1": "value1",
"header2": "value2"
},
"authIdentity": {
"@odata.type": "#Microsoft.Azure.Search.DataNoneIdentity"
}
}
}
],
"compressions": [
{
"name": "mySQ8",
"kind": "scalarQuantization",
"truncationDimension": 2,
"scalarQuantizationParameters": {
"quantizedDataType": "int8"
},
"rescoringOptions": {
"enableRescoring": true,
"defaultOversampling": 4,
"rescoreStorageMethod": "preserveOriginals"
}
},
{
"name": "myBQC",
"kind": "binaryQuantization",
"truncationDimension": 2,
"rescoringOptions": {
"enableRescoring": true,
"defaultOversampling": 4,
"rescoreStorageMethod": "preserveOriginals"
}
}
]
}
}
Definice
| Name | Description |
|---|---|
|
Ascii |
Převede abecední, číselné a symbolické znaky Unicode, které nejsou v prvních 127 znacích ASCII (blok Unicode "Základní latinka") na jejich ekvivalenty ASCII, pokud takové ekvivalenty existují. Tento filtr tokenů je implementován pomocí Apache Lucene. |
|
Azure |
Přihlašovací údaje registrované aplikace vytvořené pro vaši vyhledávací službu, která se používá pro ověřený přístup k šifrovacím klíčům uloženým v Azure Key Vault. |
|
Azure |
Umožňuje vygenerovat vektorové vložení pro daný textový vstup pomocí prostředku Azure OpenAI. |
|
Azure |
Název modelu Azure Open AI, který se bude volat. |
|
Azure |
Určuje parametry pro připojení k prostředku Azure OpenAI. |
|
Azure |
Určuje prostředek Azure OpenAI použitý k vektorizaci řetězce dotazu. |
|
Binary |
Obsahuje možnosti konfigurace specifické pro metodu komprese binární kvantizace používanou během indexování a dotazování. |
| BM25Similarity |
Hodnotící funkce založená na algoritmu podobnosti Okapi BM25. BM25 je algoritmus podobný TF-IDF, který zahrnuje normalizaci délky (řízenou parametrem 'b') a také saturaci frekvence (řízenou parametrem 'k1'). |
|
Char |
Definuje názvy všech filtrů znaků podporovaných vyhledávacím modulem. |
|
Cjk |
Tvoří bigramy termínů CJK, které jsou generovány ze standardního tokenizéru. Tento filtr tokenů je implementován pomocí Apache Lucene. |
|
Cjk |
Skripty, které může CjkBigramTokenFilter ignorovat. |
|
Classic |
Starší algoritmus podobnosti, který používá implementaci TF-IDF v Lucene TFIDFSimilarity. Tato varianta TF-IDF zavádí statickou normalizaci délky dokumentu a také koordinační faktory, které penalizují dokumenty, které se prohledávaným dotazům shodují jen částečně. |
|
Classic |
Tokenizér založený na gramatice, který je vhodný pro zpracování většiny dokumentů v evropském jazyce. Tento tokenizer je implementován pomocí Apache Lucene. |
|
Common |
Vytvářejte bigramy pro často se vyskytující výrazy při indexování. Jednotlivé termíny jsou také stále indexovány, s překrytými bigramy. Tento filtr tokenů je implementován pomocí Apache Lucene. |
|
Cors |
Definuje možnosti pro řízení sdílení prostředků mezi zdroji (CORS) pro index. |
|
Custom |
Umožňuje převzít kontrolu nad procesem převodu textu na indexovatelné/prohledávatelné tokeny. Jedná se o uživatelsky definovanou konfiguraci skládající se z jednoho předdefinovaného tokenizéru a jednoho nebo více filtrů. Tokenizátor je zodpovědný za rozdělení textu na tokeny a filtry pro úpravu tokenů generovaných tokenizátorem. |
|
Custom |
Umožňuje nakonfigurovat normalizaci pro filtrovatelná, seřaditelná pole a pole plošek, která ve výchozím nastavení pracují s přísným porovnáváním. Jedná se o uživatelem definovanou konfiguraci skládající se alespoň z jednoho nebo více filtrů, které upravují uložený token. |
|
Dictionary |
Rozkládá složená slova vyskytující se v mnoha germánských jazycích. Tento filtr tokenů je implementován pomocí Apache Lucene. |
|
Distance |
Definuje funkci, která zvyšuje skóre na základě vzdálenosti od zeměpisné polohy. |
|
Distance |
Poskytuje hodnoty parametrů pro funkci bodování vzdálenosti. |
|
Edge |
Generuje n-gramy dané velikosti (velikostí) počínaje přední nebo zadní stranou vstupního tokenu. Tento filtr tokenů je implementován pomocí Apache Lucene. |
|
Edge |
Určuje, ze které strany vstupu by měl být n-gram generován. |
|
Edge |
Generuje n-gramy dané velikosti (velikostí) počínaje přední nebo zadní stranou vstupního tokenu. Tento filtr tokenů je implementován pomocí Apache Lucene. |
|
Edge |
Tokenizuje vstup z okraje na n-gramy dané velikosti (velikostí). Tento tokenizer je implementován pomocí Apache Lucene. |
|
Elision |
Odstraňuje elize. Například "l'avion" (letadlo) bude převedeno na "avion" (letadlo). Tento filtr tokenů je implementován pomocí Apache Lucene. |
|
Error |
Další informace o chybě správy prostředků |
|
Error |
Podrobnosti o chybě. |
|
Error |
Chybová odpověď |
|
Exhaustive |
Obsahuje parametry specifické pro vyčerpávající algoritmus KNN. |
|
Exhaustive |
Obsahuje možnosti konfigurace specifické pro vyčerpávající algoritmus KNN používaný při dotazování, který bude provádět vyhledávání hrubou silou v celém vektorovém indexu. |
|
Freshness |
Definuje funkci, která zvyšuje skóre na základě hodnoty pole data a času. |
|
Freshness |
Poskytuje hodnoty parametrů funkci bodování aktuálnosti. |
|
Hnsw |
Obsahuje parametry specifické pro algoritmus HNSW. |
|
Hnsw |
Obsahuje možnosti konfigurace specifické pro algoritmus HNSW přibližných nejbližších sousedů používaný během indexování a dotazování. Algoritmus HNSW nabízí laditelný kompromis mezi rychlostí vyhledávání a přesností. |
|
Input |
Mapování vstupního pole pro dovednost. |
|
Keep |
Filtr tokenů, který uchovává pouze tokeny s textem obsaženým v určeném seznamu slov. Tento filtr tokenů je implementován pomocí Apache Lucene. |
|
Keyword |
Označí termíny jako klíčová slova. Tento filtr tokenů je implementován pomocí Apache Lucene. |
|
Keyword |
Vygeneruje celý vstup jako jeden token. Tento tokenizer je implementován pomocí Apache Lucene. |
|
Keyword |
Vygeneruje celý vstup jako jeden token. Tento tokenizer je implementován pomocí Apache Lucene. |
|
Length |
Odstraní slova, která jsou příliš dlouhá nebo příliš krátká. Tento filtr tokenů je implementován pomocí Apache Lucene. |
|
Lexical |
Definuje názvy všech analyzátorů textu podporovaných vyhledávacím modulem. |
|
Lexical |
Definuje názvy všech normalizátorů textu podporovaných vyhledávacím modulem. |
|
Lexical |
Definuje jména všech tokenizátorů podporovaných vyhledávačem. |
|
Limit |
Omezuje počet tokenů při indexování. Tento filtr tokenů je implementován pomocí Apache Lucene. |
|
Lucene |
Standardní analyzátor Apache Lucene; Skládá se ze standardního tokenizéru, filtru malých písmen a filtru stop. |
|
Lucene |
Zalomí text podle pravidel segmentace textu Unicode. Tento tokenizer je implementován pomocí Apache Lucene. |
|
Lucene |
Zalomí text podle pravidel segmentace textu Unicode. Tento tokenizer je implementován pomocí Apache Lucene. |
|
Magnitude |
Definuje funkci, která zvyšuje skóre na základě velikosti číselného pole. |
|
Magnitude |
Poskytuje hodnoty parametrů pro funkci bodování velikosti. |
|
Mapping |
Filtr znaků, který aplikuje mapování definovaná pomocí volby mapování. Porovnávání je hladové (vyhrává nejdelší porovnávání vzorů v daném bodě). Nahrazením může být prázdný řetězec. Tento filtr znaků je implementován pomocí Apache Lucene. |
|
Microsoft |
Rozdělí text pomocí pravidel specifických pro daný jazyk a zredukuje slova na jejich základní tvary. |
|
Microsoft |
Rozdělí text pomocí pravidel specifických pro daný jazyk. |
|
Microsoft |
Uvádí jazyky podporované jazykovým stemizérem společnosti Microsoft. |
|
Microsoft |
Uvádí jazyky podporované nástrojem pro tokenizaci jazyka společnosti Microsoft. |
|
NGram |
Generuje n-gramů dané velikosti (velikostí). Tento filtr tokenů je implementován pomocí Apache Lucene. |
|
NGram |
Generuje n-gramů dané velikosti (velikostí). Tento filtr tokenů je implementován pomocí Apache Lucene. |
|
NGram |
Tokenizuje vstup na n-gramy dané velikosti (velikostí). Tento tokenizer je implementován pomocí Apache Lucene. |
|
Output |
Mapování výstupního pole pro dovednost. |
|
Path |
Tokenizer pro hierarchie podobné cestám. Tento tokenizer je implementován pomocí Apache Lucene. |
|
Pattern |
Flexibilně rozděluje text na termíny pomocí vzoru regulárních výrazů. Tento analyzátor je implementován pomocí Apache Lucene. |
|
Pattern |
Používá regulární výrazy Java k vygenerování více tokenů - jeden pro každou skupinu zachycení v jednom nebo více vzorech. Tento filtr tokenů je implementován pomocí Apache Lucene. |
|
Pattern |
Filtr znaků, který nahrazuje znaky ve vstupním řetězci. Používá regulární výraz k identifikaci sekvencí znaků, které se mají zachovat, a vzor pro nahrazování k identifikaci znaků, které mají být nahrazeny. Například pro vstupní text "aa bb aa bb", vzor "(aa)\s+(bb)" a nahrazení "$1#$2" by výsledek byl "aa#bb aa#bb". Tento filtr znaků je implementován pomocí Apache Lucene. |
|
Pattern |
Filtr znaků, který nahrazuje znaky ve vstupním řetězci. Používá regulární výraz k identifikaci sekvencí znaků, které se mají zachovat, a vzor pro nahrazování k identifikaci znaků, které mají být nahrazeny. Například pro vstupní text "aa bb aa bb", vzor "(aa)\s+(bb)" a nahrazení "$1#$2" by výsledek byl "aa#bb aa#bb". Tento filtr tokenů je implementován pomocí Apache Lucene. |
|
Pattern |
Tokenizer, který používá porovnávání vzorů regulárních výrazů k vytvoření odlišných tokenů. Tento tokenizer je implementován pomocí Apache Lucene. |
|
Phonetic |
Identifikuje typ fonetického kodéru, který se má použít s PhoneticTokenFilter. |
|
Phonetic |
Vytvářet tokeny pro fonetické shody. Tento filtr tokenů je implementován pomocí Apache Lucene. |
|
Prioritized |
Popisuje pole názvu, obsahu a klíčových slov, která se mají použít pro sémantické řazení, titulky, zvýraznění a odpovědi. |
|
Ranking |
Představuje skóre, které se má použít pro pořadí řazení dokumentů. |
|
Regex |
Definuje příznaky, které lze kombinovat a řídit tak způsob použití regulárních výrazů v analyzátoru vzorů a tokenizátoru vzorů. |
|
Rescoring |
Obsahuje možnosti pro změnu hodnocení. |
|
Scalar |
Obsahuje parametry specifické pro skalární kvantování. |
|
Scalar |
Obsahuje možnosti konfigurace specifické pro metodu skalární kvantizace, která se používá při indexování a dotazování. |
|
Scoring |
Definuje agregační funkci, která se používá ke kombinování výsledků všech hodnotících funkcí v profilu vyhodnocování. |
|
Scoring |
Definuje funkci použitou k interpolaci zvýšení skóre v rozsahu dokumentů. |
|
Scoring |
Definuje parametry pro vyhledávací index, které ovlivňují bodování ve vyhledávacích dotazech. |
|
Search |
Představuje pole v definici indexu, která popisuje název, datový typ a chování pole při hledání. |
|
Search |
Definuje datový typ pole ve vyhledávacím indexu. |
|
Search |
Představuje definici indexu vyhledávání, která popisuje pole a chování indexu při vyhledávání. |
|
Search |
Vymaže vlastnost identity zdroje dat. |
|
Search |
Určuje identitu zdroje dat, který se má použít. |
|
Search |
Šifrovací klíč spravovaný zákazníkem ve službě Azure Key Vault. Klíče, které vytvoříte a spravujete, lze použít k šifrování nebo dešifrování neaktivních uložených dat, jako jsou indexy a mapy synonym. |
|
Semantic |
Definuje konkrétní konfiguraci, která se má použít v kontextu sémantických schopností. |
|
Semantic |
Pole, které se používá jako součást sémantické konfigurace. |
|
Semantic |
Definuje parametry pro vyhledávací index, které ovlivňují sémantické schopnosti. |
|
Shingle |
Vytvoří kombinace tokenů jako jeden token. Tento filtr tokenů je implementován pomocí Apache Lucene. |
|
Snowball |
Filtr, který vytváří kmeny slov pomocí skriptmeru generovaného sněhovou koulí. Tento filtr tokenů je implementován pomocí Apache Lucene. |
|
Snowball |
Jazyk, který se má použít pro filtr tokenu sněhové koule. |
|
Stemmer |
Poskytuje možnost přepsat jiné filtry stemmingu pomocí vlastního stemmingu založeného na slovníku. Všechny termíny se slovníkovým řetězcem budou označeny jako klíčová slova, takže nebudou v řetězci spojovány se stemmery. Musí být umístěn před všemi odvozenými filtry. Tento filtr tokenů je implementován pomocí Apache Lucene. |
|
Stemmer |
Jazykově specifický stemming filtr. Tento filtr tokenů je implementován pomocí Apache Lucene. |
|
Stemmer |
Jazyk, který se má použít pro filtr tokenů stemmeru. |
|
Stop |
Rozdělí text na nepísmena; Použije filtry tokenů psaných malými písmeny a stopword. Tento analyzátor je implementován pomocí Apache Lucene. |
|
Stopwords |
Identifikuje předdefinovaný seznam stophesel specifických pro jazyk. |
|
Stopwords |
Odstraní stop slova z datového proudu tokenu. Tento filtr tokenů je implementován pomocí Apache Lucene. |
| Suggester |
Definuje, jak by se mělo rozhraní API pro návrhy použít na skupinu polí v indexu. |
|
Suggester |
Hodnota označující možnosti modulu pro návrhy. |
|
Synonym |
Porovnává jednoslovná nebo víceslovná synonyma v proudu tokenů. Tento filtr tokenů je implementován pomocí Apache Lucene. |
|
Tag |
Definuje funkci, která zvyšuje skóre dokumentů pomocí řetězcových hodnot odpovídajících danému seznamu tagů. |
|
Tag |
Poskytuje hodnoty parametrů funkci bodování značek. |
|
Text |
Definuje váhy indexových polí, jejichž shody by měly zvýšit bodování ve vyhledávacích dotazech. |
|
Token |
Představuje třídy znaků, se kterými může filtr tokenů pracovat. |
|
Token |
Definuje názvy všech filtrů tokenů podporovaných vyhledávacím modulem. |
|
Truncate |
Zkrátí podmínky na určitou délku. Tento filtr tokenů je implementován pomocí Apache Lucene. |
|
Uax |
Tokenizuje adresy URL a e-maily jako jeden token. Tento tokenizer je implementován pomocí Apache Lucene. |
|
Unique |
Odfiltruje tokeny se stejným textem jako předchozí token. Tento filtr tokenů je implementován pomocí Apache Lucene. |
|
Vector |
Formát kódování pro interpretaci obsahu vektorového pole. |
|
Vector |
Obsahuje konfigurační volby související s vektorovým vyhledáváním. |
|
Vector |
Algoritmus používaný pro indexování a dotazování. |
|
Vector |
Metrika podobnosti, která se má použít pro vektorové porovnání. Doporučuje se zvolit stejnou metriku podobnosti, na které byl natrénován model vkládání. |
|
Vector |
Metoda komprese používaná pro indexování a dotazování. |
|
Vector |
Metoda ukládání původních vektorů s plnou přesností používaných pro opakované bodování a interní operace indexu. |
|
Vector |
Kvantovaný datový typ komprimovaných vektorových hodnot. |
|
Vector |
Definuje kombinaci konfigurací pro použití s vektorovým vyhledáváním. |
|
Vector |
Metoda vektorizace, která se má použít během doby dotazu. |
|
Web |
Určuje vlastnosti pro připojení k uživatelsky definovanému vektorizátoru. |
|
Web |
Určuje uživatelem definovaný vektorizátor pro generování vektorového vkládání řetězce dotazu. Integrace externího vektorizátoru se provádí pomocí vlastního rozhraní webového rozhraní API sady dovedností. |
|
Word |
Rozdělí slova na podslova a provede volitelné transformace skupin podslov. Tento filtr tokenů je implementován pomocí Apache Lucene. |
AsciiFoldingTokenFilter
Převede abecední, číselné a symbolické znaky Unicode, které nejsou v prvních 127 znacích ASCII (blok Unicode "Základní latinka") na jejich ekvivalenty ASCII, pokud takové ekvivalenty existují. Tento filtr tokenů je implementován pomocí Apache Lucene.
| Name | Typ | Default value | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ filtru tokenu. |
|
| name |
string |
Název filtru tokenů. Smí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezena na 128 znaků. |
|
| preserveOriginal |
boolean |
False |
Hodnota označující, zda bude zachován původní token. Výchozí hodnota je False. |
AzureActiveDirectoryApplicationCredentials
Přihlašovací údaje registrované aplikace vytvořené pro vaši vyhledávací službu, která se používá pro ověřený přístup k šifrovacím klíčům uloženým v Azure Key Vault.
| Name | Typ | Description |
|---|---|---|
| applicationId |
string |
ID aplikace AAD, kterému byla udělena požadovaná přístupová oprávnění k Azure Key Vault, které se má použít při šifrování neaktivních uložených dat. ID aplikace by nemělo být zaměňováno s ID objektu pro vaši aplikaci AAD. |
| applicationSecret |
string |
Ověřovací klíč zadané aplikace AAD. |
AzureOpenAIEmbeddingSkill
Umožňuje vygenerovat vektorové vložení pro daný textový vstup pomocí prostředku Azure OpenAI.
| Name | Typ | Description |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ dovednosti. |
| apiKey |
string |
Klíč rozhraní API určeného prostředku Azure OpenAI. |
| authIdentity | SearchIndexerDataIdentity: |
Spravovaná identita přiřazená uživatelem používaná pro odchozí připojení. |
| context |
string |
Představuje úroveň, na které probíhají operace, jako je kořen dokumentu nebo obsah dokumentu (například /document nebo /document/content). Výchozí hodnota je /document. |
| deploymentId |
string |
ID nasazení modelu Azure OpenAI na určeném zdroji. |
| description |
string |
Popis dovednosti, který popisuje vstupy, výstupy a použití dovednosti. |
| dimensions |
integer (int32) |
Početdimenzích Podporováno pouze v modelech pro vkládání textu-3 a novějších. |
| inputs |
Vstupy dovedností mohou být sloupec ve zdrojové datové sadě nebo výstup nadřazené dovednosti. |
|
| modelName |
Název modelu vkládání, který je nasazen na zadané cestě deploymentId. |
|
| name |
string |
Název dovednosti, který ji v sadě dovedností jednoznačně identifikuje. Dovednost, která nemá definovaný žádný název, bude mít v poli dovedností výchozí název indexu založeného na hodnotě 1, kterému předchází znak #. |
| outputs |
Výstupem dovednosti je buď pole ve vyhledávacím indexu, nebo hodnota, která může být zpracována jako vstup jinou dovedností. |
|
| resourceUri |
string (uri) |
Identifikátor URI prostředku Azure OpenAI. |
AzureOpenAIModelName
Název modelu Azure Open AI, který se bude volat.
| Hodnota | Description |
|---|---|
| text-embedding-ada-002 | |
| text-embedding-3-large | |
| text-embedding-3-small |
AzureOpenAIParameters
Určuje parametry pro připojení k prostředku Azure OpenAI.
| Name | Typ | Description |
|---|---|---|
| apiKey |
string |
Klíč rozhraní API určeného prostředku Azure OpenAI. |
| authIdentity | SearchIndexerDataIdentity: |
Spravovaná identita přiřazená uživatelem používaná pro odchozí připojení. |
| deploymentId |
string |
ID nasazení modelu Azure OpenAI na určeném zdroji. |
| modelName |
Název modelu vkládání, který je nasazen na zadané cestě deploymentId. |
|
| resourceUri |
string (uri) |
Identifikátor URI prostředku Azure OpenAI. |
AzureOpenAIVectorizer
Určuje prostředek Azure OpenAI použitý k vektorizaci řetězce dotazu.
| Name | Typ | Description |
|---|---|---|
| azureOpenAIParameters | AzureOpenAIParameters: |
Obsahuje parametry specifické pro vektorizaci vkládání Azure OpenAI. |
| kind |
string:
azure |
Název druhu metody vektorizace, která je konfigurována pro použití s vektorovým vyhledáváním. |
| name |
string |
Název, který má být spojen s touto konkrétní metodou vektorizace. |
BinaryQuantizationVectorSearchCompressionConfiguration
Obsahuje možnosti konfigurace specifické pro metodu komprese binární kvantizace používanou během indexování a dotazování.
| Name | Typ | Description |
|---|---|---|
| kind |
string:
binary |
Název druhu metody komprese, která je konfigurována pro použití s vektorovým vyhledáváním. |
| name |
string |
Název, který má být spojen s touto konkrétní konfigurací. |
| rescoringOptions |
Obsahuje možnosti pro změnu hodnocení. |
|
| truncationDimension |
integer (int32) |
Počet kót, na které se mají vektory zkrátit. Zkrácením vektorů se zmenší velikost vektorů a množství dat, která je třeba během vyhledávání přenést. To může ušetřit náklady na úložiště a zlepšit výkon vyhledávání na úkor úplnosti. Měl by se používat pouze pro vkládání natrénované pomocí Matrjoshka Representation Learning (MRL), jako je OpenAI text-embedding-3-large (small). Výchozí hodnota je null, což znamená, že nedojde ke zkrácení. |
BM25Similarity
Hodnotící funkce založená na algoritmu podobnosti Okapi BM25. BM25 je algoritmus podobný TF-IDF, který zahrnuje normalizaci délky (řízenou parametrem 'b') a také saturaci frekvence (řízenou parametrem 'k1').
| Name | Typ | Description |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
|
| b |
number (double) |
Tato vlastnost určuje, jak délka dokumentu ovlivní skóre relevance. Ve výchozím nastavení se používá hodnota 0,75. Hodnota 0,0 znamená, že se nepoužije žádná normalizace délky, zatímco hodnota 1,0 znamená, že skóre je plně normalizováno podle délky dokumentu. |
| k1 |
number (double) |
Tato vlastnost řídí funkci změny velikosti mezi četností termínů jednotlivých odpovídajících výrazů a konečným skóre relevance dvojice dokument-dotaz. Ve výchozím nastavení se používá hodnota 1,2. Hodnota 0,0 znamená, že skóre se neškáluje se zvyšováním frekvence období. |
CharFilterName
Definuje názvy všech filtrů znaků podporovaných vyhledávacím modulem.
| Hodnota | Description |
|---|---|
| html_strip |
Filtr znaků, který se pokouší odstranit konstrukce jazyka HTML. Viz https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html. |
CjkBigramTokenFilter
Tvoří bigramy termínů CJK, které jsou generovány ze standardního tokenizéru. Tento filtr tokenů je implementován pomocí Apache Lucene.
| Name | Typ | Default value | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ filtru tokenu. |
|
| ignoreScripts |
Skripty, které se mají ignorovat. |
||
| name |
string |
Název filtru tokenů. Smí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezena na 128 znaků. |
|
| outputUnigrams |
boolean |
False |
Hodnota označující, zda se má vypsat unigramy i bigramy (pokud je true), nebo pouze bigramy (pokud false). Výchozí hodnota je False. |
CjkBigramTokenFilterScripts
Skripty, které může CjkBigramTokenFilter ignorovat.
| Hodnota | Description |
|---|---|
| han |
Ignorujte písmo Han při vytváření bigramů výrazů CJK. |
| hiragana |
Ignorujte písmo Hiragana při vytváření bigramů termínů CJK. |
| katakana |
Ignorujte písmo Katakana při vytváření bigramů termínů CJK. |
| hangul |
Ignorujte písmo Hangul při vytváření bigramů termínů CJK. |
ClassicSimilarity
Starší algoritmus podobnosti, který používá implementaci TF-IDF v Lucene TFIDFSimilarity. Tato varianta TF-IDF zavádí statickou normalizaci délky dokumentu a také koordinační faktory, které penalizují dokumenty, které se prohledávaným dotazům shodují jen částečně.
| Name | Typ | Description |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
ClassicTokenizer
Tokenizér založený na gramatice, který je vhodný pro zpracování většiny dokumentů v evropském jazyce. Tento tokenizer je implementován pomocí Apache Lucene.
| Name | Typ | Default value | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragment URI určující typ tokenizeru. |
|
| maxTokenLength |
integer (int32) maximum: 300 |
255 |
Maximální délka tokenu. Výchozí hodnota je 255. Tokeny delší než maximální délka se rozdělí. Maximální délka tokenu, kterou lze použít, je 300 znaků. |
| name |
string |
Název tokenizátoru. Smí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezena na 128 znaků. |
CommonGramTokenFilter
Vytvářejte bigramy pro často se vyskytující výrazy při indexování. Jednotlivé termíny jsou také stále indexovány, s překrytými bigramy. Tento filtr tokenů je implementován pomocí Apache Lucene.
| Name | Typ | Default value | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ filtru tokenu. |
|
| commonWords |
string[] |
Množina běžných slov. |
|
| ignoreCase |
boolean |
False |
Hodnota označující, zda při shodě běžných slov nebudou rozlišovat velká a malá písmena. Výchozí hodnota je False. |
| name |
string |
Název filtru tokenů. Smí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezena na 128 znaků. |
|
| queryMode |
boolean |
False |
Hodnota, která označuje, zda je filtr tokenů v režimu dotazu. V režimu dotazu filtr tokenů generuje bigramy a poté odstraňuje běžná slova a jednotlivé výrazy následované společným slovem. Výchozí hodnota je False. |
CorsOptions
Definuje možnosti pro řízení sdílení prostředků mezi zdroji (CORS) pro index.
| Name | Typ | Description |
|---|---|---|
| allowedOrigins |
string[] |
Seznam zdrojů, ze kterých bude kódu JavaScript udělen přístup k vašemu indexu. Může obsahovat seznam hostitelů ve tvaru {protocol}://{fully-qualified-domain-name}[:{port#}] nebo jeden znak *, který povoluje všechny zdroje (nedoporučuje se). |
| maxAgeInSeconds |
integer (int64) |
Doba, po kterou by prohlížeče měly ukládat předběžné odpovědi CORS do mezipaměti. Výchozí hodnota je 5 minut. |
CustomAnalyzer
Umožňuje převzít kontrolu nad procesem převodu textu na indexovatelné/prohledávatelné tokeny. Jedná se o uživatelsky definovanou konfiguraci skládající se z jednoho předdefinovaného tokenizéru a jednoho nebo více filtrů. Tokenizátor je zodpovědný za rozdělení textu na tokeny a filtry pro úpravu tokenů generovaných tokenizátorem.
| Name | Typ | Description |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ analyzátoru. |
| charFilters |
Seznam filtrů znaků používaných k přípravě vstupního textu před jeho zpracováním tokenizátorem. Mohou například nahradit určité znaky nebo symboly. Filtry se spouštějí v pořadí, ve kterém jsou uvedeny. |
|
| name |
string |
Název analyzátoru. Smí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezena na 128 znaků. |
| tokenFilters |
Seznam filtrů tokenů používaných k odfiltrování nebo úpravě tokenů generovaných tokenizátorem. Můžete například určit filtr malých písmen, který převede všechny znaky na malá písmena. Filtry se spouštějí v pořadí, ve kterém jsou uvedeny. |
|
| tokenizer |
Název tokenizátoru, který se má použít k rozdělení souvislého textu do posloupnosti tokenů, například k rozdělení věty na slova. |
CustomNormalizer
Umožňuje nakonfigurovat normalizaci pro filtrovatelná, seřaditelná pole a pole plošek, která ve výchozím nastavení pracují s přísným porovnáváním. Jedná se o uživatelem definovanou konfiguraci skládající se alespoň z jednoho nebo více filtrů, které upravují uložený token.
| Name | Typ | Description |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ normalizátoru. |
| charFilters |
Seznam filtrů znaků používaných k přípravě vstupního textu před jeho zpracováním. Mohou například nahradit určité znaky nebo symboly. Filtry se spouštějí v pořadí, ve kterém jsou uvedeny. |
|
| name |
string |
Název normalizátoru. Smí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezena na 128 znaků. Nesmí končit na ".microsoft" ani ".lucene", ani nesmí být pojmenován "asciifolding", "standard", "malá písmena", "velká písmena" nebo "elision". |
| tokenFilters |
Seznam filtrů tokenů, které slouží k odfiltrování nebo úpravě vstupního tokenu. Můžete například určit filtr malých písmen, který převede všechny znaky na malá písmena. Filtry se spouštějí v pořadí, ve kterém jsou uvedeny. |
DictionaryDecompounderTokenFilter
Rozkládá složená slova vyskytující se v mnoha germánských jazycích. Tento filtr tokenů je implementován pomocí Apache Lucene.
| Name | Typ | Default value | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ filtru tokenu. |
|
| maxSubwordSize |
integer (int32) maximum: 300 |
15 |
Maximální velikost podslova. Výstupem jsou pouze podslova kratší než tato. Výchozí hodnota je 15. Maximum je 300. |
| minSubwordSize |
integer (int32) maximum: 300 |
2 |
Minimální velikost podslovu. Výstupem jsou pouze podslova delší než tato. Výchozí hodnota je 2. Maximum je 300. |
| minWordSize |
integer (int32) maximum: 300 |
5 |
Minimální velikost slova. Zpracovávají se pouze slova delší než tato. Výchozí hodnota je 5. Maximum je 300. |
| name |
string |
Název filtru tokenů. Smí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezena na 128 znaků. |
|
| onlyLongestMatch |
boolean |
False |
Hodnota označující, zda se má do výstupu přidat pouze nejdelší odpovídající podslovo. Výchozí hodnota je False. |
| wordList |
string[] |
Seznam slov, která mají být porovnána. |
DistanceScoringFunction
Definuje funkci, která zvyšuje skóre na základě vzdálenosti od zeměpisné polohy.
| Name | Typ | Description |
|---|---|---|
| boost |
number (double) |
Násobitel pro hrubé skóre. Musí být kladné číslo, které se nerovná 1,0. |
| distance |
Hodnoty parametrů pro funkci bodování vzdálenosti. |
|
| fieldName |
string |
Název pole, které se používá jako vstup pro funkci bodování. |
| interpolation |
Hodnota označující, jak bude zvýšení interpolováno napříč skóre dokumentu; výchozí hodnota je "Lineární". |
|
| type |
string:
distance |
Označuje typ funkce, která se má použít. Mezi platné hodnoty patří velikost, aktuálnost, vzdálenost a značka. Typ funkce musí být malými písmeny. |
DistanceScoringParameters
Poskytuje hodnoty parametrů pro funkci bodování vzdálenosti.
| Name | Typ | Description |
|---|---|---|
| boostingDistance |
number (double) |
Vzdálenost v kilometrech od referenčního místa, kde končí rozsah zesílení. |
| referencePointParameter |
string |
Název parametru předaného ve vyhledávacích dotazech k určení umístění odkazu. |
EdgeNGramTokenFilter
Generuje n-gramy dané velikosti (velikostí) počínaje přední nebo zadní stranou vstupního tokenu. Tento filtr tokenů je implementován pomocí Apache Lucene.
| Name | Typ | Default value | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ filtru tokenu. |
|
| maxGram |
integer (int32) |
2 |
Maximální délka n-gramů. Výchozí hodnota je 2. |
| minGram |
integer (int32) |
1 |
Minimální délka n-gramu. Výchozí hodnota je 1. Musí být menší než hodnota parametru maxGram. |
| name |
string |
Název filtru tokenů. Smí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezena na 128 znaků. |
|
| side | front |
Určuje, ze které strany vstupu by měl být n-gram generován. Výchozí je "front". |
EdgeNGramTokenFilterSide
Určuje, ze které strany vstupu by měl být n-gram generován.
| Hodnota | Description |
|---|---|
| front |
Určuje, že n-gram by měl být generován z přední části vstupu. |
| back |
Určuje, že n-gram má být generován ze zadní části vstupu. |
EdgeNGramTokenFilterV2
Generuje n-gramy dané velikosti (velikostí) počínaje přední nebo zadní stranou vstupního tokenu. Tento filtr tokenů je implementován pomocí Apache Lucene.
| Name | Typ | Default value | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ filtru tokenu. |
|
| maxGram |
integer (int32) maximum: 300 |
2 |
Maximální délka n-gramů. Výchozí hodnota je 2. Maximum je 300. |
| minGram |
integer (int32) maximum: 300 |
1 |
Minimální délka n-gramu. Výchozí hodnota je 1. Maximum je 300. Musí být menší než hodnota parametru maxGram. |
| name |
string |
Název filtru tokenů. Smí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezena na 128 znaků. |
|
| side | front |
Určuje, ze které strany vstupu by měl být n-gram generován. Výchozí je "front". |
EdgeNGramTokenizer
Tokenizuje vstup z okraje na n-gramy dané velikosti (velikostí). Tento tokenizer je implementován pomocí Apache Lucene.
| Name | Typ | Default value | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragment URI určující typ tokenizeru. |
|
| maxGram |
integer (int32) maximum: 300 |
2 |
Maximální délka n-gramů. Výchozí hodnota je 2. Maximum je 300. |
| minGram |
integer (int32) maximum: 300 |
1 |
Minimální délka n-gramu. Výchozí hodnota je 1. Maximum je 300. Musí být menší než hodnota parametru maxGram. |
| name |
string |
Název tokenizátoru. Smí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezena na 128 znaků. |
|
| tokenChars |
Třídy znaků, které se mají zachovat v tokenech. |
ElisionTokenFilter
Odstraňuje elize. Například "l'avion" (letadlo) bude převedeno na "avion" (letadlo). Tento filtr tokenů je implementován pomocí Apache Lucene.
| Name | Typ | Description |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ filtru tokenu. |
| articles |
string[] |
Sada článků k odstranění. |
| name |
string |
Název filtru tokenů. Smí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezena na 128 znaků. |
ErrorAdditionalInfo
Další informace o chybě správy prostředků
| Name | Typ | Description |
|---|---|---|
| info |
object |
Další informace. |
| type |
string |
Další typ informací. |
ErrorDetail
Podrobnosti o chybě.
| Name | Typ | Description |
|---|---|---|
| additionalInfo |
Další informace o chybě. |
|
| code |
string |
Kód chyby. |
| details |
Podrobnosti o chybě. |
|
| message |
string |
Chybová zpráva. |
| target |
string |
Cíl chyby. |
ErrorResponse
Chybová odpověď
| Name | Typ | Description |
|---|---|---|
| error |
Objekt chyby. |
ExhaustiveKnnParameters
Obsahuje parametry specifické pro vyčerpávající algoritmus KNN.
| Name | Typ | Description |
|---|---|---|
| metric |
Metrika podobnosti, která se má použít pro vektorové porovnání. |
ExhaustiveKnnVectorSearchAlgorithmConfiguration
Obsahuje možnosti konfigurace specifické pro vyčerpávající algoritmus KNN používaný při dotazování, který bude provádět vyhledávání hrubou silou v celém vektorovém indexu.
| Name | Typ | Description |
|---|---|---|
| exhaustiveKnnParameters |
Obsahuje parametry specifické pro vyčerpávající algoritmus KNN. |
|
| kind |
string:
exhaustive |
Název druhu algoritmu, který je konfigurován pro použití s vektorovým vyhledáváním. |
| name |
string |
Název, který má být spojen s touto konkrétní konfigurací. |
FreshnessScoringFunction
Definuje funkci, která zvyšuje skóre na základě hodnoty pole data a času.
| Name | Typ | Description |
|---|---|---|
| boost |
number (double) |
Násobitel pro hrubé skóre. Musí být kladné číslo, které se nerovná 1,0. |
| fieldName |
string |
Název pole, které se používá jako vstup pro funkci bodování. |
| freshness |
Hodnoty parametrů pro funkci bodování aktuálnosti. |
|
| interpolation |
Hodnota označující, jak bude zvýšení interpolováno napříč skóre dokumentu; výchozí hodnota je "Lineární". |
|
| type |
string:
freshness |
Označuje typ funkce, která se má použít. Mezi platné hodnoty patří velikost, aktuálnost, vzdálenost a značka. Typ funkce musí být malými písmeny. |
FreshnessScoringParameters
Poskytuje hodnoty parametrů funkci bodování aktuálnosti.
| Name | Typ | Description |
|---|---|---|
| boostingDuration |
string (duration) |
Dobu vypršení platnosti, po jejímž uplynutí se zvyšování úrovně pro konkrétní dokument zastaví. |
HnswParameters
Obsahuje parametry specifické pro algoritmus HNSW.
| Name | Typ | Default value | Description |
|---|---|---|---|
| efConstruction |
integer (int32) minimum: 100maximum: 1000 |
400 |
Velikost dynamického seznamu obsahujícího nejbližší sousedy, který se používá během doby indexu. Zvýšení tohoto parametru může zlepšit kvalitu indexu na úkor delší doby indexování. V určitém okamžiku vede zvýšení tohoto parametru ke snížení výnosů. |
| efSearch |
integer (int32) minimum: 100maximum: 1000 |
500 |
Velikost dynamického seznamu obsahujícího nejbližší sousedy, který se používá během doby vyhledávání. Zvýšení tohoto parametru může zlepšit výsledky hledání na úkor pomalejšího vyhledávání. V určitém okamžiku vede zvýšení tohoto parametru ke snížení výnosů. |
| m |
integer (int32) minimum: 4maximum: 10 |
4 |
Počet obousměrných spojů vytvořených pro každý nový prvek během výstavby. Zvýšení hodnoty tohoto parametru může zlepšit úplnost a zkrátit dobu načítání datových sad s vysokou vnitřní dimenzionalitou na úkor zvýšené spotřeby paměti a delší doby indexování. |
| metric |
Metrika podobnosti, která se má použít pro vektorové porovnání. |
HnswVectorSearchAlgorithmConfiguration
Obsahuje možnosti konfigurace specifické pro algoritmus HNSW přibližných nejbližších sousedů používaný během indexování a dotazování. Algoritmus HNSW nabízí laditelný kompromis mezi rychlostí vyhledávání a přesností.
| Name | Typ | Description |
|---|---|---|
| hnswParameters |
Obsahuje parametry specifické pro algoritmus HNSW. |
|
| kind |
string:
hnsw |
Název druhu algoritmu, který je konfigurován pro použití s vektorovým vyhledáváním. |
| name |
string |
Název, který má být spojen s touto konkrétní konfigurací. |
InputFieldMappingEntry
Mapování vstupního pole pro dovednost.
| Name | Typ | Description |
|---|---|---|
| inputs |
Rekurzivní vstupy používané při vytváření komplexního typu. |
|
| name |
string |
Název vstupu. |
| source |
string |
Zdroj vstupu. |
| sourceContext |
string |
Zdrojový kontext používaný pro výběr rekurzivních vstupů. |
KeepTokenFilter
Filtr tokenů, který uchovává pouze tokeny s textem obsaženým v určeném seznamu slov. Tento filtr tokenů je implementován pomocí Apache Lucene.
| Name | Typ | Default value | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ filtru tokenu. |
|
| keepWords |
string[] |
Seznam slov, která je třeba zachovat. |
|
| keepWordsCase |
boolean |
False |
Hodnota označující, zda se mají všechna slova nejprve psát malými písmeny. Výchozí hodnota je False. |
| name |
string |
Název filtru tokenů. Smí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezena na 128 znaků. |
KeywordMarkerTokenFilter
Označí termíny jako klíčová slova. Tento filtr tokenů je implementován pomocí Apache Lucene.
| Name | Typ | Default value | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ filtru tokenu. |
|
| ignoreCase |
boolean |
False |
Hodnota označující, zda se mají ignorovat velká a malá písmena. Pokud je true, všechna slova se nejprve převedou na malá písmena. Výchozí hodnota je False. |
| keywords |
string[] |
Seznam slov, která mají být označena jako klíčová slova. |
|
| name |
string |
Název filtru tokenů. Smí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezena na 128 znaků. |
KeywordTokenizer
Vygeneruje celý vstup jako jeden token. Tento tokenizer je implementován pomocí Apache Lucene.
| Name | Typ | Default value | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragment URI určující typ tokenizeru. |
|
| bufferSize |
integer (int32) |
256 |
Velikost vyrovnávací paměti pro čtení v bajtech. Výchozí hodnota je 256. |
| name |
string |
Název tokenizátoru. Smí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezena na 128 znaků. |
KeywordTokenizerV2
Vygeneruje celý vstup jako jeden token. Tento tokenizer je implementován pomocí Apache Lucene.
| Name | Typ | Default value | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragment URI určující typ tokenizeru. |
|
| maxTokenLength |
integer (int32) maximum: 300 |
256 |
Maximální délka tokenu. Výchozí hodnota je 256. Tokeny delší než maximální délka se rozdělí. Maximální délka tokenu, kterou lze použít, je 300 znaků. |
| name |
string |
Název tokenizátoru. Smí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezena na 128 znaků. |
LengthTokenFilter
Odstraní slova, která jsou příliš dlouhá nebo příliš krátká. Tento filtr tokenů je implementován pomocí Apache Lucene.
| Name | Typ | Default value | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ filtru tokenu. |
|
| max |
integer (int32) maximum: 300 |
300 |
Maximální délka ve znacích. Výchozí a maximální hodnota je 300. |
| min |
integer (int32) maximum: 300 |
0 |
Minimální délka ve znacích. Výchozí hodnota je 0. Maximum je 300. Musí být menší než hodnota max. |
| name |
string |
Název filtru tokenů. Smí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezena na 128 znaků. |
LexicalAnalyzerName
Definuje názvy všech analyzátorů textu podporovaných vyhledávacím modulem.
| Hodnota | Description |
|---|---|
| ar.microsoft |
Analyzátor společnosti Microsoft pro arabštinu. |
| ar.lucene |
Lucene analyzátor pro arabštinu. |
| hy.lucene |
Lucene analyzátor pro arménštinu. |
| bn.microsoft |
Analyzátor společnosti Microsoft pro bengálštinu. |
| eu.lucene |
Lucene analyzátor pro baskičtinu. |
| bg.microsoft |
Analyzátor společnosti Microsoft pro bulharštinu. |
| bg.lucene |
Lucene analyzátor pro bulharštinu. |
| ca.microsoft |
Microsoft analyzer pro katalánštinu. |
| ca.lucene |
Lucene analyzátor pro katalánštinu. |
| zh-Hans.microsoft |
Analyzátor společnosti Microsoft pro čínštinu (zjednodušený). |
| zh-Hans.lucene |
Lucene analyzátor pro čínštinu (zjednodušený). |
| zh-Hant.microsoft |
Analyzátor společnosti Microsoft pro čínštinu (tradiční). |
| zh-Hant.lucene |
Analyzátor Lucene pro čínštinu (tradiční). |
| hr.microsoft |
Microsoft analyzer pro chorvatštinu. |
| cs.microsoft |
Microsoft analyzátor pro češtinu. |
| cs.lucene |
Analyzátor lucene pro češtinu. |
| da.microsoft |
Microsoft analyzer pro dánštinu. |
| da.lucene |
Analyzátor lucene pro dánštinu. |
| nl.microsoft |
Microsoft analyzer pro nizozemštinu. |
| nl.lucene |
Lucene analyzátor pro nizozemštinu. |
| en.microsoft |
Analyzátor společnosti Microsoft pro angličtinu. |
| en.lucene |
Lucene analyzátor pro angličtinu. |
| et.microsoft |
Analyzátor společnosti Microsoft pro estonštinu. |
| fi.microsoft |
Microsoft analyzer pro finštinu. |
| fi.lucene |
Lucene analyzátor pro finštinu. |
| fr.microsoft |
Analyzátor společnosti Microsoft pro francouzštinu. |
| fr.lucene |
Lucene analyzátor pro francouzštinu. |
| gl.lucene |
Lucene analyzátor pro galicijštinu. |
| de.microsoft |
Analyzátor společnosti Microsoft pro němčinu. |
| de.lucene |
Lucene analyzátor pro němčinu. |
| el.microsoft |
Analyzátor společnosti Microsoft pro řečtinu. |
| el.lucene |
Lucene analyzátor pro řečtinu. |
| gu.microsoft |
Analyzátor společnosti Microsoft pro gudžarátštinu. |
| he.microsoft |
Analyzátor společnosti Microsoft pro hebrejštinu. |
| hi.microsoft |
Microsoft analyzátor pro hindštinu. |
| hi.lucene |
Lucene analyzátor pro hindštinu. |
| hu.microsoft |
Microsoft analyzer pro maďarštinu. |
| hu.lucene |
Lucene analyzátor pro maďarštinu. |
| is.microsoft |
Analyzátor společnosti Microsoft pro islandštinu. |
| id.microsoft |
Analyzátor společnosti Microsoft pro indonéštinu (Bahasa). |
| id.lucene |
Lucene analyzátor pro indonéštinu. |
| ga.lucene |
Lucene analyzátor pro irštinu. |
| it.microsoft |
Microsoft analyzer pro italštinu. |
| it.lucene |
Lucene analyzátor pro italštinu. |
| ja.microsoft |
Analyzátor společnosti Microsoft pro japonštinu. |
| ja.lucene |
Lucene analyzátor pro japonštinu. |
| kn.microsoft |
Analyzátor společnosti Microsoft pro kannadštinu. |
| ko.microsoft |
Analyzátor společnosti Microsoft pro korejštinu. |
| ko.lucene |
Lucene analyzátor pro korejštinu. |
| lv.microsoft |
Microsoft analyzer pro lotyštinu. |
| lv.lucene |
Lucene analyzátor pro lotyštinu. |
| lt.microsoft |
Microsoft analyzer pro litevštinu. |
| ml.microsoft |
Microsoft analyzátor pro malajálamštinu. |
| ms.microsoft |
Analyzátor společnosti Microsoft pro malajštinu (latinka). |
| mr.microsoft |
Microsoft analyzer pro maráthštinu. |
| nb.microsoft |
Microsoft analyzer for Norwegian (Bokmål). |
| no.lucene |
Lucene analyzátor pro norštinu. |
| fa.lucene |
Lucene analyzátor pro perštinu. |
| pl.microsoft |
Microsoft analyzátor pro polština. |
| pl.lucene |
Lucene analyzátor pro polštinu. |
| pt-BR.microsoft |
Analyzátor společnosti Microsoft pro portugalštinu (Brazílie). |
| pt-BR.lucene |
Analyzátor lucene pro portugalštinu (Brazílie). |
| pt-PT.microsoft |
Analyzátor společnosti Microsoft pro portugalštinu (Portugalsko). |
| pt-PT.lucene |
Analyzátor lucene pro portugalštinu (Portugalsko). |
| pa.microsoft |
Microsoft analyzer pro paňdžábštinu. |
| ro.microsoft |
Microsoft analyzer pro rumunštinu. |
| ro.lucene |
Lucene analyzátor pro rumunské. |
| ru.microsoft |
Microsoft analyzer pro ruštinu. |
| ru.lucene |
Lucene analyzátor pro ruštinu. |
| sr-cyrillic.microsoft |
Analyzátor společnosti Microsoft pro srbštinu (cyrilice). |
| sr-latin.microsoft |
Analyzátor společnosti Microsoft pro srbštinu (latinka). |
| sk.microsoft |
Microsoft analyzer pro slovenštinu. |
| sl.microsoft |
Microsoft analyzer pro slovinštinu. |
| es.microsoft |
Analyzátor společnosti Microsoft pro španělštinu. |
| es.lucene |
Lucene analyzátor pro španělštinu. |
| sv.microsoft |
Analyzátor společnosti Microsoft pro švédštinu. |
| sv.lucene |
Analyzátor Lucene pro švédštinu. |
| ta.microsoft |
Microsoft analyzer pro tamilštinu. |
| te.microsoft |
Analyzátor společnosti Microsoft pro telugštinu. |
| th.microsoft |
Analyzátor společnosti Microsoft pro thajštinu. |
| th.lucene |
Lucene analyzátor pro thajštinu. |
| tr.microsoft |
Microsoft analyzer pro turečtinu. |
| tr.lucene |
Lucene analyzátor pro turečtinu. |
| uk.microsoft |
Microsoft analyzer pro ukrajinštinu. |
| ur.microsoft |
Microsoft analyzer pro urdštinu. |
| vi.microsoft |
Microsoft analyzer pro vietnamštinu. |
| standard.lucene |
Standardní analyzátor Lucene. |
| standardasciifolding.lucene |
Standardní analyzátor ASCII skládacího lucenu. Viz https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers. |
| keyword |
Zachází s celým obsahem pole jako s jedním tokenem. To je užitečné pro data, jako jsou PSČ, ID a některé názvy produktů. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html. |
| pattern |
Flexibilně rozděluje text na termíny pomocí vzoru regulárních výrazů. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html. |
| simple |
Rozdělí text na nepísmena a převede je na malá písmena. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html. |
| stop |
Rozdělí text na nepísmena; Použije filtry tokenů psaných malými písmeny a stopword. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html. |
| whitespace |
Analyzátor, který používá tokenizátor prázdných znaků. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html. |
LexicalNormalizerName
Definuje názvy všech normalizátorů textu podporovaných vyhledávacím modulem.
LexicalTokenizerName
Definuje jména všech tokenizátorů podporovaných vyhledávačem.
LimitTokenFilter
Omezuje počet tokenů při indexování. Tento filtr tokenů je implementován pomocí Apache Lucene.
| Name | Typ | Default value | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ filtru tokenu. |
|
| consumeAllTokens |
boolean |
False |
Hodnota označující, zda musí být spotřebovány všechny tokeny ze vstupu i v případě, že je dosaženo maxTokenCount. Výchozí hodnota je False. |
| maxTokenCount |
integer (int32) |
1 |
Maximální počet tokenů, které se mají vyrobit. Výchozí hodnota je 1. |
| name |
string |
Název filtru tokenů. Smí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezena na 128 znaků. |
LuceneStandardAnalyzer
Standardní analyzátor Apache Lucene; Skládá se ze standardního tokenizéru, filtru malých písmen a filtru stop.
| Name | Typ | Default value | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ analyzátoru. |
|
| maxTokenLength |
integer (int32) maximum: 300 |
255 |
Maximální délka tokenu. Výchozí hodnota je 255. Tokeny delší než maximální délka se rozdělí. Maximální délka tokenu, kterou lze použít, je 300 znaků. |
| name |
string |
Název analyzátoru. Smí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezena na 128 znaků. |
|
| stopwords |
string[] |
Seznam stopslov. |
LuceneStandardTokenizer
Zalomí text podle pravidel segmentace textu Unicode. Tento tokenizer je implementován pomocí Apache Lucene.
| Name | Typ | Default value | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragment URI určující typ tokenizeru. |
|
| maxTokenLength |
integer (int32) |
255 |
Maximální délka tokenu. Výchozí hodnota je 255. Tokeny delší než maximální délka se rozdělí. |
| name |
string |
Název tokenizátoru. Smí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezena na 128 znaků. |
LuceneStandardTokenizerV2
Zalomí text podle pravidel segmentace textu Unicode. Tento tokenizer je implementován pomocí Apache Lucene.
| Name | Typ | Default value | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragment URI určující typ tokenizeru. |
|
| maxTokenLength |
integer (int32) maximum: 300 |
255 |
Maximální délka tokenu. Výchozí hodnota je 255. Tokeny delší než maximální délka se rozdělí. Maximální délka tokenu, kterou lze použít, je 300 znaků. |
| name |
string |
Název tokenizátoru. Smí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezena na 128 znaků. |
MagnitudeScoringFunction
Definuje funkci, která zvyšuje skóre na základě velikosti číselného pole.
| Name | Typ | Description |
|---|---|---|
| boost |
number (double) |
Násobitel pro hrubé skóre. Musí být kladné číslo, které se nerovná 1,0. |
| fieldName |
string |
Název pole, které se používá jako vstup pro funkci bodování. |
| interpolation |
Hodnota označující, jak bude zvýšení interpolováno napříč skóre dokumentu; výchozí hodnota je "Lineární". |
|
| magnitude |
Hodnoty parametrů pro funkci bodování velikosti. |
|
| type |
string:
magnitude |
Označuje typ funkce, která se má použít. Mezi platné hodnoty patří velikost, aktuálnost, vzdálenost a značka. Typ funkce musí být malými písmeny. |
MagnitudeScoringParameters
Poskytuje hodnoty parametrů pro funkci bodování velikosti.
| Name | Typ | Description |
|---|---|---|
| boostingRangeEnd |
number (double) |
Hodnota pole, na které boostování končí. |
| boostingRangeStart |
number (double) |
Hodnota pole, na které začíná boostování. |
| constantBoostBeyondRange |
boolean |
Hodnota označující, zda se má použít konstantní zesílení pro hodnoty polí nad rámec koncové hodnoty rozsahu; výchozí hodnota je false. |
MappingCharFilter
Filtr znaků, který aplikuje mapování definovaná pomocí volby mapování. Porovnávání je hladové (vyhrává nejdelší porovnávání vzorů v daném bodě). Nahrazením může být prázdný řetězec. Tento filtr znaků je implementován pomocí Apache Lucene.
| Name | Typ | Description |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ filtru znaků. |
| mappings |
string[] |
Seznam mapování následujícího formátu: "a=>b" (všechny výskyty znaku "a" budou nahrazeny znakem "b"). |
| name |
string |
Název filtru znaků. Smí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezena na 128 znaků. |
MicrosoftLanguageStemmingTokenizer
Rozdělí text pomocí pravidel specifických pro daný jazyk a zredukuje slova na jejich základní tvary.
| Name | Typ | Default value | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragment URI určující typ tokenizeru. |
|
| isSearchTokenizer |
boolean |
False |
Hodnota označující, jak se tokenizer používá. Nastavte na hodnotu true, pokud se používá jako vyhledávací tokenizátor, nastavte na false, pokud se používá jako indexovací tokenizátor. Výchozí hodnota je False. |
| language |
Jazyk, který se má použít. Výchozí je angličtina. |
||
| maxTokenLength |
integer (int32) maximum: 300 |
255 |
Maximální délka tokenu. Tokeny delší než maximální délka se rozdělí. Maximální délka tokenu, kterou lze použít, je 300 znaků. Tokeny delší než 300 znaků se nejprve rozdělí na tokeny o délce 300 a poté se každý z těchto tokenů rozdělí na základě nastavené maximální délky tokenu. Výchozí hodnota je 255. |
| name |
string |
Název tokenizátoru. Smí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezena na 128 znaků. |
MicrosoftLanguageTokenizer
Rozdělí text pomocí pravidel specifických pro daný jazyk.
| Name | Typ | Default value | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragment URI určující typ tokenizeru. |
|
| isSearchTokenizer |
boolean |
False |
Hodnota označující, jak se tokenizer používá. Nastavte na hodnotu true, pokud se používá jako vyhledávací tokenizátor, nastavte na false, pokud se používá jako indexovací tokenizátor. Výchozí hodnota je False. |
| language |
Jazyk, který se má použít. Výchozí je angličtina. |
||
| maxTokenLength |
integer (int32) maximum: 300 |
255 |
Maximální délka tokenu. Tokeny delší než maximální délka se rozdělí. Maximální délka tokenu, kterou lze použít, je 300 znaků. Tokeny delší než 300 znaků se nejprve rozdělí na tokeny o délce 300 a poté se každý z těchto tokenů rozdělí na základě nastavené maximální délky tokenu. Výchozí hodnota je 255. |
| name |
string |
Název tokenizátoru. Smí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezena na 128 znaků. |
MicrosoftStemmingTokenizerLanguage
Uvádí jazyky podporované jazykovým stemizérem společnosti Microsoft.
| Hodnota | Description |
|---|---|
| arabic |
Vybere kmenový tokenizátor společnosti Microsoft pro arabštinu. |
| bangla |
Vybere stemming tokenizer společnosti Microsoft pro bengálštinu. |
| bulgarian |
Vybere kmenový tokenizátor společnosti Microsoft pro bulharštinu. |
| catalan |
Vybere stemming tokenizer společnosti Microsoft pro katalánštinu. |
| croatian |
Vybere Microsoft stemming tokenizer pro chorvatštinu. |
| czech |
Vybere Microsoft stemming tokenizer pro češtinu. |
| danish |
Vybere stemming tokenizer společnosti Microsoft pro dánštinu. |
| dutch |
Vybere stemming tokenizer společnosti Microsoft pro nizozemštinu. |
| english |
Vybere stemming tokenizer společnosti Microsoft pro angličtinu. |
| estonian |
Vybere stemming tokenizer společnosti Microsoft pro estonštinu. |
| finnish |
Vybere kmenový tokenizátor společnosti Microsoft pro finštinu. |
| french |
Vybere kmenový tokenizátor společnosti Microsoft pro francouzštinu. |
| german |
Vybere kmenový tokenizátor společnosti Microsoft pro němčinu. |
| greek |
Vybere stemming tokenizer společnosti Microsoft pro řečtinu. |
| gujarati |
Vybere stemming tokenizer společnosti Microsoft pro gudžarátštinu. |
| hebrew |
Vybere kmenový tokenizátor společnosti Microsoft pro hebrejštinu. |
| hindi |
Vybere kmenový tokenizátor společnosti Microsoft pro hindštinu. |
| hungarian |
Vybere stemming tokenizer společnosti Microsoft pro maďarštinu. |
| icelandic |
Vybere stemming tokenizer společnosti Microsoft pro islandštinu. |
| indonesian |
Vybere kmenový tokenizátor společnosti Microsoft pro indonéštinu. |
| italian |
Vybere stemming tokenizer společnosti Microsoft pro italštinu. |
| kannada |
Vybere kmenový tokenizátor společnosti Microsoft pro kannadštinu. |
| latvian |
Vybere stemming tokenizer společnosti Microsoft pro lotyštinu. |
| lithuanian |
Vybere kmenový tokenizátor společnosti Microsoft pro litevštinu. |
| malay |
Vybere stemming tokenizer společnosti Microsoft pro malajštinu. |
| malayalam |
Vybere kmenový tokenizátor společnosti Microsoft pro malajálamštinu. |
| marathi |
Vybere kmenový tokenizátor společnosti Microsoft pro maráthštinu. |
| norwegianBokmaal |
Vybere kmenový tokenizátor společnosti Microsoft pro norštinu (Bokmål). |
| polish |
Vybere kmenový tokenizátor společnosti Microsoft pro polštinu. |
| portuguese |
Vybere kmenový tokenizátor společnosti Microsoft pro portugalštinu. |
| portugueseBrazilian |
Vybere kmenový tokenizátor společnosti Microsoft pro portugalštinu (Brazílie). |
| punjabi |
Vybere kmenový tokenizátor společnosti Microsoft pro pandžábštinu. |
| romanian |
Vybere kmenový tokenizátor společnosti Microsoft pro rumunštinu. |
| russian |
Vybere stemming tokenizer společnosti Microsoft pro ruštinu. |
| serbianCyrillic |
Vybere stemming tokenizer společnosti Microsoft pro srbštinu (cyrilice). |
| serbianLatin |
Vybere kmenový tokenizátor společnosti Microsoft pro srbštinu (latinka). |
| slovak |
Vybere stemming tokenizer společnosti Microsoft pro slovenštinu. |
| slovenian |
Vybere kmenový tokenizátor společnosti Microsoft pro slovinštinu. |
| spanish |
Vybere kmenový tokenizátor společnosti Microsoft pro španělštinu. |
| swedish |
Vybere kmenový tokenizátor společnosti Microsoft pro švédštinu. |
| tamil |
Vybere kmenový tokenizátor společnosti Microsoft pro tamilštinu. |
| telugu |
Vybere stemming tokenizer společnosti Microsoft pro telugštinu. |
| turkish |
Vybere stemming tokenizer společnosti Microsoft pro turečtinu. |
| ukrainian |
Vybere kmenový tokenizátor společnosti Microsoft pro ukrajinštinu. |
| urdu |
Vybere kmenový tokenizátor společnosti Microsoft pro urdštinu. |
MicrosoftTokenizerLanguage
Uvádí jazyky podporované nástrojem pro tokenizaci jazyka společnosti Microsoft.
| Hodnota | Description |
|---|---|
| bangla |
Vybere tokenizér společnosti Microsoft pro bengálštinu. |
| bulgarian |
Vybere nástroj Microsoft Tokenizer pro bulharštinu. |
| catalan |
Vybere nástroj Microsoft Tokenizer pro katalánštinu. |
| chineseSimplified |
Vybere Microsoft tokenizer pro čínštinu (zjednodušenou). |
| chineseTraditional |
Vybere tokenizér Microsoft pro čínštinu (tradiční). |
| croatian |
Vybere Microsoft tokenizer pro chorvatštinu. |
| czech |
Vybere Microsoft tokenizer pro češtinu. |
| danish |
Vybere nástroj Microsoft Tokenizer pro dánštinu. |
| dutch |
Vybere nástroj Microsoft Tokenizer pro nizozemštinu. |
| english |
Vybere tokenizér společnosti Microsoft pro angličtinu. |
| french |
Vybere tokenizér Microsoft pro francouzštinu. |
| german |
Vybere tokenizátor Microsoft pro němčinu. |
| greek |
Vybere tokenizér společnosti Microsoft pro řečtinu. |
| gujarati |
Vybere nástroj Microsoft tokenizer pro gudžarátštinu. |
| hindi |
Vybere Microsoft tokenizer pro hindštinu. |
| icelandic |
Vybere nástroj Microsoft tokenizer pro islandštinu. |
| indonesian |
Vybere nástroj Microsoft tokenizer pro indonéštinu. |
| italian |
Vybere nástroj Microsoft tokenizer pro italštinu. |
| japanese |
Vybere tokenizér Microsoft pro japonštinu. |
| kannada |
Vybere nástroj Microsoft tokenizer pro kannadštinu. |
| korean |
Vybere nástroj Microsoft tokenizer pro korejštinu. |
| malay |
Vybere tokenizér společnosti Microsoft pro malajštinu. |
| malayalam |
Vybere tokenizér společnosti Microsoft pro malajálamštinu. |
| marathi |
Vybere Microsoft tokenizer pro Marathi. |
| norwegianBokmaal |
Vybere tokenizér společnosti Microsoft pro norštinu (Bokmål). |
| polish |
Vybere Microsoft tokenizer pro polštinu. |
| portuguese |
Vybere tokenizér společnosti Microsoft pro portugalštinu. |
| portugueseBrazilian |
Vybere nástroj Microsoft Tokenizer pro portugalštinu (Brazílie). |
| punjabi |
Vybere nástroj Microsoft Tokenizer pro pandžábštinu. |
| romanian |
Vybere nástroj Microsoft tokenizer pro rumunštinu. |
| russian |
Vybere tokenizátor společnosti Microsoft pro ruštinu. |
| serbianCyrillic |
Vybere tokenizér Microsoft pro srbštinu (cyrilice). |
| serbianLatin |
Vybere tokenizátor Microsoft pro srbštinu (latinka). |
| slovenian |
Vybere nástroj Microsoft Tokenizer pro slovinštinu. |
| spanish |
Vybere tokenizér společnosti Microsoft pro španělštinu. |
| swedish |
Vybere nástroj Microsoft Tokenizer pro švédštinu. |
| tamil |
Vybere nástroj Microsoft tokenizer pro tamilštinu. |
| telugu |
Vybere nástroj Microsoft Tokenizer pro telugštinu. |
| thai |
Vybere tokenizér společnosti Microsoft pro thajštinu. |
| ukrainian |
Vybere tokenizér společnosti Microsoft pro ukrajinštinu. |
| urdu |
Vybere tokenizér společnosti Microsoft pro urdštinu. |
| vietnamese |
Vybere tokenizér Microsoft pro vietnamštinu. |
NGramTokenFilter
Generuje n-gramů dané velikosti (velikostí). Tento filtr tokenů je implementován pomocí Apache Lucene.
| Name | Typ | Default value | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ filtru tokenu. |
|
| maxGram |
integer (int32) |
2 |
Maximální délka n-gramů. Výchozí hodnota je 2. |
| minGram |
integer (int32) |
1 |
Minimální délka n-gramu. Výchozí hodnota je 1. Musí být menší než hodnota parametru maxGram. |
| name |
string |
Název filtru tokenů. Smí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezena na 128 znaků. |
NGramTokenFilterV2
Generuje n-gramů dané velikosti (velikostí). Tento filtr tokenů je implementován pomocí Apache Lucene.
| Name | Typ | Default value | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ filtru tokenu. |
|
| maxGram |
integer (int32) maximum: 300 |
2 |
Maximální délka n-gramů. Výchozí hodnota je 2. Maximum je 300. |
| minGram |
integer (int32) maximum: 300 |
1 |
Minimální délka n-gramu. Výchozí hodnota je 1. Maximum je 300. Musí být menší než hodnota parametru maxGram. |
| name |
string |
Název filtru tokenů. Smí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezena na 128 znaků. |
NGramTokenizer
Tokenizuje vstup na n-gramy dané velikosti (velikostí). Tento tokenizer je implementován pomocí Apache Lucene.
| Name | Typ | Default value | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragment URI určující typ tokenizeru. |
|
| maxGram |
integer (int32) maximum: 300 |
2 |
Maximální délka n-gramů. Výchozí hodnota je 2. Maximum je 300. |
| minGram |
integer (int32) maximum: 300 |
1 |
Minimální délka n-gramu. Výchozí hodnota je 1. Maximum je 300. Musí být menší než hodnota parametru maxGram. |
| name |
string |
Název tokenizátoru. Smí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezena na 128 znaků. |
|
| tokenChars |
Třídy znaků, které se mají zachovat v tokenech. |
OutputFieldMappingEntry
Mapování výstupního pole pro dovednost.
| Name | Typ | Description |
|---|---|---|
| name |
string |
Název výstupu definovaného dovedností. |
| targetName |
string |
Cílový název výstupu. Je to volitelné a výchozí název. |
PathHierarchyTokenizerV2
Tokenizer pro hierarchie podobné cestám. Tento tokenizer je implementován pomocí Apache Lucene.
| Name | Typ | Default value | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragment URI určující typ tokenizeru. |
|
| delimiter |
string (char) |
/ |
Znak oddělovače, který se má použít. Výchozí hodnota je "/". |
| maxTokenLength |
integer (int32) maximum: 300 |
300 |
Maximální délka tokenu. Výchozí a maximální hodnota je 300. |
| name |
string |
Název tokenizátoru. Smí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezena na 128 znaků. |
|
| replacement |
string (char) |
/ |
Hodnota, která, pokud je nastavena, nahradí znak oddělovače. Výchozí hodnota je "/". |
| reverse |
boolean |
False |
Hodnota označující, zda se mají tokeny generovat v opačném pořadí. Výchozí hodnota je False. |
| skip |
integer (int32) |
0 |
Počet počátečních tokenů, které mají být přeskočeny. Výchozí hodnota je 0. |
PatternAnalyzer
Flexibilně rozděluje text na termíny pomocí vzoru regulárních výrazů. Tento analyzátor je implementován pomocí Apache Lucene.
| Name | Typ | Default value | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ analyzátoru. |
|
| flags |
Příznaky regulárních výrazů. |
||
| lowercase |
boolean |
True |
Hodnota označující, zda mají být termíny psány malými písmeny. Výchozí hodnota je true. |
| name |
string |
Název analyzátoru. Smí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezena na 128 znaků. |
|
| pattern |
string |
\W+ |
Vzor regulárního výrazu pro shodu s oddělovači tokenů. Výchozí je výraz, který odpovídá jednomu nebo více neslovním znakům. |
| stopwords |
string[] |
Seznam stopslov. |
PatternCaptureTokenFilter
Používá regulární výrazy Java k vygenerování více tokenů - jeden pro každou skupinu zachycení v jednom nebo více vzorech. Tento filtr tokenů je implementován pomocí Apache Lucene.
| Name | Typ | Default value | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ filtru tokenu. |
|
| name |
string |
Název filtru tokenů. Smí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezena na 128 znaků. |
|
| patterns |
string[] |
Seznam vzorů, které se mají porovnat s každým tokenem. |
|
| preserveOriginal |
boolean |
True |
Hodnota označující, zda se má vrátit původní token i v případě, že se jeden ze vzorů shoduje. Výchozí hodnota je true. |
PatternReplaceCharFilter
Filtr znaků, který nahrazuje znaky ve vstupním řetězci. Používá regulární výraz k identifikaci sekvencí znaků, které se mají zachovat, a vzor pro nahrazování k identifikaci znaků, které mají být nahrazeny. Například pro vstupní text "aa bb aa bb", vzor "(aa)\s+(bb)" a nahrazení "$1#$2" by výsledek byl "aa#bb aa#bb". Tento filtr znaků je implementován pomocí Apache Lucene.
| Name | Typ | Description |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ filtru znaků. |
| name |
string |
Název filtru znaků. Smí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezena na 128 znaků. |
| pattern |
string |
Vzor regulárního výrazu. |
| replacement |
string |
Text pro nahrazení. |
PatternReplaceTokenFilter
Filtr znaků, který nahrazuje znaky ve vstupním řetězci. Používá regulární výraz k identifikaci sekvencí znaků, které se mají zachovat, a vzor pro nahrazování k identifikaci znaků, které mají být nahrazeny. Například pro vstupní text "aa bb aa bb", vzor "(aa)\s+(bb)" a nahrazení "$1#$2" by výsledek byl "aa#bb aa#bb". Tento filtr tokenů je implementován pomocí Apache Lucene.
| Name | Typ | Description |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ filtru tokenu. |
| name |
string |
Název filtru tokenů. Smí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezena na 128 znaků. |
| pattern |
string |
Vzor regulárního výrazu. |
| replacement |
string |
Text pro nahrazení. |
PatternTokenizer
Tokenizer, který používá porovnávání vzorů regulárních výrazů k vytvoření odlišných tokenů. Tento tokenizer je implementován pomocí Apache Lucene.
| Name | Typ | Default value | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragment URI určující typ tokenizeru. |
|
| flags |
Příznaky regulárních výrazů. |
||
| group |
integer (int32) |
-1 |
Řadové číslo odpovídající skupiny založené na nule ve vzoru regulárního výrazu, které se má extrahovat do tokenů. -1 použijte, pokud chcete použít celý vzor k rozdělení vstupu na tokeny bez ohledu na odpovídající skupiny. Výchozí hodnota je -1. |
| name |
string |
Název tokenizátoru. Smí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezena na 128 znaků. |
|
| pattern |
string |
\W+ |
Vzor regulárního výrazu pro shodu s oddělovači tokenů. Výchozí je výraz, který odpovídá jednomu nebo více neslovním znakům. |
PhoneticEncoder
Identifikuje typ fonetického kodéru, který se má použít s PhoneticTokenFilter.
| Hodnota | Description |
|---|---|
| metaphone |
Zakóduje token do hodnoty Metaphone. |
| doubleMetaphone |
Zakóduje token do hodnoty double metafony. |
| soundex |
Zakóduje token do hodnoty Soundex. |
| refinedSoundex |
Zakóduje token do upřesněné hodnoty Soundex. |
| caverphone1 |
Zakóduje token do hodnoty Caverphone 1.0. |
| caverphone2 |
Zakóduje token do hodnoty Caverphone 2.0. |
| cologne |
Zakóduje token do kolínské fonetické hodnoty. |
| nysiis |
Zakóduje token do hodnoty NYSIIS. |
| koelnerPhonetik |
Zakóduje token pomocí Kölnerova fonetického algoritmu. |
| haasePhonetik |
Zakóduje token pomocí Haaseho upřesnění Kölnerova fonotického algoritmu. |
| beiderMorse |
Zakóduje token do Beider-Morse hodnoty. |
PhoneticTokenFilter
Vytvářet tokeny pro fonetické shody. Tento filtr tokenů je implementován pomocí Apache Lucene.
| Name | Typ | Default value | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ filtru tokenu. |
|
| encoder | metaphone |
Fonetický kodér, který se má použít. Výchozí je "metaphone". |
|
| name |
string |
Název filtru tokenů. Smí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezena na 128 znaků. |
|
| replace |
boolean |
True |
Hodnota označující, zda mají zakódované tokeny nahradit původní tokeny. Pokud je hodnota false, zakódované tokeny se přidají jako synonyma. Výchozí hodnota je true. |
PrioritizedFields
Popisuje pole názvu, obsahu a klíčových slov, která se mají použít pro sémantické řazení, titulky, zvýraznění a odpovědi.
| Name | Typ | Description |
|---|---|---|
| prioritizedContentFields |
Definuje pole obsahu, která se mají použít pro sémantické řazení, titulky, zvýraznění a odpovědi. Aby bylo dosaženo co nejlepších výsledků, měla by vybraná pole obsahovat text ve formě přirozeného jazyka. Pořadí polí v poli představuje jejich prioritu. Pole s nižší prioritou mohou být zkrácena, pokud je obsah dlouhý. |
|
| prioritizedKeywordsFields |
Definuje pole klíčových slov, která se mají použít pro sémantické řazení, titulky, zvýraznění a odpovědi. Nejlepších výsledků dosáhnete, když vybraná pole budou obsahovat seznam klíčových slov. Pořadí polí v poli představuje jejich prioritu. Pole s nižší prioritou mohou být zkrácena, pokud je obsah dlouhý. |
|
| titleField |
Definuje pole názvu, které se použije pro sémantické řazení, titulky, zvýraznění a odpovědi. Pokud v indexu nemáte pole názvu, ponechte toto pole prázdné. |
RankingOrder
Představuje skóre, které se má použít pro pořadí řazení dokumentů.
| Hodnota | Description |
|---|---|
| BoostedRerankerScore |
Nastaví pořadí řazení na BoostedRerankerScore |
| RerankerScore |
Nastaví pořadí řazení na ReRankerScore |
RegexFlags
Definuje příznaky, které lze kombinovat a řídit tak způsob použití regulárních výrazů v analyzátoru vzorů a tokenizátoru vzorů.
| Hodnota | Description |
|---|---|
| CANON_EQ |
Povolí kanonickou ekvivalenci. |
| CASE_INSENSITIVE |
Povolí porovnávání bez rozlišení velkých a malých písmen. |
| COMMENTS |
Povolí prázdné znaky a komentáře ve vzoru. |
| DOTALL |
Povolí režim dotall. |
| LITERAL |
Povolí literální analýzu vzoru. |
| MULTILINE |
Povolí víceřádkový režim. |
| UNICODE_CASE |
Povolí skládání velkých a malých písmen s podporou Unicode. |
| UNIX_LINES |
Povolí režim unixových linek. |
RescoringOptions
Obsahuje možnosti pro změnu hodnocení.
| Name | Typ | Default value | Description |
|---|---|---|---|
| defaultOversampling |
number (double) |
Výchozí faktor převzorkování. Převzorkování načte větší sadu potenciálních dokumentů, aby se vyrovnala ztráta rozlišení v důsledku kvantizace. Tím se zvětší sada výsledků, které budou znovu vyhodnoceny na vektorech s plnou přesností. Minimální hodnota je 1, což znamená, že nedochází k převzorkování (1x). Tento parametr lze nastavit pouze v případě, že je hodnota 'enableRescoring' pravdivá. Vyšší hodnoty zlepšují úplnost na úkor latence. |
|
| enableRescoring |
boolean |
True |
Pokud je nastavena na hodnotu true, po počátečním hledání komprimovaných vektorů se skóre podobnosti přepočítá pomocí vektorů s plnou přesností. Tím se zlepší úplnost na úkor latence. |
| rescoreStorageMethod | preserveOriginals |
Řídí metodu ukládání pro původní vektory. Toto nastavení je neměnné. |
ScalarQuantizationParameters
Obsahuje parametry specifické pro skalární kvantování.
| Name | Typ | Description |
|---|---|---|
| quantizedDataType |
Kvantovaný datový typ komprimovaných vektorových hodnot. |
ScalarQuantizationVectorSearchCompressionConfiguration
Obsahuje možnosti konfigurace specifické pro metodu skalární kvantizace, která se používá při indexování a dotazování.
| Name | Typ | Description |
|---|---|---|
| kind |
string:
scalar |
Název druhu metody komprese, která je konfigurována pro použití s vektorovým vyhledáváním. |
| name |
string |
Název, který má být spojen s touto konkrétní konfigurací. |
| rescoringOptions |
Obsahuje možnosti pro změnu hodnocení. |
|
| scalarQuantizationParameters |
Obsahuje parametry specifické pro skalární kvantování. |
|
| truncationDimension |
integer (int32) |
Počet kót, na které se mají vektory zkrátit. Zkrácením vektorů se zmenší velikost vektorů a množství dat, která je třeba během vyhledávání přenést. To může ušetřit náklady na úložiště a zlepšit výkon vyhledávání na úkor úplnosti. Měl by se používat pouze pro vkládání natrénované pomocí Matrjoshka Representation Learning (MRL), jako je OpenAI text-embedding-3-large (small). Výchozí hodnota je null, což znamená, že nedojde ke zkrácení. |
ScoringFunctionAggregation
Definuje agregační funkci, která se používá ke kombinování výsledků všech hodnotících funkcí v profilu vyhodnocování.
| Hodnota | Description |
|---|---|
| sum |
Zvyšte skóre součtem všech výsledků funkce bodování. |
| average |
Zvyšte skóre průměrem všech výsledků funkce bodování. |
| minimum |
Zvyšte skóre o minimum všech výsledků funkce bodování. |
| maximum |
Zvyšte skóre o maximum ze všech výsledků funkce bodování. |
| firstMatching |
Zvyšte skóre pomocí první použitelné funkce bodování v profilu hodnocení. |
ScoringFunctionInterpolation
Definuje funkci použitou k interpolaci zvýšení skóre v rozsahu dokumentů.
| Hodnota | Description |
|---|---|
| linear |
Zvyšuje skóre lineárně klesajícím množstvím. Toto je výchozí interpolace pro bodovací funkce. |
| constant |
Zvyšuje skóre konstantním faktorem. |
| quadratic |
Zvyšuje skóre o hodnotu, která se kvadraticky snižuje. Zrychlení se snižuje pomalu pro vyšší skóre a rychleji s klesajícím skóre. Tato možnost interpolace není povolena ve funkcích bodování značek. |
| logarithmic |
Zvýší skóre o hodnotu, která se logaritmicky snižuje. Zrychlení se rychle snižuje při vyšším skóre a pomaleji s klesajícím skóre. Tato možnost interpolace není povolena ve funkcích bodování značek. |
ScoringProfile
Definuje parametry pro vyhledávací index, které ovlivňují bodování ve vyhledávacích dotazech.
| Name | Typ | Description |
|---|---|---|
| functionAggregation |
Hodnota označující, jak by měly být výsledky jednotlivých hodnotících funkcí kombinovány. Výchozí hodnota je "Součet". Ignoruje se, pokud nejsou k dispozici žádné hodnotící funkce. |
|
| functions | ScoringFunction[]: |
Kolekce funkcí, které ovlivňují bodování dokumentů. |
| name |
string |
Název profilu hodnocení. |
| text |
Parametry, které zvyšují skóre na základě shod textu v určitých polích rejstříku. |
SearchField
Představuje pole v definici indexu, která popisuje název, datový typ a chování pole při hledání.
| Name | Typ | Description |
|---|---|---|
| analyzer |
Název analyzátoru, který se má použít pro pole. Tuto možnost lze použít pouze u prohledávatelných polí a nelze ji nastavit společně s searchAnalyzer ani indexAnalyzer. Jakmile je analyzátor vybrán, nelze jej pro pole změnit. U složitých polí musí mít hodnotu null. |
|
| dimensions |
integer (int32) minimum: 2maximum: 4096 |
Dimenzionalita vektorového pole. |
| facetable |
boolean |
Hodnota označující, zda se má povolit odkazování na pole v dotazech na omezující vlastnosti. Obvykle se používá v prezentaci výsledků hledání, která zahrnuje počet přístupů podle kategorií (například hledání digitálních fotoaparátů a zobrazení hitů podle značky, podle megapixelů, podle ceny atd.). Tato vlastnost musí mít hodnotu null pro složitá pole. Pole typu Edm.GeographyPoint nebo Collection(Edm.GeographyPoint) nemohou být plošky. Výchozí hodnota je true pro všechna ostatní jednoduchá pole. |
| fields |
Seznam dílčích polí, pokud se jedná o pole typu Edm.ComplexType nebo Collection(Edm.ComplexType). U jednoduchých polí musí mít hodnotu null nebo prázdnotu. |
|
| filterable |
boolean |
Hodnota označující, zda má být povoleno odkazování na pole v $filter dotazech. Filterable se liší od prohledávatelných v tom, jak se zachází s řetězci. Pole typu Edm.String nebo Collection(Edm.String), která lze filtrovat, nepodléhají zalamování slov, takže porovnání se týká pouze přesných shod. Pokud například nastavíte takové pole f na "slunečný den", $filter=f eq 'slunečno' nenajde žádné shody, ale $filter=f eq 'slunečný den' ano. Tato vlastnost musí mít hodnotu null pro složitá pole. Výchozí hodnota je true pro jednoduchá pole a null pro složitá pole. |
| indexAnalyzer |
Název analyzátoru použitého v době indexování pole. Tuto možnost lze použít pouze u prohledávatelných polí. Musí být nastaven společně s searchAnalyzer a nemůže být nastaven společně s volbou analyzátoru. Tuto vlastnost nelze nastavit na název analyzátoru jazyka. Pokud potřebujete analyzátor jazyka, použijte místo toho vlastnost Analyzer. Jakmile je analyzátor vybrán, nelze jej pro pole změnit. U složitých polí musí mít hodnotu null. |
|
| key |
boolean |
Hodnota označující, zda pole jednoznačně identifikuje dokumenty v indexu. Jako klíčové pole musí být vybráno přesně jedno pole nejvyšší úrovně v každém indexu a musí být typu Edm.String. Klíčová pole se dají použít k přímému vyhledání dokumentů a aktualizaci nebo odstranění konkrétních dokumentů. Výchozí hodnota je false pro jednoduchá pole a null pro složitá pole. |
| name |
string |
Název pole, které musí být jedinečné v rámci kolekce polí indexovaného nebo nadřazeného pole. |
| normalizer |
Název normalizátoru, který se má pro pole použít. Tuto možnost lze použít pouze u polí s povolenými filtrovatelnými, seřaditelnými nebo ploškami. Jakmile je normalizátor vybrán, nelze jej pro pole změnit. U složitých polí musí mít hodnotu null. |
|
| retrievable |
boolean |
Hodnota označující, zda lze pole vrátit ve výsledku hledání. Tuto možnost můžete zakázat, pokud chcete použít pole (například okraj) jako filtr, řazení nebo mechanismus hodnocení, ale nechcete, aby bylo pole viditelné pro koncového uživatele. Tato vlastnost musí mít hodnotu true pro klíčová pole a musí mít hodnotu null pro složitá pole. Tuto vlastnost lze změnit na existujících polích. Povolení této vlastnosti nezpůsobí žádné zvýšení požadavků na úložiště indexů. Výchozí hodnota je true pro jednoduchá pole, false pro vektorová pole a null pro složitá pole. |
| searchAnalyzer |
Název analyzátoru použitého při hledání pole. Tuto možnost lze použít pouze u prohledávatelných polí. Musí být nastaven společně s indexAnalyzer a nemůže být nastaven společně s volbou analyzátor. Tuto vlastnost nelze nastavit na název analyzátoru jazyka. Pokud potřebujete analyzátor jazyka, použijte místo toho vlastnost Analyzer. Tento analyzátor je možné aktualizovat v existujícím poli. U složitých polí musí mít hodnotu null. |
|
| searchable |
boolean |
Hodnota označující, zda lze v poli vyhledávat fulltextově. To znamená, že během indexování projde analýzou, jako je rozbíjení slov. Pokud nastavíte prohledávatelné pole na hodnotu jako "slunečný den", interně se rozdělí na jednotlivé tokeny "slunečno" a "den". To umožňuje fulltextové vyhledávání těchto termínů. Ve výchozím nastavení lze prohledávat pole typu Edm.String nebo Collection(Edm.String). Tato vlastnost musí mít hodnotu false pro jednoduchá pole jiných neřetězcových datových typů a musí mít hodnotu null pro složitá pole. Poznámka: Prohledávatelná pole spotřebovávají další místo v indexu, aby se do nich vešly další tokenizované verze hodnoty pole pro fulltextové vyhledávání. Pokud chcete ušetřit místo v indexu a nepotřebujete, aby bylo pole zahrnuto do vyhledávání, nastavte searchable na false. |
| sortable |
boolean |
Hodnota označující, zda se má povolit odkazování na pole ve $orderby výrazech. Ve výchozím nastavení vyhledávač seřadí výsledky podle skóre, ale v mnoha případech budou uživatelé chtít třídit podle polí v dokumentech. Jednoduché pole lze seřadit pouze v případě, že je jednohodnotové (má jednu hodnotu v rozsahu nadřazeného dokumentu). Jednoduchá pole kolekce nelze seřadit, protože mají více hodnot. Jednoduchá dílčí pole složitých kolekcí mají také více hodnot, a proto je nelze seřadit. To platí bez ohledu na to, jestli se jedná o okamžité nadřazené pole nebo nadřazené pole, což je složitá kolekce. Složitá pole nelze seřadit a vlastnost sortable musí mít pro taková pole hodnotu null. Výchozí hodnota pro seřaditelné je true pro jednoduchá pole s jednou hodnotou, false pro jednoduchá pole s více hodnotami a null pro složitá pole. |
| stored |
boolean |
Neměnná hodnota označující, zda bude pole uloženo samostatně na disku, aby bylo vráceno ve výsledku hledání. Tuto možnost můžete zakázat, pokud neplánujete vracet obsah pole v odpovědi na hledání, abyste ušetřili režijní náklady na úložiště. Tuto možnost lze nastavit pouze při vytváření indexu a pouze pro vektorová pole. Tuto vlastnost nelze změnit pro existující pole ani nastavit jako false pro nová pole. Pokud je tato vlastnost nastavena jako false, musí být vlastnost 'retrievable' také nastavena na false. Tato vlastnost musí být true nebo unset pro klíčová pole, pro nová pole a pro nevektorová pole a musí mít hodnotu null pro složitá pole. Zakázáním této vlastnosti se sníží požadavky na úložiště indexů. Výchozí hodnota platí pro vektorová pole. |
| synonymMaps |
string[] |
Seznam názvů map synonym, které se mají přidružit k tomuto poli. Tuto možnost lze použít pouze u prohledávatelných polí. V současné době je podporováno pouze jedno mapování synonym pro každé pole. Přiřazení mapování synonym k poli zajišťuje, aby se termíny dotazu, které cílí na toto pole, rozšířily v době dotazu pomocí pravidel v mapě synonym. Tento atribut lze změnit u existujících polí. Musí mít hodnotu null nebo prázdnou kolekci pro složitá pole. |
| type |
Datový typ pole. |
|
| vectorEncoding |
Formát kódování pro interpretaci obsahu pole. |
|
| vectorSearchProfile |
string |
Název profilu vektorového vyhledávání, který určuje algoritmus a vektorizátor, který se má použít při prohledávání vektorového pole. |
SearchFieldDataType
Definuje datový typ pole ve vyhledávacím indexu.
| Hodnota | Description |
|---|---|
| Edm.String |
Označuje, že pole obsahuje řetězec. |
| Edm.Int32 |
Označuje, že pole obsahuje 32bitové celé číslo se znaménkem. |
| Edm.Int64 |
Označuje, že pole obsahuje 64bitové celé číslo se znaménkem. |
| Edm.Double |
Označuje, že pole obsahuje číslo s plovoucí desetinnou čárkou s dvojitou přesností IEEE. |
| Edm.Boolean |
Označuje, že pole obsahuje booleovskou hodnotu (true nebo false). |
| Edm.DateTimeOffset |
Označuje, že pole obsahuje hodnotu data a času, včetně informací o časovém pásmu. |
| Edm.GeographyPoint |
Označuje, že pole obsahuje zeměpisnou polohu z hlediska zeměpisné délky a šířky. |
| Edm.ComplexType |
Označuje, že pole obsahuje jeden nebo více složitých objektů, které mají podpole jiných typů. |
| Edm.Single |
Označuje, že pole obsahuje číslo s plovoucí desetinnou čárkou s jednoduchou přesností. To platí pouze při použití s Collection(Edm.Single). |
| Edm.Half |
Označuje, že pole obsahuje číslo s plovoucí desetinnou čárkou s poloviční přesností. To platí pouze při použití s Collection(Edm.Half). |
| Edm.Int16 |
Označuje, že pole obsahuje 16bitové celé číslo se znaménkem. To platí pouze při použití s Collection(Edm.Int16). |
| Edm.SByte |
Označuje, že pole obsahuje 8bitové celé číslo se znaménkem. To platí pouze při použití s Collection(Edm.SByte). |
| Edm.Byte |
Označuje, že pole obsahuje 8bitové celé číslo bez znaménka. To platí pouze při použití s Collection(Edm.Byte). |
SearchIndex
Představuje definici indexu vyhledávání, která popisuje pole a chování indexu při vyhledávání.
| Name | Typ | Description |
|---|---|---|
| @odata.etag |
string |
ETag indexu. |
| analyzers | LexicalAnalyzer[]: |
Analyzátory pro index. |
| charFilters | CharFilter[]: |
Filtry znaků pro rejstřík. |
| corsOptions |
Možnosti řízení sdílení prostředků mezi zdroji (CORS) pro index. |
|
| defaultScoringProfile |
string |
Název profilu vyhodnocování, který se má použít, pokud není v dotazu zadán žádný. Pokud tato vlastnost není nastavena a v dotazu není zadán žádný profil vyhodnocování, použije se výchozí bodování (tf-idf). |
| description |
string |
Popis rejstříku. |
| encryptionKey |
Popis šifrovacího klíče, který vytvoříte v Azure Key Vault. Tento klíč se používá k poskytnutí další úrovně šifrování neaktivních uložených dat v případě, že chcete mít plnou jistotu, že nikdo, ani Microsoft, nemůže vaše data dešifrovat. Jakmile svá data zašifrujete, zůstanou vždy zašifrována. Vyhledávací služba bude ignorovat pokusy o nastavení této vlastnosti na hodnotu null. Tuto vlastnost můžete podle potřeby změnit, pokud chcete šifrovací klíč otočit; Vaše údaje nebudou ovlivněny. Šifrování pomocí klíčů spravovaných zákazníkem není k dispozici pro bezplatné vyhledávací služby a je k dispozici pouze pro placené služby vytvořené 1. ledna 2019 nebo později. |
|
| fields |
Pole rejstříku. |
|
| name |
string |
Název indexu. |
| normalizers | LexicalNormalizer[]: |
Normalizátory pro index. |
| scoringProfiles |
Profily hodnocení pro index. |
|
| semantic |
Definuje parametry pro vyhledávací index, které ovlivňují sémantické schopnosti. |
|
| similarity | Similarity: |
Typ algoritmu podobnosti, který se má použít při bodování a řazení dokumentů odpovídajících vyhledávacímu dotazu. Algoritmus podobnosti lze definovat pouze při vytváření indexu a nelze jej upravit na existujících indexech. Pokud je null, použije se algoritmus ClassicSimilarity. |
| suggesters |
Navrhovatelé pro index. |
|
| tokenFilters |
TokenFilter[]:
|
Filtr tokenu pro index. |
| tokenizers | LexicalTokenizer[]: |
Tokenizátory pro index. |
| vectorSearch |
Obsahuje konfigurační volby související s vektorovým vyhledáváním. |
SearchIndexerDataNoneIdentity
Vymaže vlastnost identity zdroje dat.
| Name | Typ | Description |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ identity. |
SearchIndexerDataUserAssignedIdentity
Určuje identitu zdroje dat, který se má použít.
| Name | Typ | Description |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ identity. |
| userAssignedIdentity |
string |
Plně kvalifikované ID prostředku Azure spravované identity přiřazené uživatelem obvykle ve formátu "/subscriptions/12345678-1234-1234-1234-1234567890ab/resourceGroups/rg/providers/Microsoft.ManagedIdentity/userAssignedIdentities/myId", které by mělo být přiřazeno vyhledávací službě. |
SearchResourceEncryptionKey
Šifrovací klíč spravovaný zákazníkem ve službě Azure Key Vault. Klíče, které vytvoříte a spravujete, lze použít k šifrování nebo dešifrování neaktivních uložených dat, jako jsou indexy a mapy synonym.
| Name | Typ | Description |
|---|---|---|
| accessCredentials |
Volitelné přihlašovací údaje Azure Active Directory používané pro přístup k Azure Key Vault. Není vyžadováno, pokud místo toho používáte spravovanou identitu. |
|
| keyVaultKeyName |
string |
Název vašeho klíče Azure Key Vault, který se má použít k šifrování neaktivních uložených dat. |
| keyVaultKeyVersion |
string |
Verze klíče Azure Key Vault, která se má použít k šifrování neaktivních uložených dat. |
| keyVaultUri |
string |
Identifikátor URI vašeho Azure Key Vault, označovaný také jako název DNS, který obsahuje klíč, který se má použít k šifrování neaktivních uložených dat. Příkladem identifikátoru URI může být |
SemanticConfiguration
Definuje konkrétní konfiguraci, která se má použít v kontextu sémantických schopností.
| Name | Typ | Description |
|---|---|---|
| name |
string |
Název sémantické konfigurace. |
| prioritizedFields |
Popisuje pole názvu, obsahu a klíčových slov, která se mají použít pro sémantické řazení, titulky, zvýraznění a odpovědi. Je třeba nastavit alespoň jednu ze tří dílčích vlastností (titleField, prioritizedKeywordsFields a prioritizedContentFields). |
|
| rankingOrder |
Určuje typ notového zápisu, který se použije pro pořadí uspořádání výsledků hledání. |
SemanticField
Pole, které se používá jako součást sémantické konfigurace.
| Name | Typ | Description |
|---|---|---|
| fieldName |
string |
SemanticSettings
Definuje parametry pro vyhledávací index, které ovlivňují sémantické schopnosti.
| Name | Typ | Description |
|---|---|---|
| configurations |
Sémantické konfigurace indexu. |
|
| defaultConfiguration |
string |
Umožňuje nastavit název výchozí sémantické konfigurace v indexu, takže je volitelné ji pokaždé předat jako parametr dotazu. |
ShingleTokenFilter
Vytvoří kombinace tokenů jako jeden token. Tento filtr tokenů je implementován pomocí Apache Lucene.
| Name | Typ | Default value | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ filtru tokenu. |
|
| filterToken |
string |
_ |
Řetězec, který má být vložen pro každou pozici, na které není žádný token. Výchozí hodnota je podtržítko ("_"). |
| maxShingleSize |
integer (int32) minimum: 2 |
2 |
Maximální velikost šindele. Výchozí a minimální hodnota je 2. |
| minShingleSize |
integer (int32) minimum: 2 |
2 |
Minimální velikost šindele. Výchozí a minimální hodnota je 2. Musí být menší než hodnota maxShingleSize. |
| name |
string |
Název filtru tokenů. Smí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezena na 128 znaků. |
|
| outputUnigrams |
boolean |
True |
Hodnota označující, zda výstupní datový proud bude obsahovat vstupní tokeny (unigramy) a také šindele. Výchozí hodnota je true. |
| outputUnigramsIfNoShingles |
boolean |
False |
Hodnota označující, zda se mají vypsat unigramy pro časy, kdy nejsou k dispozici žádné šindele. Tato vlastnost má přednost, pokud outputUnigrams je nastavena na false . Výchozí hodnota je False. |
| tokenSeparator |
string |
Řetězec, který se má použít při spojování sousedních tokenů za účelem vytvoření šindele. Výchozí hodnota je jedna mezera (" "). |
SnowballTokenFilter
Filtr, který vytváří kmeny slov pomocí skriptmeru generovaného sněhovou koulí. Tento filtr tokenů je implementován pomocí Apache Lucene.
| Name | Typ | Description |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ filtru tokenu. |
| language |
Jazyk, který se má použít. |
|
| name |
string |
Název filtru tokenů. Smí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezena na 128 znaků. |
SnowballTokenFilterLanguage
Jazyk, který se má použít pro filtr tokenu sněhové koule.
| Hodnota | Description |
|---|---|
| armenian |
Vybere stemming tokenizer Lucene Snowball pro arménštinu. |
| basque |
Vybere stemming tokenizer Lucene Snowball pro baskičtinu. |
| catalan |
Vybere stemming tokenizer Lucene Snowball pro katalánštinu. |
| danish |
Vybere stemming tokenizer Lucene Snowball pro dánštinu. |
| dutch |
Vybere stemming tokenizer Lucene Snowball pro nizozemštinu. |
| english |
Vybere stemming tokenizer Lucene Snowball pro angličtinu. |
| finnish |
Vybere stemming tokenizer Lucene Snowball pro finštinu. |
| french |
Vybere stemming tokenizer Lucene Snowball pro francouzštinu. |
| german |
Vybere stemming tokenizér Lucene Snowball pro němčinu. |
| german2 |
Vybere stemming tokenizer Lucene Snowball, který používá algoritmus německé varianty. |
| hungarian |
Vybere stemming tokenizer Lucene Snowball pro maďarštinu. |
| italian |
Vybere stemming tokenizér Lucene Snowball pro italštinu. |
| kp |
Vybere stemming tokenizer Lucene Snowball pro nizozemštinu, který používá Kraaij-Pohlmann stemming algoritmus. |
| lovins |
Vybere stemming tokenizer Lucene Snowball pro angličtinu, který používá Lovinsův stemming algoritmus. |
| norwegian |
Vybere stemming tokenizer Lucene Snowball pro norštinu. |
| porter |
Vybere stemming tokenizer Lucene Snowball pro angličtinu, který používá Porterův stemming algoritmus. |
| portuguese |
Vybere stemming tokenizer Lucene Snowball pro portugalštinu. |
| romanian |
Vybere stemming tokenizer Lucene Snowball pro rumunštinu. |
| russian |
Vybere stemming tokenizér Lucene Snowball pro ruštinu. |
| spanish |
Vybere stemming tokenizér Lucene Snowball pro španělštinu. |
| swedish |
Vybere stemming tokenizer Lucene Snowball pro švédštinu. |
| turkish |
Vybere stemming tokenizer Lucene Snowball pro turečtinu. |
StemmerOverrideTokenFilter
Poskytuje možnost přepsat jiné filtry stemmingu pomocí vlastního stemmingu založeného na slovníku. Všechny termíny se slovníkovým řetězcem budou označeny jako klíčová slova, takže nebudou v řetězci spojovány se stemmery. Musí být umístěn před všemi odvozenými filtry. Tento filtr tokenů je implementován pomocí Apache Lucene.
| Name | Typ | Description |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ filtru tokenu. |
| name |
string |
Název filtru tokenů. Smí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezena na 128 znaků. |
| rules |
string[] |
Seznam pravidel stemování v následujícím formátu: "word => stem", například: "ran => run". |
StemmerTokenFilter
Jazykově specifický stemming filtr. Tento filtr tokenů je implementován pomocí Apache Lucene.
| Name | Typ | Description |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ filtru tokenu. |
| language |
Jazyk, který se má použít. |
|
| name |
string |
Název filtru tokenů. Smí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezena na 128 znaků. |
StemmerTokenFilterLanguage
Jazyk, který se má použít pro filtr tokenů stemmeru.
| Hodnota | Description |
|---|---|
| arabic |
Vybere stemming tokenizer Lucene pro arabštinu. |
| armenian |
Vybere stemming tokenizer Lucene pro arménštinu. |
| basque |
Vybere stemming tokenizer Lucene pro baskičtinu. |
| brazilian |
Vybere stemming tokenizer Lucene pro portugalštinu (Brazílie). |
| bulgarian |
Vybere stemming tokenizer Lucene pro bulharštinu. |
| catalan |
Vybere stemming tokenizer Lucene pro katalánštinu. |
| czech |
Vybere stemming tokenizer Lucene pro češtinu. |
| danish |
Vybere stemming tokenizer Lucene pro dánštinu. |
| dutch |
Vybere stemming tokenizer Lucene pro nizozemštinu. |
| dutchKp |
Vybere tokenizér Lucene stemming pro nizozemštinu, který používá algoritmus Kraaij-Pohlmann stemming. |
| english |
Vybere stemming tokenizer Lucene pro angličtinu. |
| lightEnglish |
Vybere tokenizátor Lucene stemming pro angličtinu, který provádí lehké stemming. |
| minimalEnglish |
Vybere stemming tokenizer Lucene pro angličtinu, který provádí minimální stemming. |
| possessiveEnglish |
Vybere kmenový tokenizátor Lucene pro angličtinu, který ze slov odstraní koncová přivlastňovací zájmena. |
| porter2 |
Vybere stemming tokenizer Lucene pro angličtinu, který používá Porter2 stemming algoritmus. |
| lovins |
Vybere stemming tokenizer Lucene pro angličtinu, který používá Lovinsův stemmingový algoritmus. |
| finnish |
Vybere stemming tokenizer Lucene pro finštinu. |
| lightFinnish |
Vybere tokenizátor Lucene stemming pro finštinu, který provádí lehké stemming. |
| french |
Vybere stemming tokenizer Lucene pro francouzštinu. |
| lightFrench |
Vybere tokenizátor Lucene stemming pro francouzštinu, který provádí lehké stemming. |
| minimalFrench |
Vybere tokenizátor Lucene stemming pro francouzštinu, který provádí minimální stemming. |
| galician |
Vybere stemming tokenizer Lucene pro galicijštinu. |
| minimalGalician |
Vybere tokenizátor Lucene stemming pro galicijštinu, který provádí minimální stemming. |
| german |
Vybere stemming tokenizer Lucene pro němčinu. |
| german2 |
Vybere stemming tokenizer Lucene, který používá algoritmus německé varianty. |
| lightGerman |
Vybere stemming tokenizer Lucene pro němčinu, který provádí light stemming. |
| minimalGerman |
Vybere tokenizátor Lucene stemming pro němčinu, který provádí minimální stemming. |
| greek |
Vybere stemming tokenizer Lucene pro řečtinu. |
| hindi |
Vybere stemming tokenizer Lucene pro hindštinu. |
| hungarian |
Vybere stemming tokenizer Lucene pro maďarštinu. |
| lightHungarian |
Vybere tokenizátor Lucene stemming pro maďarštinu, který provádí lehké stemming. |
| indonesian |
Vybere stemming tokenizer Lucene pro indonéštinu. |
| irish |
Vybere stemming tokenizer Lucene pro irštinu. |
| italian |
Vybere stemming tokenizer Lucene pro italštinu. |
| lightItalian |
Vybere tokenizátor Lucene stemming pro italštinu, který provádí lehké stemming. |
| sorani |
Vybere stemming tokenizer Lucene pro Sorani. |
| latvian |
Vybere stemming tokenizer Lucene pro lotyštinu. |
| norwegian |
Vybere stemming tokenizer Lucene pro norštinu (Bokmål). |
| lightNorwegian |
Vybere tokenizátor Lucene stemming pro norštinu (Bokmål), který provádí lehké stemming. |
| minimalNorwegian |
Vybere stemming tokenizer Lucene pro norštinu (Bokmål), který provádí minimální stemming. |
| lightNynorsk |
Vybere tokenizátor Lucene stemming pro norštinu (Nynorsk), který provádí lehké stemming. |
| minimalNynorsk |
Vybere stemming tokenizer Lucene pro norštinu (Nynorsk), který provádí minimální stemming. |
| portuguese |
Vybere stemming tokenizer Lucene pro portugalštinu. |
| lightPortuguese |
Vybere tokenizátor Lucene stemming pro portugalštinu, který provádí lehké stemming. |
| minimalPortuguese |
Vybere tokenizátor Lucene stemming pro portugalštinu, který provádí minimální stemming. |
| portugueseRslp |
Vybere stemming tokenizer Lucene pro portugalštinu, který používá RSLP stemming algoritmus. |
| romanian |
Vybere stemming tokenizer Lucene pro rumunštinu. |
| russian |
Vybere stemming tokenizer Lucene pro ruštinu. |
| lightRussian |
Vybere tokenizátor Lucene stemming pro ruštinu, který provádí lehké stemming. |
| spanish |
Vybere stemming tokenizer Lucene pro španělštinu. |
| lightSpanish |
Vybere tokenizátor Lucene stemming pro španělštinu, který provádí lehké stemming. |
| swedish |
Vybere stemming tokenizer Lucene pro švédštinu. |
| lightSwedish |
Vybere tokenizátor Lucene stemming pro švédštinu, který provádí lehké stemming. |
| turkish |
Vybere stemming tokenizer Lucene pro turečtinu. |
StopAnalyzer
Rozdělí text na nepísmena; Použije filtry tokenů psaných malými písmeny a stopword. Tento analyzátor je implementován pomocí Apache Lucene.
| Name | Typ | Description |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ analyzátoru. |
| name |
string |
Název analyzátoru. Smí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezena na 128 znaků. |
| stopwords |
string[] |
Seznam stopslov. |
StopwordsList
Identifikuje předdefinovaný seznam stophesel specifických pro jazyk.
| Hodnota | Description |
|---|---|
| arabic |
Vybere seznam stopword pro arabštinu. |
| armenian |
Vybere seznam stopword pro arménštinu. |
| basque |
Vybere seznam stopword pro baskičtinu. |
| brazilian |
Vybere seznam stopword pro portugalštinu (Brazílie). |
| bulgarian |
Vybere seznam stopword pro bulharštinu. |
| catalan |
Vybere seznam stopword pro katalánštinu. |
| czech |
Vybere seznam stopword pro češtinu. |
| danish |
Vybere seznam stopword pro dánštinu. |
| dutch |
Vybere seznam stopword pro nizozemštinu. |
| english |
Vybere seznam stopwords pro angličtinu. |
| finnish |
Vybere seznam stopwords pro finštinu. |
| french |
Vybere seznam stopword pro francouzštinu. |
| galician |
Vybere seznam stopword pro galicijštinu. |
| german |
Vybere seznam stopword pro němčinu. |
| greek |
Vybere seznam stopword pro řečtinu. |
| hindi |
Vybere seznam stophesel pro hindštinu. |
| hungarian |
Vybere seznam stopslov pro maďarštinu. |
| indonesian |
Vybere seznam stopword pro indonéštinu. |
| irish |
Vybere seznam stopword pro irštinu. |
| italian |
Vybere seznam stopword pro italštinu. |
| latvian |
Vybere seznam stopword pro lotyštinu. |
| norwegian |
Vybere seznam stopword pro norštinu. |
| persian |
Vybere seznam stopword pro perštinu. |
| portuguese |
Vybere seznam stopwords pro portugalštinu. |
| romanian |
Vybere seznam stopword pro rumunštinu. |
| russian |
Vybere seznam stopword pro ruštinu. |
| sorani |
Vybere seznam stopslov pro Soraniho. |
| spanish |
Vybere seznam stopslov pro španělštinu. |
| swedish |
Vybere seznam stopword pro švédštinu. |
| thai |
Vybere seznam stopword pro thajštinu. |
| turkish |
Vybere seznam stopword pro turečtinu. |
StopwordsTokenFilter
Odstraní stop slova z datového proudu tokenu. Tento filtr tokenů je implementován pomocí Apache Lucene.
| Name | Typ | Default value | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ filtru tokenu. |
|
| ignoreCase |
boolean |
False |
Hodnota označující, zda se mají ignorovat velká a malá písmena. Pokud je true, všechna slova se nejprve převedou na malá písmena. Výchozí hodnota je False. |
| name |
string |
Název filtru tokenů. Smí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezena na 128 znaků. |
|
| removeTrailing |
boolean |
True |
Hodnota označující, zda se má ignorovat poslední hledaný výraz, pokud se jedná o slovo stop. Výchozí hodnota je true. |
| stopwords |
string[] |
Seznam stopslov. Tuto vlastnost i vlastnost seznamu stopwords nelze nastavit. |
|
| stopwordsList | english |
Předdefinovaný seznam stopslov, která se mají použít. Tuto vlastnost i vlastnost stopwords nelze nastavit. Výchozí je angličtina. |
Suggester
Definuje, jak by se mělo rozhraní API pro návrhy použít na skupinu polí v indexu.
| Name | Typ | Description |
|---|---|---|
| name |
string |
Jméno osoby podávající návrhy. |
| searchMode |
Hodnota označující možnosti modulu pro návrhy. |
|
| sourceFields |
string[] |
Seznam názvů polí, na které se předkladatel vztahuje. Každé pole musí být možné prohledávat. |
SuggesterSearchMode
Hodnota označující možnosti modulu pro návrhy.
| Hodnota | Description |
|---|---|
| analyzingInfixMatching |
Porovnává po sobě jdoucí celé termíny a předpony v poli. Například pro pole "Nejrychlejší hnědá liška" by se shodovaly dotazy "rychlý" i "nejrychlejší obočí". |
SynonymTokenFilter
Porovnává jednoslovná nebo víceslovná synonyma v proudu tokenů. Tento filtr tokenů je implementován pomocí Apache Lucene.
| Name | Typ | Default value | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ filtru tokenu. |
|
| expand |
boolean |
True |
Hodnota označující, zda se všechna slova v seznamu synonym (pokud se nepoužívá notace => ) budou vzájemně mapována. Pokud je true, všechna slova v seznamu synonym (pokud není použit zápis => ) se budou navzájem mapovat. Následující seznam: neuvěřitelné, neuvěřitelné, báječné, úžasné je ekvivalentní: neuvěřitelné, neuvěřitelné, báječné, úžasné => neuvěřitelné, neuvěřitelné, báječné, úžasné. Pokud není pravda, následující seznam: neuvěřitelný, neuvěřitelný, báječný, úžasný bude ekvivalentní následujícímu: neuvěřitelný, neuvěřitelný, báječný, úžasný => neuvěřitelný. Výchozí hodnota je true. |
| ignoreCase |
boolean |
False |
Hodnota označující, zda se má vstup přeložit na velká a malá písmena pro přizpůsobení. Výchozí hodnota je False. |
| name |
string |
Název filtru tokenů. Smí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezena na 128 znaků. |
|
| synonyms |
string[] |
Seznam synonym v následujícím ze dvou formátů: 1. neuvěřitelné, neuvěřitelné, báječné => úžasné - všechny výrazy na levé straně => symbol budou nahrazeny všemi výrazy na jeho pravé straně; 2. neuvěřitelné, neuvěřitelné, báječné, úžasné - čárkou oddělený seznam ekvivalentních slov. Nastavením možnosti rozbalení můžete změnit způsob interpretace tohoto seznamu. |
TagScoringFunction
Definuje funkci, která zvyšuje skóre dokumentů pomocí řetězcových hodnot odpovídajících danému seznamu tagů.
| Name | Typ | Description |
|---|---|---|
| boost |
number (double) |
Násobitel pro hrubé skóre. Musí být kladné číslo, které se nerovná 1,0. |
| fieldName |
string |
Název pole, které se používá jako vstup pro funkci bodování. |
| interpolation |
Hodnota označující, jak bude zvýšení interpolováno napříč skóre dokumentu; výchozí hodnota je "Lineární". |
|
| tag |
Hodnoty parametrů pro funkci bodování značek. |
|
| type |
string:
tag |
Označuje typ funkce, která se má použít. Mezi platné hodnoty patří velikost, aktuálnost, vzdálenost a značka. Typ funkce musí být malými písmeny. |
TagScoringParameters
Poskytuje hodnoty parametrů funkci bodování značek.
| Name | Typ | Description |
|---|---|---|
| tagsParameter |
string |
Název parametru předaného ve vyhledávacích dotazech k určení seznamu značek pro porovnání s cílovým polem. |
TextWeights
Definuje váhy indexových polí, jejichž shody by měly zvýšit bodování ve vyhledávacích dotazech.
| Name | Typ | Description |
|---|---|---|
| weights |
object |
Slovník vah jednotlivých polí pro zvýšení hodnocení dokumentu. Klíče jsou názvy polí a hodnoty jsou váhy pro každé pole. |
TokenCharacterKind
Představuje třídy znaků, se kterými může filtr tokenů pracovat.
| Hodnota | Description |
|---|---|
| letter |
Uchovává písmena v tokenech. |
| digit |
Uchovává číslice v tokenech. |
| whitespace |
Zachová prázdné znaky v tokenech. |
| punctuation |
Zachová interpunkci v tokenech. |
| symbol |
Uchovává symboly v tokenech. |
TokenFilterName
Definuje názvy všech filtrů tokenů podporovaných vyhledávacím modulem.
TruncateTokenFilter
Zkrátí podmínky na určitou délku. Tento filtr tokenů je implementován pomocí Apache Lucene.
| Name | Typ | Default value | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ filtru tokenu. |
|
| length |
integer (int32) maximum: 300 |
300 |
Délka, po kterou budou termíny zkráceny. Výchozí a maximální hodnota je 300. |
| name |
string |
Název filtru tokenů. Smí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezena na 128 znaků. |
UaxUrlEmailTokenizer
Tokenizuje adresy URL a e-maily jako jeden token. Tento tokenizer je implementován pomocí Apache Lucene.
| Name | Typ | Default value | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragment URI určující typ tokenizeru. |
|
| maxTokenLength |
integer (int32) maximum: 300 |
255 |
Maximální délka tokenu. Výchozí hodnota je 255. Tokeny delší než maximální délka se rozdělí. Maximální délka tokenu, kterou lze použít, je 300 znaků. |
| name |
string |
Název tokenizátoru. Smí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezena na 128 znaků. |
UniqueTokenFilter
Odfiltruje tokeny se stejným textem jako předchozí token. Tento filtr tokenů je implementován pomocí Apache Lucene.
| Name | Typ | Default value | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ filtru tokenu. |
|
| name |
string |
Název filtru tokenů. Smí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezena na 128 znaků. |
|
| onlyOnSamePosition |
boolean |
False |
Hodnota označující, zda se mají odstranit duplicity pouze na stejné pozici. Výchozí hodnota je False. |
VectorEncodingFormat
Formát kódování pro interpretaci obsahu vektorového pole.
| Hodnota | Description |
|---|---|
| packedBit |
Formát kódování reprezentující bity zabalené do širšího datového typu. |
VectorSearch
Obsahuje konfigurační volby související s vektorovým vyhledáváním.
| Name | Typ | Description |
|---|---|---|
| algorithms | VectorSearchAlgorithmConfiguration[]: |
Obsahuje možnosti konfigurace specifické pro algoritmus používaný při indexování nebo dotazování. |
| compressions | VectorSearchCompressionConfiguration[]: |
Obsahuje možnosti konfigurace specifické pro metodu komprese použitou během indexování nebo dotazování. |
| profiles |
Definuje kombinace konfigurací pro použití s vektorovým vyhledáváním. |
|
| vectorizers | VectorSearchVectorizer[]: |
Obsahuje možnosti konfigurace vektorových textových dotazů. |
VectorSearchAlgorithmKind
Algoritmus používaný pro indexování a dotazování.
| Hodnota | Description |
|---|---|
| hnsw |
HNSW (Hierarchical Navigable Small World), typ algoritmu přibližných nejbližších sousedů. |
| exhaustiveKnn |
Vyčerpávající algoritmus KNN, který bude provádět vyhledávání hrubou silou. |
VectorSearchAlgorithmMetric
Metrika podobnosti, která se má použít pro vektorové porovnání. Doporučuje se zvolit stejnou metriku podobnosti, na které byl natrénován model vkládání.
| Hodnota | Description |
|---|---|
| cosine |
Měří úhel mezi vektory a kvantifikuje jejich podobnost bez ohledu na velikost. Čím menší úhel, tím větší podobnost. |
| euclidean |
Vypočítá vzdálenost mezi vektory ve vícerozměrném prostoru. Čím menší je vzdálenost, tím větší je podobnost. |
| dotProduct |
Vypočítá součet prvkových součinů pro posouzení zarovnání a podobnosti velikosti. Čím větší a pozitivnější, tím bližší podobnost. |
| hamming |
Platí pouze pro binární datové typy zabalené do bitů. Určuje odlišnost počítáním různých pozic v binárních vektorech. Čím méně rozdílů, tím větší podobnost. |
VectorSearchCompressionKind
Metoda komprese používaná pro indexování a dotazování.
| Hodnota | Description |
|---|---|
| scalarQuantization |
Skalární kvantizace, typ kompresní metody. Ve skalární kvantizaci jsou hodnoty původních vektorů komprimovány na užší typ diskretizací a reprezentací každé složky vektoru pomocí redukované sady kvantovaných hodnot, čímž se zmenšuje celková velikost dat. |
| binaryQuantization |
Binární kvantování, typ kompresní metody. Při binární kvantizaci jsou původní hodnoty vektorů komprimovány na užší binární typ diskretizací a reprezentací každé složky vektoru pomocí binárních hodnot, čímž se sníží celková velikost dat. |
VectorSearchCompressionRescoreStorageMethod
Metoda ukládání původních vektorů s plnou přesností používaných pro opakované bodování a interní operace indexu.
| Hodnota | Description |
|---|---|
| preserveOriginals |
Tato volba zachová původní vektory s plnou přesností. Tuto možnost vyberte pro maximální flexibilitu a nejvyšší kvalitu komprimovaných výsledků hledání. To spotřebovává více úložiště, ale umožňuje převzorkování a převzorkování. |
| discardOriginals |
Tato volba vypustí původní vektory s plnou přesností. Tuto možnost vyberte, chcete-li dosáhnout maximální úspory úložiště. Vzhledem k tomu, že tato volba neumožňuje převzorkování a převzorkování, často způsobí mírné až střední snížení kvality. |
VectorSearchCompressionTargetDataType
Kvantovaný datový typ komprimovaných vektorových hodnot.
| Hodnota | Description |
|---|---|
| int8 |
VectorSearchProfile
Definuje kombinaci konfigurací pro použití s vektorovým vyhledáváním.
| Name | Typ | Description |
|---|---|---|
| algorithm |
string |
Název konfigurace vektorového vyhledávacího algoritmu, který určuje algoritmus a volitelné parametry. |
| compression |
string |
Název konfigurace metody komprese, který určuje metodu komprese a volitelné parametry. |
| name |
string |
Název, který se má přidružit k tomuto konkrétnímu profilu vektorového vyhledávání. |
| vectorizer |
string |
Název vektorizace konfigurované pro použití s vektorovým vyhledáváním. |
VectorSearchVectorizerKind
Metoda vektorizace, která se má použít během doby dotazu.
| Hodnota | Description |
|---|---|
| azureOpenAI |
Generování vkládání pomocí prostředku Azure OpenAI v době dotazu. |
| customWebApi |
Vygenerujte vkládání pomocí vlastního webového koncového bodu v době dotazu. |
WebApiParameters
Určuje vlastnosti pro připojení k uživatelsky definovanému vektorizátoru.
| Name | Typ | Description |
|---|---|---|
| authIdentity | SearchIndexerDataIdentity: |
Spravovaná identita přiřazená uživatelem používaná pro odchozí připojení. Pokud je zadán authResourceId a není zadaný, použije se spravovaná identita přiřazená systémem. Pokud při aktualizacích indexeru není identita určena, hodnota zůstane nezměněna. Pokud je nastavena na "none", hodnota této vlastnosti je vymazána. |
| authResourceId |
string |
Platí pro vlastní koncové body, které se připojují k externímu kódu ve funkci Azure nebo jiné aplikaci, která poskytuje transformace. Tato hodnota by měla být ID aplikace vytvořené pro funkci nebo aplikaci při registraci v Azure Active Directory. Pokud je tato možnost zadaná, vektorizace se připojí k funkci nebo aplikaci pomocí spravovaného ID (buď systémového, nebo přiřazeného uživatelem) vyhledávací služby a přístupového tokenu funkce nebo aplikace, přičemž tato hodnota se použije jako ID prostředku pro vytvoření oboru přístupového tokenu. |
| httpHeaders |
object |
Hlavičky potřebné k vytvoření požadavku HTTP. |
| httpMethod |
string |
Metoda pro požadavek HTTP. |
| timeout |
string (duration) |
Požadovaný časový limit požadavku. Výchozí hodnota je 30 sekund. |
| uri |
string (uri) |
Identifikátor URI webového rozhraní API, které poskytuje vektorizátor. |
WebApiVectorizer
Určuje uživatelem definovaný vektorizátor pro generování vektorového vkládání řetězce dotazu. Integrace externího vektorizátoru se provádí pomocí vlastního rozhraní webového rozhraní API sady dovedností.
| Name | Typ | Description |
|---|---|---|
| customWebApiParameters |
Určuje vlastnosti uživatelem definovaného vektorizátoru. |
|
| kind |
string:
custom |
Název druhu metody vektorizace, která je konfigurována pro použití s vektorovým vyhledáváním. |
| name |
string |
Název, který má být spojen s touto konkrétní metodou vektorizace. |
WordDelimiterTokenFilter
Rozdělí slova na podslova a provede volitelné transformace skupin podslov. Tento filtr tokenů je implementován pomocí Apache Lucene.
| Name | Typ | Default value | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragment identifikátoru URI určující typ filtru tokenu. |
|
| catenateAll |
boolean |
False |
Hodnota označující, zda budou všechny části podsloví zřetězené. Pokud je například tato hodnota nastavená na true, "Azure-Search-1" se změní na "AzureSearch1". Výchozí hodnota je False. |
| catenateNumbers |
boolean |
False |
Hodnota označující, zda bude zřetězen maximální počet číselných dílů. Pokud je například tato hodnota nastavena na true, z "1-2" se stane "12". Výchozí hodnota je False. |
| catenateWords |
boolean |
False |
Hodnota označující, zda bude zřetězena maximální počet běhů částí slova. Pokud je například tato hodnota nastavená na true, "Azure-Search" se změní na "AzureSearch". Výchozí hodnota je False. |
| generateNumberParts |
boolean |
True |
Hodnota označující, zda se mají generovat číselná podslova. Výchozí hodnota je true. |
| generateWordParts |
boolean |
True |
Hodnota označující, zda se mají generovat slova částí. Pokud je nastaveno, způsobí, že se budou generovat části slov; například "AzureSearch" se změní na "Azure" "Search". Výchozí hodnota je true. |
| name |
string |
Název filtru tokenů. Smí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezena na 128 znaků. |
|
| preserveOriginal |
boolean |
False |
Hodnota označující, zda budou původní slova zachována a přidána do seznamu podslov. Výchozí hodnota je False. |
| protectedWords |
string[] |
Seznam tokenů, které je třeba chránit před vymezením. |
|
| splitOnCaseChange |
boolean |
True |
Hodnota označující, zda se mají rozdělit slova na caseChange. Pokud je například tato hodnota nastavená na true, "AzureSearch" se změní na "Azure" "Search". Výchozí hodnota je true. |
| splitOnNumerics |
boolean |
True |
Hodnota označující, zda se má rozdělit na čísla. Pokud je například tato hodnota nastavená na true, "Azure1Search" se změní na "Azure" "1" "Search". Výchozí hodnota je true. |
| stemEnglishPossessive |
boolean |
True |
Hodnota označující, zda se má odebrat koncové znaky "'s" pro každé podslovo. Výchozí hodnota je true. |