Sdílet prostřednictvím


Indexes - Create

Vytvoří nový vyhledávací index.

POST {endpoint}/indexes?api-version=2025-09-01

Parametry identifikátoru URI

Name V Vyžadováno Typ Description
endpoint
path True

string

Adresa URL koncového bodu vyhledávací služby.

api-version
query True

string

Verze rozhraní API klienta.

Hlavička požadavku

Name Vyžadováno Typ Description
x-ms-client-request-id

string (uuid)

ID sledování odeslané s požadavkem na pomoc s laděním.

Text požadavku

Name Vyžadováno Typ Description
fields True

SearchField[]

Pole rejstříku.

name True

string

Název indexu.

@odata.etag

string

ETag indexu.

analyzers LexicalAnalyzer[]:

Analyzátory pro index.

charFilters CharFilter[]:

Filtry znaků pro rejstřík.

corsOptions

CorsOptions

Možnosti řízení sdílení prostředků mezi zdroji (CORS) pro index.

defaultScoringProfile

string

Název profilu vyhodnocování, který se má použít, pokud není v dotazu zadán žádný. Pokud tato vlastnost není nastavena a v dotazu není zadán žádný profil vyhodnocování, použije se výchozí bodování (tf-idf).

description

string

Popis rejstříku.

encryptionKey

SearchResourceEncryptionKey

Popis šifrovacího klíče, který vytvoříte v Azure Key Vault. Tento klíč se používá k poskytnutí další úrovně šifrování neaktivních uložených dat v případě, že chcete mít plnou jistotu, že nikdo, ani Microsoft, nemůže vaše data dešifrovat. Jakmile svá data zašifrujete, zůstanou vždy zašifrována. Vyhledávací služba bude ignorovat pokusy o nastavení této vlastnosti na hodnotu null. Tuto vlastnost můžete podle potřeby změnit, pokud chcete šifrovací klíč otočit; Vaše údaje nebudou ovlivněny. Šifrování pomocí klíčů spravovaných zákazníkem není k dispozici pro bezplatné vyhledávací služby a je k dispozici pouze pro placené služby vytvořené 1. ledna 2019 nebo později.

normalizers LexicalNormalizer[]:

CustomNormalizer[]

Normalizátory pro index.

scoringProfiles

ScoringProfile[]

Profily hodnocení pro index.

semantic

SemanticSettings

Definuje parametry pro vyhledávací index, které ovlivňují sémantické schopnosti.

similarity Similarity:

Typ algoritmu podobnosti, který se má použít při bodování a řazení dokumentů odpovídajících vyhledávacímu dotazu. Algoritmus podobnosti lze definovat pouze při vytváření indexu a nelze jej upravit na existujících indexech. Pokud je null, použije se algoritmus ClassicSimilarity.

suggesters

Suggester[]

Navrhovatelé pro index.

tokenFilters TokenFilter[]:

Filtr tokenu pro index.

tokenizers LexicalTokenizer[]:

Tokenizátory pro index.

vectorSearch

VectorSearch

Obsahuje konfigurační volby související s vektorovým vyhledáváním.

Odpovědi

Name Typ Description
201 Created

SearchIndex

Other Status Codes

ErrorResponse

Chybová odpověď.

Příklady

SearchServiceCreateIndex

Ukázkový požadavek

POST https://stableexampleservice.search.windows.net/indexes?api-version=2025-09-01


{
  "name": "temp-stable-test",
  "description": "description",
  "fields": [
    {
      "name": "id",
      "type": "Edm.String",
      "key": true,
      "sortable": true
    },
    {
      "name": "vector1",
      "type": "Collection(Edm.Single)",
      "retrievable": true,
      "searchable": true,
      "dimensions": 20,
      "vectorSearchProfile": "config1"
    },
    {
      "name": "vector1b",
      "type": "Collection(Edm.Single)",
      "retrievable": true,
      "searchable": true,
      "dimensions": 10,
      "vectorSearchProfile": "config2"
    },
    {
      "name": "vector2",
      "type": "Collection(Edm.Single)",
      "retrievable": true,
      "searchable": true,
      "dimensions": 5,
      "vectorSearchProfile": "config3"
    },
    {
      "name": "vector3",
      "type": "Collection(Edm.Single)",
      "retrievable": true,
      "searchable": true,
      "dimensions": 5,
      "vectorSearchProfile": "config3"
    },
    {
      "name": "vector22",
      "type": "Collection(Edm.Single)",
      "retrievable": true,
      "searchable": true,
      "dimensions": 10,
      "vectorSearchProfile": "config2"
    },
    {
      "name": "name",
      "type": "Edm.String",
      "retrievable": true,
      "searchable": true,
      "filterable": true,
      "sortable": true,
      "facetable": true,
      "analyzer": "en.lucene"
    },
    {
      "name": "description",
      "type": "Edm.String",
      "retrievable": true,
      "searchable": true,
      "filterable": true,
      "sortable": true,
      "facetable": true,
      "analyzer": "standard.lucene"
    },
    {
      "name": "category",
      "type": "Edm.String",
      "retrievable": true,
      "searchable": true,
      "filterable": true,
      "sortable": true,
      "facetable": true,
      "analyzer": "en.lucene",
      "normalizer": "standard"
    },
    {
      "name": "ownerId",
      "type": "Edm.String",
      "retrievable": true,
      "searchable": true,
      "filterable": true,
      "sortable": true,
      "facetable": true,
      "analyzer": "en.lucene"
    }
  ],
  "scoringProfiles": [
    {
      "name": "stringFieldBoost",
      "text": {
        "weights": {
          "name": 3,
          "description": 1,
          "category": 2,
          "ownerId": 1
        }
      },
      "functions": [
        {
          "tag": {
            "tagsParameter": "categoryTag"
          },
          "type": "tag",
          "fieldName": "category",
          "boost": 2
        }
      ]
    }
  ],
  "defaultScoringProfile": "stringFieldBoost",
  "corsOptions": {
    "allowedOrigins": [
      "https://www.example.com/foo"
    ],
    "maxAgeInSeconds": 10
  },
  "suggesters": [
    {
      "name": "sg",
      "searchMode": "analyzingInfixMatching",
      "sourceFields": [
        "category",
        "ownerId"
      ]
    }
  ],
  "analyzers": [
    {
      "tokenizer": "standard_v2",
      "tokenFilters": [
        "common_grams"
      ],
      "charFilters": [
        "html_strip"
      ],
      "@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
      "name": "tagsAnalyzer"
    }
  ],
  "tokenizers": [
    {
      "maxTokenLength": 100,
      "@odata.type": "#Microsoft.Azure.Search.StandardTokenizerV2",
      "name": "my_tokenizer"
    }
  ],
  "tokenFilters": [
    {
      "preserveOriginal": false,
      "@odata.type": "#Microsoft.Azure.Search.AsciiFoldingTokenFilter",
      "name": "my_tokenFilter"
    }
  ],
  "charFilters": [
    {
      "mappings": [
        ".=>,",
        "_=>-"
      ],
      "@odata.type": "#Microsoft.Azure.Search.MappingCharFilter",
      "name": "my_mapping"
    }
  ],
  "normalizers": [
    {
      "tokenFilters": [
        "asciifolding"
      ],
      "charFilters": [
        "my_mapping"
      ],
      "@odata.type": "#Microsoft.Azure.Search.CustomNormalizer",
      "name": "tagsNormalizer"
    }
  ],
  "similarity": {
    "k1": 10,
    "b": 0.1,
    "@odata.type": "#Microsoft.Azure.Search.BM25Similarity"
  },
  "semantic": {
    "defaultConfiguration": "testconfig",
    "configurations": [
      {
        "name": "testconfig",
        "prioritizedFields": {
          "titleField": {
            "fieldName": "category"
          },
          "prioritizedContentFields": [
            {
              "fieldName": "description"
            }
          ],
          "prioritizedKeywordsFields": [
            {
              "fieldName": "ownerId"
            }
          ]
        },
        "rankingOrder": "BoostedRerankerScore"
      }
    ]
  },
  "vectorSearch": {
    "profiles": [
      {
        "name": "config1",
        "algorithm": "cosine",
        "vectorizer": "openai",
        "compression": "mySQ8"
      },
      {
        "name": "config2",
        "algorithm": "euclidean",
        "vectorizer": "custom-web-api",
        "compression": "mySQ8"
      },
      {
        "name": "config3",
        "algorithm": "dotProduct",
        "vectorizer": "custom-web-api",
        "compression": "myBQC"
      }
    ],
    "algorithms": [
      {
        "hnswParameters": {
          "metric": "cosine"
        },
        "name": "cosine",
        "kind": "hnsw"
      },
      {
        "hnswParameters": {
          "metric": "euclidean"
        },
        "name": "euclidean",
        "kind": "hnsw"
      },
      {
        "hnswParameters": {
          "metric": "dotProduct"
        },
        "name": "dotProduct",
        "kind": "hnsw"
      }
    ],
    "vectorizers": [
      {
        "azureOpenAIParameters": {
          "resourceUri": "https://test-sample.openai.azure.com/",
          "deploymentId": "model",
          "apiKey": "api-key",
          "modelName": "text-embedding-3-large"
        },
        "name": "openai",
        "kind": "azureOpenAI"
      },
      {
        "customWebApiParameters": {
          "uri": "https://my-custom-endpoint.org/",
          "httpHeaders": {
            "header1": "value1",
            "header2": "value2"
          },
          "httpMethod": "POST",
          "timeout": "PT1M",
          "authResourceId": "api://f89d1c93-58a7-4b07-9a5b-5f89048b927b",
          "authIdentity": {
            "@odata.type": "#Microsoft.Azure.Search.DataNoneIdentity"
          }
        },
        "name": "custom-web-api",
        "kind": "customWebApi"
      }
    ],
    "compressions": [
      {
        "scalarQuantizationParameters": {
          "quantizedDataType": "int8"
        },
        "name": "mySQ8",
        "kind": "scalarQuantization",
        "truncationDimension": 2
      },
      {
        "name": "myBQC",
        "kind": "binaryQuantization",
        "truncationDimension": 2
      }
    ]
  },
  "@odata.etag": "0x1234568AE7E58A1"
}

Ukázková odpověď

{
  "@odata.etag": "0x1234568AE7E58A1",
  "name": "temp-stable-test",
  "description": "description",
  "defaultScoringProfile": "stringFieldBoost",
  "fields": [
    {
      "name": "id",
      "type": "Edm.String",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "stored": true,
      "sortable": true,
      "facetable": true,
      "key": true,
      "synonymMaps": []
    },
    {
      "name": "vector1",
      "type": "Collection(Edm.Single)",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "stored": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "dimensions": 20,
      "vectorSearchProfile": "config1",
      "synonymMaps": []
    },
    {
      "name": "vector1b",
      "type": "Collection(Edm.Single)",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "stored": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "dimensions": 10,
      "vectorSearchProfile": "config2",
      "synonymMaps": []
    },
    {
      "name": "vector2",
      "type": "Collection(Edm.Single)",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "stored": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "dimensions": 5,
      "vectorSearchProfile": "config3",
      "synonymMaps": []
    },
    {
      "name": "vector3",
      "type": "Collection(Edm.Single)",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "stored": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "dimensions": 5,
      "vectorSearchProfile": "config3",
      "synonymMaps": []
    },
    {
      "name": "vector22",
      "type": "Collection(Edm.Single)",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "stored": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "dimensions": 10,
      "vectorSearchProfile": "config2",
      "synonymMaps": []
    },
    {
      "name": "name",
      "type": "Edm.String",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "stored": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "analyzer": "en.lucene",
      "synonymMaps": []
    },
    {
      "name": "description",
      "type": "Edm.String",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "stored": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "analyzer": "standard.lucene",
      "synonymMaps": []
    },
    {
      "name": "category",
      "type": "Edm.String",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "stored": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "analyzer": "en.lucene",
      "normalizer": "standard",
      "synonymMaps": []
    },
    {
      "name": "ownerId",
      "type": "Edm.String",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "stored": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "analyzer": "en.lucene",
      "synonymMaps": []
    }
  ],
  "scoringProfiles": [
    {
      "name": "stringFieldBoost",
      "functionAggregation": "sum",
      "text": {
        "weights": {
          "name": 3,
          "description": 1,
          "category": 2,
          "ownerId": 1
        }
      },
      "functions": [
        {
          "fieldName": "category",
          "interpolation": "linear",
          "type": "tag",
          "boost": 2,
          "tag": {
            "tagsParameter": "categoryTag"
          }
        }
      ]
    }
  ],
  "corsOptions": {
    "allowedOrigins": [
      "https://www.example.com/foo"
    ],
    "maxAgeInSeconds": 10
  },
  "suggesters": [
    {
      "name": "sg",
      "searchMode": "analyzingInfixMatching",
      "sourceFields": [
        "category",
        "ownerId"
      ]
    }
  ],
  "analyzers": [
    {
      "@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
      "name": "tagsAnalyzer",
      "tokenizer": "standard_v2",
      "tokenFilters": [
        "common_grams"
      ],
      "charFilters": [
        "html_strip"
      ]
    }
  ],
  "normalizers": [
    {
      "@odata.type": "#Microsoft.Azure.Search.CustomNormalizer",
      "name": "tagsNormalizer",
      "tokenFilters": [
        "asciifolding"
      ],
      "charFilters": [
        "my_mapping"
      ]
    }
  ],
  "tokenizers": [
    {
      "@odata.type": "#Microsoft.Azure.Search.StandardTokenizerV2",
      "name": "my_tokenizer",
      "maxTokenLength": 100
    }
  ],
  "tokenFilters": [
    {
      "@odata.type": "#Microsoft.Azure.Search.AsciiFoldingTokenFilter",
      "name": "my_tokenFilter",
      "preserveOriginal": false
    }
  ],
  "charFilters": [
    {
      "@odata.type": "#Microsoft.Azure.Search.MappingCharFilter",
      "name": "my_mapping",
      "mappings": [
        ".=>,",
        "_=>-"
      ]
    }
  ],
  "similarity": {
    "@odata.type": "#Microsoft.Azure.Search.BM25Similarity",
    "k1": 10,
    "b": 0.1
  },
  "semantic": {
    "defaultConfiguration": "testconfig",
    "configurations": [
      {
        "name": "testconfig",
        "rankingOrder": "BoostedRerankerScore",
        "prioritizedFields": {
          "titleField": {
            "fieldName": "category"
          },
          "prioritizedContentFields": [
            {
              "fieldName": "description"
            }
          ],
          "prioritizedKeywordsFields": [
            {
              "fieldName": "ownerId"
            }
          ]
        }
      }
    ]
  },
  "vectorSearch": {
    "algorithms": [
      {
        "name": "cosine",
        "kind": "hnsw",
        "hnswParameters": {
          "metric": "cosine",
          "m": 4,
          "efConstruction": 400,
          "efSearch": 500
        }
      },
      {
        "name": "euclidean",
        "kind": "hnsw",
        "hnswParameters": {
          "metric": "euclidean",
          "m": 4,
          "efConstruction": 400,
          "efSearch": 500
        }
      },
      {
        "name": "dotProduct",
        "kind": "hnsw",
        "hnswParameters": {
          "metric": "dotProduct",
          "m": 4,
          "efConstruction": 400,
          "efSearch": 500
        }
      }
    ],
    "profiles": [
      {
        "name": "config1",
        "algorithm": "cosine",
        "vectorizer": "openai",
        "compression": "mySQ8"
      },
      {
        "name": "config2",
        "algorithm": "euclidean",
        "vectorizer": "custom-web-api",
        "compression": "mySQ8"
      },
      {
        "name": "config3",
        "algorithm": "dotProduct",
        "vectorizer": "custom-web-api",
        "compression": "myBQC"
      }
    ],
    "vectorizers": [
      {
        "name": "openai",
        "kind": "azureOpenAI",
        "azureOpenAIParameters": {
          "resourceUri": "https://test-sample.openai.azure.com",
          "deploymentId": "model",
          "apiKey": "api-key",
          "modelName": "text-embedding-3-large"
        }
      },
      {
        "name": "custom-web-api",
        "kind": "customWebApi",
        "customWebApiParameters": {
          "httpMethod": "POST",
          "uri": "https://my-custom-endpoint.org/",
          "timeout": "PT1M",
          "authResourceId": "api://f89d1c93-58a7-4b07-9a5b-5f89048b927b",
          "httpHeaders": {
            "header1": "value1",
            "header2": "value2"
          },
          "authIdentity": {
            "@odata.type": "#Microsoft.Azure.Search.DataNoneIdentity"
          }
        }
      }
    ],
    "compressions": [
      {
        "name": "mySQ8",
        "kind": "scalarQuantization",
        "truncationDimension": 2,
        "scalarQuantizationParameters": {
          "quantizedDataType": "int8"
        },
        "rescoringOptions": {
          "enableRescoring": true,
          "defaultOversampling": 4,
          "rescoreStorageMethod": "preserveOriginals"
        }
      },
      {
        "name": "myBQC",
        "kind": "binaryQuantization",
        "truncationDimension": 2,
        "rescoringOptions": {
          "enableRescoring": true,
          "defaultOversampling": 4,
          "rescoreStorageMethod": "preserveOriginals"
        }
      }
    ]
  }
}

Definice

Name Description
AsciiFoldingTokenFilter

Převede abecední, číselné a symbolické znaky Unicode, které nejsou v prvních 127 znacích ASCII (blok Unicode "Základní latinka") na jejich ekvivalenty ASCII, pokud takové ekvivalenty existují. Tento filtr tokenů je implementován pomocí Apache Lucene.

AzureActiveDirectoryApplicationCredentials

Přihlašovací údaje registrované aplikace vytvořené pro vaši vyhledávací službu, která se používá pro ověřený přístup k šifrovacím klíčům uloženým v Azure Key Vault.

AzureOpenAIEmbeddingSkill

Umožňuje vygenerovat vektorové vložení pro daný textový vstup pomocí prostředku Azure OpenAI.

AzureOpenAIModelName

Název modelu Azure Open AI, který se bude volat.

AzureOpenAIParameters

Určuje parametry pro připojení k prostředku Azure OpenAI.

AzureOpenAIVectorizer

Určuje prostředek Azure OpenAI použitý k vektorizaci řetězce dotazu.

BinaryQuantizationVectorSearchCompressionConfiguration

Obsahuje možnosti konfigurace specifické pro metodu komprese binární kvantizace používanou během indexování a dotazování.

BM25Similarity

Hodnotící funkce založená na algoritmu podobnosti Okapi BM25. BM25 je algoritmus podobný TF-IDF, který zahrnuje normalizaci délky (řízenou parametrem 'b') a také saturaci frekvence (řízenou parametrem 'k1').

CharFilterName

Definuje názvy všech filtrů znaků podporovaných vyhledávacím modulem.

CjkBigramTokenFilter

Tvoří bigramy termínů CJK, které jsou generovány ze standardního tokenizéru. Tento filtr tokenů je implementován pomocí Apache Lucene.

CjkBigramTokenFilterScripts

Skripty, které může CjkBigramTokenFilter ignorovat.

ClassicSimilarity

Starší algoritmus podobnosti, který používá implementaci TF-IDF v Lucene TFIDFSimilarity. Tato varianta TF-IDF zavádí statickou normalizaci délky dokumentu a také koordinační faktory, které penalizují dokumenty, které se prohledávaným dotazům shodují jen částečně.

ClassicTokenizer

Tokenizér založený na gramatice, který je vhodný pro zpracování většiny dokumentů v evropském jazyce. Tento tokenizer je implementován pomocí Apache Lucene.

CommonGramTokenFilter

Vytvářejte bigramy pro často se vyskytující výrazy při indexování. Jednotlivé termíny jsou také stále indexovány, s překrytými bigramy. Tento filtr tokenů je implementován pomocí Apache Lucene.

CorsOptions

Definuje možnosti pro řízení sdílení prostředků mezi zdroji (CORS) pro index.

CustomAnalyzer

Umožňuje převzít kontrolu nad procesem převodu textu na indexovatelné/prohledávatelné tokeny. Jedná se o uživatelsky definovanou konfiguraci skládající se z jednoho předdefinovaného tokenizéru a jednoho nebo více filtrů. Tokenizátor je zodpovědný za rozdělení textu na tokeny a filtry pro úpravu tokenů generovaných tokenizátorem.

CustomNormalizer

Umožňuje nakonfigurovat normalizaci pro filtrovatelná, seřaditelná pole a pole plošek, která ve výchozím nastavení pracují s přísným porovnáváním. Jedná se o uživatelem definovanou konfiguraci skládající se alespoň z jednoho nebo více filtrů, které upravují uložený token.

DictionaryDecompounderTokenFilter

Rozkládá složená slova vyskytující se v mnoha germánských jazycích. Tento filtr tokenů je implementován pomocí Apache Lucene.

DistanceScoringFunction

Definuje funkci, která zvyšuje skóre na základě vzdálenosti od zeměpisné polohy.

DistanceScoringParameters

Poskytuje hodnoty parametrů pro funkci bodování vzdálenosti.

EdgeNGramTokenFilter

Generuje n-gramy dané velikosti (velikostí) počínaje přední nebo zadní stranou vstupního tokenu. Tento filtr tokenů je implementován pomocí Apache Lucene.

EdgeNGramTokenFilterSide

Určuje, ze které strany vstupu by měl být n-gram generován.

EdgeNGramTokenFilterV2

Generuje n-gramy dané velikosti (velikostí) počínaje přední nebo zadní stranou vstupního tokenu. Tento filtr tokenů je implementován pomocí Apache Lucene.

EdgeNGramTokenizer

Tokenizuje vstup z okraje na n-gramy dané velikosti (velikostí). Tento tokenizer je implementován pomocí Apache Lucene.

ElisionTokenFilter

Odstraňuje elize. Například "l'avion" (letadlo) bude převedeno na "avion" (letadlo). Tento filtr tokenů je implementován pomocí Apache Lucene.

ErrorAdditionalInfo

Další informace o chybě správy prostředků

ErrorDetail

Podrobnosti o chybě.

ErrorResponse

Chybová odpověď

ExhaustiveKnnParameters

Obsahuje parametry specifické pro vyčerpávající algoritmus KNN.

ExhaustiveKnnVectorSearchAlgorithmConfiguration

Obsahuje možnosti konfigurace specifické pro vyčerpávající algoritmus KNN používaný při dotazování, který bude provádět vyhledávání hrubou silou v celém vektorovém indexu.

FreshnessScoringFunction

Definuje funkci, která zvyšuje skóre na základě hodnoty pole data a času.

FreshnessScoringParameters

Poskytuje hodnoty parametrů funkci bodování aktuálnosti.

HnswParameters

Obsahuje parametry specifické pro algoritmus HNSW.

HnswVectorSearchAlgorithmConfiguration

Obsahuje možnosti konfigurace specifické pro algoritmus HNSW přibližných nejbližších sousedů používaný během indexování a dotazování. Algoritmus HNSW nabízí laditelný kompromis mezi rychlostí vyhledávání a přesností.

InputFieldMappingEntry

Mapování vstupního pole pro dovednost.

KeepTokenFilter

Filtr tokenů, který uchovává pouze tokeny s textem obsaženým v určeném seznamu slov. Tento filtr tokenů je implementován pomocí Apache Lucene.

KeywordMarkerTokenFilter

Označí termíny jako klíčová slova. Tento filtr tokenů je implementován pomocí Apache Lucene.

KeywordTokenizer

Vygeneruje celý vstup jako jeden token. Tento tokenizer je implementován pomocí Apache Lucene.

KeywordTokenizerV2

Vygeneruje celý vstup jako jeden token. Tento tokenizer je implementován pomocí Apache Lucene.

LengthTokenFilter

Odstraní slova, která jsou příliš dlouhá nebo příliš krátká. Tento filtr tokenů je implementován pomocí Apache Lucene.

LexicalAnalyzerName

Definuje názvy všech analyzátorů textu podporovaných vyhledávacím modulem.

LexicalNormalizerName

Definuje názvy všech normalizátorů textu podporovaných vyhledávacím modulem.

LexicalTokenizerName

Definuje jména všech tokenizátorů podporovaných vyhledávačem.

LimitTokenFilter

Omezuje počet tokenů při indexování. Tento filtr tokenů je implementován pomocí Apache Lucene.

LuceneStandardAnalyzer

Standardní analyzátor Apache Lucene; Skládá se ze standardního tokenizéru, filtru malých písmen a filtru stop.

LuceneStandardTokenizer

Zalomí text podle pravidel segmentace textu Unicode. Tento tokenizer je implementován pomocí Apache Lucene.

LuceneStandardTokenizerV2

Zalomí text podle pravidel segmentace textu Unicode. Tento tokenizer je implementován pomocí Apache Lucene.

MagnitudeScoringFunction

Definuje funkci, která zvyšuje skóre na základě velikosti číselného pole.

MagnitudeScoringParameters

Poskytuje hodnoty parametrů pro funkci bodování velikosti.

MappingCharFilter

Filtr znaků, který aplikuje mapování definovaná pomocí volby mapování. Porovnávání je hladové (vyhrává nejdelší porovnávání vzorů v daném bodě). Nahrazením může být prázdný řetězec. Tento filtr znaků je implementován pomocí Apache Lucene.

MicrosoftLanguageStemmingTokenizer

Rozdělí text pomocí pravidel specifických pro daný jazyk a zredukuje slova na jejich základní tvary.

MicrosoftLanguageTokenizer

Rozdělí text pomocí pravidel specifických pro daný jazyk.

MicrosoftStemmingTokenizerLanguage

Uvádí jazyky podporované jazykovým stemizérem společnosti Microsoft.

MicrosoftTokenizerLanguage

Uvádí jazyky podporované nástrojem pro tokenizaci jazyka společnosti Microsoft.

NGramTokenFilter

Generuje n-gramů dané velikosti (velikostí). Tento filtr tokenů je implementován pomocí Apache Lucene.

NGramTokenFilterV2

Generuje n-gramů dané velikosti (velikostí). Tento filtr tokenů je implementován pomocí Apache Lucene.

NGramTokenizer

Tokenizuje vstup na n-gramy dané velikosti (velikostí). Tento tokenizer je implementován pomocí Apache Lucene.

OutputFieldMappingEntry

Mapování výstupního pole pro dovednost.

PathHierarchyTokenizerV2

Tokenizer pro hierarchie podobné cestám. Tento tokenizer je implementován pomocí Apache Lucene.

PatternAnalyzer

Flexibilně rozděluje text na termíny pomocí vzoru regulárních výrazů. Tento analyzátor je implementován pomocí Apache Lucene.

PatternCaptureTokenFilter

Používá regulární výrazy Java k vygenerování více tokenů - jeden pro každou skupinu zachycení v jednom nebo více vzorech. Tento filtr tokenů je implementován pomocí Apache Lucene.

PatternReplaceCharFilter

Filtr znaků, který nahrazuje znaky ve vstupním řetězci. Používá regulární výraz k identifikaci sekvencí znaků, které se mají zachovat, a vzor pro nahrazování k identifikaci znaků, které mají být nahrazeny. Například pro vstupní text "aa bb aa bb", vzor "(aa)\s+(bb)" a nahrazení "$1#$2" by výsledek byl "aa#bb aa#bb". Tento filtr znaků je implementován pomocí Apache Lucene.

PatternReplaceTokenFilter

Filtr znaků, který nahrazuje znaky ve vstupním řetězci. Používá regulární výraz k identifikaci sekvencí znaků, které se mají zachovat, a vzor pro nahrazování k identifikaci znaků, které mají být nahrazeny. Například pro vstupní text "aa bb aa bb", vzor "(aa)\s+(bb)" a nahrazení "$1#$2" by výsledek byl "aa#bb aa#bb". Tento filtr tokenů je implementován pomocí Apache Lucene.

PatternTokenizer

Tokenizer, který používá porovnávání vzorů regulárních výrazů k vytvoření odlišných tokenů. Tento tokenizer je implementován pomocí Apache Lucene.

PhoneticEncoder

Identifikuje typ fonetického kodéru, který se má použít s PhoneticTokenFilter.

PhoneticTokenFilter

Vytvářet tokeny pro fonetické shody. Tento filtr tokenů je implementován pomocí Apache Lucene.

PrioritizedFields

Popisuje pole názvu, obsahu a klíčových slov, která se mají použít pro sémantické řazení, titulky, zvýraznění a odpovědi.

RankingOrder

Představuje skóre, které se má použít pro pořadí řazení dokumentů.

RegexFlags

Definuje příznaky, které lze kombinovat a řídit tak způsob použití regulárních výrazů v analyzátoru vzorů a tokenizátoru vzorů.

RescoringOptions

Obsahuje možnosti pro změnu hodnocení.

ScalarQuantizationParameters

Obsahuje parametry specifické pro skalární kvantování.

ScalarQuantizationVectorSearchCompressionConfiguration

Obsahuje možnosti konfigurace specifické pro metodu skalární kvantizace, která se používá při indexování a dotazování.

ScoringFunctionAggregation

Definuje agregační funkci, která se používá ke kombinování výsledků všech hodnotících funkcí v profilu vyhodnocování.

ScoringFunctionInterpolation

Definuje funkci použitou k interpolaci zvýšení skóre v rozsahu dokumentů.

ScoringProfile

Definuje parametry pro vyhledávací index, které ovlivňují bodování ve vyhledávacích dotazech.

SearchField

Představuje pole v definici indexu, která popisuje název, datový typ a chování pole při hledání.

SearchFieldDataType

Definuje datový typ pole ve vyhledávacím indexu.

SearchIndex

Představuje definici indexu vyhledávání, která popisuje pole a chování indexu při vyhledávání.

SearchIndexerDataNoneIdentity

Vymaže vlastnost identity zdroje dat.

SearchIndexerDataUserAssignedIdentity

Určuje identitu zdroje dat, který se má použít.

SearchResourceEncryptionKey

Šifrovací klíč spravovaný zákazníkem ve službě Azure Key Vault. Klíče, které vytvoříte a spravujete, lze použít k šifrování nebo dešifrování neaktivních uložených dat, jako jsou indexy a mapy synonym.

SemanticConfiguration

Definuje konkrétní konfiguraci, která se má použít v kontextu sémantických schopností.

SemanticField

Pole, které se používá jako součást sémantické konfigurace.

SemanticSettings

Definuje parametry pro vyhledávací index, které ovlivňují sémantické schopnosti.

ShingleTokenFilter

Vytvoří kombinace tokenů jako jeden token. Tento filtr tokenů je implementován pomocí Apache Lucene.

SnowballTokenFilter

Filtr, který vytváří kmeny slov pomocí skriptmeru generovaného sněhovou koulí. Tento filtr tokenů je implementován pomocí Apache Lucene.

SnowballTokenFilterLanguage

Jazyk, který se má použít pro filtr tokenu sněhové koule.

StemmerOverrideTokenFilter

Poskytuje možnost přepsat jiné filtry stemmingu pomocí vlastního stemmingu založeného na slovníku. Všechny termíny se slovníkovým řetězcem budou označeny jako klíčová slova, takže nebudou v řetězci spojovány se stemmery. Musí být umístěn před všemi odvozenými filtry. Tento filtr tokenů je implementován pomocí Apache Lucene.

StemmerTokenFilter

Jazykově specifický stemming filtr. Tento filtr tokenů je implementován pomocí Apache Lucene.

StemmerTokenFilterLanguage

Jazyk, který se má použít pro filtr tokenů stemmeru.

StopAnalyzer

Rozdělí text na nepísmena; Použije filtry tokenů psaných malými písmeny a stopword. Tento analyzátor je implementován pomocí Apache Lucene.

StopwordsList

Identifikuje předdefinovaný seznam stophesel specifických pro jazyk.

StopwordsTokenFilter

Odstraní stop slova z datového proudu tokenu. Tento filtr tokenů je implementován pomocí Apache Lucene.

Suggester

Definuje, jak by se mělo rozhraní API pro návrhy použít na skupinu polí v indexu.

SuggesterSearchMode

Hodnota označující možnosti modulu pro návrhy.

SynonymTokenFilter

Porovnává jednoslovná nebo víceslovná synonyma v proudu tokenů. Tento filtr tokenů je implementován pomocí Apache Lucene.

TagScoringFunction

Definuje funkci, která zvyšuje skóre dokumentů pomocí řetězcových hodnot odpovídajících danému seznamu tagů.

TagScoringParameters

Poskytuje hodnoty parametrů funkci bodování značek.

TextWeights

Definuje váhy indexových polí, jejichž shody by měly zvýšit bodování ve vyhledávacích dotazech.

TokenCharacterKind

Představuje třídy znaků, se kterými může filtr tokenů pracovat.

TokenFilterName

Definuje názvy všech filtrů tokenů podporovaných vyhledávacím modulem.

TruncateTokenFilter

Zkrátí podmínky na určitou délku. Tento filtr tokenů je implementován pomocí Apache Lucene.

UaxUrlEmailTokenizer

Tokenizuje adresy URL a e-maily jako jeden token. Tento tokenizer je implementován pomocí Apache Lucene.

UniqueTokenFilter

Odfiltruje tokeny se stejným textem jako předchozí token. Tento filtr tokenů je implementován pomocí Apache Lucene.

VectorEncodingFormat

Formát kódování pro interpretaci obsahu vektorového pole.

VectorSearch

Obsahuje konfigurační volby související s vektorovým vyhledáváním.

VectorSearchAlgorithmKind

Algoritmus používaný pro indexování a dotazování.

VectorSearchAlgorithmMetric

Metrika podobnosti, která se má použít pro vektorové porovnání. Doporučuje se zvolit stejnou metriku podobnosti, na které byl natrénován model vkládání.

VectorSearchCompressionKind

Metoda komprese používaná pro indexování a dotazování.

VectorSearchCompressionRescoreStorageMethod

Metoda ukládání původních vektorů s plnou přesností používaných pro opakované bodování a interní operace indexu.

VectorSearchCompressionTargetDataType

Kvantovaný datový typ komprimovaných vektorových hodnot.

VectorSearchProfile

Definuje kombinaci konfigurací pro použití s vektorovým vyhledáváním.

VectorSearchVectorizerKind

Metoda vektorizace, která se má použít během doby dotazu.

WebApiParameters

Určuje vlastnosti pro připojení k uživatelsky definovanému vektorizátoru.

WebApiVectorizer

Určuje uživatelem definovaný vektorizátor pro generování vektorového vkládání řetězce dotazu. Integrace externího vektorizátoru se provádí pomocí vlastního rozhraní webového rozhraní API sady dovedností.

WordDelimiterTokenFilter

Rozdělí slova na podslova a provede volitelné transformace skupin podslov. Tento filtr tokenů je implementován pomocí Apache Lucene.

AsciiFoldingTokenFilter

Převede abecední, číselné a symbolické znaky Unicode, které nejsou v prvních 127 znacích ASCII (blok Unicode "Základní latinka") na jejich ekvivalenty ASCII, pokud takové ekvivalenty existují. Tento filtr tokenů je implementován pomocí Apache Lucene.

Name Typ Default value Description
@odata.type string:

#Microsoft.Azure.Search.AsciiFoldingTokenFilter

Fragment identifikátoru URI určující typ filtru tokenu.

name

string

Název filtru tokenů. Smí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezena na 128 znaků.

preserveOriginal

boolean

False

Hodnota označující, zda bude zachován původní token. Výchozí hodnota je False.

AzureActiveDirectoryApplicationCredentials

Přihlašovací údaje registrované aplikace vytvořené pro vaši vyhledávací službu, která se používá pro ověřený přístup k šifrovacím klíčům uloženým v Azure Key Vault.

Name Typ Description
applicationId

string

ID aplikace AAD, kterému byla udělena požadovaná přístupová oprávnění k Azure Key Vault, které se má použít při šifrování neaktivních uložených dat. ID aplikace by nemělo být zaměňováno s ID objektu pro vaši aplikaci AAD.

applicationSecret

string

Ověřovací klíč zadané aplikace AAD.

AzureOpenAIEmbeddingSkill

Umožňuje vygenerovat vektorové vložení pro daný textový vstup pomocí prostředku Azure OpenAI.

Name Typ Description
@odata.type string:

#Microsoft.Skills.Text.AzureOpenAIEmbeddingSkill

Fragment identifikátoru URI určující typ dovednosti.

apiKey

string

Klíč rozhraní API určeného prostředku Azure OpenAI.

authIdentity SearchIndexerDataIdentity:

Spravovaná identita přiřazená uživatelem používaná pro odchozí připojení.

context

string

Představuje úroveň, na které probíhají operace, jako je kořen dokumentu nebo obsah dokumentu (například /document nebo /document/content). Výchozí hodnota je /document.

deploymentId

string

ID nasazení modelu Azure OpenAI na určeném zdroji.

description

string

Popis dovednosti, který popisuje vstupy, výstupy a použití dovednosti.

dimensions

integer (int32)

Početdimenzích Podporováno pouze v modelech pro vkládání textu-3 a novějších.

inputs

InputFieldMappingEntry[]

Vstupy dovedností mohou být sloupec ve zdrojové datové sadě nebo výstup nadřazené dovednosti.

modelName

AzureOpenAIModelName

Název modelu vkládání, který je nasazen na zadané cestě deploymentId.

name

string

Název dovednosti, který ji v sadě dovedností jednoznačně identifikuje. Dovednost, která nemá definovaný žádný název, bude mít v poli dovedností výchozí název indexu založeného na hodnotě 1, kterému předchází znak #.

outputs

OutputFieldMappingEntry[]

Výstupem dovednosti je buď pole ve vyhledávacím indexu, nebo hodnota, která může být zpracována jako vstup jinou dovedností.

resourceUri

string (uri)

Identifikátor URI prostředku Azure OpenAI.

AzureOpenAIModelName

Název modelu Azure Open AI, který se bude volat.

Hodnota Description
text-embedding-ada-002
text-embedding-3-large
text-embedding-3-small

AzureOpenAIParameters

Určuje parametry pro připojení k prostředku Azure OpenAI.

Name Typ Description
apiKey

string

Klíč rozhraní API určeného prostředku Azure OpenAI.

authIdentity SearchIndexerDataIdentity:

Spravovaná identita přiřazená uživatelem používaná pro odchozí připojení.

deploymentId

string

ID nasazení modelu Azure OpenAI na určeném zdroji.

modelName

AzureOpenAIModelName

Název modelu vkládání, který je nasazen na zadané cestě deploymentId.

resourceUri

string (uri)

Identifikátor URI prostředku Azure OpenAI.

AzureOpenAIVectorizer

Určuje prostředek Azure OpenAI použitý k vektorizaci řetězce dotazu.

Name Typ Description
azureOpenAIParameters AzureOpenAIParameters:

AzureOpenAIEmbeddingSkill

Obsahuje parametry specifické pro vektorizaci vkládání Azure OpenAI.

kind string:

azureOpenAI

Název druhu metody vektorizace, která je konfigurována pro použití s vektorovým vyhledáváním.

name

string

Název, který má být spojen s touto konkrétní metodou vektorizace.

BinaryQuantizationVectorSearchCompressionConfiguration

Obsahuje možnosti konfigurace specifické pro metodu komprese binární kvantizace používanou během indexování a dotazování.

Name Typ Description
kind string:

binaryQuantization

Název druhu metody komprese, která je konfigurována pro použití s vektorovým vyhledáváním.

name

string

Název, který má být spojen s touto konkrétní konfigurací.

rescoringOptions

RescoringOptions

Obsahuje možnosti pro změnu hodnocení.

truncationDimension

integer (int32)

Počet kót, na které se mají vektory zkrátit. Zkrácením vektorů se zmenší velikost vektorů a množství dat, která je třeba během vyhledávání přenést. To může ušetřit náklady na úložiště a zlepšit výkon vyhledávání na úkor úplnosti. Měl by se používat pouze pro vkládání natrénované pomocí Matrjoshka Representation Learning (MRL), jako je OpenAI text-embedding-3-large (small). Výchozí hodnota je null, což znamená, že nedojde ke zkrácení.

BM25Similarity

Hodnotící funkce založená na algoritmu podobnosti Okapi BM25. BM25 je algoritmus podobný TF-IDF, který zahrnuje normalizaci délky (řízenou parametrem 'b') a také saturaci frekvence (řízenou parametrem 'k1').

Name Typ Description
@odata.type string:

#Microsoft.Azure.Search.BM25Similarity

b

number (double)

Tato vlastnost určuje, jak délka dokumentu ovlivní skóre relevance. Ve výchozím nastavení se používá hodnota 0,75. Hodnota 0,0 znamená, že se nepoužije žádná normalizace délky, zatímco hodnota 1,0 znamená, že skóre je plně normalizováno podle délky dokumentu.

k1

number (double)

Tato vlastnost řídí funkci změny velikosti mezi četností termínů jednotlivých odpovídajících výrazů a konečným skóre relevance dvojice dokument-dotaz. Ve výchozím nastavení se používá hodnota 1,2. Hodnota 0,0 znamená, že skóre se neškáluje se zvyšováním frekvence období.

CharFilterName

Definuje názvy všech filtrů znaků podporovaných vyhledávacím modulem.

Hodnota Description
html_strip

Filtr znaků, který se pokouší odstranit konstrukce jazyka HTML. Viz https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html.

CjkBigramTokenFilter

Tvoří bigramy termínů CJK, které jsou generovány ze standardního tokenizéru. Tento filtr tokenů je implementován pomocí Apache Lucene.

Name Typ Default value Description
@odata.type string:

#Microsoft.Azure.Search.CjkBigramTokenFilter

Fragment identifikátoru URI určující typ filtru tokenu.

ignoreScripts

CjkBigramTokenFilterScripts[]

Skripty, které se mají ignorovat.

name

string

Název filtru tokenů. Smí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezena na 128 znaků.

outputUnigrams

boolean

False

Hodnota označující, zda se má vypsat unigramy i bigramy (pokud je true), nebo pouze bigramy (pokud false). Výchozí hodnota je False.

CjkBigramTokenFilterScripts

Skripty, které může CjkBigramTokenFilter ignorovat.

Hodnota Description
han

Ignorujte písmo Han při vytváření bigramů výrazů CJK.

hiragana

Ignorujte písmo Hiragana při vytváření bigramů termínů CJK.

katakana

Ignorujte písmo Katakana při vytváření bigramů termínů CJK.

hangul

Ignorujte písmo Hangul při vytváření bigramů termínů CJK.

ClassicSimilarity

Starší algoritmus podobnosti, který používá implementaci TF-IDF v Lucene TFIDFSimilarity. Tato varianta TF-IDF zavádí statickou normalizaci délky dokumentu a také koordinační faktory, které penalizují dokumenty, které se prohledávaným dotazům shodují jen částečně.

Name Typ Description
@odata.type string:

#Microsoft.Azure.Search.ClassicSimilarity

ClassicTokenizer

Tokenizér založený na gramatice, který je vhodný pro zpracování většiny dokumentů v evropském jazyce. Tento tokenizer je implementován pomocí Apache Lucene.

Name Typ Default value Description
@odata.type string:

#Microsoft.Azure.Search.ClassicTokenizer

Fragment URI určující typ tokenizeru.

maxTokenLength

integer (int32)

maximum: 300
255

Maximální délka tokenu. Výchozí hodnota je 255. Tokeny delší než maximální délka se rozdělí. Maximální délka tokenu, kterou lze použít, je 300 znaků.

name

string

Název tokenizátoru. Smí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezena na 128 znaků.

CommonGramTokenFilter

Vytvářejte bigramy pro často se vyskytující výrazy při indexování. Jednotlivé termíny jsou také stále indexovány, s překrytými bigramy. Tento filtr tokenů je implementován pomocí Apache Lucene.

Name Typ Default value Description
@odata.type string:

#Microsoft.Azure.Search.CommonGramTokenFilter

Fragment identifikátoru URI určující typ filtru tokenu.

commonWords

string[]

Množina běžných slov.

ignoreCase

boolean

False

Hodnota označující, zda při shodě běžných slov nebudou rozlišovat velká a malá písmena. Výchozí hodnota je False.

name

string

Název filtru tokenů. Smí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezena na 128 znaků.

queryMode

boolean

False

Hodnota, která označuje, zda je filtr tokenů v režimu dotazu. V režimu dotazu filtr tokenů generuje bigramy a poté odstraňuje běžná slova a jednotlivé výrazy následované společným slovem. Výchozí hodnota je False.

CorsOptions

Definuje možnosti pro řízení sdílení prostředků mezi zdroji (CORS) pro index.

Name Typ Description
allowedOrigins

string[]

Seznam zdrojů, ze kterých bude kódu JavaScript udělen přístup k vašemu indexu. Může obsahovat seznam hostitelů ve tvaru {protocol}://{fully-qualified-domain-name}[:{port#}] nebo jeden znak *, který povoluje všechny zdroje (nedoporučuje se).

maxAgeInSeconds

integer (int64)

Doba, po kterou by prohlížeče měly ukládat předběžné odpovědi CORS do mezipaměti. Výchozí hodnota je 5 minut.

CustomAnalyzer

Umožňuje převzít kontrolu nad procesem převodu textu na indexovatelné/prohledávatelné tokeny. Jedná se o uživatelsky definovanou konfiguraci skládající se z jednoho předdefinovaného tokenizéru a jednoho nebo více filtrů. Tokenizátor je zodpovědný za rozdělení textu na tokeny a filtry pro úpravu tokenů generovaných tokenizátorem.

Name Typ Description
@odata.type string:

#Microsoft.Azure.Search.CustomAnalyzer

Fragment identifikátoru URI určující typ analyzátoru.

charFilters

CharFilterName[]

Seznam filtrů znaků používaných k přípravě vstupního textu před jeho zpracováním tokenizátorem. Mohou například nahradit určité znaky nebo symboly. Filtry se spouštějí v pořadí, ve kterém jsou uvedeny.

name

string

Název analyzátoru. Smí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezena na 128 znaků.

tokenFilters

TokenFilterName[]

Seznam filtrů tokenů používaných k odfiltrování nebo úpravě tokenů generovaných tokenizátorem. Můžete například určit filtr malých písmen, který převede všechny znaky na malá písmena. Filtry se spouštějí v pořadí, ve kterém jsou uvedeny.

tokenizer

LexicalTokenizerName

Název tokenizátoru, který se má použít k rozdělení souvislého textu do posloupnosti tokenů, například k rozdělení věty na slova.

CustomNormalizer

Umožňuje nakonfigurovat normalizaci pro filtrovatelná, seřaditelná pole a pole plošek, která ve výchozím nastavení pracují s přísným porovnáváním. Jedná se o uživatelem definovanou konfiguraci skládající se alespoň z jednoho nebo více filtrů, které upravují uložený token.

Name Typ Description
@odata.type string:

#Microsoft.Azure.Search.CustomNormalizer

Fragment identifikátoru URI určující typ normalizátoru.

charFilters

CharFilterName[]

Seznam filtrů znaků používaných k přípravě vstupního textu před jeho zpracováním. Mohou například nahradit určité znaky nebo symboly. Filtry se spouštějí v pořadí, ve kterém jsou uvedeny.

name

string

Název normalizátoru. Smí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezena na 128 znaků. Nesmí končit na ".microsoft" ani ".lucene", ani nesmí být pojmenován "asciifolding", "standard", "malá písmena", "velká písmena" nebo "elision".

tokenFilters

TokenFilterName[]

Seznam filtrů tokenů, které slouží k odfiltrování nebo úpravě vstupního tokenu. Můžete například určit filtr malých písmen, který převede všechny znaky na malá písmena. Filtry se spouštějí v pořadí, ve kterém jsou uvedeny.

DictionaryDecompounderTokenFilter

Rozkládá složená slova vyskytující se v mnoha germánských jazycích. Tento filtr tokenů je implementován pomocí Apache Lucene.

Name Typ Default value Description
@odata.type string:

#Microsoft.Azure.Search.DictionaryDecompounderTokenFilter

Fragment identifikátoru URI určující typ filtru tokenu.

maxSubwordSize

integer (int32)

maximum: 300
15

Maximální velikost podslova. Výstupem jsou pouze podslova kratší než tato. Výchozí hodnota je 15. Maximum je 300.

minSubwordSize

integer (int32)

maximum: 300
2

Minimální velikost podslovu. Výstupem jsou pouze podslova delší než tato. Výchozí hodnota je 2. Maximum je 300.

minWordSize

integer (int32)

maximum: 300
5

Minimální velikost slova. Zpracovávají se pouze slova delší než tato. Výchozí hodnota je 5. Maximum je 300.

name

string

Název filtru tokenů. Smí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezena na 128 znaků.

onlyLongestMatch

boolean

False

Hodnota označující, zda se má do výstupu přidat pouze nejdelší odpovídající podslovo. Výchozí hodnota je False.

wordList

string[]

Seznam slov, která mají být porovnána.

DistanceScoringFunction

Definuje funkci, která zvyšuje skóre na základě vzdálenosti od zeměpisné polohy.

Name Typ Description
boost

number (double)

Násobitel pro hrubé skóre. Musí být kladné číslo, které se nerovná 1,0.

distance

DistanceScoringParameters

Hodnoty parametrů pro funkci bodování vzdálenosti.

fieldName

string

Název pole, které se používá jako vstup pro funkci bodování.

interpolation

ScoringFunctionInterpolation

Hodnota označující, jak bude zvýšení interpolováno napříč skóre dokumentu; výchozí hodnota je "Lineární".

type string:

distance

Označuje typ funkce, která se má použít. Mezi platné hodnoty patří velikost, aktuálnost, vzdálenost a značka. Typ funkce musí být malými písmeny.

DistanceScoringParameters

Poskytuje hodnoty parametrů pro funkci bodování vzdálenosti.

Name Typ Description
boostingDistance

number (double)

Vzdálenost v kilometrech od referenčního místa, kde končí rozsah zesílení.

referencePointParameter

string

Název parametru předaného ve vyhledávacích dotazech k určení umístění odkazu.

EdgeNGramTokenFilter

Generuje n-gramy dané velikosti (velikostí) počínaje přední nebo zadní stranou vstupního tokenu. Tento filtr tokenů je implementován pomocí Apache Lucene.

Name Typ Default value Description
@odata.type string:

#Microsoft.Azure.Search.EdgeNGramTokenFilter

Fragment identifikátoru URI určující typ filtru tokenu.

maxGram

integer (int32)

2

Maximální délka n-gramů. Výchozí hodnota je 2.

minGram

integer (int32)

1

Minimální délka n-gramu. Výchozí hodnota je 1. Musí být menší než hodnota parametru maxGram.

name

string

Název filtru tokenů. Smí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezena na 128 znaků.

side

EdgeNGramTokenFilterSide

front

Určuje, ze které strany vstupu by měl být n-gram generován. Výchozí je "front".

EdgeNGramTokenFilterSide

Určuje, ze které strany vstupu by měl být n-gram generován.

Hodnota Description
front

Určuje, že n-gram by měl být generován z přední části vstupu.

back

Určuje, že n-gram má být generován ze zadní části vstupu.

EdgeNGramTokenFilterV2

Generuje n-gramy dané velikosti (velikostí) počínaje přední nebo zadní stranou vstupního tokenu. Tento filtr tokenů je implementován pomocí Apache Lucene.

Name Typ Default value Description
@odata.type string:

#Microsoft.Azure.Search.EdgeNGramTokenFilterV2

Fragment identifikátoru URI určující typ filtru tokenu.

maxGram

integer (int32)

maximum: 300
2

Maximální délka n-gramů. Výchozí hodnota je 2. Maximum je 300.

minGram

integer (int32)

maximum: 300
1

Minimální délka n-gramu. Výchozí hodnota je 1. Maximum je 300. Musí být menší než hodnota parametru maxGram.

name

string

Název filtru tokenů. Smí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezena na 128 znaků.

side

EdgeNGramTokenFilterSide

front

Určuje, ze které strany vstupu by měl být n-gram generován. Výchozí je "front".

EdgeNGramTokenizer

Tokenizuje vstup z okraje na n-gramy dané velikosti (velikostí). Tento tokenizer je implementován pomocí Apache Lucene.

Name Typ Default value Description
@odata.type string:

#Microsoft.Azure.Search.EdgeNGramTokenizer

Fragment URI určující typ tokenizeru.

maxGram

integer (int32)

maximum: 300
2

Maximální délka n-gramů. Výchozí hodnota je 2. Maximum je 300.

minGram

integer (int32)

maximum: 300
1

Minimální délka n-gramu. Výchozí hodnota je 1. Maximum je 300. Musí být menší než hodnota parametru maxGram.

name

string

Název tokenizátoru. Smí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezena na 128 znaků.

tokenChars

TokenCharacterKind[]

Třídy znaků, které se mají zachovat v tokenech.

ElisionTokenFilter

Odstraňuje elize. Například "l'avion" (letadlo) bude převedeno na "avion" (letadlo). Tento filtr tokenů je implementován pomocí Apache Lucene.

Name Typ Description
@odata.type string:

#Microsoft.Azure.Search.ElisionTokenFilter

Fragment identifikátoru URI určující typ filtru tokenu.

articles

string[]

Sada článků k odstranění.

name

string

Název filtru tokenů. Smí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezena na 128 znaků.

ErrorAdditionalInfo

Další informace o chybě správy prostředků

Name Typ Description
info

object

Další informace.

type

string

Další typ informací.

ErrorDetail

Podrobnosti o chybě.

Name Typ Description
additionalInfo

ErrorAdditionalInfo[]

Další informace o chybě.

code

string

Kód chyby.

details

ErrorDetail[]

Podrobnosti o chybě.

message

string

Chybová zpráva.

target

string

Cíl chyby.

ErrorResponse

Chybová odpověď

Name Typ Description
error

ErrorDetail

Objekt chyby.

ExhaustiveKnnParameters

Obsahuje parametry specifické pro vyčerpávající algoritmus KNN.

Name Typ Description
metric

VectorSearchAlgorithmMetric

Metrika podobnosti, která se má použít pro vektorové porovnání.

ExhaustiveKnnVectorSearchAlgorithmConfiguration

Obsahuje možnosti konfigurace specifické pro vyčerpávající algoritmus KNN používaný při dotazování, který bude provádět vyhledávání hrubou silou v celém vektorovém indexu.

Name Typ Description
exhaustiveKnnParameters

ExhaustiveKnnParameters

Obsahuje parametry specifické pro vyčerpávající algoritmus KNN.

kind string:

exhaustiveKnn

Název druhu algoritmu, který je konfigurován pro použití s vektorovým vyhledáváním.

name

string

Název, který má být spojen s touto konkrétní konfigurací.

FreshnessScoringFunction

Definuje funkci, která zvyšuje skóre na základě hodnoty pole data a času.

Name Typ Description
boost

number (double)

Násobitel pro hrubé skóre. Musí být kladné číslo, které se nerovná 1,0.

fieldName

string

Název pole, které se používá jako vstup pro funkci bodování.

freshness

FreshnessScoringParameters

Hodnoty parametrů pro funkci bodování aktuálnosti.

interpolation

ScoringFunctionInterpolation

Hodnota označující, jak bude zvýšení interpolováno napříč skóre dokumentu; výchozí hodnota je "Lineární".

type string:

freshness

Označuje typ funkce, která se má použít. Mezi platné hodnoty patří velikost, aktuálnost, vzdálenost a značka. Typ funkce musí být malými písmeny.

FreshnessScoringParameters

Poskytuje hodnoty parametrů funkci bodování aktuálnosti.

Name Typ Description
boostingDuration

string (duration)

Dobu vypršení platnosti, po jejímž uplynutí se zvyšování úrovně pro konkrétní dokument zastaví.

HnswParameters

Obsahuje parametry specifické pro algoritmus HNSW.

Name Typ Default value Description
efConstruction

integer (int32)

minimum: 100
maximum: 1000
400

Velikost dynamického seznamu obsahujícího nejbližší sousedy, který se používá během doby indexu. Zvýšení tohoto parametru může zlepšit kvalitu indexu na úkor delší doby indexování. V určitém okamžiku vede zvýšení tohoto parametru ke snížení výnosů.

efSearch

integer (int32)

minimum: 100
maximum: 1000
500

Velikost dynamického seznamu obsahujícího nejbližší sousedy, který se používá během doby vyhledávání. Zvýšení tohoto parametru může zlepšit výsledky hledání na úkor pomalejšího vyhledávání. V určitém okamžiku vede zvýšení tohoto parametru ke snížení výnosů.

m

integer (int32)

minimum: 4
maximum: 10
4

Počet obousměrných spojů vytvořených pro každý nový prvek během výstavby. Zvýšení hodnoty tohoto parametru může zlepšit úplnost a zkrátit dobu načítání datových sad s vysokou vnitřní dimenzionalitou na úkor zvýšené spotřeby paměti a delší doby indexování.

metric

VectorSearchAlgorithmMetric

Metrika podobnosti, která se má použít pro vektorové porovnání.

HnswVectorSearchAlgorithmConfiguration

Obsahuje možnosti konfigurace specifické pro algoritmus HNSW přibližných nejbližších sousedů používaný během indexování a dotazování. Algoritmus HNSW nabízí laditelný kompromis mezi rychlostí vyhledávání a přesností.

Name Typ Description
hnswParameters

HnswParameters

Obsahuje parametry specifické pro algoritmus HNSW.

kind string:

hnsw

Název druhu algoritmu, který je konfigurován pro použití s vektorovým vyhledáváním.

name

string

Název, který má být spojen s touto konkrétní konfigurací.

InputFieldMappingEntry

Mapování vstupního pole pro dovednost.

Name Typ Description
inputs

InputFieldMappingEntry[]

Rekurzivní vstupy používané při vytváření komplexního typu.

name

string

Název vstupu.

source

string

Zdroj vstupu.

sourceContext

string

Zdrojový kontext používaný pro výběr rekurzivních vstupů.

KeepTokenFilter

Filtr tokenů, který uchovává pouze tokeny s textem obsaženým v určeném seznamu slov. Tento filtr tokenů je implementován pomocí Apache Lucene.

Name Typ Default value Description
@odata.type string:

#Microsoft.Azure.Search.KeepTokenFilter

Fragment identifikátoru URI určující typ filtru tokenu.

keepWords

string[]

Seznam slov, která je třeba zachovat.

keepWordsCase

boolean

False

Hodnota označující, zda se mají všechna slova nejprve psát malými písmeny. Výchozí hodnota je False.

name

string

Název filtru tokenů. Smí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezena na 128 znaků.

KeywordMarkerTokenFilter

Označí termíny jako klíčová slova. Tento filtr tokenů je implementován pomocí Apache Lucene.

Name Typ Default value Description
@odata.type string:

#Microsoft.Azure.Search.KeywordMarkerTokenFilter

Fragment identifikátoru URI určující typ filtru tokenu.

ignoreCase

boolean

False

Hodnota označující, zda se mají ignorovat velká a malá písmena. Pokud je true, všechna slova se nejprve převedou na malá písmena. Výchozí hodnota je False.

keywords

string[]

Seznam slov, která mají být označena jako klíčová slova.

name

string

Název filtru tokenů. Smí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezena na 128 znaků.

KeywordTokenizer

Vygeneruje celý vstup jako jeden token. Tento tokenizer je implementován pomocí Apache Lucene.

Name Typ Default value Description
@odata.type string:

#Microsoft.Azure.Search.KeywordTokenizer

Fragment URI určující typ tokenizeru.

bufferSize

integer (int32)

256

Velikost vyrovnávací paměti pro čtení v bajtech. Výchozí hodnota je 256.

name

string

Název tokenizátoru. Smí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezena na 128 znaků.

KeywordTokenizerV2

Vygeneruje celý vstup jako jeden token. Tento tokenizer je implementován pomocí Apache Lucene.

Name Typ Default value Description
@odata.type string:

#Microsoft.Azure.Search.KeywordTokenizerV2

Fragment URI určující typ tokenizeru.

maxTokenLength

integer (int32)

maximum: 300
256

Maximální délka tokenu. Výchozí hodnota je 256. Tokeny delší než maximální délka se rozdělí. Maximální délka tokenu, kterou lze použít, je 300 znaků.

name

string

Název tokenizátoru. Smí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezena na 128 znaků.

LengthTokenFilter

Odstraní slova, která jsou příliš dlouhá nebo příliš krátká. Tento filtr tokenů je implementován pomocí Apache Lucene.

Name Typ Default value Description
@odata.type string:

#Microsoft.Azure.Search.LengthTokenFilter

Fragment identifikátoru URI určující typ filtru tokenu.

max

integer (int32)

maximum: 300
300

Maximální délka ve znacích. Výchozí a maximální hodnota je 300.

min

integer (int32)

maximum: 300
0

Minimální délka ve znacích. Výchozí hodnota je 0. Maximum je 300. Musí být menší než hodnota max.

name

string

Název filtru tokenů. Smí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezena na 128 znaků.

LexicalAnalyzerName

Definuje názvy všech analyzátorů textu podporovaných vyhledávacím modulem.

Hodnota Description
ar.microsoft

Analyzátor společnosti Microsoft pro arabštinu.

ar.lucene

Lucene analyzátor pro arabštinu.

hy.lucene

Lucene analyzátor pro arménštinu.

bn.microsoft

Analyzátor společnosti Microsoft pro bengálštinu.

eu.lucene

Lucene analyzátor pro baskičtinu.

bg.microsoft

Analyzátor společnosti Microsoft pro bulharštinu.

bg.lucene

Lucene analyzátor pro bulharštinu.

ca.microsoft

Microsoft analyzer pro katalánštinu.

ca.lucene

Lucene analyzátor pro katalánštinu.

zh-Hans.microsoft

Analyzátor společnosti Microsoft pro čínštinu (zjednodušený).

zh-Hans.lucene

Lucene analyzátor pro čínštinu (zjednodušený).

zh-Hant.microsoft

Analyzátor společnosti Microsoft pro čínštinu (tradiční).

zh-Hant.lucene

Analyzátor Lucene pro čínštinu (tradiční).

hr.microsoft

Microsoft analyzer pro chorvatštinu.

cs.microsoft

Microsoft analyzátor pro češtinu.

cs.lucene

Analyzátor lucene pro češtinu.

da.microsoft

Microsoft analyzer pro dánštinu.

da.lucene

Analyzátor lucene pro dánštinu.

nl.microsoft

Microsoft analyzer pro nizozemštinu.

nl.lucene

Lucene analyzátor pro nizozemštinu.

en.microsoft

Analyzátor společnosti Microsoft pro angličtinu.

en.lucene

Lucene analyzátor pro angličtinu.

et.microsoft

Analyzátor společnosti Microsoft pro estonštinu.

fi.microsoft

Microsoft analyzer pro finštinu.

fi.lucene

Lucene analyzátor pro finštinu.

fr.microsoft

Analyzátor společnosti Microsoft pro francouzštinu.

fr.lucene

Lucene analyzátor pro francouzštinu.

gl.lucene

Lucene analyzátor pro galicijštinu.

de.microsoft

Analyzátor společnosti Microsoft pro němčinu.

de.lucene

Lucene analyzátor pro němčinu.

el.microsoft

Analyzátor společnosti Microsoft pro řečtinu.

el.lucene

Lucene analyzátor pro řečtinu.

gu.microsoft

Analyzátor společnosti Microsoft pro gudžarátštinu.

he.microsoft

Analyzátor společnosti Microsoft pro hebrejštinu.

hi.microsoft

Microsoft analyzátor pro hindštinu.

hi.lucene

Lucene analyzátor pro hindštinu.

hu.microsoft

Microsoft analyzer pro maďarštinu.

hu.lucene

Lucene analyzátor pro maďarštinu.

is.microsoft

Analyzátor společnosti Microsoft pro islandštinu.

id.microsoft

Analyzátor společnosti Microsoft pro indonéštinu (Bahasa).

id.lucene

Lucene analyzátor pro indonéštinu.

ga.lucene

Lucene analyzátor pro irštinu.

it.microsoft

Microsoft analyzer pro italštinu.

it.lucene

Lucene analyzátor pro italštinu.

ja.microsoft

Analyzátor společnosti Microsoft pro japonštinu.

ja.lucene

Lucene analyzátor pro japonštinu.

kn.microsoft

Analyzátor společnosti Microsoft pro kannadštinu.

ko.microsoft

Analyzátor společnosti Microsoft pro korejštinu.

ko.lucene

Lucene analyzátor pro korejštinu.

lv.microsoft

Microsoft analyzer pro lotyštinu.

lv.lucene

Lucene analyzátor pro lotyštinu.

lt.microsoft

Microsoft analyzer pro litevštinu.

ml.microsoft

Microsoft analyzátor pro malajálamštinu.

ms.microsoft

Analyzátor společnosti Microsoft pro malajštinu (latinka).

mr.microsoft

Microsoft analyzer pro maráthštinu.

nb.microsoft

Microsoft analyzer for Norwegian (Bokmål).

no.lucene

Lucene analyzátor pro norštinu.

fa.lucene

Lucene analyzátor pro perštinu.

pl.microsoft

Microsoft analyzátor pro polština.

pl.lucene

Lucene analyzátor pro polštinu.

pt-BR.microsoft

Analyzátor společnosti Microsoft pro portugalštinu (Brazílie).

pt-BR.lucene

Analyzátor lucene pro portugalštinu (Brazílie).

pt-PT.microsoft

Analyzátor společnosti Microsoft pro portugalštinu (Portugalsko).

pt-PT.lucene

Analyzátor lucene pro portugalštinu (Portugalsko).

pa.microsoft

Microsoft analyzer pro paňdžábštinu.

ro.microsoft

Microsoft analyzer pro rumunštinu.

ro.lucene

Lucene analyzátor pro rumunské.

ru.microsoft

Microsoft analyzer pro ruštinu.

ru.lucene

Lucene analyzátor pro ruštinu.

sr-cyrillic.microsoft

Analyzátor společnosti Microsoft pro srbštinu (cyrilice).

sr-latin.microsoft

Analyzátor společnosti Microsoft pro srbštinu (latinka).

sk.microsoft

Microsoft analyzer pro slovenštinu.

sl.microsoft

Microsoft analyzer pro slovinštinu.

es.microsoft

Analyzátor společnosti Microsoft pro španělštinu.

es.lucene

Lucene analyzátor pro španělštinu.

sv.microsoft

Analyzátor společnosti Microsoft pro švédštinu.

sv.lucene

Analyzátor Lucene pro švédštinu.

ta.microsoft

Microsoft analyzer pro tamilštinu.

te.microsoft

Analyzátor společnosti Microsoft pro telugštinu.

th.microsoft

Analyzátor společnosti Microsoft pro thajštinu.

th.lucene

Lucene analyzátor pro thajštinu.

tr.microsoft

Microsoft analyzer pro turečtinu.

tr.lucene

Lucene analyzátor pro turečtinu.

uk.microsoft

Microsoft analyzer pro ukrajinštinu.

ur.microsoft

Microsoft analyzer pro urdštinu.

vi.microsoft

Microsoft analyzer pro vietnamštinu.

standard.lucene

Standardní analyzátor Lucene.

standardasciifolding.lucene

Standardní analyzátor ASCII skládacího lucenu. Viz https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers.

keyword

Zachází s celým obsahem pole jako s jedním tokenem. To je užitečné pro data, jako jsou PSČ, ID a některé názvy produktů. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html.

pattern

Flexibilně rozděluje text na termíny pomocí vzoru regulárních výrazů. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html.

simple

Rozdělí text na nepísmena a převede je na malá písmena. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html.

stop

Rozdělí text na nepísmena; Použije filtry tokenů psaných malými písmeny a stopword. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html.

whitespace

Analyzátor, který používá tokenizátor prázdných znaků. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html.

LexicalNormalizerName

Definuje názvy všech normalizátorů textu podporovaných vyhledávacím modulem.

Hodnota Description
asciifolding

Převede abecední, číselné a symbolické znaky Unicode, které nejsou v prvních 127 znacích ASCII (blok Unicode "Základní latinka") na jejich ekvivalenty ASCII, pokud takové ekvivalenty existují. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html.

elision

Odstraňuje elize. Například "l'avion" (letadlo) bude převedeno na "avion" (letadlo). Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html.

lowercase

Normalizuje text tokenu na malá písmena. Viz https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html.

standard

Standardní normalizátor, který se skládá z malých písmen a asciifoldingu. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html.

uppercase

Normalizuje text tokenu na velká písmena. Viz https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html.

LexicalTokenizerName

Definuje jména všech tokenizátorů podporovaných vyhledávačem.

Hodnota Description
classic

Tokenizér založený na gramatice, který je vhodný pro zpracování většiny dokumentů v evropském jazyce. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html.

edgeNGram

Tokenizuje vstup z okraje na n-gramy dané velikosti (velikostí). Viz https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html.

keyword_v2

Vygeneruje celý vstup jako jeden token. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html.

letter

Rozdělí text na nepísmena. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html.

lowercase

Rozdělí text na nepísmena a převede je na malá písmena. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html.

microsoft_language_tokenizer

Rozdělí text pomocí pravidel specifických pro daný jazyk.

microsoft_language_stemming_tokenizer

Rozdělí text pomocí pravidel specifických pro daný jazyk a zredukuje slova na jejich základní tvary.

nGram

Tokenizuje vstup na n-gramy dané velikosti (velikostí). Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html.

path_hierarchy_v2

Tokenizer pro hierarchie podobné cestám. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html.

pattern

Tokenizer, který používá porovnávání vzorů regulárních výrazů k vytvoření odlišných tokenů. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html.

standard_v2

Standardní analyzátor lucene; Skládá se ze standardního tokenizéru, filtru malých písmen a filtru stop. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html.

uax_url_email

Tokenizuje adresy URL a e-maily jako jeden token. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html.

whitespace

Rozdělí text na prázdné znaky. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html.

LimitTokenFilter

Omezuje počet tokenů při indexování. Tento filtr tokenů je implementován pomocí Apache Lucene.

Name Typ Default value Description
@odata.type string:

#Microsoft.Azure.Search.LimitTokenFilter

Fragment identifikátoru URI určující typ filtru tokenu.

consumeAllTokens

boolean

False

Hodnota označující, zda musí být spotřebovány všechny tokeny ze vstupu i v případě, že je dosaženo maxTokenCount. Výchozí hodnota je False.

maxTokenCount

integer (int32)

1

Maximální počet tokenů, které se mají vyrobit. Výchozí hodnota je 1.

name

string

Název filtru tokenů. Smí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezena na 128 znaků.

LuceneStandardAnalyzer

Standardní analyzátor Apache Lucene; Skládá se ze standardního tokenizéru, filtru malých písmen a filtru stop.

Name Typ Default value Description
@odata.type string:

#Microsoft.Azure.Search.StandardAnalyzer

Fragment identifikátoru URI určující typ analyzátoru.

maxTokenLength

integer (int32)

maximum: 300
255

Maximální délka tokenu. Výchozí hodnota je 255. Tokeny delší než maximální délka se rozdělí. Maximální délka tokenu, kterou lze použít, je 300 znaků.

name

string

Název analyzátoru. Smí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezena na 128 znaků.

stopwords

string[]

Seznam stopslov.

LuceneStandardTokenizer

Zalomí text podle pravidel segmentace textu Unicode. Tento tokenizer je implementován pomocí Apache Lucene.

Name Typ Default value Description
@odata.type string:

#Microsoft.Azure.Search.StandardTokenizer

Fragment URI určující typ tokenizeru.

maxTokenLength

integer (int32)

255

Maximální délka tokenu. Výchozí hodnota je 255. Tokeny delší než maximální délka se rozdělí.

name

string

Název tokenizátoru. Smí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezena na 128 znaků.

LuceneStandardTokenizerV2

Zalomí text podle pravidel segmentace textu Unicode. Tento tokenizer je implementován pomocí Apache Lucene.

Name Typ Default value Description
@odata.type string:

#Microsoft.Azure.Search.StandardTokenizerV2

Fragment URI určující typ tokenizeru.

maxTokenLength

integer (int32)

maximum: 300
255

Maximální délka tokenu. Výchozí hodnota je 255. Tokeny delší než maximální délka se rozdělí. Maximální délka tokenu, kterou lze použít, je 300 znaků.

name

string

Název tokenizátoru. Smí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezena na 128 znaků.

MagnitudeScoringFunction

Definuje funkci, která zvyšuje skóre na základě velikosti číselného pole.

Name Typ Description
boost

number (double)

Násobitel pro hrubé skóre. Musí být kladné číslo, které se nerovná 1,0.

fieldName

string

Název pole, které se používá jako vstup pro funkci bodování.

interpolation

ScoringFunctionInterpolation

Hodnota označující, jak bude zvýšení interpolováno napříč skóre dokumentu; výchozí hodnota je "Lineární".

magnitude

MagnitudeScoringParameters

Hodnoty parametrů pro funkci bodování velikosti.

type string:

magnitude

Označuje typ funkce, která se má použít. Mezi platné hodnoty patří velikost, aktuálnost, vzdálenost a značka. Typ funkce musí být malými písmeny.

MagnitudeScoringParameters

Poskytuje hodnoty parametrů pro funkci bodování velikosti.

Name Typ Description
boostingRangeEnd

number (double)

Hodnota pole, na které boostování končí.

boostingRangeStart

number (double)

Hodnota pole, na které začíná boostování.

constantBoostBeyondRange

boolean

Hodnota označující, zda se má použít konstantní zesílení pro hodnoty polí nad rámec koncové hodnoty rozsahu; výchozí hodnota je false.

MappingCharFilter

Filtr znaků, který aplikuje mapování definovaná pomocí volby mapování. Porovnávání je hladové (vyhrává nejdelší porovnávání vzorů v daném bodě). Nahrazením může být prázdný řetězec. Tento filtr znaků je implementován pomocí Apache Lucene.

Name Typ Description
@odata.type string:

#Microsoft.Azure.Search.MappingCharFilter

Fragment identifikátoru URI určující typ filtru znaků.

mappings

string[]

Seznam mapování následujícího formátu: "a=>b" (všechny výskyty znaku "a" budou nahrazeny znakem "b").

name

string

Název filtru znaků. Smí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezena na 128 znaků.

MicrosoftLanguageStemmingTokenizer

Rozdělí text pomocí pravidel specifických pro daný jazyk a zredukuje slova na jejich základní tvary.

Name Typ Default value Description
@odata.type string:

#Microsoft.Azure.Search.MicrosoftLanguageStemmingTokenizer

Fragment URI určující typ tokenizeru.

isSearchTokenizer

boolean

False

Hodnota označující, jak se tokenizer používá. Nastavte na hodnotu true, pokud se používá jako vyhledávací tokenizátor, nastavte na false, pokud se používá jako indexovací tokenizátor. Výchozí hodnota je False.

language

MicrosoftStemmingTokenizerLanguage

Jazyk, který se má použít. Výchozí je angličtina.

maxTokenLength

integer (int32)

maximum: 300
255

Maximální délka tokenu. Tokeny delší než maximální délka se rozdělí. Maximální délka tokenu, kterou lze použít, je 300 znaků. Tokeny delší než 300 znaků se nejprve rozdělí na tokeny o délce 300 a poté se každý z těchto tokenů rozdělí na základě nastavené maximální délky tokenu. Výchozí hodnota je 255.

name

string

Název tokenizátoru. Smí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezena na 128 znaků.

MicrosoftLanguageTokenizer

Rozdělí text pomocí pravidel specifických pro daný jazyk.

Name Typ Default value Description
@odata.type string:

#Microsoft.Azure.Search.MicrosoftLanguageTokenizer

Fragment URI určující typ tokenizeru.

isSearchTokenizer

boolean

False

Hodnota označující, jak se tokenizer používá. Nastavte na hodnotu true, pokud se používá jako vyhledávací tokenizátor, nastavte na false, pokud se používá jako indexovací tokenizátor. Výchozí hodnota je False.

language

MicrosoftTokenizerLanguage

Jazyk, který se má použít. Výchozí je angličtina.

maxTokenLength

integer (int32)

maximum: 300
255

Maximální délka tokenu. Tokeny delší než maximální délka se rozdělí. Maximální délka tokenu, kterou lze použít, je 300 znaků. Tokeny delší než 300 znaků se nejprve rozdělí na tokeny o délce 300 a poté se každý z těchto tokenů rozdělí na základě nastavené maximální délky tokenu. Výchozí hodnota je 255.

name

string

Název tokenizátoru. Smí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezena na 128 znaků.

MicrosoftStemmingTokenizerLanguage

Uvádí jazyky podporované jazykovým stemizérem společnosti Microsoft.

Hodnota Description
arabic

Vybere kmenový tokenizátor společnosti Microsoft pro arabštinu.

bangla

Vybere stemming tokenizer společnosti Microsoft pro bengálštinu.

bulgarian

Vybere kmenový tokenizátor společnosti Microsoft pro bulharštinu.

catalan

Vybere stemming tokenizer společnosti Microsoft pro katalánštinu.

croatian

Vybere Microsoft stemming tokenizer pro chorvatštinu.

czech

Vybere Microsoft stemming tokenizer pro češtinu.

danish

Vybere stemming tokenizer společnosti Microsoft pro dánštinu.

dutch

Vybere stemming tokenizer společnosti Microsoft pro nizozemštinu.

english

Vybere stemming tokenizer společnosti Microsoft pro angličtinu.

estonian

Vybere stemming tokenizer společnosti Microsoft pro estonštinu.

finnish

Vybere kmenový tokenizátor společnosti Microsoft pro finštinu.

french

Vybere kmenový tokenizátor společnosti Microsoft pro francouzštinu.

german

Vybere kmenový tokenizátor společnosti Microsoft pro němčinu.

greek

Vybere stemming tokenizer společnosti Microsoft pro řečtinu.

gujarati

Vybere stemming tokenizer společnosti Microsoft pro gudžarátštinu.

hebrew

Vybere kmenový tokenizátor společnosti Microsoft pro hebrejštinu.

hindi

Vybere kmenový tokenizátor společnosti Microsoft pro hindštinu.

hungarian

Vybere stemming tokenizer společnosti Microsoft pro maďarštinu.

icelandic

Vybere stemming tokenizer společnosti Microsoft pro islandštinu.

indonesian

Vybere kmenový tokenizátor společnosti Microsoft pro indonéštinu.

italian

Vybere stemming tokenizer společnosti Microsoft pro italštinu.

kannada

Vybere kmenový tokenizátor společnosti Microsoft pro kannadštinu.

latvian

Vybere stemming tokenizer společnosti Microsoft pro lotyštinu.

lithuanian

Vybere kmenový tokenizátor společnosti Microsoft pro litevštinu.

malay

Vybere stemming tokenizer společnosti Microsoft pro malajštinu.

malayalam

Vybere kmenový tokenizátor společnosti Microsoft pro malajálamštinu.

marathi

Vybere kmenový tokenizátor společnosti Microsoft pro maráthštinu.

norwegianBokmaal

Vybere kmenový tokenizátor společnosti Microsoft pro norštinu (Bokmål).

polish

Vybere kmenový tokenizátor společnosti Microsoft pro polštinu.

portuguese

Vybere kmenový tokenizátor společnosti Microsoft pro portugalštinu.

portugueseBrazilian

Vybere kmenový tokenizátor společnosti Microsoft pro portugalštinu (Brazílie).

punjabi

Vybere kmenový tokenizátor společnosti Microsoft pro pandžábštinu.

romanian

Vybere kmenový tokenizátor společnosti Microsoft pro rumunštinu.

russian

Vybere stemming tokenizer společnosti Microsoft pro ruštinu.

serbianCyrillic

Vybere stemming tokenizer společnosti Microsoft pro srbštinu (cyrilice).

serbianLatin

Vybere kmenový tokenizátor společnosti Microsoft pro srbštinu (latinka).

slovak

Vybere stemming tokenizer společnosti Microsoft pro slovenštinu.

slovenian

Vybere kmenový tokenizátor společnosti Microsoft pro slovinštinu.

spanish

Vybere kmenový tokenizátor společnosti Microsoft pro španělštinu.

swedish

Vybere kmenový tokenizátor společnosti Microsoft pro švédštinu.

tamil

Vybere kmenový tokenizátor společnosti Microsoft pro tamilštinu.

telugu

Vybere stemming tokenizer společnosti Microsoft pro telugštinu.

turkish

Vybere stemming tokenizer společnosti Microsoft pro turečtinu.

ukrainian

Vybere kmenový tokenizátor společnosti Microsoft pro ukrajinštinu.

urdu

Vybere kmenový tokenizátor společnosti Microsoft pro urdštinu.

MicrosoftTokenizerLanguage

Uvádí jazyky podporované nástrojem pro tokenizaci jazyka společnosti Microsoft.

Hodnota Description
bangla

Vybere tokenizér společnosti Microsoft pro bengálštinu.

bulgarian

Vybere nástroj Microsoft Tokenizer pro bulharštinu.

catalan

Vybere nástroj Microsoft Tokenizer pro katalánštinu.

chineseSimplified

Vybere Microsoft tokenizer pro čínštinu (zjednodušenou).

chineseTraditional

Vybere tokenizér Microsoft pro čínštinu (tradiční).

croatian

Vybere Microsoft tokenizer pro chorvatštinu.

czech

Vybere Microsoft tokenizer pro češtinu.

danish

Vybere nástroj Microsoft Tokenizer pro dánštinu.

dutch

Vybere nástroj Microsoft Tokenizer pro nizozemštinu.

english

Vybere tokenizér společnosti Microsoft pro angličtinu.

french

Vybere tokenizér Microsoft pro francouzštinu.

german

Vybere tokenizátor Microsoft pro němčinu.

greek

Vybere tokenizér společnosti Microsoft pro řečtinu.

gujarati

Vybere nástroj Microsoft tokenizer pro gudžarátštinu.

hindi

Vybere Microsoft tokenizer pro hindštinu.

icelandic

Vybere nástroj Microsoft tokenizer pro islandštinu.

indonesian

Vybere nástroj Microsoft tokenizer pro indonéštinu.

italian

Vybere nástroj Microsoft tokenizer pro italštinu.

japanese

Vybere tokenizér Microsoft pro japonštinu.

kannada

Vybere nástroj Microsoft tokenizer pro kannadštinu.

korean

Vybere nástroj Microsoft tokenizer pro korejštinu.

malay

Vybere tokenizér společnosti Microsoft pro malajštinu.

malayalam

Vybere tokenizér společnosti Microsoft pro malajálamštinu.

marathi

Vybere Microsoft tokenizer pro Marathi.

norwegianBokmaal

Vybere tokenizér společnosti Microsoft pro norštinu (Bokmål).

polish

Vybere Microsoft tokenizer pro polštinu.

portuguese

Vybere tokenizér společnosti Microsoft pro portugalštinu.

portugueseBrazilian

Vybere nástroj Microsoft Tokenizer pro portugalštinu (Brazílie).

punjabi

Vybere nástroj Microsoft Tokenizer pro pandžábštinu.

romanian

Vybere nástroj Microsoft tokenizer pro rumunštinu.

russian

Vybere tokenizátor společnosti Microsoft pro ruštinu.

serbianCyrillic

Vybere tokenizér Microsoft pro srbštinu (cyrilice).

serbianLatin

Vybere tokenizátor Microsoft pro srbštinu (latinka).

slovenian

Vybere nástroj Microsoft Tokenizer pro slovinštinu.

spanish

Vybere tokenizér společnosti Microsoft pro španělštinu.

swedish

Vybere nástroj Microsoft Tokenizer pro švédštinu.

tamil

Vybere nástroj Microsoft tokenizer pro tamilštinu.

telugu

Vybere nástroj Microsoft Tokenizer pro telugštinu.

thai

Vybere tokenizér společnosti Microsoft pro thajštinu.

ukrainian

Vybere tokenizér společnosti Microsoft pro ukrajinštinu.

urdu

Vybere tokenizér společnosti Microsoft pro urdštinu.

vietnamese

Vybere tokenizér Microsoft pro vietnamštinu.

NGramTokenFilter

Generuje n-gramů dané velikosti (velikostí). Tento filtr tokenů je implementován pomocí Apache Lucene.

Name Typ Default value Description
@odata.type string:

#Microsoft.Azure.Search.NGramTokenFilter

Fragment identifikátoru URI určující typ filtru tokenu.

maxGram

integer (int32)

2

Maximální délka n-gramů. Výchozí hodnota je 2.

minGram

integer (int32)

1

Minimální délka n-gramu. Výchozí hodnota je 1. Musí být menší než hodnota parametru maxGram.

name

string

Název filtru tokenů. Smí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezena na 128 znaků.

NGramTokenFilterV2

Generuje n-gramů dané velikosti (velikostí). Tento filtr tokenů je implementován pomocí Apache Lucene.

Name Typ Default value Description
@odata.type string:

#Microsoft.Azure.Search.NGramTokenFilterV2

Fragment identifikátoru URI určující typ filtru tokenu.

maxGram

integer (int32)

maximum: 300
2

Maximální délka n-gramů. Výchozí hodnota je 2. Maximum je 300.

minGram

integer (int32)

maximum: 300
1

Minimální délka n-gramu. Výchozí hodnota je 1. Maximum je 300. Musí být menší než hodnota parametru maxGram.

name

string

Název filtru tokenů. Smí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezena na 128 znaků.

NGramTokenizer

Tokenizuje vstup na n-gramy dané velikosti (velikostí). Tento tokenizer je implementován pomocí Apache Lucene.

Name Typ Default value Description
@odata.type string:

#Microsoft.Azure.Search.NGramTokenizer

Fragment URI určující typ tokenizeru.

maxGram

integer (int32)

maximum: 300
2

Maximální délka n-gramů. Výchozí hodnota je 2. Maximum je 300.

minGram

integer (int32)

maximum: 300
1

Minimální délka n-gramu. Výchozí hodnota je 1. Maximum je 300. Musí být menší než hodnota parametru maxGram.

name

string

Název tokenizátoru. Smí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezena na 128 znaků.

tokenChars

TokenCharacterKind[]

Třídy znaků, které se mají zachovat v tokenech.

OutputFieldMappingEntry

Mapování výstupního pole pro dovednost.

Name Typ Description
name

string

Název výstupu definovaného dovedností.

targetName

string

Cílový název výstupu. Je to volitelné a výchozí název.

PathHierarchyTokenizerV2

Tokenizer pro hierarchie podobné cestám. Tento tokenizer je implementován pomocí Apache Lucene.

Name Typ Default value Description
@odata.type string:

#Microsoft.Azure.Search.PathHierarchyTokenizerV2

Fragment URI určující typ tokenizeru.

delimiter

string (char)

/

Znak oddělovače, který se má použít. Výchozí hodnota je "/".

maxTokenLength

integer (int32)

maximum: 300
300

Maximální délka tokenu. Výchozí a maximální hodnota je 300.

name

string

Název tokenizátoru. Smí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezena na 128 znaků.

replacement

string (char)

/

Hodnota, která, pokud je nastavena, nahradí znak oddělovače. Výchozí hodnota je "/".

reverse

boolean

False

Hodnota označující, zda se mají tokeny generovat v opačném pořadí. Výchozí hodnota je False.

skip

integer (int32)

0

Počet počátečních tokenů, které mají být přeskočeny. Výchozí hodnota je 0.

PatternAnalyzer

Flexibilně rozděluje text na termíny pomocí vzoru regulárních výrazů. Tento analyzátor je implementován pomocí Apache Lucene.

Name Typ Default value Description
@odata.type string:

#Microsoft.Azure.Search.PatternAnalyzer

Fragment identifikátoru URI určující typ analyzátoru.

flags

RegexFlags

Příznaky regulárních výrazů.

lowercase

boolean

True

Hodnota označující, zda mají být termíny psány malými písmeny. Výchozí hodnota je true.

name

string

Název analyzátoru. Smí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezena na 128 znaků.

pattern

string

\W+

Vzor regulárního výrazu pro shodu s oddělovači tokenů. Výchozí je výraz, který odpovídá jednomu nebo více neslovním znakům.

stopwords

string[]

Seznam stopslov.

PatternCaptureTokenFilter

Používá regulární výrazy Java k vygenerování více tokenů - jeden pro každou skupinu zachycení v jednom nebo více vzorech. Tento filtr tokenů je implementován pomocí Apache Lucene.

Name Typ Default value Description
@odata.type string:

#Microsoft.Azure.Search.PatternCaptureTokenFilter

Fragment identifikátoru URI určující typ filtru tokenu.

name

string

Název filtru tokenů. Smí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezena na 128 znaků.

patterns

string[]

Seznam vzorů, které se mají porovnat s každým tokenem.

preserveOriginal

boolean

True

Hodnota označující, zda se má vrátit původní token i v případě, že se jeden ze vzorů shoduje. Výchozí hodnota je true.

PatternReplaceCharFilter

Filtr znaků, který nahrazuje znaky ve vstupním řetězci. Používá regulární výraz k identifikaci sekvencí znaků, které se mají zachovat, a vzor pro nahrazování k identifikaci znaků, které mají být nahrazeny. Například pro vstupní text "aa bb aa bb", vzor "(aa)\s+(bb)" a nahrazení "$1#$2" by výsledek byl "aa#bb aa#bb". Tento filtr znaků je implementován pomocí Apache Lucene.

Name Typ Description
@odata.type string:

#Microsoft.Azure.Search.PatternReplaceCharFilter

Fragment identifikátoru URI určující typ filtru znaků.

name

string

Název filtru znaků. Smí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezena na 128 znaků.

pattern

string

Vzor regulárního výrazu.

replacement

string

Text pro nahrazení.

PatternReplaceTokenFilter

Filtr znaků, který nahrazuje znaky ve vstupním řetězci. Používá regulární výraz k identifikaci sekvencí znaků, které se mají zachovat, a vzor pro nahrazování k identifikaci znaků, které mají být nahrazeny. Například pro vstupní text "aa bb aa bb", vzor "(aa)\s+(bb)" a nahrazení "$1#$2" by výsledek byl "aa#bb aa#bb". Tento filtr tokenů je implementován pomocí Apache Lucene.

Name Typ Description
@odata.type string:

#Microsoft.Azure.Search.PatternReplaceTokenFilter

Fragment identifikátoru URI určující typ filtru tokenu.

name

string

Název filtru tokenů. Smí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezena na 128 znaků.

pattern

string

Vzor regulárního výrazu.

replacement

string

Text pro nahrazení.

PatternTokenizer

Tokenizer, který používá porovnávání vzorů regulárních výrazů k vytvoření odlišných tokenů. Tento tokenizer je implementován pomocí Apache Lucene.

Name Typ Default value Description
@odata.type string:

#Microsoft.Azure.Search.PatternTokenizer

Fragment URI určující typ tokenizeru.

flags

RegexFlags

Příznaky regulárních výrazů.

group

integer (int32)

-1

Řadové číslo odpovídající skupiny založené na nule ve vzoru regulárního výrazu, které se má extrahovat do tokenů. -1 použijte, pokud chcete použít celý vzor k rozdělení vstupu na tokeny bez ohledu na odpovídající skupiny. Výchozí hodnota je -1.

name

string

Název tokenizátoru. Smí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezena na 128 znaků.

pattern

string

\W+

Vzor regulárního výrazu pro shodu s oddělovači tokenů. Výchozí je výraz, který odpovídá jednomu nebo více neslovním znakům.

PhoneticEncoder

Identifikuje typ fonetického kodéru, který se má použít s PhoneticTokenFilter.

Hodnota Description
metaphone

Zakóduje token do hodnoty Metaphone.

doubleMetaphone

Zakóduje token do hodnoty double metafony.

soundex

Zakóduje token do hodnoty Soundex.

refinedSoundex

Zakóduje token do upřesněné hodnoty Soundex.

caverphone1

Zakóduje token do hodnoty Caverphone 1.0.

caverphone2

Zakóduje token do hodnoty Caverphone 2.0.

cologne

Zakóduje token do kolínské fonetické hodnoty.

nysiis

Zakóduje token do hodnoty NYSIIS.

koelnerPhonetik

Zakóduje token pomocí Kölnerova fonetického algoritmu.

haasePhonetik

Zakóduje token pomocí Haaseho upřesnění Kölnerova fonotického algoritmu.

beiderMorse

Zakóduje token do Beider-Morse hodnoty.

PhoneticTokenFilter

Vytvářet tokeny pro fonetické shody. Tento filtr tokenů je implementován pomocí Apache Lucene.

Name Typ Default value Description
@odata.type string:

#Microsoft.Azure.Search.PhoneticTokenFilter

Fragment identifikátoru URI určující typ filtru tokenu.

encoder

PhoneticEncoder

metaphone

Fonetický kodér, který se má použít. Výchozí je "metaphone".

name

string

Název filtru tokenů. Smí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezena na 128 znaků.

replace

boolean

True

Hodnota označující, zda mají zakódované tokeny nahradit původní tokeny. Pokud je hodnota false, zakódované tokeny se přidají jako synonyma. Výchozí hodnota je true.

PrioritizedFields

Popisuje pole názvu, obsahu a klíčových slov, která se mají použít pro sémantické řazení, titulky, zvýraznění a odpovědi.

Name Typ Description
prioritizedContentFields

SemanticField[]

Definuje pole obsahu, která se mají použít pro sémantické řazení, titulky, zvýraznění a odpovědi. Aby bylo dosaženo co nejlepších výsledků, měla by vybraná pole obsahovat text ve formě přirozeného jazyka. Pořadí polí v poli představuje jejich prioritu. Pole s nižší prioritou mohou být zkrácena, pokud je obsah dlouhý.

prioritizedKeywordsFields

SemanticField[]

Definuje pole klíčových slov, která se mají použít pro sémantické řazení, titulky, zvýraznění a odpovědi. Nejlepších výsledků dosáhnete, když vybraná pole budou obsahovat seznam klíčových slov. Pořadí polí v poli představuje jejich prioritu. Pole s nižší prioritou mohou být zkrácena, pokud je obsah dlouhý.

titleField

SemanticField

Definuje pole názvu, které se použije pro sémantické řazení, titulky, zvýraznění a odpovědi. Pokud v indexu nemáte pole názvu, ponechte toto pole prázdné.

RankingOrder

Představuje skóre, které se má použít pro pořadí řazení dokumentů.

Hodnota Description
BoostedRerankerScore

Nastaví pořadí řazení na BoostedRerankerScore

RerankerScore

Nastaví pořadí řazení na ReRankerScore

RegexFlags

Definuje příznaky, které lze kombinovat a řídit tak způsob použití regulárních výrazů v analyzátoru vzorů a tokenizátoru vzorů.

Hodnota Description
CANON_EQ

Povolí kanonickou ekvivalenci.

CASE_INSENSITIVE

Povolí porovnávání bez rozlišení velkých a malých písmen.

COMMENTS

Povolí prázdné znaky a komentáře ve vzoru.

DOTALL

Povolí režim dotall.

LITERAL

Povolí literální analýzu vzoru.

MULTILINE

Povolí víceřádkový režim.

UNICODE_CASE

Povolí skládání velkých a malých písmen s podporou Unicode.

UNIX_LINES

Povolí režim unixových linek.

RescoringOptions

Obsahuje možnosti pro změnu hodnocení.

Name Typ Default value Description
defaultOversampling

number (double)

Výchozí faktor převzorkování. Převzorkování načte větší sadu potenciálních dokumentů, aby se vyrovnala ztráta rozlišení v důsledku kvantizace. Tím se zvětší sada výsledků, které budou znovu vyhodnoceny na vektorech s plnou přesností. Minimální hodnota je 1, což znamená, že nedochází k převzorkování (1x). Tento parametr lze nastavit pouze v případě, že je hodnota 'enableRescoring' pravdivá. Vyšší hodnoty zlepšují úplnost na úkor latence.

enableRescoring

boolean

True

Pokud je nastavena na hodnotu true, po počátečním hledání komprimovaných vektorů se skóre podobnosti přepočítá pomocí vektorů s plnou přesností. Tím se zlepší úplnost na úkor latence.

rescoreStorageMethod

VectorSearchCompressionRescoreStorageMethod

preserveOriginals

Řídí metodu ukládání pro původní vektory. Toto nastavení je neměnné.

ScalarQuantizationParameters

Obsahuje parametry specifické pro skalární kvantování.

Name Typ Description
quantizedDataType

VectorSearchCompressionTargetDataType

Kvantovaný datový typ komprimovaných vektorových hodnot.

ScalarQuantizationVectorSearchCompressionConfiguration

Obsahuje možnosti konfigurace specifické pro metodu skalární kvantizace, která se používá při indexování a dotazování.

Name Typ Description
kind string:

scalarQuantization

Název druhu metody komprese, která je konfigurována pro použití s vektorovým vyhledáváním.

name

string

Název, který má být spojen s touto konkrétní konfigurací.

rescoringOptions

RescoringOptions

Obsahuje možnosti pro změnu hodnocení.

scalarQuantizationParameters

ScalarQuantizationParameters

Obsahuje parametry specifické pro skalární kvantování.

truncationDimension

integer (int32)

Počet kót, na které se mají vektory zkrátit. Zkrácením vektorů se zmenší velikost vektorů a množství dat, která je třeba během vyhledávání přenést. To může ušetřit náklady na úložiště a zlepšit výkon vyhledávání na úkor úplnosti. Měl by se používat pouze pro vkládání natrénované pomocí Matrjoshka Representation Learning (MRL), jako je OpenAI text-embedding-3-large (small). Výchozí hodnota je null, což znamená, že nedojde ke zkrácení.

ScoringFunctionAggregation

Definuje agregační funkci, která se používá ke kombinování výsledků všech hodnotících funkcí v profilu vyhodnocování.

Hodnota Description
sum

Zvyšte skóre součtem všech výsledků funkce bodování.

average

Zvyšte skóre průměrem všech výsledků funkce bodování.

minimum

Zvyšte skóre o minimum všech výsledků funkce bodování.

maximum

Zvyšte skóre o maximum ze všech výsledků funkce bodování.

firstMatching

Zvyšte skóre pomocí první použitelné funkce bodování v profilu hodnocení.

ScoringFunctionInterpolation

Definuje funkci použitou k interpolaci zvýšení skóre v rozsahu dokumentů.

Hodnota Description
linear

Zvyšuje skóre lineárně klesajícím množstvím. Toto je výchozí interpolace pro bodovací funkce.

constant

Zvyšuje skóre konstantním faktorem.

quadratic

Zvyšuje skóre o hodnotu, která se kvadraticky snižuje. Zrychlení se snižuje pomalu pro vyšší skóre a rychleji s klesajícím skóre. Tato možnost interpolace není povolena ve funkcích bodování značek.

logarithmic

Zvýší skóre o hodnotu, která se logaritmicky snižuje. Zrychlení se rychle snižuje při vyšším skóre a pomaleji s klesajícím skóre. Tato možnost interpolace není povolena ve funkcích bodování značek.

ScoringProfile

Definuje parametry pro vyhledávací index, které ovlivňují bodování ve vyhledávacích dotazech.

Name Typ Description
functionAggregation

ScoringFunctionAggregation

Hodnota označující, jak by měly být výsledky jednotlivých hodnotících funkcí kombinovány. Výchozí hodnota je "Součet". Ignoruje se, pokud nejsou k dispozici žádné hodnotící funkce.

functions ScoringFunction[]:

Kolekce funkcí, které ovlivňují bodování dokumentů.

name

string

Název profilu hodnocení.

text

TextWeights

Parametry, které zvyšují skóre na základě shod textu v určitých polích rejstříku.

SearchField

Představuje pole v definici indexu, která popisuje název, datový typ a chování pole při hledání.

Name Typ Description
analyzer

LexicalAnalyzerName

Název analyzátoru, který se má použít pro pole. Tuto možnost lze použít pouze u prohledávatelných polí a nelze ji nastavit společně s searchAnalyzer ani indexAnalyzer. Jakmile je analyzátor vybrán, nelze jej pro pole změnit. U složitých polí musí mít hodnotu null.

dimensions

integer (int32)

minimum: 2
maximum: 4096

Dimenzionalita vektorového pole.

facetable

boolean

Hodnota označující, zda se má povolit odkazování na pole v dotazech na omezující vlastnosti. Obvykle se používá v prezentaci výsledků hledání, která zahrnuje počet přístupů podle kategorií (například hledání digitálních fotoaparátů a zobrazení hitů podle značky, podle megapixelů, podle ceny atd.). Tato vlastnost musí mít hodnotu null pro složitá pole. Pole typu Edm.GeographyPoint nebo Collection(Edm.GeographyPoint) nemohou být plošky. Výchozí hodnota je true pro všechna ostatní jednoduchá pole.

fields

SearchField[]

Seznam dílčích polí, pokud se jedná o pole typu Edm.ComplexType nebo Collection(Edm.ComplexType). U jednoduchých polí musí mít hodnotu null nebo prázdnotu.

filterable

boolean

Hodnota označující, zda má být povoleno odkazování na pole v $filter dotazech. Filterable se liší od prohledávatelných v tom, jak se zachází s řetězci. Pole typu Edm.String nebo Collection(Edm.String), která lze filtrovat, nepodléhají zalamování slov, takže porovnání se týká pouze přesných shod. Pokud například nastavíte takové pole f na "slunečný den", $filter=f eq 'slunečno' nenajde žádné shody, ale $filter=f eq 'slunečný den' ano. Tato vlastnost musí mít hodnotu null pro složitá pole. Výchozí hodnota je true pro jednoduchá pole a null pro složitá pole.

indexAnalyzer

LexicalAnalyzerName

Název analyzátoru použitého v době indexování pole. Tuto možnost lze použít pouze u prohledávatelných polí. Musí být nastaven společně s searchAnalyzer a nemůže být nastaven společně s volbou analyzátoru. Tuto vlastnost nelze nastavit na název analyzátoru jazyka. Pokud potřebujete analyzátor jazyka, použijte místo toho vlastnost Analyzer. Jakmile je analyzátor vybrán, nelze jej pro pole změnit. U složitých polí musí mít hodnotu null.

key

boolean

Hodnota označující, zda pole jednoznačně identifikuje dokumenty v indexu. Jako klíčové pole musí být vybráno přesně jedno pole nejvyšší úrovně v každém indexu a musí být typu Edm.String. Klíčová pole se dají použít k přímému vyhledání dokumentů a aktualizaci nebo odstranění konkrétních dokumentů. Výchozí hodnota je false pro jednoduchá pole a null pro složitá pole.

name

string

Název pole, které musí být jedinečné v rámci kolekce polí indexovaného nebo nadřazeného pole.

normalizer

LexicalNormalizerName

Název normalizátoru, který se má pro pole použít. Tuto možnost lze použít pouze u polí s povolenými filtrovatelnými, seřaditelnými nebo ploškami. Jakmile je normalizátor vybrán, nelze jej pro pole změnit. U složitých polí musí mít hodnotu null.

retrievable

boolean

Hodnota označující, zda lze pole vrátit ve výsledku hledání. Tuto možnost můžete zakázat, pokud chcete použít pole (například okraj) jako filtr, řazení nebo mechanismus hodnocení, ale nechcete, aby bylo pole viditelné pro koncového uživatele. Tato vlastnost musí mít hodnotu true pro klíčová pole a musí mít hodnotu null pro složitá pole. Tuto vlastnost lze změnit na existujících polích. Povolení této vlastnosti nezpůsobí žádné zvýšení požadavků na úložiště indexů. Výchozí hodnota je true pro jednoduchá pole, false pro vektorová pole a null pro složitá pole.

searchAnalyzer

LexicalAnalyzerName

Název analyzátoru použitého při hledání pole. Tuto možnost lze použít pouze u prohledávatelných polí. Musí být nastaven společně s indexAnalyzer a nemůže být nastaven společně s volbou analyzátor. Tuto vlastnost nelze nastavit na název analyzátoru jazyka. Pokud potřebujete analyzátor jazyka, použijte místo toho vlastnost Analyzer. Tento analyzátor je možné aktualizovat v existujícím poli. U složitých polí musí mít hodnotu null.

searchable

boolean

Hodnota označující, zda lze v poli vyhledávat fulltextově. To znamená, že během indexování projde analýzou, jako je rozbíjení slov. Pokud nastavíte prohledávatelné pole na hodnotu jako "slunečný den", interně se rozdělí na jednotlivé tokeny "slunečno" a "den". To umožňuje fulltextové vyhledávání těchto termínů. Ve výchozím nastavení lze prohledávat pole typu Edm.String nebo Collection(Edm.String). Tato vlastnost musí mít hodnotu false pro jednoduchá pole jiných neřetězcových datových typů a musí mít hodnotu null pro složitá pole. Poznámka: Prohledávatelná pole spotřebovávají další místo v indexu, aby se do nich vešly další tokenizované verze hodnoty pole pro fulltextové vyhledávání. Pokud chcete ušetřit místo v indexu a nepotřebujete, aby bylo pole zahrnuto do vyhledávání, nastavte searchable na false.

sortable

boolean

Hodnota označující, zda se má povolit odkazování na pole ve $orderby výrazech. Ve výchozím nastavení vyhledávač seřadí výsledky podle skóre, ale v mnoha případech budou uživatelé chtít třídit podle polí v dokumentech. Jednoduché pole lze seřadit pouze v případě, že je jednohodnotové (má jednu hodnotu v rozsahu nadřazeného dokumentu). Jednoduchá pole kolekce nelze seřadit, protože mají více hodnot. Jednoduchá dílčí pole složitých kolekcí mají také více hodnot, a proto je nelze seřadit. To platí bez ohledu na to, jestli se jedná o okamžité nadřazené pole nebo nadřazené pole, což je složitá kolekce. Složitá pole nelze seřadit a vlastnost sortable musí mít pro taková pole hodnotu null. Výchozí hodnota pro seřaditelné je true pro jednoduchá pole s jednou hodnotou, false pro jednoduchá pole s více hodnotami a null pro složitá pole.

stored

boolean

Neměnná hodnota označující, zda bude pole uloženo samostatně na disku, aby bylo vráceno ve výsledku hledání. Tuto možnost můžete zakázat, pokud neplánujete vracet obsah pole v odpovědi na hledání, abyste ušetřili režijní náklady na úložiště. Tuto možnost lze nastavit pouze při vytváření indexu a pouze pro vektorová pole. Tuto vlastnost nelze změnit pro existující pole ani nastavit jako false pro nová pole. Pokud je tato vlastnost nastavena jako false, musí být vlastnost 'retrievable' také nastavena na false. Tato vlastnost musí být true nebo unset pro klíčová pole, pro nová pole a pro nevektorová pole a musí mít hodnotu null pro složitá pole. Zakázáním této vlastnosti se sníží požadavky na úložiště indexů. Výchozí hodnota platí pro vektorová pole.

synonymMaps

string[]

Seznam názvů map synonym, které se mají přidružit k tomuto poli. Tuto možnost lze použít pouze u prohledávatelných polí. V současné době je podporováno pouze jedno mapování synonym pro každé pole. Přiřazení mapování synonym k poli zajišťuje, aby se termíny dotazu, které cílí na toto pole, rozšířily v době dotazu pomocí pravidel v mapě synonym. Tento atribut lze změnit u existujících polí. Musí mít hodnotu null nebo prázdnou kolekci pro složitá pole.

type

SearchFieldDataType

Datový typ pole.

vectorEncoding

VectorEncodingFormat

Formát kódování pro interpretaci obsahu pole.

vectorSearchProfile

string

Název profilu vektorového vyhledávání, který určuje algoritmus a vektorizátor, který se má použít při prohledávání vektorového pole.

SearchFieldDataType

Definuje datový typ pole ve vyhledávacím indexu.

Hodnota Description
Edm.String

Označuje, že pole obsahuje řetězec.

Edm.Int32

Označuje, že pole obsahuje 32bitové celé číslo se znaménkem.

Edm.Int64

Označuje, že pole obsahuje 64bitové celé číslo se znaménkem.

Edm.Double

Označuje, že pole obsahuje číslo s plovoucí desetinnou čárkou s dvojitou přesností IEEE.

Edm.Boolean

Označuje, že pole obsahuje booleovskou hodnotu (true nebo false).

Edm.DateTimeOffset

Označuje, že pole obsahuje hodnotu data a času, včetně informací o časovém pásmu.

Edm.GeographyPoint

Označuje, že pole obsahuje zeměpisnou polohu z hlediska zeměpisné délky a šířky.

Edm.ComplexType

Označuje, že pole obsahuje jeden nebo více složitých objektů, které mají podpole jiných typů.

Edm.Single

Označuje, že pole obsahuje číslo s plovoucí desetinnou čárkou s jednoduchou přesností. To platí pouze při použití s Collection(Edm.Single).

Edm.Half

Označuje, že pole obsahuje číslo s plovoucí desetinnou čárkou s poloviční přesností. To platí pouze při použití s Collection(Edm.Half).

Edm.Int16

Označuje, že pole obsahuje 16bitové celé číslo se znaménkem. To platí pouze při použití s Collection(Edm.Int16).

Edm.SByte

Označuje, že pole obsahuje 8bitové celé číslo se znaménkem. To platí pouze při použití s Collection(Edm.SByte).

Edm.Byte

Označuje, že pole obsahuje 8bitové celé číslo bez znaménka. To platí pouze při použití s Collection(Edm.Byte).

SearchIndex

Představuje definici indexu vyhledávání, která popisuje pole a chování indexu při vyhledávání.

Name Typ Description
@odata.etag

string

ETag indexu.

analyzers LexicalAnalyzer[]:

Analyzátory pro index.

charFilters CharFilter[]:

Filtry znaků pro rejstřík.

corsOptions

CorsOptions

Možnosti řízení sdílení prostředků mezi zdroji (CORS) pro index.

defaultScoringProfile

string

Název profilu vyhodnocování, který se má použít, pokud není v dotazu zadán žádný. Pokud tato vlastnost není nastavena a v dotazu není zadán žádný profil vyhodnocování, použije se výchozí bodování (tf-idf).

description

string

Popis rejstříku.

encryptionKey

SearchResourceEncryptionKey

Popis šifrovacího klíče, který vytvoříte v Azure Key Vault. Tento klíč se používá k poskytnutí další úrovně šifrování neaktivních uložených dat v případě, že chcete mít plnou jistotu, že nikdo, ani Microsoft, nemůže vaše data dešifrovat. Jakmile svá data zašifrujete, zůstanou vždy zašifrována. Vyhledávací služba bude ignorovat pokusy o nastavení této vlastnosti na hodnotu null. Tuto vlastnost můžete podle potřeby změnit, pokud chcete šifrovací klíč otočit; Vaše údaje nebudou ovlivněny. Šifrování pomocí klíčů spravovaných zákazníkem není k dispozici pro bezplatné vyhledávací služby a je k dispozici pouze pro placené služby vytvořené 1. ledna 2019 nebo později.

fields

SearchField[]

Pole rejstříku.

name

string

Název indexu.

normalizers LexicalNormalizer[]:

CustomNormalizer[]

Normalizátory pro index.

scoringProfiles

ScoringProfile[]

Profily hodnocení pro index.

semantic

SemanticSettings

Definuje parametry pro vyhledávací index, které ovlivňují sémantické schopnosti.

similarity Similarity:

Typ algoritmu podobnosti, který se má použít při bodování a řazení dokumentů odpovídajících vyhledávacímu dotazu. Algoritmus podobnosti lze definovat pouze při vytváření indexu a nelze jej upravit na existujících indexech. Pokud je null, použije se algoritmus ClassicSimilarity.

suggesters

Suggester[]

Navrhovatelé pro index.

tokenFilters TokenFilter[]:

Filtr tokenu pro index.

tokenizers LexicalTokenizer[]:

Tokenizátory pro index.

vectorSearch

VectorSearch

Obsahuje konfigurační volby související s vektorovým vyhledáváním.

SearchIndexerDataNoneIdentity

Vymaže vlastnost identity zdroje dat.

Name Typ Description
@odata.type string:

#Microsoft.Azure.Search.DataNoneIdentity

Fragment identifikátoru URI určující typ identity.

SearchIndexerDataUserAssignedIdentity

Určuje identitu zdroje dat, který se má použít.

Name Typ Description
@odata.type string:

#Microsoft.Azure.Search.DataUserAssignedIdentity

Fragment identifikátoru URI určující typ identity.

userAssignedIdentity

string

Plně kvalifikované ID prostředku Azure spravované identity přiřazené uživatelem obvykle ve formátu "/subscriptions/12345678-1234-1234-1234-1234567890ab/resourceGroups/rg/providers/Microsoft.ManagedIdentity/userAssignedIdentities/myId", které by mělo být přiřazeno vyhledávací službě.

SearchResourceEncryptionKey

Šifrovací klíč spravovaný zákazníkem ve službě Azure Key Vault. Klíče, které vytvoříte a spravujete, lze použít k šifrování nebo dešifrování neaktivních uložených dat, jako jsou indexy a mapy synonym.

Name Typ Description
accessCredentials

AzureActiveDirectoryApplicationCredentials

Volitelné přihlašovací údaje Azure Active Directory používané pro přístup k Azure Key Vault. Není vyžadováno, pokud místo toho používáte spravovanou identitu.

keyVaultKeyName

string

Název vašeho klíče Azure Key Vault, který se má použít k šifrování neaktivních uložených dat.

keyVaultKeyVersion

string

Verze klíče Azure Key Vault, která se má použít k šifrování neaktivních uložených dat.

keyVaultUri

string

Identifikátor URI vašeho Azure Key Vault, označovaný také jako název DNS, který obsahuje klíč, který se má použít k šifrování neaktivních uložených dat. Příkladem identifikátoru URI může být https://my-keyvault-name.vault.azure.net.

SemanticConfiguration

Definuje konkrétní konfiguraci, která se má použít v kontextu sémantických schopností.

Name Typ Description
name

string

Název sémantické konfigurace.

prioritizedFields

PrioritizedFields

Popisuje pole názvu, obsahu a klíčových slov, která se mají použít pro sémantické řazení, titulky, zvýraznění a odpovědi. Je třeba nastavit alespoň jednu ze tří dílčích vlastností (titleField, prioritizedKeywordsFields a prioritizedContentFields).

rankingOrder

RankingOrder

Určuje typ notového zápisu, který se použije pro pořadí uspořádání výsledků hledání.

SemanticField

Pole, které se používá jako součást sémantické konfigurace.

Name Typ Description
fieldName

string

SemanticSettings

Definuje parametry pro vyhledávací index, které ovlivňují sémantické schopnosti.

Name Typ Description
configurations

SemanticConfiguration[]

Sémantické konfigurace indexu.

defaultConfiguration

string

Umožňuje nastavit název výchozí sémantické konfigurace v indexu, takže je volitelné ji pokaždé předat jako parametr dotazu.

ShingleTokenFilter

Vytvoří kombinace tokenů jako jeden token. Tento filtr tokenů je implementován pomocí Apache Lucene.

Name Typ Default value Description
@odata.type string:

#Microsoft.Azure.Search.ShingleTokenFilter

Fragment identifikátoru URI určující typ filtru tokenu.

filterToken

string

_

Řetězec, který má být vložen pro každou pozici, na které není žádný token. Výchozí hodnota je podtržítko ("_").

maxShingleSize

integer (int32)

minimum: 2
2

Maximální velikost šindele. Výchozí a minimální hodnota je 2.

minShingleSize

integer (int32)

minimum: 2
2

Minimální velikost šindele. Výchozí a minimální hodnota je 2. Musí být menší než hodnota maxShingleSize.

name

string

Název filtru tokenů. Smí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezena na 128 znaků.

outputUnigrams

boolean

True

Hodnota označující, zda výstupní datový proud bude obsahovat vstupní tokeny (unigramy) a také šindele. Výchozí hodnota je true.

outputUnigramsIfNoShingles

boolean

False

Hodnota označující, zda se mají vypsat unigramy pro časy, kdy nejsou k dispozici žádné šindele. Tato vlastnost má přednost, pokud outputUnigrams je nastavena na false . Výchozí hodnota je False.

tokenSeparator

string

Řetězec, který se má použít při spojování sousedních tokenů za účelem vytvoření šindele. Výchozí hodnota je jedna mezera (" ").

SnowballTokenFilter

Filtr, který vytváří kmeny slov pomocí skriptmeru generovaného sněhovou koulí. Tento filtr tokenů je implementován pomocí Apache Lucene.

Name Typ Description
@odata.type string:

#Microsoft.Azure.Search.SnowballTokenFilter

Fragment identifikátoru URI určující typ filtru tokenu.

language

SnowballTokenFilterLanguage

Jazyk, který se má použít.

name

string

Název filtru tokenů. Smí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezena na 128 znaků.

SnowballTokenFilterLanguage

Jazyk, který se má použít pro filtr tokenu sněhové koule.

Hodnota Description
armenian

Vybere stemming tokenizer Lucene Snowball pro arménštinu.

basque

Vybere stemming tokenizer Lucene Snowball pro baskičtinu.

catalan

Vybere stemming tokenizer Lucene Snowball pro katalánštinu.

danish

Vybere stemming tokenizer Lucene Snowball pro dánštinu.

dutch

Vybere stemming tokenizer Lucene Snowball pro nizozemštinu.

english

Vybere stemming tokenizer Lucene Snowball pro angličtinu.

finnish

Vybere stemming tokenizer Lucene Snowball pro finštinu.

french

Vybere stemming tokenizer Lucene Snowball pro francouzštinu.

german

Vybere stemming tokenizér Lucene Snowball pro němčinu.

german2

Vybere stemming tokenizer Lucene Snowball, který používá algoritmus německé varianty.

hungarian

Vybere stemming tokenizer Lucene Snowball pro maďarštinu.

italian

Vybere stemming tokenizér Lucene Snowball pro italštinu.

kp

Vybere stemming tokenizer Lucene Snowball pro nizozemštinu, který používá Kraaij-Pohlmann stemming algoritmus.

lovins

Vybere stemming tokenizer Lucene Snowball pro angličtinu, který používá Lovinsův stemming algoritmus.

norwegian

Vybere stemming tokenizer Lucene Snowball pro norštinu.

porter

Vybere stemming tokenizer Lucene Snowball pro angličtinu, který používá Porterův stemming algoritmus.

portuguese

Vybere stemming tokenizer Lucene Snowball pro portugalštinu.

romanian

Vybere stemming tokenizer Lucene Snowball pro rumunštinu.

russian

Vybere stemming tokenizér Lucene Snowball pro ruštinu.

spanish

Vybere stemming tokenizér Lucene Snowball pro španělštinu.

swedish

Vybere stemming tokenizer Lucene Snowball pro švédštinu.

turkish

Vybere stemming tokenizer Lucene Snowball pro turečtinu.

StemmerOverrideTokenFilter

Poskytuje možnost přepsat jiné filtry stemmingu pomocí vlastního stemmingu založeného na slovníku. Všechny termíny se slovníkovým řetězcem budou označeny jako klíčová slova, takže nebudou v řetězci spojovány se stemmery. Musí být umístěn před všemi odvozenými filtry. Tento filtr tokenů je implementován pomocí Apache Lucene.

Name Typ Description
@odata.type string:

#Microsoft.Azure.Search.StemmerOverrideTokenFilter

Fragment identifikátoru URI určující typ filtru tokenu.

name

string

Název filtru tokenů. Smí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezena na 128 znaků.

rules

string[]

Seznam pravidel stemování v následujícím formátu: "word => stem", například: "ran => run".

StemmerTokenFilter

Jazykově specifický stemming filtr. Tento filtr tokenů je implementován pomocí Apache Lucene.

Name Typ Description
@odata.type string:

#Microsoft.Azure.Search.StemmerTokenFilter

Fragment identifikátoru URI určující typ filtru tokenu.

language

StemmerTokenFilterLanguage

Jazyk, který se má použít.

name

string

Název filtru tokenů. Smí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezena na 128 znaků.

StemmerTokenFilterLanguage

Jazyk, který se má použít pro filtr tokenů stemmeru.

Hodnota Description
arabic

Vybere stemming tokenizer Lucene pro arabštinu.

armenian

Vybere stemming tokenizer Lucene pro arménštinu.

basque

Vybere stemming tokenizer Lucene pro baskičtinu.

brazilian

Vybere stemming tokenizer Lucene pro portugalštinu (Brazílie).

bulgarian

Vybere stemming tokenizer Lucene pro bulharštinu.

catalan

Vybere stemming tokenizer Lucene pro katalánštinu.

czech

Vybere stemming tokenizer Lucene pro češtinu.

danish

Vybere stemming tokenizer Lucene pro dánštinu.

dutch

Vybere stemming tokenizer Lucene pro nizozemštinu.

dutchKp

Vybere tokenizér Lucene stemming pro nizozemštinu, který používá algoritmus Kraaij-Pohlmann stemming.

english

Vybere stemming tokenizer Lucene pro angličtinu.

lightEnglish

Vybere tokenizátor Lucene stemming pro angličtinu, který provádí lehké stemming.

minimalEnglish

Vybere stemming tokenizer Lucene pro angličtinu, který provádí minimální stemming.

possessiveEnglish

Vybere kmenový tokenizátor Lucene pro angličtinu, který ze slov odstraní koncová přivlastňovací zájmena.

porter2

Vybere stemming tokenizer Lucene pro angličtinu, který používá Porter2 stemming algoritmus.

lovins

Vybere stemming tokenizer Lucene pro angličtinu, který používá Lovinsův stemmingový algoritmus.

finnish

Vybere stemming tokenizer Lucene pro finštinu.

lightFinnish

Vybere tokenizátor Lucene stemming pro finštinu, který provádí lehké stemming.

french

Vybere stemming tokenizer Lucene pro francouzštinu.

lightFrench

Vybere tokenizátor Lucene stemming pro francouzštinu, který provádí lehké stemming.

minimalFrench

Vybere tokenizátor Lucene stemming pro francouzštinu, který provádí minimální stemming.

galician

Vybere stemming tokenizer Lucene pro galicijštinu.

minimalGalician

Vybere tokenizátor Lucene stemming pro galicijštinu, který provádí minimální stemming.

german

Vybere stemming tokenizer Lucene pro němčinu.

german2

Vybere stemming tokenizer Lucene, který používá algoritmus německé varianty.

lightGerman

Vybere stemming tokenizer Lucene pro němčinu, který provádí light stemming.

minimalGerman

Vybere tokenizátor Lucene stemming pro němčinu, který provádí minimální stemming.

greek

Vybere stemming tokenizer Lucene pro řečtinu.

hindi

Vybere stemming tokenizer Lucene pro hindštinu.

hungarian

Vybere stemming tokenizer Lucene pro maďarštinu.

lightHungarian

Vybere tokenizátor Lucene stemming pro maďarštinu, který provádí lehké stemming.

indonesian

Vybere stemming tokenizer Lucene pro indonéštinu.

irish

Vybere stemming tokenizer Lucene pro irštinu.

italian

Vybere stemming tokenizer Lucene pro italštinu.

lightItalian

Vybere tokenizátor Lucene stemming pro italštinu, který provádí lehké stemming.

sorani

Vybere stemming tokenizer Lucene pro Sorani.

latvian

Vybere stemming tokenizer Lucene pro lotyštinu.

norwegian

Vybere stemming tokenizer Lucene pro norštinu (Bokmål).

lightNorwegian

Vybere tokenizátor Lucene stemming pro norštinu (Bokmål), který provádí lehké stemming.

minimalNorwegian

Vybere stemming tokenizer Lucene pro norštinu (Bokmål), který provádí minimální stemming.

lightNynorsk

Vybere tokenizátor Lucene stemming pro norštinu (Nynorsk), který provádí lehké stemming.

minimalNynorsk

Vybere stemming tokenizer Lucene pro norštinu (Nynorsk), který provádí minimální stemming.

portuguese

Vybere stemming tokenizer Lucene pro portugalštinu.

lightPortuguese

Vybere tokenizátor Lucene stemming pro portugalštinu, který provádí lehké stemming.

minimalPortuguese

Vybere tokenizátor Lucene stemming pro portugalštinu, který provádí minimální stemming.

portugueseRslp

Vybere stemming tokenizer Lucene pro portugalštinu, který používá RSLP stemming algoritmus.

romanian

Vybere stemming tokenizer Lucene pro rumunštinu.

russian

Vybere stemming tokenizer Lucene pro ruštinu.

lightRussian

Vybere tokenizátor Lucene stemming pro ruštinu, který provádí lehké stemming.

spanish

Vybere stemming tokenizer Lucene pro španělštinu.

lightSpanish

Vybere tokenizátor Lucene stemming pro španělštinu, který provádí lehké stemming.

swedish

Vybere stemming tokenizer Lucene pro švédštinu.

lightSwedish

Vybere tokenizátor Lucene stemming pro švédštinu, který provádí lehké stemming.

turkish

Vybere stemming tokenizer Lucene pro turečtinu.

StopAnalyzer

Rozdělí text na nepísmena; Použije filtry tokenů psaných malými písmeny a stopword. Tento analyzátor je implementován pomocí Apache Lucene.

Name Typ Description
@odata.type string:

#Microsoft.Azure.Search.StopAnalyzer

Fragment identifikátoru URI určující typ analyzátoru.

name

string

Název analyzátoru. Smí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezena na 128 znaků.

stopwords

string[]

Seznam stopslov.

StopwordsList

Identifikuje předdefinovaný seznam stophesel specifických pro jazyk.

Hodnota Description
arabic

Vybere seznam stopword pro arabštinu.

armenian

Vybere seznam stopword pro arménštinu.

basque

Vybere seznam stopword pro baskičtinu.

brazilian

Vybere seznam stopword pro portugalštinu (Brazílie).

bulgarian

Vybere seznam stopword pro bulharštinu.

catalan

Vybere seznam stopword pro katalánštinu.

czech

Vybere seznam stopword pro češtinu.

danish

Vybere seznam stopword pro dánštinu.

dutch

Vybere seznam stopword pro nizozemštinu.

english

Vybere seznam stopwords pro angličtinu.

finnish

Vybere seznam stopwords pro finštinu.

french

Vybere seznam stopword pro francouzštinu.

galician

Vybere seznam stopword pro galicijštinu.

german

Vybere seznam stopword pro němčinu.

greek

Vybere seznam stopword pro řečtinu.

hindi

Vybere seznam stophesel pro hindštinu.

hungarian

Vybere seznam stopslov pro maďarštinu.

indonesian

Vybere seznam stopword pro indonéštinu.

irish

Vybere seznam stopword pro irštinu.

italian

Vybere seznam stopword pro italštinu.

latvian

Vybere seznam stopword pro lotyštinu.

norwegian

Vybere seznam stopword pro norštinu.

persian

Vybere seznam stopword pro perštinu.

portuguese

Vybere seznam stopwords pro portugalštinu.

romanian

Vybere seznam stopword pro rumunštinu.

russian

Vybere seznam stopword pro ruštinu.

sorani

Vybere seznam stopslov pro Soraniho.

spanish

Vybere seznam stopslov pro španělštinu.

swedish

Vybere seznam stopword pro švédštinu.

thai

Vybere seznam stopword pro thajštinu.

turkish

Vybere seznam stopword pro turečtinu.

StopwordsTokenFilter

Odstraní stop slova z datového proudu tokenu. Tento filtr tokenů je implementován pomocí Apache Lucene.

Name Typ Default value Description
@odata.type string:

#Microsoft.Azure.Search.StopwordsTokenFilter

Fragment identifikátoru URI určující typ filtru tokenu.

ignoreCase

boolean

False

Hodnota označující, zda se mají ignorovat velká a malá písmena. Pokud je true, všechna slova se nejprve převedou na malá písmena. Výchozí hodnota je False.

name

string

Název filtru tokenů. Smí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezena na 128 znaků.

removeTrailing

boolean

True

Hodnota označující, zda se má ignorovat poslední hledaný výraz, pokud se jedná o slovo stop. Výchozí hodnota je true.

stopwords

string[]

Seznam stopslov. Tuto vlastnost i vlastnost seznamu stopwords nelze nastavit.

stopwordsList

StopwordsList

english

Předdefinovaný seznam stopslov, která se mají použít. Tuto vlastnost i vlastnost stopwords nelze nastavit. Výchozí je angličtina.

Suggester

Definuje, jak by se mělo rozhraní API pro návrhy použít na skupinu polí v indexu.

Name Typ Description
name

string

Jméno osoby podávající návrhy.

searchMode

SuggesterSearchMode

Hodnota označující možnosti modulu pro návrhy.

sourceFields

string[]

Seznam názvů polí, na které se předkladatel vztahuje. Každé pole musí být možné prohledávat.

SuggesterSearchMode

Hodnota označující možnosti modulu pro návrhy.

Hodnota Description
analyzingInfixMatching

Porovnává po sobě jdoucí celé termíny a předpony v poli. Například pro pole "Nejrychlejší hnědá liška" by se shodovaly dotazy "rychlý" i "nejrychlejší obočí".

SynonymTokenFilter

Porovnává jednoslovná nebo víceslovná synonyma v proudu tokenů. Tento filtr tokenů je implementován pomocí Apache Lucene.

Name Typ Default value Description
@odata.type string:

#Microsoft.Azure.Search.SynonymTokenFilter

Fragment identifikátoru URI určující typ filtru tokenu.

expand

boolean

True

Hodnota označující, zda se všechna slova v seznamu synonym (pokud se nepoužívá notace => ) budou vzájemně mapována. Pokud je true, všechna slova v seznamu synonym (pokud není použit zápis => ) se budou navzájem mapovat. Následující seznam: neuvěřitelné, neuvěřitelné, báječné, úžasné je ekvivalentní: neuvěřitelné, neuvěřitelné, báječné, úžasné => neuvěřitelné, neuvěřitelné, báječné, úžasné. Pokud není pravda, následující seznam: neuvěřitelný, neuvěřitelný, báječný, úžasný bude ekvivalentní následujícímu: neuvěřitelný, neuvěřitelný, báječný, úžasný => neuvěřitelný. Výchozí hodnota je true.

ignoreCase

boolean

False

Hodnota označující, zda se má vstup přeložit na velká a malá písmena pro přizpůsobení. Výchozí hodnota je False.

name

string

Název filtru tokenů. Smí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezena na 128 znaků.

synonyms

string[]

Seznam synonym v následujícím ze dvou formátů: 1. neuvěřitelné, neuvěřitelné, báječné => úžasné - všechny výrazy na levé straně => symbol budou nahrazeny všemi výrazy na jeho pravé straně; 2. neuvěřitelné, neuvěřitelné, báječné, úžasné - čárkou oddělený seznam ekvivalentních slov. Nastavením možnosti rozbalení můžete změnit způsob interpretace tohoto seznamu.

TagScoringFunction

Definuje funkci, která zvyšuje skóre dokumentů pomocí řetězcových hodnot odpovídajících danému seznamu tagů.

Name Typ Description
boost

number (double)

Násobitel pro hrubé skóre. Musí být kladné číslo, které se nerovná 1,0.

fieldName

string

Název pole, které se používá jako vstup pro funkci bodování.

interpolation

ScoringFunctionInterpolation

Hodnota označující, jak bude zvýšení interpolováno napříč skóre dokumentu; výchozí hodnota je "Lineární".

tag

TagScoringParameters

Hodnoty parametrů pro funkci bodování značek.

type string:

tag

Označuje typ funkce, která se má použít. Mezi platné hodnoty patří velikost, aktuálnost, vzdálenost a značka. Typ funkce musí být malými písmeny.

TagScoringParameters

Poskytuje hodnoty parametrů funkci bodování značek.

Name Typ Description
tagsParameter

string

Název parametru předaného ve vyhledávacích dotazech k určení seznamu značek pro porovnání s cílovým polem.

TextWeights

Definuje váhy indexových polí, jejichž shody by měly zvýšit bodování ve vyhledávacích dotazech.

Name Typ Description
weights

object

Slovník vah jednotlivých polí pro zvýšení hodnocení dokumentu. Klíče jsou názvy polí a hodnoty jsou váhy pro každé pole.

TokenCharacterKind

Představuje třídy znaků, se kterými může filtr tokenů pracovat.

Hodnota Description
letter

Uchovává písmena v tokenech.

digit

Uchovává číslice v tokenech.

whitespace

Zachová prázdné znaky v tokenech.

punctuation

Zachová interpunkci v tokenech.

symbol

Uchovává symboly v tokenech.

TokenFilterName

Definuje názvy všech filtrů tokenů podporovaných vyhledávacím modulem.

Hodnota Description
arabic_normalization

Filtr tokenů, který aplikuje arabský normalizátor k normalizaci pravopisu. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ar/ArabicNormalizationFilter.html.

apostrophe

Odstraní všechny znaky za apostrof (včetně samotného apostrofu). Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/tr/ApostropheFilter.html.

asciifolding

Převede abecední, číselné a symbolické znaky Unicode, které nejsou v prvních 127 znacích ASCII (blok Unicode "Základní latinka") na jejich ekvivalenty ASCII, pokud takové ekvivalenty existují. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html.

cjk_bigram

Tvoří bigramy termínů CJK, které jsou generovány ze standardního tokenizéru. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKBigramFilter.html.

cjk_width

Normalizuje rozdíly šířky CJK. Slohne varianty ASCII s plnou šířkou do ekvivalentní základní latinky a varianty katakany s poloviční šířkou do ekvivalentní kany. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKWidthFilter.html.

classic

Odstraní anglická přivlastňovací zájmena a tečky ze zkratek. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicFilter.html.

common_grams

Vytvářejte bigramy pro často se vyskytující výrazy při indexování. Jednotlivé termíny jsou také stále indexovány, s překrytými bigramy. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/commongrams/CommonGramsFilter.html.

edgeNGram_v2

Generuje n-gramy dané velikosti (velikostí) počínaje přední nebo zadní stranou vstupního tokenu. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenFilter.html.

elision

Odstraňuje elize. Například "l'avion" (letadlo) bude převedeno na "avion" (letadlo). Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html.

german_normalization

Normalizuje německé znaky podle heuristiky algoritmu sněhové koule German2. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/de/GermanNormalizationFilter.html.

hindi_normalization

Normalizuje text v hindštině, aby se odstranily některé rozdíly v pravopisných variantách. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/hi/HindiNormalizationFilter.html.

indic_normalization

Normalizuje reprezentaci textu Unicode v indických jazycích. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/in/IndicNormalizationFilter.html.

keyword_repeat

Vygeneruje každý příchozí token dvakrát, jednou jako klíčové slovo a jednou jako neklíčové slovo. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/KeywordRepeatFilter.html.

kstem

Vysoce výkonný filtr kstem pro angličtinu. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/en/KStemFilter.html.

length

Odstraní slova, která jsou příliš dlouhá nebo příliš krátká. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LengthFilter.html.

limit

Omezuje počet tokenů při indexování. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LimitTokenCountFilter.html.

lowercase

Normalizuje text tokenu na malá písmena. Viz https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html.

nGram_v2

Generuje n-gramů dané velikosti (velikostí). Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenFilter.html.

persian_normalization

Aplikuje normalizaci pro perštinu. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/fa/PersianNormalizationFilter.html.

phonetic

Vytvářet tokeny pro fonetické shody. Viz https://lucene.apache.org/core/4_10_3/analyzers-phonetic/org/apache/lucene/analysis/phonetic/package-tree.html.

porter_stem

Používá Porterův stemmingový algoritmus k transformaci datového proudu tokenu. Viz http://tartarus.org/~martin/PorterStemmer.

reverse

Obrátí řetězec tokenu. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html.

scandinavian_normalization

Normalizuje použití zaměnitelných skandinávských znaků. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianNormalizationFilter.html.

scandinavian_folding

Složí skandinávské znaky åÅäæÄÆ-a> a öÖøØ-o>. Také diskriminuje použití dvojitých samohlásek aa, ae, ao, oe a oo, přičemž ponechává pouze tu první. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianFoldingFilter.html.

shingle

Vytvoří kombinace tokenů jako jeden token. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/shingle/ShingleFilter.html.

snowball

Filtr, který vytváří kmeny slov pomocí skriptmeru generovaného sněhovou koulí. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/snowball/SnowballFilter.html.

sorani_normalization

Normalizuje reprezentaci textu Sorani v kódování Unicode. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ckb/SoraniNormalizationFilter.html.

stemmer

Jazykově specifický stemming filtr. Viz https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#TokenFilters.

stopwords

Odstraní stop slova z datového proudu tokenu. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html.

trim

Ořízne úvodní a koncové prázdné znaky z tokenů. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TrimFilter.html.

truncate

Zkrátí podmínky na určitou délku. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TruncateTokenFilter.html.

unique

Odfiltruje tokeny se stejným textem jako předchozí token. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/RemoveDuplicatesTokenFilter.html.

uppercase

Normalizuje text tokenu na velká písmena. Viz https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html.

word_delimiter

Rozdělí slova na podslova a provede volitelné transformace skupin podslov.

TruncateTokenFilter

Zkrátí podmínky na určitou délku. Tento filtr tokenů je implementován pomocí Apache Lucene.

Name Typ Default value Description
@odata.type string:

#Microsoft.Azure.Search.TruncateTokenFilter

Fragment identifikátoru URI určující typ filtru tokenu.

length

integer (int32)

maximum: 300
300

Délka, po kterou budou termíny zkráceny. Výchozí a maximální hodnota je 300.

name

string

Název filtru tokenů. Smí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezena na 128 znaků.

UaxUrlEmailTokenizer

Tokenizuje adresy URL a e-maily jako jeden token. Tento tokenizer je implementován pomocí Apache Lucene.

Name Typ Default value Description
@odata.type string:

#Microsoft.Azure.Search.UaxUrlEmailTokenizer

Fragment URI určující typ tokenizeru.

maxTokenLength

integer (int32)

maximum: 300
255

Maximální délka tokenu. Výchozí hodnota je 255. Tokeny delší než maximální délka se rozdělí. Maximální délka tokenu, kterou lze použít, je 300 znaků.

name

string

Název tokenizátoru. Smí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezena na 128 znaků.

UniqueTokenFilter

Odfiltruje tokeny se stejným textem jako předchozí token. Tento filtr tokenů je implementován pomocí Apache Lucene.

Name Typ Default value Description
@odata.type string:

#Microsoft.Azure.Search.UniqueTokenFilter

Fragment identifikátoru URI určující typ filtru tokenu.

name

string

Název filtru tokenů. Smí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezena na 128 znaků.

onlyOnSamePosition

boolean

False

Hodnota označující, zda se mají odstranit duplicity pouze na stejné pozici. Výchozí hodnota je False.

VectorEncodingFormat

Formát kódování pro interpretaci obsahu vektorového pole.

Hodnota Description
packedBit

Formát kódování reprezentující bity zabalené do širšího datového typu.

VectorSearch

Obsahuje konfigurační volby související s vektorovým vyhledáváním.

Name Typ Description
algorithms VectorSearchAlgorithmConfiguration[]:

Obsahuje možnosti konfigurace specifické pro algoritmus používaný při indexování nebo dotazování.

compressions VectorSearchCompressionConfiguration[]:

Obsahuje možnosti konfigurace specifické pro metodu komprese použitou během indexování nebo dotazování.

profiles

VectorSearchProfile[]

Definuje kombinace konfigurací pro použití s vektorovým vyhledáváním.

vectorizers VectorSearchVectorizer[]:

Obsahuje možnosti konfigurace vektorových textových dotazů.

VectorSearchAlgorithmKind

Algoritmus používaný pro indexování a dotazování.

Hodnota Description
hnsw

HNSW (Hierarchical Navigable Small World), typ algoritmu přibližných nejbližších sousedů.

exhaustiveKnn

Vyčerpávající algoritmus KNN, který bude provádět vyhledávání hrubou silou.

VectorSearchAlgorithmMetric

Metrika podobnosti, která se má použít pro vektorové porovnání. Doporučuje se zvolit stejnou metriku podobnosti, na které byl natrénován model vkládání.

Hodnota Description
cosine

Měří úhel mezi vektory a kvantifikuje jejich podobnost bez ohledu na velikost. Čím menší úhel, tím větší podobnost.

euclidean

Vypočítá vzdálenost mezi vektory ve vícerozměrném prostoru. Čím menší je vzdálenost, tím větší je podobnost.

dotProduct

Vypočítá součet prvkových součinů pro posouzení zarovnání a podobnosti velikosti. Čím větší a pozitivnější, tím bližší podobnost.

hamming

Platí pouze pro binární datové typy zabalené do bitů. Určuje odlišnost počítáním různých pozic v binárních vektorech. Čím méně rozdílů, tím větší podobnost.

VectorSearchCompressionKind

Metoda komprese používaná pro indexování a dotazování.

Hodnota Description
scalarQuantization

Skalární kvantizace, typ kompresní metody. Ve skalární kvantizaci jsou hodnoty původních vektorů komprimovány na užší typ diskretizací a reprezentací každé složky vektoru pomocí redukované sady kvantovaných hodnot, čímž se zmenšuje celková velikost dat.

binaryQuantization

Binární kvantování, typ kompresní metody. Při binární kvantizaci jsou původní hodnoty vektorů komprimovány na užší binární typ diskretizací a reprezentací každé složky vektoru pomocí binárních hodnot, čímž se sníží celková velikost dat.

VectorSearchCompressionRescoreStorageMethod

Metoda ukládání původních vektorů s plnou přesností používaných pro opakované bodování a interní operace indexu.

Hodnota Description
preserveOriginals

Tato volba zachová původní vektory s plnou přesností. Tuto možnost vyberte pro maximální flexibilitu a nejvyšší kvalitu komprimovaných výsledků hledání. To spotřebovává více úložiště, ale umožňuje převzorkování a převzorkování.

discardOriginals

Tato volba vypustí původní vektory s plnou přesností. Tuto možnost vyberte, chcete-li dosáhnout maximální úspory úložiště. Vzhledem k tomu, že tato volba neumožňuje převzorkování a převzorkování, často způsobí mírné až střední snížení kvality.

VectorSearchCompressionTargetDataType

Kvantovaný datový typ komprimovaných vektorových hodnot.

Hodnota Description
int8

VectorSearchProfile

Definuje kombinaci konfigurací pro použití s vektorovým vyhledáváním.

Name Typ Description
algorithm

string

Název konfigurace vektorového vyhledávacího algoritmu, který určuje algoritmus a volitelné parametry.

compression

string

Název konfigurace metody komprese, který určuje metodu komprese a volitelné parametry.

name

string

Název, který se má přidružit k tomuto konkrétnímu profilu vektorového vyhledávání.

vectorizer

string

Název vektorizace konfigurované pro použití s vektorovým vyhledáváním.

VectorSearchVectorizerKind

Metoda vektorizace, která se má použít během doby dotazu.

Hodnota Description
azureOpenAI

Generování vkládání pomocí prostředku Azure OpenAI v době dotazu.

customWebApi

Vygenerujte vkládání pomocí vlastního webového koncového bodu v době dotazu.

WebApiParameters

Určuje vlastnosti pro připojení k uživatelsky definovanému vektorizátoru.

Name Typ Description
authIdentity SearchIndexerDataIdentity:

Spravovaná identita přiřazená uživatelem používaná pro odchozí připojení. Pokud je zadán authResourceId a není zadaný, použije se spravovaná identita přiřazená systémem. Pokud při aktualizacích indexeru není identita určena, hodnota zůstane nezměněna. Pokud je nastavena na "none", hodnota této vlastnosti je vymazána.

authResourceId

string

Platí pro vlastní koncové body, které se připojují k externímu kódu ve funkci Azure nebo jiné aplikaci, která poskytuje transformace. Tato hodnota by měla být ID aplikace vytvořené pro funkci nebo aplikaci při registraci v Azure Active Directory. Pokud je tato možnost zadaná, vektorizace se připojí k funkci nebo aplikaci pomocí spravovaného ID (buď systémového, nebo přiřazeného uživatelem) vyhledávací služby a přístupového tokenu funkce nebo aplikace, přičemž tato hodnota se použije jako ID prostředku pro vytvoření oboru přístupového tokenu.

httpHeaders

object

Hlavičky potřebné k vytvoření požadavku HTTP.

httpMethod

string

Metoda pro požadavek HTTP.

timeout

string (duration)

Požadovaný časový limit požadavku. Výchozí hodnota je 30 sekund.

uri

string (uri)

Identifikátor URI webového rozhraní API, které poskytuje vektorizátor.

WebApiVectorizer

Určuje uživatelem definovaný vektorizátor pro generování vektorového vkládání řetězce dotazu. Integrace externího vektorizátoru se provádí pomocí vlastního rozhraní webového rozhraní API sady dovedností.

Name Typ Description
customWebApiParameters

WebApiParameters

Určuje vlastnosti uživatelem definovaného vektorizátoru.

kind string:

customWebApi

Název druhu metody vektorizace, která je konfigurována pro použití s vektorovým vyhledáváním.

name

string

Název, který má být spojen s touto konkrétní metodou vektorizace.

WordDelimiterTokenFilter

Rozdělí slova na podslova a provede volitelné transformace skupin podslov. Tento filtr tokenů je implementován pomocí Apache Lucene.

Name Typ Default value Description
@odata.type string:

#Microsoft.Azure.Search.WordDelimiterTokenFilter

Fragment identifikátoru URI určující typ filtru tokenu.

catenateAll

boolean

False

Hodnota označující, zda budou všechny části podsloví zřetězené. Pokud je například tato hodnota nastavená na true, "Azure-Search-1" se změní na "AzureSearch1". Výchozí hodnota je False.

catenateNumbers

boolean

False

Hodnota označující, zda bude zřetězen maximální počet číselných dílů. Pokud je například tato hodnota nastavena na true, z "1-2" se stane "12". Výchozí hodnota je False.

catenateWords

boolean

False

Hodnota označující, zda bude zřetězena maximální počet běhů částí slova. Pokud je například tato hodnota nastavená na true, "Azure-Search" se změní na "AzureSearch". Výchozí hodnota je False.

generateNumberParts

boolean

True

Hodnota označující, zda se mají generovat číselná podslova. Výchozí hodnota je true.

generateWordParts

boolean

True

Hodnota označující, zda se mají generovat slova částí. Pokud je nastaveno, způsobí, že se budou generovat části slov; například "AzureSearch" se změní na "Azure" "Search". Výchozí hodnota je true.

name

string

Název filtru tokenů. Smí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezena na 128 znaků.

preserveOriginal

boolean

False

Hodnota označující, zda budou původní slova zachována a přidána do seznamu podslov. Výchozí hodnota je False.

protectedWords

string[]

Seznam tokenů, které je třeba chránit před vymezením.

splitOnCaseChange

boolean

True

Hodnota označující, zda se mají rozdělit slova na caseChange. Pokud je například tato hodnota nastavená na true, "AzureSearch" se změní na "Azure" "Search". Výchozí hodnota je true.

splitOnNumerics

boolean

True

Hodnota označující, zda se má rozdělit na čísla. Pokud je například tato hodnota nastavená na true, "Azure1Search" se změní na "Azure" "1" "Search". Výchozí hodnota je true.

stemEnglishPossessive

boolean

True

Hodnota označující, zda se má odebrat koncové znaky "'s" pro každé podslovo. Výchozí hodnota je true.