Sdílet prostřednictvím


Indexes - Create Or Update

Vytvoří nový index vyhledávání nebo aktualizuje index, pokud už existuje.

PUT {endpoint}/indexes('{indexName}')?api-version=2024-07-01
PUT {endpoint}/indexes('{indexName}')?allowIndexDowntime={allowIndexDowntime}&api-version=2024-07-01

Parametry identifikátoru URI

Name V Vyžadováno Typ Description
endpoint
path True

string

Adresa URL koncového bodu vyhledávací služby.

indexName
path True

string

Definice indexu pro vytvoření nebo aktualizaci.

api-version
query True

string

Verze rozhraní API klienta.

allowIndexDowntime
query

boolean

Umožňuje přidání nových analyzátorů,tokench To dočasně způsobí selhání indexování a požadavků na dotazy. Výkon a dostupnost zápisu indexu může být po dobu několika minut po aktualizaci indexu poškozena nebo delší pro velmi velké indexy.

Hlavička požadavku

Name Vyžadováno Typ Description
x-ms-client-request-id

string

uuid

ID sledování odeslané s požadavkem, které vám pomůže s laděním.

If-Match

string

Definuje podmínku If-Match. Operace bude provedena pouze v případě, že značky ETag na serveru odpovídají této hodnotě.

If-None-Match

string

Definuje podmínku If-None-Match. Operace bude provedena pouze v případě, že značky ETag na serveru neodpovídají této hodnotě.

Prefer True

string

U požadavků HTTP PUT dává službě pokyn k vrácení vytvořeného nebo aktualizovaného prostředku při úspěchu.

Text požadavku

Name Vyžadováno Typ Description
fields True

SearchField[]

Pole indexu.

name True

string

Název indexu.

@odata.etag

string

ETag indexu.

analyzers LexicalAnalyzer[]:

Analyzátory indexu.

charFilters CharFilter[]:

Filtry znaků pro index.

corsOptions

CorsOptions

Možnosti řízení sdílení prostředků mezi zdroji (CORS) pro index

defaultScoringProfile

string

Název bodovacího profilu, který se má použít, pokud není v dotazu zadán žádný. Pokud tato vlastnost není nastavena a v dotazu není zadán žádný bodovací profil, použije se výchozí bodování (tf-idf).

encryptionKey

SearchResourceEncryptionKey

Popis šifrovacího klíče, který vytvoříte ve službě Azure Key Vault. Tento klíč se používá k zajištění další úrovně neaktivních uložených šifrování pro vaše data, pokud chcete mít plnou jistotu, že vaše data může dešifrovat nikdo, ani Microsoft. Jakmile data zašifrujete, zůstane vždy zašifrovaná. Vyhledávací služba bude ignorovat pokusy o nastavení této vlastnosti na hodnotu null. Tuto vlastnost můžete podle potřeby změnit, pokud chcete šifrovací klíč otočit; Vaše data nebudou ovlivněna. Šifrování pomocí klíčů spravovaných zákazníkem není k dispozici pro bezplatné vyhledávací služby a je k dispozici pouze pro placené služby vytvořené 1. ledna 2019 nebo po 1. lednu 2019.

scoringProfiles

ScoringProfile[]

Profily bodování indexu.

semantic

SemanticSettings

Definuje parametry indexu vyhledávání, které ovlivňují sémantické schopnosti.

similarity Similarity:

Typ algoritmu podobnosti, který se má použít při bodování a řazení dokumentů odpovídajících vyhledávacímu dotazu. Algoritmus podobnosti lze definovat pouze při vytváření indexu a nelze ho upravovat u existujících indexů. Pokud má hodnotu null, použije se algoritmus ClassicSimilarity.

suggesters

Suggester[]

Návrhy indexu.

tokenFilters TokenFilter[]:

Filtry tokenů pro index.

tokenizers LexicalTokenizer[]:

Tokenizátory indexu.

vectorSearch

VectorSearch

Obsahuje možnosti konfigurace související s vektorové vyhledávání.

Odpovědi

Name Typ Description
200 OK

SearchIndex

201 Created

SearchIndex

Other Status Codes

ErrorResponse

Chybová odpověď.

Příklady

SearchServiceCreateOrUpdateIndex

Ukázkový požadavek

PUT https://myservice.search.windows.net/indexes('hotels')?allowIndexDowntime=False&api-version=2024-07-01


{
  "name": "hotels",
  "fields": [
    {
      "name": "hotelId",
      "type": "Edm.String",
      "key": true,
      "searchable": false
    },
    {
      "name": "baseRate",
      "type": "Edm.Double"
    },
    {
      "name": "description",
      "type": "Edm.String",
      "filterable": false,
      "sortable": false,
      "facetable": false
    },
    {
      "name": "descriptionEmbedding",
      "type": "Collection(Edm.Single)",
      "dimensions": 1536,
      "vectorSearchProfile": "myHnswProfile",
      "searchable": true,
      "retrievable": true
    },
    {
      "name": "description_fr",
      "type": "Edm.String",
      "filterable": false,
      "sortable": false,
      "facetable": false,
      "analyzer": "fr.lucene"
    },
    {
      "name": "hotelName",
      "type": "Edm.String"
    },
    {
      "name": "category",
      "type": "Edm.String"
    },
    {
      "name": "tags",
      "type": "Collection(Edm.String)",
      "analyzer": "tagsAnalyzer"
    },
    {
      "name": "parkingIncluded",
      "type": "Edm.Boolean"
    },
    {
      "name": "smokingAllowed",
      "type": "Edm.Boolean"
    },
    {
      "name": "lastRenovationDate",
      "type": "Edm.DateTimeOffset"
    },
    {
      "name": "rating",
      "type": "Edm.Int32"
    },
    {
      "name": "location",
      "type": "Edm.GeographyPoint"
    }
  ],
  "scoringProfiles": [
    {
      "name": "geo",
      "text": {
        "weights": {
          "hotelName": 5
        }
      },
      "functions": [
        {
          "type": "distance",
          "boost": 5,
          "fieldName": "location",
          "interpolation": "logarithmic",
          "distance": {
            "referencePointParameter": "currentLocation",
            "boostingDistance": 10
          }
        }
      ]
    }
  ],
  "defaultScoringProfile": "geo",
  "suggesters": [
    {
      "name": "sg",
      "searchMode": "analyzingInfixMatching",
      "sourceFields": [
        "hotelName"
      ]
    }
  ],
  "analyzers": [
    {
      "name": "tagsAnalyzer",
      "@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
      "charFilters": [
        "html_strip"
      ],
      "tokenizer": "standard_v2"
    }
  ],
  "corsOptions": {
    "allowedOrigins": [
      "tempuri.org"
    ],
    "maxAgeInSeconds": 60
  },
  "encryptionKey": {
    "keyVaultKeyName": "myUserManagedEncryptionKey-createdinAzureKeyVault",
    "keyVaultKeyVersion": "myKeyVersion-32charAlphaNumericString",
    "keyVaultUri": "https://myKeyVault.vault.azure.net",
    "accessCredentials": null
  },
  "similarity": {
    "@odata.type": "#Microsoft.Azure.Search.ClassicSimilarity"
  },
  "semantic": {
    "configurations": [
      {
        "name": "semanticHotels",
        "prioritizedFields": {
          "titleField": {
            "fieldName": "hotelName"
          },
          "prioritizedContentFields": [
            {
              "fieldName": "description"
            },
            {
              "fieldName": "description_fr"
            }
          ],
          "prioritizedKeywordsFields": [
            {
              "fieldName": "tags"
            },
            {
              "fieldName": "category"
            }
          ]
        }
      }
    ]
  },
  "vectorSearch": {
    "profiles": [
      {
        "name": "myHnswProfile",
        "algorithm": "myHnsw"
      },
      {
        "name": "myAlgorithm",
        "algorithm": "myExhaustive"
      }
    ],
    "algorithms": [
      {
        "name": "myHnsw",
        "kind": "hnsw",
        "hnswParameters": {
          "m": 4,
          "metric": "cosine"
        }
      },
      {
        "name": "myExhaustive",
        "kind": "exhaustiveKnn",
        "exhaustiveKnnParameters": {
          "metric": "cosine"
        }
      }
    ]
  }
}

Ukázková odpověď

{
  "name": "hotels",
  "fields": [
    {
      "name": "hotelId",
      "type": "Edm.String",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": true,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "baseRate",
      "type": "Edm.Double",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "description",
      "type": "Edm.String",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "descriptionEmbedding",
      "type": "Collection(Edm.Single)",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": 1536,
      "vectorSearchProfile": "myHnswProfile",
      "synonymMaps": []
    },
    {
      "name": "description_fr",
      "type": "Edm.String",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": "fr.lucene",
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "hotelName",
      "type": "Edm.String",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "category",
      "type": "Edm.String",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "tags",
      "type": "Collection(Edm.String)",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "sortable": false,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": "tagsAnalyzer",
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "parkingIncluded",
      "type": "Edm.Boolean",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "smokingAllowed",
      "type": "Edm.Boolean",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "lastRenovationDate",
      "type": "Edm.DateTimeOffset",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "rating",
      "type": "Edm.Int32",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "location",
      "type": "Edm.GeographyPoint",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": false,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    }
  ],
  "scoringProfiles": [
    {
      "name": "geo",
      "functionAggregation": "sum",
      "text": {
        "weights": {
          "hotelName": 5
        }
      },
      "functions": [
        {
          "type": "distance",
          "boost": 5,
          "fieldName": "location",
          "interpolation": "logarithmic",
          "distance": {
            "referencePointParameter": "currentLocation",
            "boostingDistance": 10
          }
        }
      ]
    }
  ],
  "defaultScoringProfile": "geo",
  "suggesters": [
    {
      "name": "sg",
      "searchMode": "analyzingInfixMatching",
      "sourceFields": [
        "hotelName"
      ]
    }
  ],
  "analyzers": [
    {
      "name": "tagsAnalyzer",
      "@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
      "charFilters": [
        "html_strip"
      ],
      "tokenizer": "standard_v2"
    }
  ],
  "tokenizers": [],
  "tokenFilters": [],
  "charFilters": [],
  "corsOptions": {
    "allowedOrigins": [
      "tempuri.org"
    ],
    "maxAgeInSeconds": 60
  },
  "encryptionKey": {
    "keyVaultKeyName": "myUserManagedEncryptionKey-createdinAzureKeyVault",
    "keyVaultKeyVersion": "myKeyVersion-32charAlphaNumericString",
    "keyVaultUri": "https://myKeyVault.vault.azure.net",
    "accessCredentials": null
  },
  "similarity": {
    "@odata.type": "#Microsoft.Azure.Search.ClassicSimilarity"
  },
  "semantic": {
    "configurations": [
      {
        "name": "semanticHotels",
        "prioritizedFields": {
          "titleField": {
            "fieldName": "hotelName"
          },
          "prioritizedContentFields": [
            {
              "fieldName": "description"
            },
            {
              "fieldName": "description_fr"
            }
          ],
          "prioritizedKeywordsFields": [
            {
              "fieldName": "tags"
            },
            {
              "fieldName": "category"
            }
          ]
        }
      }
    ]
  },
  "vectorSearch": {
    "algorithms": [
      {
        "name": "myHnsw",
        "kind": "hnsw",
        "hnswParameters": {
          "metric": "cosine",
          "m": 4,
          "efConstruction": 400,
          "efSearch": 500
        }
      },
      {
        "name": "myExhaustive",
        "kind": "exhaustiveKnn",
        "exhaustiveKnnParameters": {
          "metric": "cosine"
        }
      }
    ],
    "profiles": [
      {
        "name": "myHnswProfile",
        "algorithm": "myHnsw"
      },
      {
        "name": "myAlgorithm",
        "algorithm": "myExhaustive"
      }
    ]
  }
}
{
  "name": "hotels",
  "fields": [
    {
      "name": "hotelId",
      "type": "Edm.String",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": true,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "baseRate",
      "type": "Edm.Double",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "description",
      "type": "Edm.String",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "descriptionEmbedding",
      "type": "Collection(Edm.Single)",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": 1536,
      "vectorSearchProfile": "myHnswProfile",
      "synonymMaps": []
    },
    {
      "name": "description_fr",
      "type": "Edm.String",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": "fr.lucene",
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "hotelName",
      "type": "Edm.String",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "category",
      "type": "Edm.String",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "tags",
      "type": "Collection(Edm.String)",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "sortable": false,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": "tagsAnalyzer",
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "parkingIncluded",
      "type": "Edm.Boolean",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "smokingAllowed",
      "type": "Edm.Boolean",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "lastRenovationDate",
      "type": "Edm.DateTimeOffset",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "rating",
      "type": "Edm.Int32",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "location",
      "type": "Edm.GeographyPoint",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": false,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    }
  ],
  "scoringProfiles": [
    {
      "name": "geo",
      "functionAggregation": "sum",
      "text": {
        "weights": {
          "hotelName": 5
        }
      },
      "functions": [
        {
          "type": "distance",
          "boost": 5,
          "fieldName": "location",
          "interpolation": "logarithmic",
          "distance": {
            "referencePointParameter": "currentLocation",
            "boostingDistance": 10
          }
        }
      ]
    }
  ],
  "defaultScoringProfile": "geo",
  "suggesters": [
    {
      "name": "sg",
      "searchMode": "analyzingInfixMatching",
      "sourceFields": [
        "hotelName"
      ]
    }
  ],
  "analyzers": [
    {
      "name": "tagsAnalyzer",
      "@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
      "charFilters": [
        "html_strip"
      ],
      "tokenizer": "standard_v2"
    }
  ],
  "tokenizers": [],
  "tokenFilters": [],
  "charFilters": [],
  "corsOptions": {
    "allowedOrigins": [
      "tempuri.org"
    ],
    "maxAgeInSeconds": 60
  },
  "encryptionKey": {
    "keyVaultKeyName": "myUserManagedEncryptionKey-createdinAzureKeyVault",
    "keyVaultKeyVersion": "myKeyVersion-32charAlphaNumericString",
    "keyVaultUri": "https://myKeyVault.vault.azure.net",
    "accessCredentials": null
  },
  "semantic": {
    "configurations": [
      {
        "name": "semanticHotels",
        "prioritizedFields": {
          "titleField": {
            "fieldName": "hotelName"
          },
          "prioritizedContentFields": [
            {
              "fieldName": "description"
            },
            {
              "fieldName": "description_fr"
            }
          ],
          "prioritizedKeywordsFields": [
            {
              "fieldName": "tags"
            },
            {
              "fieldName": "category"
            }
          ]
        }
      }
    ]
  },
  "vectorSearch": {
    "algorithms": [
      {
        "name": "myHnsw",
        "kind": "hnsw",
        "hnswParameters": {
          "metric": "cosine",
          "m": 4,
          "efConstruction": 400,
          "efSearch": 500
        }
      },
      {
        "name": "myExhaustive",
        "kind": "exhaustiveKnn",
        "exhaustiveKnnParameters": {
          "metric": "cosine"
        }
      }
    ],
    "profiles": [
      {
        "name": "myHnswProfile",
        "algorithm": "myHnsw"
      },
      {
        "name": "myAlgorithm",
        "algorithm": "myExhaustive"
      }
    ]
  }
}

Definice

Name Description
AsciiFoldingTokenFilter

Převede abecední, číselné a symbolické znaky Unicode, které nejsou v prvních 127 znaky ASCII (blok "Základní latinka") na jejich ekvivalenty ASCII, pokud takové ekvivalenty existují. Tento filtr tokenu se implementuje pomocí Apache Lucene.

AzureActiveDirectoryApplicationCredentials

Přihlašovací údaje registrované aplikace vytvořené pro vaši vyhledávací službu, které slouží k ověřenému přístupu k šifrovacím klíčům uloženým ve službě Azure Key Vault.

AzureOpenAIEmbeddingSkill

Umožňuje vygenerovat vektorové vkládání pro daný textový vstup pomocí prostředku Azure OpenAI.

AzureOpenAIModelName

Název modelu Azure Open AI, který se bude volat.

AzureOpenAIParameters

Určuje parametry pro připojení k prostředku Azure OpenAI.

AzureOpenAIVectorizer

Určuje prostředek Azure OpenAI použitý k vektorizaci řetězce dotazu.

BinaryQuantizationVectorSearchCompressionConfiguration

Obsahuje možnosti konfigurace specifické pro metodu komprese binárního kvantování používané při indexování a dotazování.

BM25Similarity

Funkce řazení založená na algoritmu podobnosti BM25 Okapi. BM25 je algoritmus podobný TF-IDF, který zahrnuje normalizaci délky (řízenou parametrem "b") a také sytost termínů (řízená parametrem "k1").

CharFilterName

Definuje názvy všech filtrů znaků podporovaných vyhledávacím webem.

CjkBigramTokenFilter

Tvoří bigramy výrazů CJK, které se generují ze standardního tokenizátoru. Tento filtr tokenu se implementuje pomocí Apache Lucene.

CjkBigramTokenFilterScripts

Skripty, které může CjkBigramTokenFilter ignorovat.

ClassicSimilarity

Starší algoritmus podobnosti, který používá implementaci TF-IDF lucene TFIDFSimilarity. Tato varianta TF-IDF představuje normalizaci délky statického dokumentu a také koordinující faktory, které postihují dokumenty, které pouze částečně odpovídají prohledáným dotazům.

ClassicTokenizer

Tokenizátor založený na gramatikě, který je vhodný pro zpracování většiny dokumentů evropského jazyka. Tento tokenizátor se implementuje pomocí Apache Lucene.

CommonGramTokenFilter

Při indexování vytvořte bigramy pro často se vyskytující termíny. Jednotlivé termíny jsou stále indexované, s překryvnými bigramy. Tento filtr tokenu se implementuje pomocí Apache Lucene.

CorsOptions

Definuje možnosti pro řízení sdílení prostředků mezi zdroji (CORS) pro index.

CustomAnalyzer

Umožňuje převzít kontrolu nad procesem převodu textu na indexovatelné nebo prohledávatelné tokeny. Jedná se o uživatelsky definovanou konfiguraci, která se skládá z jednoho předdefinovaného tokenizátoru a jednoho nebo více filtrů. Tokenizátor zodpovídá za dělení textu na tokeny a filtry pro úpravy tokenů vygenerovaných tokenem.

DictionaryDecompounderTokenFilter

Rozloží složená slova nalezená v mnoha německých jazycích. Tento filtr tokenu se implementuje pomocí Apache Lucene.

DistanceScoringFunction

Definuje funkci, která zvyšuje skóre na základě vzdálenosti od zeměpisného umístění.

DistanceScoringParameters

Poskytuje hodnoty parametrů funkci bodování vzdálenosti.

EdgeNGramTokenFilter

Vygeneruje n-gramy dané velikosti počínaje přední nebo zadní částí vstupního tokenu. Tento filtr tokenu se implementuje pomocí Apache Lucene.

EdgeNGramTokenFilterSide

Určuje, ze které strany vstupu se má vygenerovat n-gram.

EdgeNGramTokenFilterV2

Vygeneruje n-gramy dané velikosti počínaje přední nebo zadní částí vstupního tokenu. Tento filtr tokenu se implementuje pomocí Apache Lucene.

EdgeNGramTokenizer

Tokenizuje vstup z okraje na n-gramy dané velikosti. Tento tokenizátor se implementuje pomocí Apache Lucene.

ElisionTokenFilter

Odebere elisions. Například "l'avion" (letadlo) bude převedeno na "avion" (letadlo). Tento filtr tokenu se implementuje pomocí Apache Lucene.

ErrorAdditionalInfo

Další informace o chybě správy prostředků

ErrorDetail

Podrobnosti o chybě.

ErrorResponse

Chybová odpověď

ExhaustiveKnnParameters

Obsahuje parametry specifické pro vyčerpávající algoritmus KNN.

ExhaustiveKnnVectorSearchAlgorithmConfiguration

Obsahuje možnosti konfigurace specifické pro vyčerpávající algoritmus KNN použitý při dotazování, který provede vyhledávání hrubou silou v celém indexu vektoru.

FreshnessScoringFunction

Definuje funkci, která zvyšuje skóre na základě hodnoty pole data a času.

FreshnessScoringParameters

Poskytuje hodnoty parametrů pro funkci bodování aktuálnosti.

HnswParameters

Obsahuje parametry specifické pro algoritmus HNSW.

HnswVectorSearchAlgorithmConfiguration

Obsahuje možnosti konfigurace specifické pro přibližný algoritmus nejbližších sousedů HNSW, který se používá při indexování a dotazování. Algoritmus HNSW nabízí vyladěný kompromis mezi rychlostí vyhledávání a přesností.

InputFieldMappingEntry

Mapování vstupních polí pro dovednost

KeepTokenFilter

Filtr tokenů, který uchovává pouze tokeny s textem obsaženým v zadaném seznamu slov. Tento filtr tokenu se implementuje pomocí Apache Lucene.

KeywordMarkerTokenFilter

Označí termíny jako klíčová slova. Tento filtr tokenu se implementuje pomocí Apache Lucene.

KeywordTokenizer

Vygeneruje celý vstup jako jeden token. Tento tokenizátor se implementuje pomocí Apache Lucene.

KeywordTokenizerV2

Vygeneruje celý vstup jako jeden token. Tento tokenizátor se implementuje pomocí Apache Lucene.

LengthTokenFilter

Odebere slova, která jsou příliš dlouhá nebo příliš krátká. Tento filtr tokenu se implementuje pomocí Apache Lucene.

LexicalAnalyzerName

Definuje názvy všech textových analyzátorů podporovaných vyhledávacím webem.

LexicalTokenizerName

Definuje názvy všech tokenizátorů podporovaných vyhledávacím webem.

LimitTokenFilter

Omezuje počet tokenů při indexování. Tento filtr tokenu se implementuje pomocí Apache Lucene.

LuceneStandardAnalyzer

Standardní analyzátor Apache Lucene; Skládá se ze standardního tokenizátoru, filtru malými písmeny a filtru zastavení.

LuceneStandardTokenizer

Zalomí text podle pravidel segmentace textu unicode. Tento tokenizátor se implementuje pomocí Apache Lucene.

LuceneStandardTokenizerV2

Zalomí text podle pravidel segmentace textu unicode. Tento tokenizátor se implementuje pomocí Apache Lucene.

MagnitudeScoringFunction

Definuje funkci, která zvyšuje skóre na základě velikosti číselného pole.

MagnitudeScoringParameters

Poskytuje hodnoty parametrů pro funkci bodování velikosti.

MappingCharFilter

Filtr znaků, který používá mapování definovaná pomocí možnosti mapování. Porovnávání je greedy (nejdelší porovnávání vzorů v daném bodě vyhrává). Nahrazení může být prázdný řetězec. Tento filtr znaků se implementuje pomocí Apache Lucene.

MicrosoftLanguageStemmingTokenizer

Rozdělí text pomocí pravidel specifických pro jazyk a zmenšuje slova na jejich základní formuláře.

MicrosoftLanguageTokenizer

Rozdělí text pomocí pravidel specifických pro jazyk.

MicrosoftStemmingTokenizerLanguage

Uvádí jazyky podporované tokenizátorem jazyka Microsoftu.

MicrosoftTokenizerLanguage

Zobrazí seznam jazyků podporovaných tokenizátorem jazyka Microsoftu.

NGramTokenFilter

Vygeneruje n-gramy dané velikosti. Tento filtr tokenu se implementuje pomocí Apache Lucene.

NGramTokenFilterV2

Vygeneruje n-gramy dané velikosti. Tento filtr tokenu se implementuje pomocí Apache Lucene.

NGramTokenizer

Tokenizuje vstup na n-gramy dané velikosti. Tento tokenizátor se implementuje pomocí Apache Lucene.

OutputFieldMappingEntry

Mapování výstupních polí pro dovednost

PathHierarchyTokenizerV2

Tokenizátor pro hierarchie podobné cestě. Tento tokenizátor se implementuje pomocí Apache Lucene.

PatternAnalyzer

Pružně odděluje text do termínů pomocí vzoru regulárního výrazu. Tento analyzátor se implementuje pomocí Apache Lucene.

PatternCaptureTokenFilter

Používá regulární výrazy Java k vygenerování více tokenů – jeden pro každou skupinu zachycení v jednom nebo více vzorech. Tento filtr tokenu se implementuje pomocí Apache Lucene.

PatternReplaceCharFilter

Filtr znaků, který nahradí znaky ve vstupním řetězci. Používá regulární výraz k identifikaci sekvencí znaků k zachování a nahrazení vzoru pro identifikaci znaků, které se mají nahradit. Například při zadání textu "aa bb aa bb", vzoru "(aa)\s+(bb)" a nahrazení "$1#$2" bude výsledkem "aa#bb aa#bb". Tento filtr znaků se implementuje pomocí Apache Lucene.

PatternReplaceTokenFilter

Filtr znaků, který nahradí znaky ve vstupním řetězci. Používá regulární výraz k identifikaci sekvencí znaků k zachování a nahrazení vzoru pro identifikaci znaků, které se mají nahradit. Například při zadání textu "aa bb aa bb", vzoru "(aa)\s+(bb)" a nahrazení "$1#$2" bude výsledkem "aa#bb aa#bb". Tento filtr tokenu se implementuje pomocí Apache Lucene.

PatternTokenizer

Tokenizátor, který používá porovnávání vzorů regulárních výrazů k vytvoření jedinečných tokenů. Tento tokenizátor se implementuje pomocí Apache Lucene.

PhoneticEncoder

Identifikuje typ fonetického kodéru, který se má použít s fonetickým Filtrem.

PhoneticTokenFilter

Vytváření tokenů pro fonetické shody Tento filtr tokenu se implementuje pomocí Apache Lucene.

PrioritizedFields

Popisuje pole nadpisu, obsahu a klíčových slov, která se mají použít pro sémantické řazení, titulky, zvýraznění a odpovědi.

RegexFlags

Definuje příznaky, které lze kombinovat a řídit způsob použití regulárních výrazů v analyzátoru vzorů a tokenizátoru vzorů.

ScalarQuantizationParameters

Obsahuje parametry specifické pro skalární kvantování.

ScalarQuantizationVectorSearchCompressionConfiguration

Obsahuje možnosti konfigurace specifické pro metodu komprese skalární quantizace, která se používá při indexování a dotazování.

ScoringFunctionAggregation

Definuje agregační funkci použitou ke kombinování výsledků všech hodnoticích funkcí v bodovacím profilu.

ScoringFunctionInterpolation

Definuje funkci použitou k interpolaci zvýšení skóre napříč celou řadou dokumentů.

ScoringProfile

Definuje parametry indexu vyhledávání, které ovlivňují bodování ve vyhledávacích dotazech.

SearchField

Představuje pole v definici indexu, které popisuje název, datový typ a chování hledání pole.

SearchFieldDataType

Definuje datový typ pole v indexu vyhledávání.

SearchIndex

Představuje definici indexu vyhledávání, která popisuje pole a chování vyhledávání indexu.

SearchIndexerDataNoneIdentity

Vymaže vlastnost identity zdroje dat.

SearchIndexerDataUserAssignedIdentity

Určuje identitu zdroje dat, která se má použít.

SearchResourceEncryptionKey

Šifrovací klíč spravovaný zákazníkem ve službě Azure Key Vault. Klíče, které vytvoříte a spravujete, se dají použít k šifrování nebo dešifrování neaktivních uložených dat, jako jsou indexy a mapy synonym.

SemanticConfiguration

Definuje konkrétní konfiguraci, která se má použít v kontextu sémantických funkcí.

SemanticField

Pole, které se používá jako součást sémantické konfigurace.

SemanticSettings

Definuje parametry indexu vyhledávání, které ovlivňují sémantické schopnosti.

ShingleTokenFilter

Vytvoří kombinace tokenů jako jeden token. Tento filtr tokenu se implementuje pomocí Apache Lucene.

SnowballTokenFilter

Filtr, který vychází ze slov pomocí vygenerovaného smyšlí snowballu. Tento filtr tokenu se implementuje pomocí Apache Lucene.

SnowballTokenFilterLanguage

Jazyk, který se má použít pro filtr tokenů Snowball.

StemmerOverrideTokenFilter

Poskytuje možnost přepsat další stemmingové filtry pomocí vlastních slovníkových stemmingů. Všechny termíny založené na slovníku budou označeny jako klíčová slova, aby se nezvolily pomocí stemmerů v řetězci. Musí být umístěny před všemi filtry pro vytváření. Tento filtr tokenu se implementuje pomocí Apache Lucene.

StemmerTokenFilter

Filtr pro konkrétní jazyk. Tento filtr tokenu se implementuje pomocí Apache Lucene.

StemmerTokenFilterLanguage

Jazyk, který se má použít pro filtr tokenů stemmeru.

StopAnalyzer

Rozdělí text bez písmen; Použije filtry tokenů s malými písmeny a stopword. Tento analyzátor se implementuje pomocí Apache Lucene.

StopwordsList

Identifikuje předdefinovaný seznam stop slov specifických pro jazyk.

StopwordsTokenFilter

Odebere slova ze streamu tokenu. Tento filtr tokenu se implementuje pomocí Apache Lucene.

Suggester

Definuje, jak se má rozhraní API navrhnout na skupinu polí v indexu.

SuggesterSearchMode

Hodnota označující možnosti souzence.

SynonymTokenFilter

Porovná jednoslovné nebo víceslovné synonyma v datovém proudu tokenů. Tento filtr tokenu se implementuje pomocí Apache Lucene.

TagScoringFunction

Definuje funkci, která zvyšuje skóre dokumentů s řetězcovými hodnotami odpovídajícími danému seznamu značek.

TagScoringParameters

Poskytuje hodnoty parametrů funkci bodování značek.

TextWeights

Definuje váhy u polí indexu, u kterých by se mělo zvýšit bodování ve vyhledávacích dotazech.

TokenCharacterKind

Představuje třídy znaků, na kterých může fungovat filtr tokenů.

TokenFilterName

Definuje názvy všech filtrů tokenů podporovaných vyhledávacím webem.

TruncateTokenFilter

Zkracuje termíny na určitou délku. Tento filtr tokenu se implementuje pomocí Apache Lucene.

UaxUrlEmailTokenizer

Tokenizuje adresy URL a e-maily jako jeden token. Tento tokenizátor se implementuje pomocí Apache Lucene.

UniqueTokenFilter

Vyfiltruje tokeny se stejným textem jako předchozí token. Tento filtr tokenu se implementuje pomocí Apache Lucene.

VectorEncodingFormat

Formát kódování pro interpretaci obsahu vektorového pole.

VectorSearch

Obsahuje možnosti konfigurace související s vektorové vyhledávání.

VectorSearchAlgorithmKind

Algoritmus použitý k indexování a dotazování.

VectorSearchAlgorithmMetric

Metrika podobnosti, která se má použít pro porovnání vektorů. Doporučujeme zvolit stejnou metriku podobnosti, na které byl model vkládání trénován.

VectorSearchCompressionKind

Metoda komprese použitá k indexování a dotazování.

VectorSearchCompressionTargetDataType

Kvantovaný datový typ komprimovaných vektorových hodnot.

VectorSearchProfile

Definuje kombinaci konfigurací, které se mají použít s vektorovým vyhledáváním.

VectorSearchVectorizerKind

Metoda vektorizace, která se má použít během dotazu.

WebApiParameters

Určuje vlastnosti pro připojení k vektorizátoru definovanému uživatelem.

WebApiVectorizer

Určuje vektorizátor definovaný uživatelem pro generování vektorového vkládání řetězce dotazu. Integrace externí vektorizátoru se dosahuje pomocí vlastního rozhraní webového rozhraní API sady dovedností.

WordDelimiterTokenFilter

Rozdělí slova do dílčích slov a provede volitelné transformace skupin podwordů. Tento filtr tokenu se implementuje pomocí Apache Lucene.

AsciiFoldingTokenFilter

Převede abecední, číselné a symbolické znaky Unicode, které nejsou v prvních 127 znaky ASCII (blok "Základní latinka") na jejich ekvivalenty ASCII, pokud takové ekvivalenty existují. Tento filtr tokenu se implementuje pomocí Apache Lucene.

Name Typ Default value Description
@odata.type string:

#Microsoft.Azure.Search.AsciiFoldingTokenFilter

Fragment identifikátoru URI určující typ filtru tokenu.

name

string

Název filtru tokenů. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit alfanumerickými znaky a je omezena na 128 znaků.

preserveOriginal

boolean

False

Hodnota označující, zda bude původní token zachován. Výchozí hodnota je false.

AzureActiveDirectoryApplicationCredentials

Přihlašovací údaje registrované aplikace vytvořené pro vaši vyhledávací službu, které slouží k ověřenému přístupu k šifrovacím klíčům uloženým ve službě Azure Key Vault.

Name Typ Description
applicationId

string

ID aplikace AAD, kterému byla udělena požadovaná přístupová oprávnění ke službě Azure Key Vault, která se má použít při šifrování neaktivních uložených dat. ID aplikace by nemělo být zaměňováno s ID objektu pro vaši aplikaci AAD.

applicationSecret

string

Ověřovací klíč zadané aplikace AAD.

AzureOpenAIEmbeddingSkill

Umožňuje vygenerovat vektorové vkládání pro daný textový vstup pomocí prostředku Azure OpenAI.

Name Typ Description
@odata.type string:

#Microsoft.Skills.Text.AzureOpenAIEmbeddingSkill

Fragment identifikátoru URI určující typ dovednosti.

apiKey

string

Klíč rozhraní API určeného prostředku Azure OpenAI

authIdentity SearchIndexerDataIdentity:

Spravovaná identita přiřazená uživatelem používaná pro odchozí připojení.

context

string

Představuje úroveň, na které se provádí operace, například kořenový dokument nebo obsah dokumentu (například /document nebo /document/content). Výchozí hodnota je /document.

deploymentId

string

ID nasazení modelu Azure OpenAI v určeném prostředku

description

string

Popis dovednosti, která popisuje vstupy, výstupy a využití dovednosti.

dimensions

integer

Početdimenzích Podporuje se pouze v modelech pro vkládání textu 3 a novějších.

inputs

InputFieldMappingEntry[]

Vstupy dovedností můžou být sloupec ve zdrojové sadě dat nebo výstup upstreamové dovednosti.

modelName

AzureOpenAIModelName

Název modelu vložení, který je nasazený na zadané cestě deploymentId.

name

string

Název dovednosti, která ji jednoznačně identifikuje v sadě dovedností. Dovednost bez definovaného názvu bude mít výchozí název indexu založeného na 1 v poli dovedností s předponou znaku #.

outputs

OutputFieldMappingEntry[]

Výstupem dovednosti je buď pole v indexu vyhledávání, nebo hodnota, kterou lze využívat jako vstup jinou dovedností.

resourceUri

string

Identifikátor URI prostředku Azure OpenAI.

AzureOpenAIModelName

Název modelu Azure Open AI, který se bude volat.

Name Typ Description
text-embedding-3-large

string

text-embedding-3-small

string

text-embedding-ada-002

string

AzureOpenAIParameters

Určuje parametry pro připojení k prostředku Azure OpenAI.

Name Typ Description
apiKey

string

Klíč rozhraní API určeného prostředku Azure OpenAI

authIdentity SearchIndexerDataIdentity:

Spravovaná identita přiřazená uživatelem používaná pro odchozí připojení.

deploymentId

string

ID nasazení modelu Azure OpenAI v určeném prostředku

modelName

AzureOpenAIModelName

Název modelu vložení, který je nasazený na zadané cestě deploymentId.

resourceUri

string

Identifikátor URI prostředku Azure OpenAI.

AzureOpenAIVectorizer

Určuje prostředek Azure OpenAI použitý k vektorizaci řetězce dotazu.

Name Typ Description
azureOpenAIParameters AzureOpenAIParameters:

AzureOpenAIEmbeddingSkill

Obsahuje parametry specifické pro vektorizaci vkládání Azure OpenAI.

kind string:

azureOpenAI

Název metody vektorizace, která se konfiguruje pro použití s vektorovým vyhledáváním.

name

string

Název, který chcete přidružit k této konkrétní metodě vektorizace.

BinaryQuantizationVectorSearchCompressionConfiguration

Obsahuje možnosti konfigurace specifické pro metodu komprese binárního kvantování používané při indexování a dotazování.

Name Typ Default value Description
defaultOversampling

number

Výchozí faktor převzorkování Převzorkování interně vyžádá více dokumentů (určených tímto násobitelem) v počátečním hledání. Tím se zvýší sada výsledků, které se přeřadí pomocí přepočítaného skóre podobnosti z vektorů s plnou přesností. Minimální hodnota je 1, což znamená bez převzorkování (1x). Tento parametr lze nastavit pouze v případě, že je splněna hodnota rerankWithOriginalVectors. Vyšší hodnoty zlepšují úplnost na úkor latence.

kind string:

binaryQuantization

Název typu metody komprese, která se konfiguruje pro použití s vektorovým vyhledáváním.

name

string

Název, který chcete přidružit k této konkrétní konfiguraci.

rerankWithOriginalVectors

boolean

True

Pokud je nastavena hodnota true, po získání seřazené sady výsledků pomocí komprimovaných vektorů se znovu seřadí přepočtem skóre podobnosti s plnou přesností. Tím se zlepší úplnost na úkor latence.

BM25Similarity

Funkce řazení založená na algoritmu podobnosti BM25 Okapi. BM25 je algoritmus podobný TF-IDF, který zahrnuje normalizaci délky (řízenou parametrem "b") a také sytost termínů (řízená parametrem "k1").

Name Typ Description
@odata.type string:

#Microsoft.Azure.Search.BM25Similarity

b

number

Tato vlastnost určuje, jak délka dokumentu ovlivňuje skóre relevance. Ve výchozím nastavení se používá hodnota 0,75. Hodnota 0,0 znamená, že se nepoužije normalizace délky, zatímco hodnota 1,0 znamená, že skóre je plně normalizováno délkou dokumentu.

k1

number

Tato vlastnost řídí funkci škálování mezi četností termínů jednotlivých shodných termínů a konečným skóre relevance páru dotazu na dokument. Ve výchozím nastavení se používá hodnota 1,2. Hodnota 0,0 znamená, že skóre se neškupá s nárůstem četnosti období.

CharFilterName

Definuje názvy všech filtrů znaků podporovaných vyhledávacím webem.

Name Typ Description
html_strip

string

Filtr znaků, který se pokusí odstranit konstruktory HTML. Viz https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html

CjkBigramTokenFilter

Tvoří bigramy výrazů CJK, které se generují ze standardního tokenizátoru. Tento filtr tokenu se implementuje pomocí Apache Lucene.

Name Typ Default value Description
@odata.type string:

#Microsoft.Azure.Search.CjkBigramTokenFilter

Fragment identifikátoru URI určující typ filtru tokenu.

ignoreScripts

CjkBigramTokenFilterScripts[]

Skripty, které se mají ignorovat.

name

string

Název filtru tokenů. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit alfanumerickými znaky a je omezena na 128 znaků.

outputUnigrams

boolean

False

Hodnota označující, jestli se mají výstupovat unigramy i bigramy (pokud je pravda), nebo jenom bigramy (pokud je false). Výchozí hodnota je false.

CjkBigramTokenFilterScripts

Skripty, které může CjkBigramTokenFilter ignorovat.

Name Typ Description
han

string

Při vytváření velkých výrazů CJK ignorujte skript Han.

hangul

string

Při vytváření bigramů výrazů CJK ignorujte skript Hangul.

hiragana

string

Ignorujte skript Hiragana při vytváření bigramů výrazů CJK.

katakana

string

Při vytváření bigramů výrazů CJK ignorujte skript Katakana.

ClassicSimilarity

Starší algoritmus podobnosti, který používá implementaci TF-IDF lucene TFIDFSimilarity. Tato varianta TF-IDF představuje normalizaci délky statického dokumentu a také koordinující faktory, které postihují dokumenty, které pouze částečně odpovídají prohledáným dotazům.

Name Typ Description
@odata.type string:

#Microsoft.Azure.Search.ClassicSimilarity

ClassicTokenizer

Tokenizátor založený na gramatikě, který je vhodný pro zpracování většiny dokumentů evropského jazyka. Tento tokenizátor se implementuje pomocí Apache Lucene.

Name Typ Default value Description
@odata.type string:

#Microsoft.Azure.Search.ClassicTokenizer

Fragment identifikátoru URI určující typ tokenizátoru.

maxTokenLength

integer

255

Maximální délka tokenu. Výchozí hodnota je 255. Tokeny delší než maximální délka jsou rozdělené. Maximální délka tokenu, kterou lze použít, je 300 znaků.

name

string

Název tokenizátoru. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit alfanumerickými znaky a je omezena na 128 znaků.

CommonGramTokenFilter

Při indexování vytvořte bigramy pro často se vyskytující termíny. Jednotlivé termíny jsou stále indexované, s překryvnými bigramy. Tento filtr tokenu se implementuje pomocí Apache Lucene.

Name Typ Default value Description
@odata.type string:

#Microsoft.Azure.Search.CommonGramTokenFilter

Fragment identifikátoru URI určující typ filtru tokenu.

commonWords

string[]

Sada běžných slov.

ignoreCase

boolean

False

Hodnota označující, jestli se běžná slova nebudou rozlišovat malá a velká písmena. Výchozí hodnota je false.

name

string

Název filtru tokenů. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit alfanumerickými znaky a je omezena na 128 znaků.

queryMode

boolean

False

Hodnota, která označuje, jestli je filtr tokenu v režimu dotazu. Když je v režimu dotazu, filtr tokenu generuje bigramy a pak odebere běžná slova a jednotlivé termíny následované běžným slovem. Výchozí hodnota je false.

CorsOptions

Definuje možnosti pro řízení sdílení prostředků mezi zdroji (CORS) pro index.

Name Typ Description
allowedOrigins

string[]

Seznam původů, ze kterých bude kód JavaScriptu udělen přístup k vašemu indexu. Může obsahovat seznam hostitelů formuláře {protocol}://{plně kvalifikovaný-název_domény}[:{port#}] nebo jeden *, který povolí všechny zdroje (nedoporučuje se).

maxAgeInSeconds

integer

Doba trvání, po kterou mají prohlížeče ukládat předběžné odpovědi CORS do mezipaměti. Výchozí hodnota je 5 minut.

CustomAnalyzer

Umožňuje převzít kontrolu nad procesem převodu textu na indexovatelné nebo prohledávatelné tokeny. Jedná se o uživatelsky definovanou konfiguraci, která se skládá z jednoho předdefinovaného tokenizátoru a jednoho nebo více filtrů. Tokenizátor zodpovídá za dělení textu na tokeny a filtry pro úpravy tokenů vygenerovaných tokenem.

Name Typ Description
@odata.type string:

#Microsoft.Azure.Search.CustomAnalyzer

Fragment identifikátoru URI určující typ analyzátoru.

charFilters

CharFilterName[]

Seznam filtrů znaků sloužících k přípravě vstupního textu před zpracováním tokenizátorem. Mohou například nahradit určité znaky nebo symboly. Filtry se spouští v pořadí, v jakém jsou uvedeny.

name

string

Název analyzátoru. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit alfanumerickými znaky a je omezena na 128 znaků.

tokenFilters

TokenFilterName[]

Seznam filtrů tokenů, které se používají k vyfiltrování nebo úpravě tokenů generovaných tokenizátorem. Můžete například zadat filtr malými písmeny, který převede všechny znaky na malá písmena. Filtry se spouští v pořadí, v jakém jsou uvedeny.

tokenizer

LexicalTokenizerName

Název tokenizátoru, který se má použít k rozdělení souvislého textu do posloupnosti tokenů, například rozdělení věty na slova.

DictionaryDecompounderTokenFilter

Rozloží složená slova nalezená v mnoha německých jazycích. Tento filtr tokenu se implementuje pomocí Apache Lucene.

Name Typ Default value Description
@odata.type string:

#Microsoft.Azure.Search.DictionaryDecompounderTokenFilter

Fragment identifikátoru URI určující typ filtru tokenu.

maxSubwordSize

integer

15

Maximální velikost podsloví. Vypíše se pouze podsloví kratší, než je tato. Výchozí hodnota je 15. Maximum je 300.

minSubwordSize

integer

2

Minimální velikost podsloví. Vypíše se jenom podsloví delší, než je tento. Výchozí hodnota je 2. Maximum je 300.

minWordSize

integer

5

Minimální velikost slova. Zpracovávají se jenom slova delší než tato. Výchozí hodnota je 5. Maximum je 300.

name

string

Název filtru tokenů. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit alfanumerickými znaky a je omezena na 128 znaků.

onlyLongestMatch

boolean

False

Hodnota označující, zda se má do výstupu přidat pouze nejdelší odpovídající subword. Výchozí hodnota je false.

wordList

string[]

Seznam slov, která se mají shodovat.

DistanceScoringFunction

Definuje funkci, která zvyšuje skóre na základě vzdálenosti od zeměpisného umístění.

Name Typ Description
boost

number

Násobitel pro nezpracované skóre. Musí to být kladné číslo, které se nerovná 1,0.

distance

DistanceScoringParameters

Hodnoty parametrů pro funkci bodování vzdálenosti.

fieldName

string

Název pole použitého jako vstup do funkce bodování.

interpolation

ScoringFunctionInterpolation

Hodnota označující, jak bude zvýšení interpolováno napříč skóre dokumentu; výchozí hodnota je lineární.

type string:

distance

Určuje typ funkce, která se má použít. Platné hodnoty zahrnují velikost, aktuálnost, vzdálenost a značku. Typ funkce musí být malé písmeno.

DistanceScoringParameters

Poskytuje hodnoty parametrů funkci bodování vzdálenosti.

Name Typ Description
boostingDistance

number

Vzdálenost v kilometrech od referenčního umístění, kde končí rozsah zvýšení.

referencePointParameter

string

Název parametru předaného vyhledávacími dotazy k určení umístění odkazu.

EdgeNGramTokenFilter

Vygeneruje n-gramy dané velikosti počínaje přední nebo zadní částí vstupního tokenu. Tento filtr tokenu se implementuje pomocí Apache Lucene.

Name Typ Default value Description
@odata.type string:

#Microsoft.Azure.Search.EdgeNGramTokenFilter

Fragment identifikátoru URI určující typ filtru tokenu.

maxGram

integer

2

Maximální délka n-gramu. Výchozí hodnota je 2.

minGram

integer

1

Minimální délka n-gramu. Výchozí hodnota je 1. Musí být menší než hodnota maxGram.

name

string

Název filtru tokenů. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit alfanumerickými znaky a je omezena na 128 znaků.

side

EdgeNGramTokenFilterSide

front

Určuje, ze které strany vstupu má být vygenerován n-gram. Výchozí hodnota je "front".

EdgeNGramTokenFilterSide

Určuje, ze které strany vstupu se má vygenerovat n-gram.

Name Typ Description
back

string

Určuje, že se má vygenerovat n-gram ze zadní části vstupu.

front

string

Určuje, že se má vygenerovat n-gram před vstupem.

EdgeNGramTokenFilterV2

Vygeneruje n-gramy dané velikosti počínaje přední nebo zadní částí vstupního tokenu. Tento filtr tokenu se implementuje pomocí Apache Lucene.

Name Typ Default value Description
@odata.type string:

#Microsoft.Azure.Search.EdgeNGramTokenFilterV2

Fragment identifikátoru URI určující typ filtru tokenu.

maxGram

integer

2

Maximální délka n-gramu. Výchozí hodnota je 2. Maximum je 300.

minGram

integer

1

Minimální délka n-gramu. Výchozí hodnota je 1. Maximum je 300. Musí být menší než hodnota maxGram.

name

string

Název filtru tokenů. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit alfanumerickými znaky a je omezena na 128 znaků.

side

EdgeNGramTokenFilterSide

front

Určuje, ze které strany vstupu má být vygenerován n-gram. Výchozí hodnota je "front".

EdgeNGramTokenizer

Tokenizuje vstup z okraje na n-gramy dané velikosti. Tento tokenizátor se implementuje pomocí Apache Lucene.

Name Typ Default value Description
@odata.type string:

#Microsoft.Azure.Search.EdgeNGramTokenizer

Fragment identifikátoru URI určující typ tokenizátoru.

maxGram

integer

2

Maximální délka n-gramu. Výchozí hodnota je 2. Maximum je 300.

minGram

integer

1

Minimální délka n-gramu. Výchozí hodnota je 1. Maximum je 300. Musí být menší než hodnota maxGram.

name

string

Název tokenizátoru. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit alfanumerickými znaky a je omezena na 128 znaků.

tokenChars

TokenCharacterKind[]

Třídy znaků, které mají být v tokenech zachovány.

ElisionTokenFilter

Odebere elisions. Například "l'avion" (letadlo) bude převedeno na "avion" (letadlo). Tento filtr tokenu se implementuje pomocí Apache Lucene.

Name Typ Description
@odata.type string:

#Microsoft.Azure.Search.ElisionTokenFilter

Fragment identifikátoru URI určující typ filtru tokenu.

articles

string[]

Sada článků, které chcete odebrat.

name

string

Název filtru tokenů. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit alfanumerickými znaky a je omezena na 128 znaků.

ErrorAdditionalInfo

Další informace o chybě správy prostředků

Name Typ Description
info

object

Další informace.

type

string

Další typ informací.

ErrorDetail

Podrobnosti o chybě.

Name Typ Description
additionalInfo

ErrorAdditionalInfo[]

Další informace o chybě.

code

string

Kód chyby.

details

ErrorDetail[]

Podrobnosti o chybě.

message

string

Chybová zpráva.

target

string

Cíl chyby.

ErrorResponse

Chybová odpověď

Name Typ Description
error

ErrorDetail

Objekt chyby.

ExhaustiveKnnParameters

Obsahuje parametry specifické pro vyčerpávající algoritmus KNN.

Name Typ Description
metric

VectorSearchAlgorithmMetric

Metrika podobnosti, která se má použít pro porovnání vektorů.

ExhaustiveKnnVectorSearchAlgorithmConfiguration

Obsahuje možnosti konfigurace specifické pro vyčerpávající algoritmus KNN použitý při dotazování, který provede vyhledávání hrubou silou v celém indexu vektoru.

Name Typ Description
exhaustiveKnnParameters

ExhaustiveKnnParameters

Obsahuje parametry specifické pro vyčerpávající algoritmus KNN.

kind string:

exhaustiveKnn

Název typu algoritmu, který se konfiguruje pro použití s vektorovým vyhledáváním.

name

string

Název, který chcete přidružit k této konkrétní konfiguraci.

FreshnessScoringFunction

Definuje funkci, která zvyšuje skóre na základě hodnoty pole data a času.

Name Typ Description
boost

number

Násobitel pro nezpracované skóre. Musí to být kladné číslo, které se nerovná 1,0.

fieldName

string

Název pole použitého jako vstup do funkce bodování.

freshness

FreshnessScoringParameters

Hodnoty parametrů pro funkci bodování aktuálnosti

interpolation

ScoringFunctionInterpolation

Hodnota označující, jak bude zvýšení interpolováno napříč skóre dokumentu; výchozí hodnota je lineární.

type string:

freshness

Určuje typ funkce, která se má použít. Platné hodnoty zahrnují velikost, aktuálnost, vzdálenost a značku. Typ funkce musí být malé písmeno.

FreshnessScoringParameters

Poskytuje hodnoty parametrů pro funkci bodování aktuálnosti.

Name Typ Description
boostingDuration

string

Období vypršení platnosti, po kterém se u konkrétního dokumentu zastaví zvýšení.

HnswParameters

Obsahuje parametry specifické pro algoritmus HNSW.

Name Typ Default value Description
efConstruction

integer

400

Velikost dynamického seznamu obsahujícího nejbližší sousedy, který se používá v době indexu. Zvýšení tohoto parametru může zlepšit kvalitu indexu na úkor zvýšené doby indexování. V určitém okamžiku zvýšení tohoto parametru vede ke snížení výnosu.

efSearch

integer

500

Velikost dynamického seznamu obsahujícího nejbližší sousedy, který se používá během hledání. Zvýšení tohoto parametru může zlepšit výsledky hledání na úkor pomalejšího hledání. V určitém okamžiku zvýšení tohoto parametru vede ke snížení výnosu.

m

integer

4

Počet obousměrných propojení vytvořených pro každý nový prvek během výstavby. Zvýšení této hodnoty parametru může zlepšit úplnost a snížit dobu načítání datových sad s vysokou vnitřní dimenzionální hodnotou na úkor zvýšené spotřeby paměti a delší doby indexování.

metric

VectorSearchAlgorithmMetric

Metrika podobnosti, která se má použít pro porovnání vektorů.

HnswVectorSearchAlgorithmConfiguration

Obsahuje možnosti konfigurace specifické pro přibližný algoritmus nejbližších sousedů HNSW, který se používá při indexování a dotazování. Algoritmus HNSW nabízí vyladěný kompromis mezi rychlostí vyhledávání a přesností.

Name Typ Description
hnswParameters

HnswParameters

Obsahuje parametry specifické pro algoritmus HNSW.

kind string:

hnsw

Název typu algoritmu, který se konfiguruje pro použití s vektorovým vyhledáváním.

name

string

Název, který chcete přidružit k této konkrétní konfiguraci.

InputFieldMappingEntry

Mapování vstupních polí pro dovednost

Name Typ Description
inputs

InputFieldMappingEntry[]

Rekurzivní vstupy použité při vytváření komplexního typu.

name

string

Název vstupu.

source

string

Zdroj vstupu.

sourceContext

string

Zdrojový kontext použitý pro výběr rekurzivních vstupů.

KeepTokenFilter

Filtr tokenů, který uchovává pouze tokeny s textem obsaženým v zadaném seznamu slov. Tento filtr tokenu se implementuje pomocí Apache Lucene.

Name Typ Default value Description
@odata.type string:

#Microsoft.Azure.Search.KeepTokenFilter

Fragment identifikátoru URI určující typ filtru tokenu.

keepWords

string[]

Seznam slov, která chcete zachovat.

keepWordsCase

boolean

False

Hodnota označující, zda se mají malá písmena nejprve všechna slova. Výchozí hodnota je false.

name

string

Název filtru tokenů. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit alfanumerickými znaky a je omezena na 128 znaků.

KeywordMarkerTokenFilter

Označí termíny jako klíčová slova. Tento filtr tokenu se implementuje pomocí Apache Lucene.

Name Typ Default value Description
@odata.type string:

#Microsoft.Azure.Search.KeywordMarkerTokenFilter

Fragment identifikátoru URI určující typ filtru tokenu.

ignoreCase

boolean

False

Hodnota označující, zda se má ignorovat malá a velká písmena. Pokud ano, všechna slova se nejprve převedou na malá písmena. Výchozí hodnota je false.

keywords

string[]

Seznam slov, která se mají označit jako klíčová slova.

name

string

Název filtru tokenů. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit alfanumerickými znaky a je omezena na 128 znaků.

KeywordTokenizer

Vygeneruje celý vstup jako jeden token. Tento tokenizátor se implementuje pomocí Apache Lucene.

Name Typ Default value Description
@odata.type string:

#Microsoft.Azure.Search.KeywordTokenizer

Fragment identifikátoru URI určující typ tokenizátoru.

bufferSize

integer

256

Velikost vyrovnávací paměti pro čtení v bajtech. Výchozí hodnota je 256.

name

string

Název tokenizátoru. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit alfanumerickými znaky a je omezena na 128 znaků.

KeywordTokenizerV2

Vygeneruje celý vstup jako jeden token. Tento tokenizátor se implementuje pomocí Apache Lucene.

Name Typ Default value Description
@odata.type string:

#Microsoft.Azure.Search.KeywordTokenizerV2

Fragment identifikátoru URI určující typ tokenizátoru.

maxTokenLength

integer

256

Maximální délka tokenu. Výchozí hodnota je 256. Tokeny delší než maximální délka jsou rozdělené. Maximální délka tokenu, kterou lze použít, je 300 znaků.

name

string

Název tokenizátoru. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit alfanumerickými znaky a je omezena na 128 znaků.

LengthTokenFilter

Odebere slova, která jsou příliš dlouhá nebo příliš krátká. Tento filtr tokenu se implementuje pomocí Apache Lucene.

Name Typ Default value Description
@odata.type string:

#Microsoft.Azure.Search.LengthTokenFilter

Fragment identifikátoru URI určující typ filtru tokenu.

max

integer

300

Maximální délka znaků. Výchozí a maximální hodnota je 300.

min

integer

0

Minimální délka znaků. Výchozí hodnota je 0. Maximum je 300. Musí být menší než hodnota max.

name

string

Název filtru tokenů. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit alfanumerickými znaky a je omezena na 128 znaků.

LexicalAnalyzerName

Definuje názvy všech textových analyzátorů podporovaných vyhledávacím webem.

Name Typ Description
ar.lucene

string

Analyzátor Lucene pro arabštinu.

ar.microsoft

string

Microsoft Analyzer pro arabštinu.

bg.lucene

string

Analyzátor Lucene pro bulharštinu.

bg.microsoft

string

Microsoft Analyzer pro bulharštinu.

bn.microsoft

string

Microsoft analyzer for Bangla.

ca.lucene

string

Analyzátor Lucene pro katalánštinu.

ca.microsoft

string

Microsoft Analyzer pro katalánštinu.

cs.lucene

string

Lucene analyzer pro češtinu.

cs.microsoft

string

Microsoft Analyzer pro češtinu.

da.lucene

string

Analyzátor Lucene pro dánštinu.

da.microsoft

string

Microsoft Analyzer pro dánštinu.

de.lucene

string

Lucene analyzer pro němčinu.

de.microsoft

string

Microsoft Analyzer pro němčinu.

el.lucene

string

Lucene analyzer pro řečtinu.

el.microsoft

string

Microsoft Analyzer pro řečtinu.

en.lucene

string

Lucene Analyzer pro angličtinu.

en.microsoft

string

Microsoft Analyzer pro angličtinu.

es.lucene

string

Lucene analyzer pro španělštinu.

es.microsoft

string

Microsoft Analyzer pro španělštinu.

et.microsoft

string

Microsoft analyzer for Estonian.

eu.lucene

string

Analyzátor Lucene pro baskičtina.

fa.lucene

string

Lucene analyzátor perský.

fi.lucene

string

Lucene Analyzer pro finštinu.

fi.microsoft

string

Microsoft Analyzer pro finštinu.

fr.lucene

string

Lucene analyzer pro francouzštinu.

fr.microsoft

string

Microsoft Analyzer pro francouzštinu.

ga.lucene

string

Lucene analyzer pro irštinu.

gl.lucene

string

Analyzátor Lucene pro Galicijštinu.

gu.microsoft

string

Microsoft analyzer for Gujarati.

he.microsoft

string

Microsoft Analyzer for Hebrejština.

hi.lucene

string

Lucene analyzer for Hindi.

hi.microsoft

string

Microsoft Analyzer pro hindštinu.

hr.microsoft

string

Microsoft Analyzer pro chorvatštinu.

hu.lucene

string

Analyzátor Lucene pro maďarštinu.

hu.microsoft

string

Microsoft Analyzer pro maďarštinu.

hy.lucene

string

Analyzátor Lucene pro Arménii.

id.lucene

string

Analyzátor Lucene pro indonéštinu.

id.microsoft

string

Microsoft analyzer for Indonéština (Bahasa).

is.microsoft

string

Microsoft Analyzer pro Islandštinu.

it.lucene

string

Analyzátor Lucene pro italštinu.

it.microsoft

string

Microsoft Analyzer pro italštinu.

ja.lucene

string

Lucene Analyzer pro japonštinu.

ja.microsoft

string

Microsoft Analyzer pro japonštinu.

keyword

string

Považuje celý obsah pole za jediný token. To je užitečné pro data, jako jsou PSČ, ID a některé názvy produktů. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html

kn.microsoft

string

Microsoft analyzer for Kannada.

ko.lucene

string

Lucene Analyzer pro korejštinu.

ko.microsoft

string

Microsoft Analyzer pro korejštinu.

lt.microsoft

string

Microsoft Analyzer pro litevštinu.

lv.lucene

string

Analyzátor Lucene pro lotyštinu.

lv.microsoft

string

Microsoft Analyzer pro lotyštinu.

ml.microsoft

string

Microsoft Analyzer pro Malayalam.

mr.microsoft

string

Microsoft analyzer for Marathi.

ms.microsoft

string

Microsoft Analyzer for Malay (latinka).

nb.microsoft

string

Microsoft Analyzer pro norštinu (Bokmål).

nl.lucene

string

Analyzátor Lucene pro nizozemštinu.

nl.microsoft

string

Microsoft Analyzer pro nizozemštinu.

no.lucene

string

Analyzátor Lucene pro norštinu.

pa.microsoft

string

Microsoft analyzer for Punjabi.

pattern

string

Pružně odděluje text do termínů pomocí vzoru regulárního výrazu. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html

pl.lucene

string

Analyzátor Lucene pro polštinu.

pl.microsoft

string

Microsoft Analyzer pro polštinu.

pt-BR.lucene

string

Analyzátor Lucene pro portugalštinu (Brazílie).

pt-BR.microsoft

string

Microsoft Analyzer pro portugalštinu (Brazílie).

pt-PT.lucene

string

Analyzátor Lucene pro portugalštinu (Portugalsko).

pt-PT.microsoft

string

Microsoft Analyzer pro portugalštinu (Portugalsko).

ro.lucene

string

Lucene analyzer pro rumunštinu.

ro.microsoft

string

Microsoft Analyzer pro rumunštinu.

ru.lucene

string

Lucene analyzer pro ruštinu.

ru.microsoft

string

Microsoft Analyzer pro ruštinu.

simple

string

Rozdělí text bez písmen a převede je na malá písmena. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html

sk.microsoft

string

Microsoft Analyzer pro slovenštinu.

sl.microsoft

string

Microsoft Analyzer pro slovinštinu.

sr-cyrillic.microsoft

string

Microsoft Analyzer pro srbštinu (cyrilice).

sr-latin.microsoft

string

Microsoft Analyzer pro srbštinu (latinka).

standard.lucene

string

Standardní analyzátor Lucene.

standardasciifolding.lucene

string

Standardní analyzátor ASCII Folding Lucene. Viz https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers

stop

string

Rozdělí text bez písmen; Použije filtry tokenů s malými písmeny a stopword. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html

sv.lucene

string

Lucene analyzer pro švédštinu.

sv.microsoft

string

Microsoft Analyzer pro švédštinu.

ta.microsoft

string

Microsoft Analyzer pro tamilštinu.

te.microsoft

string

Microsoft Analyzer pro Telugu.

th.lucene

string

Analyzátor Lucene pro thajštinu.

th.microsoft

string

Microsoft Analyzer pro thajštinu.

tr.lucene

string

Analyzátor Lucene pro turečtinu.

tr.microsoft

string

Microsoft Analyzer pro turečtinu.

uk.microsoft

string

Microsoft Analyzer pro ukrajinštinu.

ur.microsoft

string

Microsoft analyzer for Urdu.

vi.microsoft

string

Microsoft Analyzer pro vietnamštinu.

whitespace

string

Analyzátor, který používá tokenizátor prázdných znaků. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html

zh-Hans.lucene

string

Analyzátor Lucene pro čínštinu (zjednodušená).

zh-Hans.microsoft

string

Microsoft Analyzer pro čínštinu (zjednodušená).

zh-Hant.lucene

string

Analyzátor Lucene pro čínštinu (tradiční).

zh-Hant.microsoft

string

Microsoft Analyzer pro čínštinu (tradiční).

LexicalTokenizerName

Definuje názvy všech tokenizátorů podporovaných vyhledávacím webem.

Name Typ Description
classic

string

Tokenizátor založený na gramatikě, který je vhodný pro zpracování většiny dokumentů evropského jazyka. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html

edgeNGram

string

Tokenizuje vstup z okraje na n-gramy dané velikosti. Viz https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html

keyword_v2

string

Vygeneruje celý vstup jako jeden token. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html

letter

string

Rozdělí text bez písmen. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html

lowercase

string

Rozdělí text bez písmen a převede je na malá písmena. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html

microsoft_language_stemming_tokenizer

string

Rozdělí text pomocí pravidel specifických pro jazyk a zmenšuje slova na jejich základní formuláře.

microsoft_language_tokenizer

string

Rozdělí text pomocí pravidel specifických pro jazyk.

nGram

string

Tokenizuje vstup na n-gramy dané velikosti. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html

path_hierarchy_v2

string

Tokenizátor pro hierarchie podobné cestě. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html

pattern

string

Tokenizátor, který používá porovnávání vzorů regulárních výrazů k vytvoření jedinečných tokenů. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html

standard_v2

string

Standardní analyzátor Lucene; Skládá se ze standardního tokenizátoru, filtru malými písmeny a filtru zastavení. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html

uax_url_email

string

Tokenizuje adresy URL a e-maily jako jeden token. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html

whitespace

string

Rozdělí text na prázdné znaky. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html

LimitTokenFilter

Omezuje počet tokenů při indexování. Tento filtr tokenu se implementuje pomocí Apache Lucene.

Name Typ Default value Description
@odata.type string:

#Microsoft.Azure.Search.LimitTokenFilter

Fragment identifikátoru URI určující typ filtru tokenu.

consumeAllTokens

boolean

False

Hodnota označující, zda všechny tokeny ze vstupu musí být spotřebovány, i když je dosaženo maxTokenCount. Výchozí hodnota je false.

maxTokenCount

integer

1

Maximální počet tokenů, které se mají vytvořit. Výchozí hodnota je 1.

name

string

Název filtru tokenů. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit alfanumerickými znaky a je omezena na 128 znaků.

LuceneStandardAnalyzer

Standardní analyzátor Apache Lucene; Skládá se ze standardního tokenizátoru, filtru malými písmeny a filtru zastavení.

Name Typ Default value Description
@odata.type string:

#Microsoft.Azure.Search.StandardAnalyzer

Fragment identifikátoru URI určující typ analyzátoru.

maxTokenLength

integer

255

Maximální délka tokenu. Výchozí hodnota je 255. Tokeny delší než maximální délka jsou rozdělené. Maximální délka tokenu, kterou lze použít, je 300 znaků.

name

string

Název analyzátoru. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit alfanumerickými znaky a je omezena na 128 znaků.

stopwords

string[]

Seznam stoper.

LuceneStandardTokenizer

Zalomí text podle pravidel segmentace textu unicode. Tento tokenizátor se implementuje pomocí Apache Lucene.

Name Typ Default value Description
@odata.type string:

#Microsoft.Azure.Search.StandardTokenizer

Fragment identifikátoru URI určující typ tokenizátoru.

maxTokenLength

integer

255

Maximální délka tokenu. Výchozí hodnota je 255. Tokeny delší než maximální délka jsou rozdělené.

name

string

Název tokenizátoru. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit alfanumerickými znaky a je omezena na 128 znaků.

LuceneStandardTokenizerV2

Zalomí text podle pravidel segmentace textu unicode. Tento tokenizátor se implementuje pomocí Apache Lucene.

Name Typ Default value Description
@odata.type string:

#Microsoft.Azure.Search.StandardTokenizerV2

Fragment identifikátoru URI určující typ tokenizátoru.

maxTokenLength

integer

255

Maximální délka tokenu. Výchozí hodnota je 255. Tokeny delší než maximální délka jsou rozdělené. Maximální délka tokenu, kterou lze použít, je 300 znaků.

name

string

Název tokenizátoru. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit alfanumerickými znaky a je omezena na 128 znaků.

MagnitudeScoringFunction

Definuje funkci, která zvyšuje skóre na základě velikosti číselného pole.

Name Typ Description
boost

number

Násobitel pro nezpracované skóre. Musí to být kladné číslo, které se nerovná 1,0.

fieldName

string

Název pole použitého jako vstup do funkce bodování.

interpolation

ScoringFunctionInterpolation

Hodnota označující, jak bude zvýšení interpolováno napříč skóre dokumentu; výchozí hodnota je lineární.

magnitude

MagnitudeScoringParameters

Hodnoty parametrů pro funkci bodování velikosti.

type string:

magnitude

Určuje typ funkce, která se má použít. Platné hodnoty zahrnují velikost, aktuálnost, vzdálenost a značku. Typ funkce musí být malé písmeno.

MagnitudeScoringParameters

Poskytuje hodnoty parametrů pro funkci bodování velikosti.

Name Typ Description
boostingRangeEnd

number

Hodnota pole, na které končí zvýšení.

boostingRangeStart

number

Hodnota pole, na které začíná zvýšení.

constantBoostBeyondRange

boolean

Hodnota označující, zda použít konstantní zvýšení hodnoty pole nad rámec koncové hodnoty rozsahu; výchozí hodnota je false.

MappingCharFilter

Filtr znaků, který používá mapování definovaná pomocí možnosti mapování. Porovnávání je greedy (nejdelší porovnávání vzorů v daném bodě vyhrává). Nahrazení může být prázdný řetězec. Tento filtr znaků se implementuje pomocí Apache Lucene.

Name Typ Description
@odata.type string:

#Microsoft.Azure.Search.MappingCharFilter

Fragment identifikátoru URI určující typ filtru znaků.

mappings

string[]

Seznam mapování následujícího formátu: "a=>b" (všechny výskyty znaku "a" budou nahrazeny znakem "b").

name

string

Název filtru znaků. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit alfanumerickými znaky a je omezena na 128 znaků.

MicrosoftLanguageStemmingTokenizer

Rozdělí text pomocí pravidel specifických pro jazyk a zmenšuje slova na jejich základní formuláře.

Name Typ Default value Description
@odata.type string:

#Microsoft.Azure.Search.MicrosoftLanguageStemmingTokenizer

Fragment identifikátoru URI určující typ tokenizátoru.

isSearchTokenizer

boolean

False

Hodnota označující způsob použití tokenizátoru. Pokud se používá jako tokenizátor vyhledávání, nastavte hodnotu false, pokud se používá jako tokenizátor indexování. Výchozí hodnota je false.

language

MicrosoftStemmingTokenizerLanguage

Jazyk, který se má použít. Výchozí hodnota je angličtina.

maxTokenLength

integer

255

Maximální délka tokenu. Tokeny delší než maximální délka jsou rozdělené. Maximální délka tokenu, kterou lze použít, je 300 znaků. Tokeny delší než 300 znaků se nejprve rozdělí na tokeny o délce 300 a pak se každý z těchto tokenů rozdělí na základě nastavené maximální délky tokenu. Výchozí hodnota je 255.

name

string

Název tokenizátoru. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit alfanumerickými znaky a je omezena na 128 znaků.

MicrosoftLanguageTokenizer

Rozdělí text pomocí pravidel specifických pro jazyk.

Name Typ Default value Description
@odata.type string:

#Microsoft.Azure.Search.MicrosoftLanguageTokenizer

Fragment identifikátoru URI určující typ tokenizátoru.

isSearchTokenizer

boolean

False

Hodnota označující způsob použití tokenizátoru. Pokud se používá jako tokenizátor vyhledávání, nastavte hodnotu false, pokud se používá jako tokenizátor indexování. Výchozí hodnota je false.

language

MicrosoftTokenizerLanguage

Jazyk, který se má použít. Výchozí hodnota je angličtina.

maxTokenLength

integer

255

Maximální délka tokenu. Tokeny delší než maximální délka jsou rozdělené. Maximální délka tokenu, kterou lze použít, je 300 znaků. Tokeny delší než 300 znaků se nejprve rozdělí na tokeny o délce 300 a pak se každý z těchto tokenů rozdělí na základě nastavené maximální délky tokenu. Výchozí hodnota je 255.

name

string

Název tokenizátoru. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit alfanumerickými znaky a je omezena na 128 znaků.

MicrosoftStemmingTokenizerLanguage

Uvádí jazyky podporované tokenizátorem jazyka Microsoftu.

Name Typ Description
arabic

string

Vybere tokenizátor tokenizátoru microsoftu pro arabštinu.

bangla

string

Vybere tokenizátor tokenizátoru microsoftu pro Bangla.

bulgarian

string

Vybere tokenizátor tokenizátoru microsoftu pro bulharštinu.

catalan

string

Vybere tokenizátor tokeningu Microsoftu pro katalánštinu.

croatian

string

Vybere tokenizátor tokenizátoru microsoftu pro chorvatštinu.

czech

string

Vybere tokenizátor microsoftu pro češtinu.

danish

string

Vybere tokenizátor tokeningu Microsoftu pro dánštinu.

dutch

string

Vybere tokenizátor tokenizátoru microsoftu pro nizozemštinu.

english

string

Vybere tokenizátor tokenizátoru microsoftu pro angličtinu.

estonian

string

Vybere tokenizátor tokenizátoru microsoftu pro estonštinu.

finnish

string

Vybere tokenizátor tokeningu Microsoftu pro finštinu.

french

string

Vybere tokenizátor tokenizátoru microsoftu pro francouzštinu.

german

string

Vybere tokenizátor tokenizátoru microsoftu pro němčinu.

greek

string

Vybere tokenizátor tokenizátoru microsoftu pro řečtinu.

gujarati

string

Vybere tokenizátor tokenizace Microsoftu pro Gujarati.

hebrew

string

Vybere tokenizátor microsoftu pro hebrejštinu.

hindi

string

Vybere tokenizátor tokenizace Microsoftu pro hindštinu.

hungarian

string

Vybere tokenizátor tokenizátoru microsoftu pro maďarštinu.

icelandic

string

Vybere tokenizátor tokenizátoru microsoftu pro Islandštinu.

indonesian

string

Vybere tokenizátor tokeningu Microsoftu pro indonéštinu.

italian

string

Vybere tokenizátor tokenizátoru microsoftu pro italštinu.

kannada

string

Vybere tokenizátor tokenizátoru microsoftu pro Kannada.

latvian

string

Vybere tokenizátor tokenizátoru microsoftu pro lotyštinu.

lithuanian

string

Vybere tokenizátor tokenizátoru microsoftu pro litevštinu.

malay

string

Vybere tokenizátor tokenizátoru microsoftu pro Malay.

malayalam

string

Vybere tokenizátor tokenizátoru microsoftu pro Malayalam.

marathi

string

Vybere tokenizátor tokenizátoru microsoftu pro Marathi.

norwegianBokmaal

string

Vybere tokenizátor tokenizátoru microsoftu pro norštinu (Bokmål).

polish

string

Vybere tokenizátor tokenizátoru microsoftu pro polštinu.

portuguese

string

Vybere tokenizátor tokenizátoru microsoftu pro portugalštinu.

portugueseBrazilian

string

Vybere tokenizátor tokenizátoru microsoftu pro portugalštinu (Brazílie).

punjabi

string

Vybere tokenizátor tokenizace Microsoftu pro Punjabi.

romanian

string

Vybere tokenizátor tokenizátoru microsoftu pro rumunštinu.

russian

string

Vybere tokenizátor tokenizátoru Microsoftu pro ruštinu.

serbianCyrillic

string

Vybere tokenizátor tokeningu Microsoftu pro srbštinu (cyrilice).

serbianLatin

string

Vybere tokenizátor tokeningu microsoftu pro srbštinu (latinka).

slovak

string

Vybere tokenizátor tokeningu Microsoftu pro slovenskou.

slovenian

string

Vybere tokenizátor tokenizátoru microsoftu pro slovinštinu.

spanish

string

Vybere tokenizátor tokeningu Microsoftu pro španělštinu.

swedish

string

Vybere tokenizátor tokenizátoru microsoftu pro švédštinu.

tamil

string

Vybere tokenizátor tokenizátoru microsoftu pro tamilštinu.

telugu

string

Vybere tokenizátor tokenizátoru microsoftu pro Telugu.

turkish

string

Vybere tokenizátor tokenizátoru microsoftu pro turečtinu.

ukrainian

string

Vybere tokenizátor microsoftu pro ukrajinštinu.

urdu

string

Vybere tokenizátor tokeningu Microsoftu pro Urdu.

MicrosoftTokenizerLanguage

Zobrazí seznam jazyků podporovaných tokenizátorem jazyka Microsoftu.

Name Typ Description
bangla

string

Vybere tokenizátor Microsoftu pro Bangla.

bulgarian

string

Vybere tokenizátor Microsoftu pro bulharštinu.

catalan

string

Vybere tokenizátor Microsoftu pro katalánštinu.

chineseSimplified

string

Vybere tokenizátor Microsoftu pro čínštinu (zjednodušenou).

chineseTraditional

string

Vybere tokenizátor Microsoftu pro čínštinu (tradiční).

croatian

string

Vybere tokenizátor Microsoftu pro chorvatštinu.

czech

string

Vybere tokenizátor Microsoftu pro češtinu.

danish

string

Vybere tokenizátor Microsoftu pro dánštinu.

dutch

string

Vybere tokenizátor Microsoftu pro nizozemštinu.

english

string

Vybere tokenizátor Microsoftu pro angličtinu.

french

string

Vybere tokenizátor Microsoftu pro francouzštinu.

german

string

Vybere tokenizátor Microsoftu pro němčinu.

greek

string

Vybere tokenizátor Microsoftu pro řečtinu.

gujarati

string

Vybere tokenizátor Microsoftu pro Gujarati.

hindi

string

Vybere tokenizátor Microsoftu pro hindštinu.

icelandic

string

Vybere tokenizátor Microsoftu pro Islandštinu.

indonesian

string

Vybere tokenizátor Microsoftu pro indonéštinu.

italian

string

Vybere tokenizátor Microsoftu pro italštinu.

japanese

string

Vybere tokenizátor Microsoftu pro japonštinu.

kannada

string

Vybere tokenizátor Microsoftu pro Kannada.

korean

string

Vybere tokenizátor Microsoftu pro korejštinu.

malay

string

Vybere tokenizátor Microsoftu pro Malay.

malayalam

string

Vybere tokenizátor Microsoftu pro Malayalam.

marathi

string

Vybere tokenizátor Microsoftu pro Marathi.

norwegianBokmaal

string

Vybere tokenizátor Microsoftu pro norštinu (Bokmål).

polish

string

Vybere tokenizátor Microsoftu pro polštinu.

portuguese

string

Vybere tokenizátor Microsoftu pro portugalštinu.

portugueseBrazilian

string

Vybere tokenizátor Microsoftu pro portugalštinu (Brazílie).

punjabi

string

Vybere tokenizátor Microsoftu pro Punjabi.

romanian

string

Vybere tokenizátor Microsoftu pro rumunštinu.

russian

string

Vybere tokenizátor Microsoftu pro ruštinu.

serbianCyrillic

string

Vybere tokenizátor Microsoftu pro srbštinu (cyrilice).

serbianLatin

string

Vybere tokenizátor Microsoftu pro srbštinu (latinka).

slovenian

string

Vybere tokenizátor Microsoftu pro slovinštinu.

spanish

string

Vybere tokenizátor Microsoftu pro španělštinu.

swedish

string

Vybere tokenizátor Microsoftu pro švédštinu.

tamil

string

Vybere tokenizátor Microsoftu pro tamilštinu.

telugu

string

Vybere tokenizátor Microsoftu pro Telugu.

thai

string

Vybere tokenizátor Microsoftu pro thajštinu.

ukrainian

string

Vybere tokenizátor Microsoftu pro ukrajinštinu.

urdu

string

Vybere tokenizátor Microsoftu pro Urdu.

vietnamese

string

Vybere tokenizátor Microsoftu pro vietnamštinu.

NGramTokenFilter

Vygeneruje n-gramy dané velikosti. Tento filtr tokenu se implementuje pomocí Apache Lucene.

Name Typ Default value Description
@odata.type string:

#Microsoft.Azure.Search.NGramTokenFilter

Fragment identifikátoru URI určující typ filtru tokenu.

maxGram

integer

2

Maximální délka n-gramu. Výchozí hodnota je 2.

minGram

integer

1

Minimální délka n-gramu. Výchozí hodnota je 1. Musí být menší než hodnota maxGram.

name

string

Název filtru tokenů. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit alfanumerickými znaky a je omezena na 128 znaků.

NGramTokenFilterV2

Vygeneruje n-gramy dané velikosti. Tento filtr tokenu se implementuje pomocí Apache Lucene.

Name Typ Default value Description
@odata.type string:

#Microsoft.Azure.Search.NGramTokenFilterV2

Fragment identifikátoru URI určující typ filtru tokenu.

maxGram

integer

2

Maximální délka n-gramu. Výchozí hodnota je 2. Maximum je 300.

minGram

integer

1

Minimální délka n-gramu. Výchozí hodnota je 1. Maximum je 300. Musí být menší než hodnota maxGram.

name

string

Název filtru tokenů. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit alfanumerickými znaky a je omezena na 128 znaků.

NGramTokenizer

Tokenizuje vstup na n-gramy dané velikosti. Tento tokenizátor se implementuje pomocí Apache Lucene.

Name Typ Default value Description
@odata.type string:

#Microsoft.Azure.Search.NGramTokenizer

Fragment identifikátoru URI určující typ tokenizátoru.

maxGram

integer

2

Maximální délka n-gramu. Výchozí hodnota je 2. Maximum je 300.

minGram

integer

1

Minimální délka n-gramu. Výchozí hodnota je 1. Maximum je 300. Musí být menší než hodnota maxGram.

name

string

Název tokenizátoru. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit alfanumerickými znaky a je omezena na 128 znaků.

tokenChars

TokenCharacterKind[]

Třídy znaků, které mají být v tokenech zachovány.

OutputFieldMappingEntry

Mapování výstupních polí pro dovednost

Name Typ Description
name

string

Název výstupu definovaného dovedností.

targetName

string

Cílový název výstupu. Je nepovinný a výchozí název.

PathHierarchyTokenizerV2

Tokenizátor pro hierarchie podobné cestě. Tento tokenizátor se implementuje pomocí Apache Lucene.

Name Typ Default value Description
@odata.type string:

#Microsoft.Azure.Search.PathHierarchyTokenizerV2

Fragment identifikátoru URI určující typ tokenizátoru.

delimiter

string

/

Znak oddělovače, který se má použít. Výchozí hodnota je /.

maxTokenLength

integer

300

Maximální délka tokenu. Výchozí a maximální hodnota je 300.

name

string

Název tokenizátoru. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit alfanumerickými znaky a je omezena na 128 znaků.

replacement

string

/

Hodnota, která v případě nastavení nahradí znak oddělovače. Výchozí hodnota je /.

reverse

boolean

False

Hodnota označující, zda se mají generovat tokeny v obráceném pořadí. Výchozí hodnota je false.

skip

integer

0

Počet počátečních tokenů, které se mají přeskočit. Výchozí hodnota je 0.

PatternAnalyzer

Pružně odděluje text do termínů pomocí vzoru regulárního výrazu. Tento analyzátor se implementuje pomocí Apache Lucene.

Name Typ Default value Description
@odata.type string:

#Microsoft.Azure.Search.PatternAnalyzer

Fragment identifikátoru URI určující typ analyzátoru.

flags

RegexFlags

Příznaky regulárního výrazu

lowercase

boolean

True

Hodnota označující, jestli mají být termíny malé. Výchozí hodnota je true.

name

string

Název analyzátoru. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit alfanumerickými znaky a je omezena na 128 znaků.

pattern

string

\W+

Vzor regulárního výrazu, který odpovídá oddělovačům tokenů. Výchozí je výraz, který odpovídá jednomu nebo více neslovným znakům.

stopwords

string[]

Seznam stoper.

PatternCaptureTokenFilter

Používá regulární výrazy Java k vygenerování více tokenů – jeden pro každou skupinu zachycení v jednom nebo více vzorech. Tento filtr tokenu se implementuje pomocí Apache Lucene.

Name Typ Default value Description
@odata.type string:

#Microsoft.Azure.Search.PatternCaptureTokenFilter

Fragment identifikátoru URI určující typ filtru tokenu.

name

string

Název filtru tokenů. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit alfanumerickými znaky a je omezena na 128 znaků.

patterns

string[]

Seznam vzorů, které se mají shodovat s každým tokenem.

preserveOriginal

boolean

True

Hodnota označující, zda se má vrátit původní token, i když některý ze vzorů odpovídá. Výchozí hodnota je true.

PatternReplaceCharFilter

Filtr znaků, který nahradí znaky ve vstupním řetězci. Používá regulární výraz k identifikaci sekvencí znaků k zachování a nahrazení vzoru pro identifikaci znaků, které se mají nahradit. Například při zadání textu "aa bb aa bb", vzoru "(aa)\s+(bb)" a nahrazení "$1#$2" bude výsledkem "aa#bb aa#bb". Tento filtr znaků se implementuje pomocí Apache Lucene.

Name Typ Description
@odata.type string:

#Microsoft.Azure.Search.PatternReplaceCharFilter

Fragment identifikátoru URI určující typ filtru znaků.

name

string

Název filtru znaků. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit alfanumerickými znaky a je omezena na 128 znaků.

pattern

string

Vzor regulárního výrazu.

replacement

string

Náhradní text.

PatternReplaceTokenFilter

Filtr znaků, který nahradí znaky ve vstupním řetězci. Používá regulární výraz k identifikaci sekvencí znaků k zachování a nahrazení vzoru pro identifikaci znaků, které se mají nahradit. Například při zadání textu "aa bb aa bb", vzoru "(aa)\s+(bb)" a nahrazení "$1#$2" bude výsledkem "aa#bb aa#bb". Tento filtr tokenu se implementuje pomocí Apache Lucene.

Name Typ Description
@odata.type string:

#Microsoft.Azure.Search.PatternReplaceTokenFilter

Fragment identifikátoru URI určující typ filtru tokenu.

name

string

Název filtru tokenů. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit alfanumerickými znaky a je omezena na 128 znaků.

pattern

string

Vzor regulárního výrazu.

replacement

string

Náhradní text.

PatternTokenizer

Tokenizátor, který používá porovnávání vzorů regulárních výrazů k vytvoření jedinečných tokenů. Tento tokenizátor se implementuje pomocí Apache Lucene.

Name Typ Default value Description
@odata.type string:

#Microsoft.Azure.Search.PatternTokenizer

Fragment identifikátoru URI určující typ tokenizátoru.

flags

RegexFlags

Příznaky regulárního výrazu

group

integer

-1

Pořadové číslo založené na nule odpovídající skupiny v modelu regulárního výrazu, které se mají extrahovat do tokenů. Pokud chcete použít celý vzor k rozdělení vstupu na tokeny bez ohledu na odpovídající skupiny, použijte -1. Výchozí hodnota je -1.

name

string

Název tokenizátoru. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit alfanumerickými znaky a je omezena na 128 znaků.

pattern

string

\W+

Vzor regulárního výrazu, který odpovídá oddělovačům tokenů. Výchozí je výraz, který odpovídá jednomu nebo více neslovným znakům.

PhoneticEncoder

Identifikuje typ fonetického kodéru, který se má použít s fonetickým Filtrem.

Name Typ Description
beiderMorse

string

Zakóduje token do Beider-Morse hodnoty.

caverphone1

string

Kóduje token do hodnoty Caverphone 1,0.

caverphone2

string

Kóduje token do hodnoty Caverphone 2.0.

cologne

string

Zakóduje token do fonetické hodnoty Kolín nad Rýnem.

doubleMetaphone

string

Zakóduje token do dvojité hodnoty metafonu.

haasePhonetik

string

Kóduje token pomocí upřesňujícího algoritmu Kölner Phonetik.

koelnerPhonetik

string

Kóduje token pomocí algoritmu Kölner Phonetik.

metaphone

string

Zakóduje token do hodnoty metafonu.

nysiis

string

Kóduje token do hodnoty NYSIIS.

refinedSoundex

string

Zakóduje token do hodnoty Refined Soundex.

soundex

string

Zakóduje token do hodnoty Soundex.

PhoneticTokenFilter

Vytváření tokenů pro fonetické shody Tento filtr tokenu se implementuje pomocí Apache Lucene.

Name Typ Default value Description
@odata.type string:

#Microsoft.Azure.Search.PhoneticTokenFilter

Fragment identifikátoru URI určující typ filtru tokenu.

encoder

PhoneticEncoder

metaphone

Fonetický kodér, který se má použít. Výchozí hodnota je "metafon".

name

string

Název filtru tokenů. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit alfanumerickými znaky a je omezena na 128 znaků.

replace

boolean

True

Hodnota označující, jestli mají kódované tokeny nahradit původní tokeny. Pokud je false, kódované tokeny se přidají jako synonyma. Výchozí hodnota je true.

PrioritizedFields

Popisuje pole nadpisu, obsahu a klíčových slov, která se mají použít pro sémantické řazení, titulky, zvýraznění a odpovědi.

Name Typ Description
prioritizedContentFields

SemanticField[]

Definuje pole obsahu, která se mají použít pro sémantické řazení, titulky, zvýraznění a odpovědi. Pro nejlepší výsledek by vybraná pole měla obsahovat text ve formátu přirozeného jazyka. Pořadí polí v poli představuje jejich prioritu. Pole s nižší prioritou se můžou zkrátit, pokud je obsah dlouhý.

prioritizedKeywordsFields

SemanticField[]

Definuje pole klíčových slov, která se mají použít pro sémantické řazení, titulky, zvýraznění a odpovědi. Pro nejlepší výsledek by vybraná pole měla obsahovat seznam klíčových slov. Pořadí polí v poli představuje jejich prioritu. Pole s nižší prioritou se můžou zkrátit, pokud je obsah dlouhý.

titleField

SemanticField

Definuje pole názvu, které se má použít pro sémantické řazení, titulky, zvýraznění a odpovědi. Pokud v indexu nemáte pole názvu, nechejte toto pole prázdné.

RegexFlags

Definuje příznaky, které lze kombinovat a řídit způsob použití regulárních výrazů v analyzátoru vzorů a tokenizátoru vzorů.

Name Typ Description
CANON_EQ

string

Umožňuje kanonickou ekvivalenci.

CASE_INSENSITIVE

string

Povolí porovnávání nerozlišující malá a velká písmena.

COMMENTS

string

Povoluje prázdné znaky a komentáře ve vzoru.

DOTALL

string

Povolí režim dotall.

LITERAL

string

Povolí analýzu vzoru literálem.

MULTILINE

string

Povolí víceřádkový režim.

UNICODE_CASE

string

Umožňuje posouvání písmen s kódováním Unicode.

UNIX_LINES

string

Povolí režim čar unixu.

ScalarQuantizationParameters

Obsahuje parametry specifické pro skalární kvantování.

Name Typ Description
quantizedDataType

VectorSearchCompressionTargetDataType

Kvantovaný datový typ komprimovaných vektorových hodnot.

ScalarQuantizationVectorSearchCompressionConfiguration

Obsahuje možnosti konfigurace specifické pro metodu komprese skalární quantizace, která se používá při indexování a dotazování.

Name Typ Default value Description
defaultOversampling

number

Výchozí faktor převzorkování Převzorkování interně vyžádá více dokumentů (určených tímto násobitelem) v počátečním hledání. Tím se zvýší sada výsledků, které se přeřadí pomocí přepočítaného skóre podobnosti z vektorů s plnou přesností. Minimální hodnota je 1, což znamená bez převzorkování (1x). Tento parametr lze nastavit pouze v případě, že je splněna hodnota rerankWithOriginalVectors. Vyšší hodnoty zlepšují úplnost na úkor latence.

kind string:

scalarQuantization

Název typu metody komprese, která se konfiguruje pro použití s vektorovým vyhledáváním.

name

string

Název, který chcete přidružit k této konkrétní konfiguraci.

rerankWithOriginalVectors

boolean

True

Pokud je nastavena hodnota true, po získání seřazené sady výsledků pomocí komprimovaných vektorů se znovu seřadí přepočtem skóre podobnosti s plnou přesností. Tím se zlepší úplnost na úkor latence.

scalarQuantizationParameters

ScalarQuantizationParameters

Obsahuje parametry specifické pro skalární kvantování.

ScoringFunctionAggregation

Definuje agregační funkci použitou ke kombinování výsledků všech hodnoticích funkcí v bodovacím profilu.

Name Typ Description
average

string

Zvyšte skóre průměrem všech výsledků bodovací funkce.

firstMatching

string

Zvyšte skóre pomocí první použitelné funkce bodování v profilu bodování.

maximum

string

Zvyšte skóre maximálním počtem výsledků všech výsledků funkce bodování.

minimum

string

Zvyšte skóre o minimum všech výsledků funkce bodování.

sum

string

Zvyšte skóre součtem všech výsledků funkce bodování.

ScoringFunctionInterpolation

Definuje funkci použitou k interpolaci zvýšení skóre napříč celou řadou dokumentů.

Name Typ Description
constant

string

Zvyšuje skóre konstantním faktorem.

linear

string

Zvyšuje skóre lineárním snížením množství. Toto je výchozí interpolace pro bodovací funkce.

logarithmic

string

Zvyšuje skóre o množství, které snižuje logaritmicky. Zvyšuje se rychle pro vyšší skóre a pomaleji s poklesem skóre. Tato možnost interpolace není povolena ve funkcích bodování značek.

quadratic

string

Zvyšuje skóre o množství, které se snižuje kvadraticky. Zvyšuje se pomalu pro vyšší skóre a rychleji s poklesem skóre. Tato možnost interpolace není povolena ve funkcích bodování značek.

ScoringProfile

Definuje parametry indexu vyhledávání, které ovlivňují bodování ve vyhledávacích dotazech.

Name Typ Description
functionAggregation

ScoringFunctionAggregation

Hodnota označující způsob kombinování výsledků jednotlivých hodnoticích funkcí. Výchozí hodnota je Sum. Ignorováno, pokud neexistují žádné bodovací funkce.

functions ScoringFunction[]:

Kolekce funkcí, které ovlivňují bodování dokumentů.

name

string

Název hodnoticího profilu.

text

TextWeights

Parametry, které zvyšují bodování na základě shody textu v určitých polích indexu.

SearchField

Představuje pole v definici indexu, které popisuje název, datový typ a chování hledání pole.

Name Typ Description
analyzer

LexicalAnalyzerName

Název analyzátoru, který se má pro dané pole použít. Tuto možnost lze použít pouze s prohledávatelnými poli a nelze ji nastavit společně s funkcí searchAnalyzer nebo indexAnalyzer. Jakmile vyberete analyzátor, nelze ho pro dané pole změnit. Pro složitá pole musí být null.

dimensions

integer

Rozměrnost vektorového pole.

facetable

boolean

Hodnota označující, jestli se má na pole odkazovat v dotazech omezující vlastnosti. Obvykle se používá v prezentaci výsledků hledání, která zahrnuje počet přístupů podle kategorií (například hledání digitálních fotoaparátů a zobrazení hitů podle značky, podle megapixelů, podle ceny atd.). Tato vlastnost musí mít hodnotu null pro složitá pole. Pole typu Edm.GeographyPoint nebo Collection(Edm.GeographyPoint) nelze identifikovat. Výchozí hodnota platí pro všechna ostatní jednoduchá pole.

fields

SearchField[]

Seznam dílčích polí, pokud se jedná o pole typu Edm.ComplexType nebo Collection(Edm.ComplexType). Pro jednoduchá pole musí být null nebo prázdná.

filterable

boolean

Hodnota označující, zda má být pole odkazováno v $filter dotazech. Filtrovatelné se liší od prohledávatelného způsobu zpracování řetězců. Pole typu Edm.String nebo Collection(Edm.String), která jsou filtrovatelná, neprocházejí dělením slov, takže porovnání jsou pouze pro přesné shody. Pokud například nastavíte takové pole f na "slunečný den", $filter=f eq 'sunny' nenajde žádné shody, ale $filter=f eq 'sunny day' bude. Tato vlastnost musí mít hodnotu null pro složitá pole. Výchozí hodnota platí pro jednoduchá pole a hodnotu null pro složitá pole.

indexAnalyzer

LexicalAnalyzerName

Název analyzátoru použitého při indexování pole. Tuto možnost lze použít pouze s prohledávatelnými poli. Musí být nastaven společně s searchAnalyzer a nelze jej nastavit společně s možností analyzátoru. Tuto vlastnost nelze nastavit na název analyzátoru jazyka; Pokud potřebujete analyzátor jazyka, použijte místo toho vlastnost analyzátoru. Jakmile vyberete analyzátor, nelze ho pro dané pole změnit. Pro složitá pole musí být null.

key

boolean

Hodnota označující, zda pole jednoznačně identifikuje dokumenty v indexu. Jako klíčové pole musí být vybráno přesně jedno pole nejvyšší úrovně v každém indexu a musí být typu Edm.String. Klíčová pole se dají použít k přímému vyhledání dokumentů a aktualizaci nebo odstranění konkrétních dokumentů. Výchozí hodnota je false pro jednoduchá pole a hodnotu null pro složitá pole.

name

string

Název pole, které musí být jedinečné v rámci kolekce polí indexu nebo nadřazeného pole.

retrievable

boolean

Hodnota označující, zda pole může být vráceno ve výsledku hledání. Tuto možnost můžete zakázat, pokud chcete použít pole (například okraj) jako filtr, řazení nebo bodovací mechanismus, ale nechcete, aby bylo pole viditelné pro koncového uživatele. Tato vlastnost musí být pravdivá pro klíčová pole a pro složitá pole musí mít hodnotu null. Tuto vlastnost lze změnit u existujících polí. Povolení této vlastnosti nezpůsobí žádné zvýšení požadavků na úložiště indexů. Výchozí hodnota platí pro jednoduchá pole, false pro vektorová pole a hodnotu null pro složitá pole.

searchAnalyzer

LexicalAnalyzerName

Název analyzátoru použitého při hledání pole. Tuto možnost lze použít pouze s prohledávatelnými poli. Musí být nastaven společně s parametrem indexAnalyzer a nelze jej nastavit společně s možností analyzátoru. Tuto vlastnost nelze nastavit na název analyzátoru jazyka; Pokud potřebujete analyzátor jazyka, použijte místo toho vlastnost analyzátoru. Tento analyzátor lze aktualizovat u existujícího pole. Pro složitá pole musí být null.

searchable

boolean

Hodnota označující, zda je pole prohledávatelné fulltextové. To znamená, že během indexování projde analýzou, jako je například dělení slov. Pokud nastavíte prohledávatelné pole na hodnotu jako "slunečný den", interně se rozdělí na jednotlivé tokeny "sunny" a "day". To umožňuje fulltextové vyhledávání těchto termínů. Pole typu Edm.String nebo Collection(Edm.String) jsou ve výchozím nastavení prohledávatelná. Tato vlastnost musí být false pro jednoduchá pole jiných datových typů, které nejsou řetězcové, a musí mít hodnotu null pro složitá pole. Poznámka: Prohledávatelná pole spotřebovávají nadbytečné místo v indexu, aby vyhovovala dalším tokenizovaným verzím hodnoty pole pro fulltextová vyhledávání. Pokud chcete ušetřit místo v indexu a nepotřebujete pole, které by se mělo zahrnout do hledání, nastavte prohledávatelné na false.

sortable

boolean

Hodnota označující, zda má být pole odkazováno ve výrazech $orderby. Ve výchozím nastavení vyhledávací web seřadí výsledky podle skóre, ale v mnoha prostředích budou uživatelé chtít řadit podle polí v dokumentech. Jednoduché pole lze řadit pouze v případě, že je jednohodnotové (má jednu hodnotu v oboru nadřazeného dokumentu). Jednoduchá pole kolekce nelze seřadit, protože jsou vícehodnotová. Jednoduchá dílčí pole komplexních kolekcí jsou také vícehodnotová, a proto nelze řadit. To platí bez ohledu na to, jestli se jedná o okamžité nadřazené pole nebo nadřazené pole, což je složitá kolekce. Složitá pole nelze seřadit a vlastnost řazení musí mít pro tato pole hodnotu null. Výchozí hodnota pro řazení je true pro jednoduchá pole s jednou hodnotou, false pro jednoduchá pole s více hodnotami a null pro složitá pole.

stored

boolean

Neměnná hodnota označující, jestli se pole bude uchovávat samostatně na disku, který se má vrátit ve výsledku hledání. Tuto možnost můžete zakázat, pokud neplánujete vrátit obsah pole v odpovědi hledání, abyste ušetřili režii úložiště. To lze nastavit pouze při vytváření indexu a pouze pro vektorová pole. Tuto vlastnost nelze změnit pro existující pole nebo nastavit jako false pro nová pole. Pokud je tato vlastnost nastavena jako false, vlastnost 'retrievable' musí být také nastavena na false. Tato vlastnost musí být true nebo unset pro klíčová pole, pro nová pole a pro pole bez vektoru a musí mít hodnotu null pro složitá pole. Zakázáním této vlastnosti snížíte požadavky na úložiště indexu. Výchozí hodnota je true pro vektorová pole.

synonymMaps

string[]

Seznam názvů map synonym, které se mají přidružit k tomuto poli. Tuto možnost lze použít pouze s prohledávatelnými poli. V současné době je podporováno pouze jedno mapování synonym pro každé pole. Přiřazení mapování synonym k poli zajišťuje, aby se termíny dotazu, které cílí na toto pole, rozšířily v době dotazu pomocí pravidel v mapě synonym. Tento atribut lze změnit u existujících polí. Pro složitá pole musí být null nebo prázdná kolekce.

type

SearchFieldDataType

Datový typ pole.

vectorEncoding

VectorEncodingFormat

Formát kódování pro interpretaci obsahu pole.

vectorSearchProfile

string

Název profilu vektorového vyhledávání, který určuje algoritmus a vektorizátor, který se má použít při prohledávání vektorového pole.

SearchFieldDataType

Definuje datový typ pole v indexu vyhledávání.

Name Typ Description
Edm.Boolean

string

Označuje, že pole obsahuje logickou hodnotu (true nebo false).

Edm.Byte

string

Označuje, že pole obsahuje 8bitové celé číslo bez znaménka. To platí pouze při použití s kolekcí (Edm.Byte).

Edm.ComplexType

string

Označuje, že pole obsahuje jeden nebo více složitých objektů, které mají následně dílčí pole jiných typů.

Edm.DateTimeOffset

string

Označuje, že pole obsahuje hodnotu data a času včetně informací o časovém pásmu.

Edm.Double

string

Označuje, že pole obsahuje číslo s plovoucí desetinnou čárkou s dvojitou přesností IEEE.

Edm.GeographyPoint

string

Označuje, že pole obsahuje geografické umístění z hlediska zeměpisné délky a zeměpisné šířky.

Edm.Half

string

Označuje, že pole obsahuje číslo s plovoucí desetinnou čárkou s poloviční přesností. To platí jenom při použití s kolekcí (Edm.Half).

Edm.Int16

string

Označuje, že pole obsahuje 16bitové celé číslo se znaménkem. To platí jenom při použití s kolekcí (Edm.Int16).

Edm.Int32

string

Označuje, že pole obsahuje 32bitové celé číslo se znaménkem.

Edm.Int64

string

Označuje, že pole obsahuje 64bitové celé číslo se znaménkem.

Edm.SByte

string

Označuje, že pole obsahuje 8bitové celé číslo se znaménkem. To platí jenom při použití s kolekcí (Edm.SByte).

Edm.Single

string

Označuje, že pole obsahuje číslo s plovoucí desetinnou čárkou s jednou přesností. To platí jenom v případě, že se používá s kolekcí (Edm.Single).

Edm.String

string

Označuje, že pole obsahuje řetězec.

SearchIndex

Představuje definici indexu vyhledávání, která popisuje pole a chování vyhledávání indexu.

Name Typ Description
@odata.etag

string

ETag indexu.

analyzers LexicalAnalyzer[]:

Analyzátory indexu.

charFilters CharFilter[]:

Filtry znaků pro index.

corsOptions

CorsOptions

Možnosti řízení sdílení prostředků mezi zdroji (CORS) pro index

defaultScoringProfile

string

Název bodovacího profilu, který se má použít, pokud není v dotazu zadán žádný. Pokud tato vlastnost není nastavena a v dotazu není zadán žádný bodovací profil, použije se výchozí bodování (tf-idf).

encryptionKey

SearchResourceEncryptionKey

Popis šifrovacího klíče, který vytvoříte ve službě Azure Key Vault. Tento klíč se používá k zajištění další úrovně neaktivních uložených šifrování pro vaše data, pokud chcete mít plnou jistotu, že vaše data může dešifrovat nikdo, ani Microsoft. Jakmile data zašifrujete, zůstane vždy zašifrovaná. Vyhledávací služba bude ignorovat pokusy o nastavení této vlastnosti na hodnotu null. Tuto vlastnost můžete podle potřeby změnit, pokud chcete šifrovací klíč otočit; Vaše data nebudou ovlivněna. Šifrování pomocí klíčů spravovaných zákazníkem není k dispozici pro bezplatné vyhledávací služby a je k dispozici pouze pro placené služby vytvořené 1. ledna 2019 nebo po 1. lednu 2019.

fields

SearchField[]

Pole indexu.

name

string

Název indexu.

scoringProfiles

ScoringProfile[]

Profily bodování indexu.

semantic

SemanticSettings

Definuje parametry indexu vyhledávání, které ovlivňují sémantické schopnosti.

similarity Similarity:

Typ algoritmu podobnosti, který se má použít při bodování a řazení dokumentů odpovídajících vyhledávacímu dotazu. Algoritmus podobnosti lze definovat pouze při vytváření indexu a nelze ho upravovat u existujících indexů. Pokud má hodnotu null, použije se algoritmus ClassicSimilarity.

suggesters

Suggester[]

Návrhy indexu.

tokenFilters TokenFilter[]:

Filtry tokenů pro index.

tokenizers LexicalTokenizer[]:

Tokenizátory indexu.

vectorSearch

VectorSearch

Obsahuje možnosti konfigurace související s vektorové vyhledávání.

SearchIndexerDataNoneIdentity

Vymaže vlastnost identity zdroje dat.

Name Typ Description
@odata.type string:

#Microsoft.Azure.Search.DataNoneIdentity

Fragment identifikátoru URI určující typ identity.

SearchIndexerDataUserAssignedIdentity

Určuje identitu zdroje dat, která se má použít.

Name Typ Description
@odata.type string:

#Microsoft.Azure.Search.DataUserAssignedIdentity

Fragment identifikátoru URI určující typ identity.

userAssignedIdentity

string

Plně kvalifikované ID prostředku Azure spravované identity přiřazené uživatelem obvykle ve formátu /subscriptions/12345678-1234-1234-1234-1234-1234567890ab/resourceGroups/rg/providers/Microsoft.ManagedIdentity/userAssignedIdentities/myId, které by měly být přiřazeny vyhledávací službě.

SearchResourceEncryptionKey

Šifrovací klíč spravovaný zákazníkem ve službě Azure Key Vault. Klíče, které vytvoříte a spravujete, se dají použít k šifrování nebo dešifrování neaktivních uložených dat, jako jsou indexy a mapy synonym.

Name Typ Description
accessCredentials

AzureActiveDirectoryApplicationCredentials

Volitelné přihlašovací údaje Azure Active Directory používané pro přístup ke službě Azure Key Vault. Nevyžaduje se, pokud místo toho používáte spravovanou identitu.

keyVaultKeyName

string

Název klíče služby Azure Key Vault, který se má použít k šifrování neaktivních uložených dat.

keyVaultKeyVersion

string

Verze klíče služby Azure Key Vault, která se má použít k šifrování neaktivních uložených dat.

keyVaultUri

string

Identifikátor URI služby Azure Key Vault, označovaný také jako název DNS, který obsahuje klíč, který se má použít k šifrování neaktivních uložených dat. Příkladem identifikátoru URI může být https://my-keyvault-name.vault.azure.net.

SemanticConfiguration

Definuje konkrétní konfiguraci, která se má použít v kontextu sémantických funkcí.

Name Typ Description
name

string

Název sémantické konfigurace.

prioritizedFields

PrioritizedFields

Popisuje pole názvu, obsahu a klíčových slov, která se mají použít pro sémantické řazení, titulky, zvýraznění a odpovědi. Je potřeba nastavit aspoň jednu ze tří dílčích vlastností (titleField, prioritizedKeywordsFields a prioritizedContentFields).

SemanticField

Pole, které se používá jako součást sémantické konfigurace.

Name Typ Description
fieldName

string

SemanticSettings

Definuje parametry indexu vyhledávání, které ovlivňují sémantické schopnosti.

Name Typ Description
configurations

SemanticConfiguration[]

Sémantické konfigurace indexu.

defaultConfiguration

string

Umožňuje nastavit název výchozí sémantické konfigurace v indexu, takže je volitelný předat jako parametr dotazu pokaždé.

ShingleTokenFilter

Vytvoří kombinace tokenů jako jeden token. Tento filtr tokenu se implementuje pomocí Apache Lucene.

Name Typ Default value Description
@odata.type string:

#Microsoft.Azure.Search.ShingleTokenFilter

Fragment identifikátoru URI určující typ filtru tokenu.

filterToken

string

_

Řetězec, který se má vložit pro každou pozici, ve které není token. Výchozí hodnota je podtržítko (_).

maxShingleSize

integer

2

Maximální velikost shingle. Výchozí a minimální hodnota je 2.

minShingleSize

integer

2

Minimální velikost shingle. Výchozí a minimální hodnota je 2. Musí být menší než hodnota maxShingleSize.

name

string

Název filtru tokenů. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit alfanumerickými znaky a je omezena na 128 znaků.

outputUnigrams

boolean

True

Hodnota označující, zda výstupní datový proud bude obsahovat vstupní tokeny (jednogramy) a také shingles. Výchozí hodnota je true.

outputUnigramsIfNoShingles

boolean

False

Hodnota označující, jestli se mají pro tyto časy výstupovat jednogramy, pokud nejsou k dispozici žádné shingles. Tato vlastnost má přednost, pokud je outputUnigrams nastavena na false. Výchozí hodnota je false.

tokenSeparator

string

Řetězec, který se má použít při připojování sousedních tokenů k vytvoření shingle. Výchozí hodnota je jedna mezera (" ").

SnowballTokenFilter

Filtr, který vychází ze slov pomocí vygenerovaného smyšlí snowballu. Tento filtr tokenu se implementuje pomocí Apache Lucene.

Name Typ Description
@odata.type string:

#Microsoft.Azure.Search.SnowballTokenFilter

Fragment identifikátoru URI určující typ filtru tokenu.

language

SnowballTokenFilterLanguage

Jazyk, který se má použít.

name

string

Název filtru tokenů. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit alfanumerickými znaky a je omezena na 128 znaků.

SnowballTokenFilterLanguage

Jazyk, který se má použít pro filtr tokenů Snowball.

Name Typ Description
armenian

string

Vybere Lucene Snowball stemming tokenizer pro Arménské.

basque

string

Vybere Lucene Snowball stemming tokenizer pro Baskičtina.

catalan

string

Vybere Lucene Snowball stemming tokenizer pro katalánštinu.

danish

string

Vybere Lucene Snowball tokenizátor pro dánštinu.

dutch

string

Vybere Lucene Snowball stemming tokenizer pro nizozemštinu.

english

string

Vybere Lucene Snowball tokenizátor pro angličtinu.

finnish

string

Vybere Lucene Snowball tokenizátor pro finštinu.

french

string

Vybere Lucene Snowball tokenizátor pro francouzštinu.

german

string

Vybere Lucene Snowball tokenizátor pro němčinu.

german2

string

Vybere tokenizátor Lucene Snowball, který používá německý variantní algoritmus.

hungarian

string

Vybere Lucene Snowball tokenizátor pro maďarštinu.

italian

string

Vybere Lucene Snowball tokenizátor pro italštinu.

kp

string

Vybere lucene Snowball stemming tokenizátor pro holandštinu, který používá Kraaij-Pohlmann stemming algoritmu.

lovins

string

Vybere lucene Snowball stemming tokenizer pro angličtinu, která používá Lovins stemming algoritmus.

norwegian

string

Vybere Lucene Snowball tokenizátor pro norštinu.

porter

string

Vybere lucene Snowball stemming tokenizer pro angličtinu, která používá Porter stemming algoritmu.

portuguese

string

Vybere Lucene Snowball stemming tokenizer pro portugalštinu.

romanian

string

Vybere Lucene Snowball stemming tokenizer pro rumunštinu.

russian

string

Vybere Lucene Snowball stemming tokenizer pro ruštinu.

spanish

string

Vybere Lucene Snowball tokenizátor pro španělštinu.

swedish

string

Vybere Lucene Snowball stemming tokenizer pro švédštinu.

turkish

string

Vybere Lucene Snowball stemming tokenizer pro turečtinu.

StemmerOverrideTokenFilter

Poskytuje možnost přepsat další stemmingové filtry pomocí vlastních slovníkových stemmingů. Všechny termíny založené na slovníku budou označeny jako klíčová slova, aby se nezvolily pomocí stemmerů v řetězci. Musí být umístěny před všemi filtry pro vytváření. Tento filtr tokenu se implementuje pomocí Apache Lucene.

Name Typ Description
@odata.type string:

#Microsoft.Azure.Search.StemmerOverrideTokenFilter

Fragment identifikátoru URI určující typ filtru tokenu.

name

string

Název filtru tokenů. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit alfanumerickými znaky a je omezena na 128 znaků.

rules

string[]

Seznam pravidel stemmingu v následujícím formátu: "word => stem", například: "ran => run".

StemmerTokenFilter

Filtr pro konkrétní jazyk. Tento filtr tokenu se implementuje pomocí Apache Lucene.

Name Typ Description
@odata.type string:

#Microsoft.Azure.Search.StemmerTokenFilter

Fragment identifikátoru URI určující typ filtru tokenu.

language

StemmerTokenFilterLanguage

Jazyk, který se má použít.

name

string

Název filtru tokenů. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit alfanumerickými znaky a je omezena na 128 znaků.

StemmerTokenFilterLanguage

Jazyk, který se má použít pro filtr tokenů stemmeru.

Name Typ Description
arabic

string

Vybere tokenizátor lucene pro arabštinu.

armenian

string

Vybere tokenizátor Lucene pro Arméni.

basque

string

Vybere tokenizátor lucene pro baskičtina.

brazilian

string

Vybere tokenizátor lucene stemming pro portugalštinu (Brazílie).

bulgarian

string

Vybere lucene stemming tokenizer pro bulharštinu.

catalan

string

Vybere tokenizátor lucene pro katalánštinu.

czech

string

Vybere lucene stemming tokenizátor pro češtinu.

danish

string

Vybere tokenizátor lucene pro dánštinu.

dutch

string

Vybere tokenizátor lucene pro nizozemštinu.

dutchKp

string

Vybere tokenizátor lucene stemming pro holandštinu, který používá Kraaij-Pohlmann stemming algoritmu.

english

string

Vybere tokenizátor lucene pro angličtinu.

finnish

string

Vybere tokenizátor lucene pro finštinu.

french

string

Vybere tokenizátor lucene pro francouzštinu.

galician

string

Vybere lucene stemming tokenizátor pro Galicijštinu.

german

string

Vybere tokenizátor lucene pro němčinu.

german2

string

Vybere tokenizátor lucene stemming, který používá německý variantní algoritmus.

greek

string

Vybere tokenizátor lucene pro řečtinu.

hindi

string

Vybere tokenizátor lucene pro hindštinu.

hungarian

string

Vybere tokenizátor lucene pro maďarštinu.

indonesian

string

Vybere tokenizátor lucene stemming pro indonéštinu.

irish

string

Vybere tokenizátor Lucene pro irštinu.

italian

string

Vybere tokenizátor Lucene pro italštinu.

latvian

string

Vybere tokenizátor lucene stemming pro lotyštinu.

lightEnglish

string

Vybere tokenizátor lucene stemming pro angličtinu, který dělá světlo stemming.

lightFinnish

string

Vybere tokenizátor lucene stemming pro finštinu, který dělá lehké stemming.

lightFrench

string

Vybere tokenizátor lucene stemming pro francouzštinu, který dělá lehké stemming.

lightGerman

string

Vybere tokenizátor lucene stemming pro němčinu, který dělá světlo stemming.

lightHungarian

string

Vybere lucene stemming tokenizer pro maďarštinu, která dělá lehké stemming.

lightItalian

string

Vybere lucene stemming tokenizátor pro italštinu, který dělá světlé stemming.

lightNorwegian

string

Vybere tokenizátor Lucene stemming pro norštinu (Bokmål), který dělá světlé stemming.

lightNynorsk

string

Vybere tokenizátor lucene stemming pro norštinu (Nynorsk), který dělá světlo stemming.

lightPortuguese

string

Vybere lucene stemming tokenizer pro portugalštinu, která dělá světlo stemming.

lightRussian

string

Vybere lucene stemming tokenizer pro Ruštinu, která dělá světlo stemming.

lightSpanish

string

Vybere tokenizátor lucene stemming pro španělštinu, který dělá světlé stemming.

lightSwedish

string

Vybere tokenizátor lucene stemming pro švédštinu, která dělá lehké stemming.

lovins

string

Vybere tokenizátor lucene stemming pro angličtinu, který používá Lovins stemming algoritmus.

minimalEnglish

string

Vybere tokenizátor lucene stemming pro angličtinu, který dělá minimální stemming.

minimalFrench

string

Vybere tokenizátor lucene stemming pro francouzštinu, který dělá minimální stemming.

minimalGalician

string

Vybere tokenizátor Lucene stemming pro Galicijštinu, který dělá minimální stemming.

minimalGerman

string

Vybere tokenizátor lucene stemming pro němčinu, který dělá minimální stemming.

minimalNorwegian

string

Vybere tokenizátor Lucene stemming pro norštinu (Bokmål), který dělá minimální stemming.

minimalNynorsk

string

Vybere tokenizátor lucene stemming pro norštinu (Nynorsk), který dělá minimální stemming.

minimalPortuguese

string

Vybere tokenizátor lucene stemming pro portugalštinu, který dělá minimální stemming.

norwegian

string

Vybere tokenizátor lucene pro norštinu (Bokmål).

porter2

string

Vybere tokenizátor lucene stemming pro angličtinu, který používá algoritmus vytváření porter2.

portuguese

string

Vybere tokenizátor lucene stemming pro portugalštinu.

portugueseRslp

string

Vybere tokenizátor lucene stemming pro portugalštinu, který používá algoritmus rsLP stemming.

possessiveEnglish

string

Vybere tokenizátor lucene stemming pro angličtinu, který odebere koncové přivlastňovací výrazy ze slov.

romanian

string

Vybere lucene stemming tokenizer pro rumunštinu.

russian

string

Vybere tokenizátor Lucene pro ruštinu.

sorani

string

Vybere tokenizátor lucene pro Sorani.

spanish

string

Vybere tokenizátor lucene pro španělštinu.

swedish

string

Vybere tokenizátor lucene pro švédštinu.

turkish

string

Vybere tokenizátor lucene pro turečtinu.

StopAnalyzer

Rozdělí text bez písmen; Použije filtry tokenů s malými písmeny a stopword. Tento analyzátor se implementuje pomocí Apache Lucene.

Name Typ Description
@odata.type string:

#Microsoft.Azure.Search.StopAnalyzer

Fragment identifikátoru URI určující typ analyzátoru.

name

string

Název analyzátoru. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit alfanumerickými znaky a je omezena na 128 znaků.

stopwords

string[]

Seznam stoper.

StopwordsList

Identifikuje předdefinovaný seznam stop slov specifických pro jazyk.

Name Typ Description
arabic

string

Vybere seznam zarážek pro arabštinu.

armenian

string

Vybere seznam stopword pro Arménii.

basque

string

Vybere seznam stopword pro baskičtina.

brazilian

string

Vybere seznam stopword pro portugalštinu (Brazílie).

bulgarian

string

Vybere seznam stopword pro bulharštinu.

catalan

string

Vybere seznam stopword pro katalánštinu.

czech

string

Vybere seznam stopword pro češtinu.

danish

string

Vybere seznam stopword pro dánštinu.

dutch

string

Vybere seznam stopword pro nizozemštinu.

english

string

Vybere seznam stopword pro angličtinu.

finnish

string

Vybere seznam stopword pro finštinu.

french

string

Vybere seznam stopword pro francouzštinu.

galician

string

Vybere seznam stopek pro Galicijštinu.

german

string

Vybere seznam stopword pro němčinu.

greek

string

Vybere seznam zarážek pro řečtinu.

hindi

string

Vybere seznam stopword pro hindštinu.

hungarian

string

Vybere seznam stopword pro maďarštinu.

indonesian

string

Vybere seznam stopword pro indonézštinu.

irish

string

Vybere seznam stopword pro irštinu.

italian

string

Vybere seznam stopword pro italštinu.

latvian

string

Vybere seznam stopword pro lotyštinu.

norwegian

string

Vybere seznam stopword pro norštinu.

persian

string

Vybere seznam stopword pro Perštinu.

portuguese

string

Vybere seznam stopword pro portugalštinu.

romanian

string

Vybere seznam stopword pro rumunštinu.

russian

string

Vybere seznam stopword pro ruštinu.

sorani

string

Vybere seznam stopword pro Sorani.

spanish

string

Vybere seznam stopword pro španělštinu.

swedish

string

Vybere seznam stopword pro švédštinu.

thai

string

Vybere seznam stopword pro thajštinu.

turkish

string

Vybere seznam stopword pro turečtinu.

StopwordsTokenFilter

Odebere slova ze streamu tokenu. Tento filtr tokenu se implementuje pomocí Apache Lucene.

Name Typ Default value Description
@odata.type string:

#Microsoft.Azure.Search.StopwordsTokenFilter

Fragment identifikátoru URI určující typ filtru tokenu.

ignoreCase

boolean

False

Hodnota označující, zda se má ignorovat malá a velká písmena. Pokud ano, všechna slova se nejprve převedou na malá písmena. Výchozí hodnota je false.

name

string

Název filtru tokenů. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit alfanumerickými znaky a je omezena na 128 znaků.

removeTrailing

boolean

True

Hodnota označující, jestli se má poslední hledaný termín ignorovat, pokud se jedná o slovo stop. Výchozí hodnota je true.

stopwords

string[]

Seznam stoper. Tuto vlastnost a vlastnost seznamu stopwords nelze nastavit.

stopwordsList

StopwordsList

english

Předdefinovaný seznam slov, které se mají použít. Tuto vlastnost i vlastnost stopwords nelze nastavit. Výchozí hodnota je angličtina.

Suggester

Definuje, jak se má rozhraní API navrhnout na skupinu polí v indexu.

Name Typ Description
name

string

Název směšovače.

searchMode

SuggesterSearchMode

Hodnota označující možnosti souzence.

sourceFields

string[]

Seznamnázvůch Každé pole musí být prohledávatelné.

SuggesterSearchMode

Hodnota označující možnosti souzence.

Name Typ Description
analyzingInfixMatching

string

Odpovídá po sobě jdoucím celým termínům a předponám v poli. Například pro pole "Nejrychlejší hnědá liška", dotazy "fast" a "nejrychlejší brow" by se shodovaly.

SynonymTokenFilter

Porovná jednoslovné nebo víceslovné synonyma v datovém proudu tokenů. Tento filtr tokenu se implementuje pomocí Apache Lucene.

Name Typ Default value Description
@odata.type string:

#Microsoft.Azure.Search.SynonymTokenFilter

Fragment identifikátoru URI určující typ filtru tokenu.

expand

boolean

True

Hodnota označující, zda se všechna slova v seznamu synonym (pokud => notace nepoužívá) se mapují na sebe navzájem. Pokud je pravda, budou se všechna slova v seznamu synonym (pokud => notace nepoužívá) mapovat na sebe navzájem. Následující seznam: neuvěřitelné, neuvěřitelné, úžasné, úžasné, je ekvivalentní: neuvěřitelné, neuvěřitelné, úžasné, úžasné => neuvěřitelné, neuvěřitelné, úžasné, úžasné. Pokud je false, následující seznam: neuvěřitelné, neuvěřitelné, báječné, úžasné bude ekvivalentní: neuvěřitelné, neuvěřitelné, úžasné, úžasné => neuvěřitelné. Výchozí hodnota je true.

ignoreCase

boolean

False

Hodnota označující, zda se má vstup skládat malá a velká písmena pro porovnávání. Výchozí hodnota je false.

name

string

Název filtru tokenů. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit alfanumerickými znaky a je omezena na 128 znaků.

synonyms

string[]

Seznam synonym v následujících dvou formátech: 1. neuvěřitelné, neuvěřitelné, báječné => úžasné - všechny termíny na levé straně => symbol budou nahrazeny všemi výrazy na jeho pravé straně; 2. neuvěřitelné, neuvěřitelné, úžasné, úžasné - čárkami oddělený seznam ekvivalentních slov. Nastavte možnost rozbalení a změňte způsob interpretace tohoto seznamu.

TagScoringFunction

Definuje funkci, která zvyšuje skóre dokumentů s řetězcovými hodnotami odpovídajícími danému seznamu značek.

Name Typ Description
boost

number

Násobitel pro nezpracované skóre. Musí to být kladné číslo, které se nerovná 1,0.

fieldName

string

Název pole použitého jako vstup do funkce bodování.

interpolation

ScoringFunctionInterpolation

Hodnota označující, jak bude zvýšení interpolováno napříč skóre dokumentu; výchozí hodnota je lineární.

tag

TagScoringParameters

Hodnoty parametrů pro funkci bodování značek.

type string:

tag

Určuje typ funkce, která se má použít. Platné hodnoty zahrnují velikost, aktuálnost, vzdálenost a značku. Typ funkce musí být malé písmeno.

TagScoringParameters

Poskytuje hodnoty parametrů funkci bodování značek.

Name Typ Description
tagsParameter

string

Název parametru předaného ve vyhledávacích dotazech, který určuje seznam značek, které se mají porovnat s cílovým polem.

TextWeights

Definuje váhy u polí indexu, u kterých by se mělo zvýšit bodování ve vyhledávacích dotazech.

Name Typ Description
weights

object

Slovník hmotností pro jednotlivá pole pro zvýšení bodování dokumentu. Klíče jsou názvy polí a hodnoty jsou váhy pro každé pole.

TokenCharacterKind

Představuje třídy znaků, na kterých může fungovat filtr tokenů.

Name Typ Description
digit

string

Uchovává číslice v tokenech.

letter

string

Uchovává písmena v tokenech.

punctuation

string

Udržuje interpunkci v tokenech.

symbol

string

Uchovává symboly v tokenech.

whitespace

string

Udržuje prázdné znaky v tokenech.

TokenFilterName

Definuje názvy všech filtrů tokenů podporovaných vyhledávacím webem.

Name Typ Description
apostrophe

string

Odstraní všechny znaky za apostrofem (včetně samotného apostrofu). Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/tr/ApostropheFilter.html

arabic_normalization

string

Filtr tokenů, který použije arabský normalizátor k normalizaci orthografie. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ar/ArabicNormalizationFilter.html

asciifolding

string

Převede abecední, číselné a symbolické znaky Unicode, které nejsou v prvních 127 znaky ASCII (blok "Základní latinka") na jejich ekvivalenty ASCII, pokud takové ekvivalenty existují. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html

cjk_bigram

string

Tvoří bigramy výrazů CJK, které se generují ze standardního tokenizátoru. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKBigramFilter.html

cjk_width

string

Normalizuje rozdíly šířky CJK. Přeloží varianty ASCII na ekvivalentní základní latinku a varianty Katakana s poloviční šířkou do ekvivalentní Kana. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKWidthFilter.html

classic

string

Odebere anglické přivlastnické a tečky ze zkratek. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicFilter.html

common_grams

string

Při indexování vytvořte bigramy pro často se vyskytující termíny. Jednotlivé termíny jsou stále indexované, s překryvnými bigramy. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/commongrams/CommonGramsFilter.html

edgeNGram_v2

string

Vygeneruje n-gramy dané velikosti počínaje přední nebo zadní částí vstupního tokenu. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenFilter.html

elision

string

Odebere elisions. Například "l'avion" (letadlo) bude převedeno na "avion" (letadlo). Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html

german_normalization

string

Normalizuje německé znaky podle heuristiky německého snowball algoritmu. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/de/GermanNormalizationFilter.html

hindi_normalization

string

Normalizuje text v hindštině a odebere některé rozdíly v pravopisných variantách. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/hi/HindiNormalizationFilter.html

indic_normalization

string

Normalizuje reprezentaci textu v indickém jazyce unicode. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/in/IndicNormalizationFilter.html

keyword_repeat

string

Vygeneruje každý příchozí token dvakrát, jednou jako klíčové slovo a jednou jako jiné než klíčové slovo. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/KeywordRepeatFilter.html

kstem

string

Vysoce výkonný filtr kstem pro angličtinu. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/en/KStemFilter.html

length

string

Odebere slova, která jsou příliš dlouhá nebo příliš krátká. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LengthFilter.html

limit

string

Omezuje počet tokenů při indexování. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LimitTokenCountFilter.html

lowercase

string

Normalizuje text tokenu na malá písmena. Viz https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html

nGram_v2

string

Vygeneruje n-gramy dané velikosti. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenFilter.html

persian_normalization

string

Použije normalizaci pro Perštinu. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/fa/PersianNormalizationFilter.html

phonetic

string

Vytváření tokenů pro fonetické shody Viz https://lucene.apache.org/core/4_10_3/analyzers-phonetic/org/apache/lucene/analysis/phonetic/package-tree.html

porter_stem

string

Používá algoritmus vytváření tokenů porteru k transformaci datového proudu tokenu. Viz http://tartarus.org/~martin/PorterStemmer

reverse

string

Vrátí řetězec tokenu. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html

scandinavian_folding

string

Složené severské znaky åÅäæÄÆ->a a öÖøØ->o. Také diskriminuje použití dvojitých samohlásek aa, ae, ao, oe a oo, ponechání jen první. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianFoldingFilter.html

scandinavian_normalization

string

Normalizuje použití zaměnitelných severských znaků. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianNormalizationFilter.html

shingle

string

Vytvoří kombinace tokenů jako jeden token. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/shingle/ShingleFilter.html

snowball

string

Filtr, který vychází ze slov pomocí vygenerovaného smyšlí snowballu. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/snowball/SnowballFilter.html

sorani_normalization

string

Normalizuje reprezentaci textu Sorani v kódování Unicode. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ckb/SoraniNormalizationFilter.html

stemmer

string

Filtr pro konkrétní jazyk. Viz https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#TokenFilters

stopwords

string

Odebere slova ze streamu tokenu. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html

trim

string

Oříznou počáteční a koncové prázdné znaky z tokenů. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TrimFilter.html

truncate

string

Zkracuje termíny na určitou délku. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TruncateTokenFilter.html

unique

string

Vyfiltruje tokeny se stejným textem jako předchozí token. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/RemoveDuplicatesTokenFilter.html

uppercase

string

Normalizuje text tokenu na velká písmena. Viz https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html

word_delimiter

string

Rozdělí slova do dílčích slov a provede volitelné transformace skupin podwordů.

TruncateTokenFilter

Zkracuje termíny na určitou délku. Tento filtr tokenu se implementuje pomocí Apache Lucene.

Name Typ Default value Description
@odata.type string:

#Microsoft.Azure.Search.TruncateTokenFilter

Fragment identifikátoru URI určující typ filtru tokenu.

length

integer

300

Délka termínů bude zkrácena. Výchozí a maximální hodnota je 300.

name

string

Název filtru tokenů. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit alfanumerickými znaky a je omezena na 128 znaků.

UaxUrlEmailTokenizer

Tokenizuje adresy URL a e-maily jako jeden token. Tento tokenizátor se implementuje pomocí Apache Lucene.

Name Typ Default value Description
@odata.type string:

#Microsoft.Azure.Search.UaxUrlEmailTokenizer

Fragment identifikátoru URI určující typ tokenizátoru.

maxTokenLength

integer

255

Maximální délka tokenu. Výchozí hodnota je 255. Tokeny delší než maximální délka jsou rozdělené. Maximální délka tokenu, kterou lze použít, je 300 znaků.

name

string

Název tokenizátoru. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit alfanumerickými znaky a je omezena na 128 znaků.

UniqueTokenFilter

Vyfiltruje tokeny se stejným textem jako předchozí token. Tento filtr tokenu se implementuje pomocí Apache Lucene.

Name Typ Default value Description
@odata.type string:

#Microsoft.Azure.Search.UniqueTokenFilter

Fragment identifikátoru URI určující typ filtru tokenu.

name

string

Název filtru tokenů. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit alfanumerickými znaky a je omezena na 128 znaků.

onlyOnSamePosition

boolean

False

Hodnota označující, zda chcete odebrat duplicity pouze na stejné pozici. Výchozí hodnota je false.

VectorEncodingFormat

Formát kódování pro interpretaci obsahu vektorového pole.

Name Typ Description
packedBit

string

Formát kódování představující bity zabalené do širšího datového typu

VectorSearch

Obsahuje možnosti konfigurace související s vektorové vyhledávání.

Name Typ Description
algorithms VectorSearchAlgorithmConfiguration[]:

Obsahuje možnosti konfigurace specifické pro algoritmus použitý při indexování nebo dotazování.

compressions VectorSearchCompressionConfiguration[]:

Obsahuje možnosti konfigurace specifické pro metodu komprese použitou při indexování nebo dotazování.

profiles

VectorSearchProfile[]

Definuje kombinace konfigurací, které se mají použít s vektorovým vyhledáváním.

vectorizers VectorSearchVectorizer[]:

Obsahuje možnosti konfigurace, jak vektorizovat textové vektorové dotazy.

VectorSearchAlgorithmKind

Algoritmus použitý k indexování a dotazování.

Name Typ Description
exhaustiveKnn

string

Vyčerpávající algoritmus KNN, který provede vyhledávání hrubou silou.

hnsw

string

HNSW (Hierarchical Navigable Small World), typ přibližného algoritmu nejbližších sousedů.

VectorSearchAlgorithmMetric

Metrika podobnosti, která se má použít pro porovnání vektorů. Doporučujeme zvolit stejnou metriku podobnosti, na které byl model vkládání trénován.

Name Typ Description
cosine

string

Měří úhel mezi vektory a kvantifikuje jejich podobnost a ignoruje velikost. Čím menší úhel, tím blíže je podobnost.

dotProduct

string

Vypočítá součet produktů moudrých prvků k měření zarovnání a velikosti podobnosti. Čím větší a pozitivnější, tím blíže je podobnost.

euclidean

string

Vypočítá přímočarou vzdálenost mezi vektory v multidimenzionálním prostoru. Čím menší je vzdálenost, tím blíže je podobnost.

hamming

string

Platí pouze pro bitové binární datové typy. Určuje rozdílnost počítáním různých pozic v binárních vektorech. Čím méně rozdílů, tím blíže je podobnost.

VectorSearchCompressionKind

Metoda komprese použitá k indexování a dotazování.

Name Typ Description
binaryQuantization

string

Binární kvantování, typ metody komprese. V binárním kvantování se hodnoty původních vektorů komprimují na užší binární typ diskretizací a představující každou komponentu vektoru pomocí binárních hodnot, čímž se zmenší celková velikost dat.

scalarQuantization

string

Skalární kvantování, typ metody komprese. V skalárním kvantování se původní hodnoty vektorů komprimují na užší typ diskretizací a představují každou komponentu vektoru pomocí snížené množiny kvantovaných hodnot, čímž se zmenší celková velikost dat.

VectorSearchCompressionTargetDataType

Kvantovaný datový typ komprimovaných vektorových hodnot.

Name Typ Description
int8

string

VectorSearchProfile

Definuje kombinaci konfigurací, které se mají použít s vektorovým vyhledáváním.

Name Typ Description
algorithm

string

Název konfigurace algoritmu vektorového vyhledávání, který určuje algoritmus a volitelné parametry.

compression

string

Název konfigurace metody komprese, která určuje metodu komprese a volitelné parametry.

name

string

Název, který chcete přidružit k tomuto konkrétnímu profilu vektorového vyhledávání.

vectorizer

string

Název vektorizace, která se konfiguruje pro použití s vektorovým vyhledáváním.

VectorSearchVectorizerKind

Metoda vektorizace, která se má použít během dotazu.

Name Typ Description
azureOpenAI

string

Generování vkládání pomocí prostředku Azure OpenAI v době dotazu

customWebApi

string

Generování vkládání pomocí vlastního webového koncového bodu v době dotazu

WebApiParameters

Určuje vlastnosti pro připojení k vektorizátoru definovanému uživatelem.

Name Typ Description
authIdentity SearchIndexerDataIdentity:

Spravovaná identita přiřazená uživatelem používaná pro odchozí připojení. Pokud je zadaný identifikátor authResourceId a není zadaný, použije se spravovaná identita přiřazená systémem. Při aktualizacích indexeru, pokud není zadána identita, zůstane hodnota beze změny. Pokud je nastavena hodnota none, hodnota této vlastnosti je vymazána.

authResourceId

string

Platí pro vlastní koncové body, které se připojují k externímu kódu ve funkci Azure nebo v jiné aplikaci poskytující transformace. Tato hodnota by měla být ID aplikace vytvořené pro funkci nebo aplikaci při registraci v Azure Active Directory. Při zadání se vektorizace připojí k funkci nebo aplikaci pomocí spravovaného ID (systému nebo přiřazeného uživatelem) vyhledávací služby a přístupového tokenu funkce nebo aplikace. Tato hodnota se použije jako ID prostředku pro vytvoření oboru přístupového tokenu.

httpHeaders

object

Hlavičky vyžadované k provedení požadavku HTTP.

httpMethod

string

Metoda požadavku HTTP.

timeout

string

Požadovaný časový limit požadavku Výchozí hodnota je 30 sekund.

uri

string

Identifikátor URI webového rozhraní API poskytující vektorizátor.

WebApiVectorizer

Určuje vektorizátor definovaný uživatelem pro generování vektorového vkládání řetězce dotazu. Integrace externí vektorizátoru se dosahuje pomocí vlastního rozhraní webového rozhraní API sady dovedností.

Name Typ Description
customWebApiParameters

WebApiParameters

Určuje vlastnosti vektorizátoru definovaného uživatelem.

kind string:

customWebApi

Název metody vektorizace, která se konfiguruje pro použití s vektorovým vyhledáváním.

name

string

Název, který chcete přidružit k této konkrétní metodě vektorizace.

WordDelimiterTokenFilter

Rozdělí slova do dílčích slov a provede volitelné transformace skupin podwordů. Tento filtr tokenu se implementuje pomocí Apache Lucene.

Name Typ Default value Description
@odata.type string:

#Microsoft.Azure.Search.WordDelimiterTokenFilter

Fragment identifikátoru URI určující typ filtru tokenu.

catenateAll

boolean

False

Hodnota označující, zda budou všechny části podwordu catenated. Pokud je například nastavená hodnota true, azure-Search-1 se změní na AzureSearch1. Výchozí hodnota je false.

catenateNumbers

boolean

False

Hodnota označující, zda budou maximální spuštění číselných částí catenated. Pokud je například nastavená hodnota true, "1-2" se změní na "12". Výchozí hodnota je false.

catenateWords

boolean

False

Hodnota označující, zda bude maximální počet spuštění částí slova catenated. Pokud je například nastavená hodnota true, azure-Search se změní na AzureSearch. Výchozí hodnota je false.

generateNumberParts

boolean

True

Hodnota označující, zda se mají generovat podsložky čísel. Výchozí hodnota je true.

generateWordParts

boolean

True

Hodnota označující, zda se mají generovat slova částí. Pokud je nastavena, způsobí vygenerování částí slov; Například "AzureSearch" se stane "Azure" "Search". Výchozí hodnota je true.

name

string

Název filtru tokenů. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit alfanumerickými znaky a je omezena na 128 znaků.

preserveOriginal

boolean

False

Hodnota označující, zda se původní slova zachovají a přidají do seznamu podwordů. Výchozí hodnota je false.

protectedWords

string[]

Seznam tokenů, které chcete chránit před oddělovači.

splitOnCaseChange

boolean

True

Hodnota označující, zda chcete rozdělit slova v caseChange. Pokud je například nastavená hodnota true, "AzureSearch" se stane "Azure" "Search". Výchozí hodnota je true.

splitOnNumerics

boolean

True

Hodnota označující, zda se má rozdělit na čísla. Pokud je například nastavená hodnota true, azure1Search se stane "Azure" "1" "Search". Výchozí hodnota je true.

stemEnglishPossessive

boolean

True

Hodnota označující, zda se má odebrat koncové slovo "'s" pro každý podword. Výchozí hodnota je true.