Indexes - Create Or Update

Tworzy nowy indeks wyszukiwania lub aktualizuje indeks, jeśli już istnieje.

PUT {endpoint}/indexes('{indexName}')?api-version=2023-11-01
PUT {endpoint}/indexes('{indexName}')?allowIndexDowntime={allowIndexDowntime}&api-version=2023-11-01

Parametry identyfikatora URI

Nazwa W Wymagane Typ Opis
endpoint
path True

string

Adres URL punktu końcowego usługi wyszukiwania.

indexName
path True

string

Definicja indeksu do utworzenia lub zaktualizowania.

api-version
query True

string

Wersja interfejsu API klienta.

allowIndexDowntime
query

boolean

Umożliwia dodawanie nowych analizatorów, tokenizatorów, filtrów tokenów lub filtrów char do indeksu przez co najmniej kilka sekund przełączenie indeksu do trybu offline. Powoduje to tymczasowe niepowodzenie indeksowania i wysyłania zapytań do żądań. Wydajność i dostępność zapisu indeksu może być obniżona przez kilka minut po zaktualizowaniu indeksu lub dłużej dla bardzo dużych indeksów.

Nagłówek żądania

Nazwa Wymagane Typ Opis
x-ms-client-request-id

string

uuid

Identyfikator śledzenia wysłany za pomocą żądania ułatwiającego debugowanie.

If-Match

string

Definiuje warunek If-Match. Operacja zostanie wykonana tylko wtedy, gdy element ETag na serwerze jest zgodny z tą wartością.

If-None-Match

string

Definiuje warunek If-None-Match. Operacja zostanie wykonana tylko wtedy, gdy element ETag na serwerze nie jest zgodny z tą wartością.

Prefer True

string

W przypadku żądań HTTP PUT usługa zwraca utworzony/zaktualizowany zasób w przypadku powodzenia.

Treść żądania

Nazwa Wymagane Typ Opis
fields True

SearchField[]

Pola indeksu.

name True

string

Nazwa indeksu.

@odata.etag

string

Element ETag indeksu.

analyzers LexicalAnalyzer[]:

Analizatory indeksu.

charFilters CharFilter[]:

Znaki filtruje indeks.

corsOptions

CorsOptions

Opcje kontrolowania współużytkowania zasobów między źródłami (CORS) dla indeksu.

defaultScoringProfile

string

Nazwa profilu oceniania, który ma być używany, jeśli w zapytaniu nie określono żadnego. Jeśli ta właściwość nie jest ustawiona, a w zapytaniu nie określono żadnego profilu oceniania, zostanie użyty domyślny ocenianie (tf-idf).

encryptionKey

SearchResourceEncryptionKey

Opis klucza szyfrowania utworzonego w usłudze Azure Key Vault. Ten klucz służy do zapewnienia dodatkowego poziomu szyfrowania danych magazynowanych, gdy chcesz mieć pełną pewność, że nikt, nawet firma Microsoft, nie może odszyfrować dane. Po zaszyfrowaniu danych zawsze pozostaną one zaszyfrowane. Usługa wyszukiwania zignoruje próby ustawienia tej właściwości na wartość null. Tę właściwość można zmienić zgodnie z potrzebami, jeśli chcesz obrócić klucz szyfrowania; Twoje dane nie będą miały wpływu. Szyfrowanie przy użyciu kluczy zarządzanych przez klienta nie jest dostępne dla bezpłatnych usług wyszukiwania i jest dostępne tylko dla płatnych usług utworzonych w dniu 1 stycznia 2019 r. lub po tym, jak 1 stycznia 2019 r.

scoringProfiles

ScoringProfile[]

Profile oceniania dla indeksu.

semantic

SemanticSettings

Definiuje parametry indeksu wyszukiwania, który ma wpływ na możliwości semantyczne.

similarity Similarity:

Typ algorytmu podobieństwa do użycia podczas oceniania i klasyfikowania dokumentów pasujących do zapytania wyszukiwania. Algorytm podobieństwa można zdefiniować tylko w czasie tworzenia indeksu i nie można go modyfikować w istniejących indeksach. Jeśli ma wartość null, używany jest algorytm ClassicSimilarity.

suggesters

Suggester[]

Sugestory indeksu.

tokenFilters TokenFilter[]:

Token filtruje indeks.

tokenizers LexicalTokenizer[]:

Tokenizatory indeksu.

vectorSearch

VectorSearch

Zawiera opcje konfiguracji związane z wyszukiwaniem wektorów.

Odpowiedzi

Nazwa Typ Opis
200 OK

SearchIndex

201 Created

SearchIndex

Other Status Codes

SearchError

Odpowiedź na błąd.

Przykłady

SearchServiceCreateOrUpdateIndex

Sample Request

PUT https://myservice.search.windows.net/indexes('hotels')?allowIndexDowntime=False&api-version=2023-11-01


{
  "name": "hotels",
  "fields": [
    {
      "name": "hotelId",
      "type": "Edm.String",
      "key": true,
      "searchable": false
    },
    {
      "name": "baseRate",
      "type": "Edm.Double"
    },
    {
      "name": "description",
      "type": "Edm.String",
      "filterable": false,
      "sortable": false,
      "facetable": false
    },
    {
      "name": "descriptionEmbedding",
      "type": "Collection(Edm.Single)",
      "dimensions": 1536,
      "vectorSearchProfile": "myHnswProfile",
      "searchable": true,
      "retrievable": true
    },
    {
      "name": "description_fr",
      "type": "Edm.String",
      "filterable": false,
      "sortable": false,
      "facetable": false,
      "analyzer": "fr.lucene"
    },
    {
      "name": "hotelName",
      "type": "Edm.String"
    },
    {
      "name": "category",
      "type": "Edm.String"
    },
    {
      "name": "tags",
      "type": "Collection(Edm.String)",
      "analyzer": "tagsAnalyzer"
    },
    {
      "name": "parkingIncluded",
      "type": "Edm.Boolean"
    },
    {
      "name": "smokingAllowed",
      "type": "Edm.Boolean"
    },
    {
      "name": "lastRenovationDate",
      "type": "Edm.DateTimeOffset"
    },
    {
      "name": "rating",
      "type": "Edm.Int32"
    },
    {
      "name": "location",
      "type": "Edm.GeographyPoint"
    }
  ],
  "scoringProfiles": [
    {
      "name": "geo",
      "text": {
        "weights": {
          "hotelName": 5
        }
      },
      "functions": [
        {
          "type": "distance",
          "boost": 5,
          "fieldName": "location",
          "interpolation": "logarithmic",
          "distance": {
            "referencePointParameter": "currentLocation",
            "boostingDistance": 10
          }
        }
      ]
    }
  ],
  "defaultScoringProfile": "geo",
  "suggesters": [
    {
      "name": "sg",
      "searchMode": "analyzingInfixMatching",
      "sourceFields": [
        "hotelName"
      ]
    }
  ],
  "analyzers": [
    {
      "name": "tagsAnalyzer",
      "@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
      "charFilters": [
        "html_strip"
      ],
      "tokenizer": "standard_v2"
    }
  ],
  "corsOptions": {
    "allowedOrigins": [
      "tempuri.org"
    ],
    "maxAgeInSeconds": 60
  },
  "encryptionKey": {
    "keyVaultKeyName": "myUserManagedEncryptionKey-createdinAzureKeyVault",
    "keyVaultKeyVersion": "myKeyVersion-32charAlphaNumericString",
    "keyVaultUri": "https://myKeyVault.vault.azure.net",
    "accessCredentials": null
  },
  "similarity": {
    "@odata.type": "#Microsoft.Azure.Search.ClassicSimilarity"
  },
  "semantic": {
    "configurations": [
      {
        "name": "semanticHotels",
        "prioritizedFields": {
          "titleField": {
            "fieldName": "hotelName"
          },
          "prioritizedContentFields": [
            {
              "fieldName": "description"
            },
            {
              "fieldName": "description_fr"
            }
          ],
          "prioritizedKeywordsFields": [
            {
              "fieldName": "tags"
            },
            {
              "fieldName": "category"
            }
          ]
        }
      }
    ]
  },
  "vectorSearch": {
    "profiles": [
      {
        "name": "myHnswProfile",
        "algorithm": "myHnsw"
      },
      {
        "name": "myAlgorithm",
        "algorithm": "myExhaustive"
      }
    ],
    "algorithms": [
      {
        "name": "myHnsw",
        "kind": "hnsw",
        "hnswParameters": {
          "m": 4,
          "metric": "cosine"
        }
      },
      {
        "name": "myExhaustive",
        "kind": "exhaustiveKnn",
        "exhaustiveKnnParameters": {
          "metric": "cosine"
        }
      }
    ]
  }
}

Sample Response

{
  "name": "hotels",
  "fields": [
    {
      "name": "hotelId",
      "type": "Edm.String",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": true,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "baseRate",
      "type": "Edm.Double",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "description",
      "type": "Edm.String",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "descriptionEmbedding",
      "type": "Collection(Edm.Single)",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": 1536,
      "vectorSearchProfile": "myHnswProfile",
      "synonymMaps": []
    },
    {
      "name": "description_fr",
      "type": "Edm.String",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": "fr.lucene",
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "hotelName",
      "type": "Edm.String",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "category",
      "type": "Edm.String",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "tags",
      "type": "Collection(Edm.String)",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "sortable": false,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": "tagsAnalyzer",
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "parkingIncluded",
      "type": "Edm.Boolean",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "smokingAllowed",
      "type": "Edm.Boolean",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "lastRenovationDate",
      "type": "Edm.DateTimeOffset",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "rating",
      "type": "Edm.Int32",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "location",
      "type": "Edm.GeographyPoint",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": false,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    }
  ],
  "scoringProfiles": [
    {
      "name": "geo",
      "functionAggregation": "sum",
      "text": {
        "weights": {
          "hotelName": 5
        }
      },
      "functions": [
        {
          "type": "distance",
          "boost": 5,
          "fieldName": "location",
          "interpolation": "logarithmic",
          "distance": {
            "referencePointParameter": "currentLocation",
            "boostingDistance": 10
          }
        }
      ]
    }
  ],
  "defaultScoringProfile": "geo",
  "suggesters": [
    {
      "name": "sg",
      "searchMode": "analyzingInfixMatching",
      "sourceFields": [
        "hotelName"
      ]
    }
  ],
  "analyzers": [
    {
      "name": "tagsAnalyzer",
      "@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
      "charFilters": [
        "html_strip"
      ],
      "tokenizer": "standard_v2"
    }
  ],
  "tokenizers": [],
  "tokenFilters": [],
  "charFilters": [],
  "corsOptions": {
    "allowedOrigins": [
      "tempuri.org"
    ],
    "maxAgeInSeconds": 60
  },
  "encryptionKey": {
    "keyVaultKeyName": "myUserManagedEncryptionKey-createdinAzureKeyVault",
    "keyVaultKeyVersion": "myKeyVersion-32charAlphaNumericString",
    "keyVaultUri": "https://myKeyVault.vault.azure.net",
    "accessCredentials": null
  },
  "similarity": {
    "@odata.type": "#Microsoft.Azure.Search.ClassicSimilarity"
  },
  "semantic": {
    "configurations": [
      {
        "name": "semanticHotels",
        "prioritizedFields": {
          "titleField": {
            "fieldName": "hotelName"
          },
          "prioritizedContentFields": [
            {
              "fieldName": "description"
            },
            {
              "fieldName": "description_fr"
            }
          ],
          "prioritizedKeywordsFields": [
            {
              "fieldName": "tags"
            },
            {
              "fieldName": "category"
            }
          ]
        }
      }
    ]
  },
  "vectorSearch": {
    "algorithms": [
      {
        "name": "myHnsw",
        "kind": "hnsw",
        "hnswParameters": {
          "metric": "cosine",
          "m": 4,
          "efConstruction": 400,
          "efSearch": 500
        }
      },
      {
        "name": "myExhaustive",
        "kind": "exhaustiveKnn",
        "exhaustiveKnnParameters": {
          "metric": "cosine"
        }
      }
    ],
    "profiles": [
      {
        "name": "myHnswProfile",
        "algorithm": "myHnsw"
      },
      {
        "name": "myAlgorithm",
        "algorithm": "myExhaustive"
      }
    ]
  }
}
{
  "name": "hotels",
  "fields": [
    {
      "name": "hotelId",
      "type": "Edm.String",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": true,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "baseRate",
      "type": "Edm.Double",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "description",
      "type": "Edm.String",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "descriptionEmbedding",
      "type": "Collection(Edm.Single)",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": 1536,
      "vectorSearchProfile": "myHnswProfile",
      "synonymMaps": []
    },
    {
      "name": "description_fr",
      "type": "Edm.String",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": "fr.lucene",
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "hotelName",
      "type": "Edm.String",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "category",
      "type": "Edm.String",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "tags",
      "type": "Collection(Edm.String)",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "sortable": false,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": "tagsAnalyzer",
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "parkingIncluded",
      "type": "Edm.Boolean",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "smokingAllowed",
      "type": "Edm.Boolean",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "lastRenovationDate",
      "type": "Edm.DateTimeOffset",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "rating",
      "type": "Edm.Int32",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "location",
      "type": "Edm.GeographyPoint",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": false,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    }
  ],
  "scoringProfiles": [
    {
      "name": "geo",
      "functionAggregation": "sum",
      "text": {
        "weights": {
          "hotelName": 5
        }
      },
      "functions": [
        {
          "type": "distance",
          "boost": 5,
          "fieldName": "location",
          "interpolation": "logarithmic",
          "distance": {
            "referencePointParameter": "currentLocation",
            "boostingDistance": 10
          }
        }
      ]
    }
  ],
  "defaultScoringProfile": "geo",
  "suggesters": [
    {
      "name": "sg",
      "searchMode": "analyzingInfixMatching",
      "sourceFields": [
        "hotelName"
      ]
    }
  ],
  "analyzers": [
    {
      "name": "tagsAnalyzer",
      "@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
      "charFilters": [
        "html_strip"
      ],
      "tokenizer": "standard_v2"
    }
  ],
  "tokenizers": [],
  "tokenFilters": [],
  "charFilters": [],
  "corsOptions": {
    "allowedOrigins": [
      "tempuri.org"
    ],
    "maxAgeInSeconds": 60
  },
  "encryptionKey": {
    "keyVaultKeyName": "myUserManagedEncryptionKey-createdinAzureKeyVault",
    "keyVaultKeyVersion": "myKeyVersion-32charAlphaNumericString",
    "keyVaultUri": "https://myKeyVault.vault.azure.net",
    "accessCredentials": null
  },
  "semantic": {
    "configurations": [
      {
        "name": "semanticHotels",
        "prioritizedFields": {
          "titleField": {
            "fieldName": "hotelName"
          },
          "prioritizedContentFields": [
            {
              "fieldName": "description"
            },
            {
              "fieldName": "description_fr"
            }
          ],
          "prioritizedKeywordsFields": [
            {
              "fieldName": "tags"
            },
            {
              "fieldName": "category"
            }
          ]
        }
      }
    ]
  },
  "vectorSearch": {
    "algorithms": [
      {
        "name": "myHnsw",
        "kind": "hnsw",
        "hnswParameters": {
          "metric": "cosine",
          "m": 4,
          "efConstruction": 400,
          "efSearch": 500
        }
      },
      {
        "name": "myExhaustive",
        "kind": "exhaustiveKnn",
        "exhaustiveKnnParameters": {
          "metric": "cosine"
        }
      }
    ],
    "profiles": [
      {
        "name": "myHnswProfile",
        "algorithm": "myHnsw"
      },
      {
        "name": "myAlgorithm",
        "algorithm": "myExhaustive"
      }
    ]
  }
}

Definicje

Nazwa Opis
AsciiFoldingTokenFilter

Konwertuje znaki alfabetyczne, numeryczne i symboliczne Znaki Unicode, które nie znajdują się w pierwszych 127 znakach ASCII (blok "Basic Latin" Unicode) na ich odpowiedniki ASCII, jeśli takie odpowiedniki istnieją. Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene.

AzureActiveDirectoryApplicationCredentials

Poświadczenia zarejestrowanej aplikacji utworzonej dla usługi wyszukiwania używane do uwierzytelnionego dostępu do kluczy szyfrowania przechowywanych w usłudze Azure Key Vault.

BM25Similarity

Funkcja klasyfikacji oparta na algorytmie podobieństwa Okapi BM25. BM25 to algorytm podobny do serwera TF-IDF, który obejmuje normalizację długości (kontrolowaną przez parametr "b"), a także nasycenie częstotliwości terminów (kontrolowane przez parametr "k1").

CharFilterName

Definiuje nazwy wszystkich filtrów znaków obsługiwanych przez wyszukiwarkę.

CjkBigramTokenFilter

Tworzy bigramy terminów CJK generowanych na podstawie standardowego tokenizatora. Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene.

CjkBigramTokenFilterScripts

Skrypty, które mogą być ignorowane przez CjkBigramTokenFilter.

ClassicSimilarity

Starszy algorytm podobieństwa, który używa implementacji TFIDFSimilarity Lucene tf-IDF. Ta odmiana funkcji TF-IDF wprowadza statyczną normalizację długości dokumentu, a także koordynuje czynniki, które karują dokumenty, które tylko częściowo pasują do wyszukiwanych zapytań.

ClassicTokenizer

Tokenizator oparty na gramatyce, który jest odpowiedni do przetwarzania większości dokumentów w języku europejskim. Ten tokenizer jest implementowany przy użyciu platformy Apache Lucene.

CommonGramTokenFilter

Konstruowanie bigramów dla często występujących terminów podczas indeksowania. Pojedyncze terminy są również indeksowane, a bigramy nakładają się. Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene.

CorsOptions

Definiuje opcje kontrolowania współużytkowania zasobów między źródłami (CORS) dla indeksu.

CustomAnalyzer

Umożliwia przejęcie kontroli nad procesem konwertowania tekstu na tokeny indeksowalne/wyszukiwalne. Jest to konfiguracja zdefiniowana przez użytkownika składająca się z jednego wstępnie zdefiniowanego tokenizatora i co najmniej jednego filtru. Tokenizer jest odpowiedzialny za podzielenie tekstu na tokeny, a filtry do modyfikowania tokenów emitowanych przez tokenizator.

DictionaryDecompounderTokenFilter

Rozkłada złożone wyrazy znalezione w wielu językach niemieckich. Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene.

DistanceScoringFunction

Definiuje funkcję, która zwiększa wyniki na podstawie odległości od lokalizacji geograficznej.

DistanceScoringParameters

Udostępnia wartości parametrów funkcji oceniania odległości.

EdgeNGramTokenFilter

Generuje n-gramy danych rozmiarów, zaczynając od przodu lub z tyłu tokenu wejściowego. Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene.

EdgeNGramTokenFilterSide

Określa, z której strony wejściowej ma zostać wygenerowany n-gram.

EdgeNGramTokenFilterV2

Generuje n-gramy danych rozmiarów, zaczynając od przodu lub z tyłu tokenu wejściowego. Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene.

EdgeNGramTokenizer

Tokenizuje dane wejściowe z krawędzi do n-gramów podanych rozmiarów. Ten tokenizer jest implementowany przy użyciu platformy Apache Lucene.

ElisionTokenFilter

Usuwa elizji. Na przykład "l'avion" (płaszczyzna) zostanie przekonwertowana na "avion" (płaszczyzna). Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene.

ExhaustiveKnnParameters

Zawiera parametry specyficzne dla wyczerpującego algorytmu KNN.

ExhaustiveKnnVectorSearchAlgorithmConfiguration

Zawiera opcje konfiguracji specyficzne dla wyczerpującego algorytmu KNN używanego podczas wykonywania zapytań, co spowoduje przeprowadzenie wyszukiwania siłowego w całym indeksie wektorów.

FreshnessScoringFunction

Definiuje funkcję, która zwiększa wyniki na podstawie wartości pola daty i godziny.

FreshnessScoringParameters

Udostępnia wartości parametrów funkcji oceniania świeżości.

HnswParameters

Zawiera parametry specyficzne dla algorytmu HNSW.

HnswVectorSearchAlgorithmConfiguration

Zawiera opcje konfiguracji specyficzne dla algorytmu najbliższego sąsiada HNSW używanego podczas indeksowania i wykonywania zapytań. Algorytm HNSW oferuje możliwą do dostosowania kompromis między szybkością wyszukiwania a dokładnością.

KeepTokenFilter

Filtr tokenu, który przechowuje tylko tokeny z tekstem zawartym na określonej liście wyrazów. Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene.

KeywordMarkerTokenFilter

Oznacza terminy jako słowa kluczowe. Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene.

KeywordTokenizer

Emituje całe dane wejściowe jako pojedynczy token. Ten tokenizer jest implementowany przy użyciu platformy Apache Lucene.

KeywordTokenizerV2

Emituje całe dane wejściowe jako pojedynczy token. Ten tokenizer jest implementowany przy użyciu platformy Apache Lucene.

LengthTokenFilter

Usuwa wyrazy, które są za długie lub zbyt krótkie. Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene.

LexicalAnalyzerName

Definiuje nazwy wszystkich analizatorów tekstu obsługiwanych przez wyszukiwarkę.

LexicalTokenizerName

Definiuje nazwy wszystkich tokenizatorów obsługiwanych przez wyszukiwarkę.

LimitTokenFilter

Ogranicza liczbę tokenów podczas indeksowania. Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene.

LuceneStandardAnalyzer

Standardowy analizator Apache Lucene; Składa się ze standardowego tokenizatora, małych liter i filtru zatrzymania.

LuceneStandardTokenizer

Przerywa tekst po regułach segmentacji tekstu Unicode. Ten tokenizer jest implementowany przy użyciu platformy Apache Lucene.

LuceneStandardTokenizerV2

Dzieli tekst zgodnie z regułami segmentacji tekstu Unicode. Ten tokenizer jest implementowany przy użyciu platformy Apache Lucene.

MagnitudeScoringFunction

Definiuje funkcję, która zwiększa wyniki na podstawie wielkości pola liczbowego.

MagnitudeScoringParameters

Udostępnia wartości parametrów funkcji oceniania wielkości.

MappingCharFilter

Filtr znaków, który stosuje mapowania zdefiniowane za pomocą opcji mapowań. Dopasowanie jest chciwy (najdłuższy wzór pasujący w danym punkcie wygrywa). Zastąpienie może być pustym ciągiem. Ten filtr znaków jest implementowany przy użyciu platformy Apache Lucene.

MicrosoftLanguageStemmingTokenizer

Dzieli tekst przy użyciu reguł specyficznych dla języka i zmniejsza liczbę wyrazów do ich formularzy podstawowych.

MicrosoftLanguageTokenizer

Dzieli tekst przy użyciu reguł specyficznych dla języka.

MicrosoftStemmingTokenizerLanguage

Listy języków obsługiwanych przez tokenizatora macierzystego języka firmy Microsoft.

MicrosoftTokenizerLanguage

Listy języków obsługiwanych przez tokenizator języka firmy Microsoft.

NGramTokenFilter

Generuje n-gramy dla danego rozmiaru. Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene.

NGramTokenFilterV2

Generuje n-gramy dla danego rozmiaru. Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene.

NGramTokenizer

Tokenizuje dane wejściowe do n-gramów podanych rozmiarów. Ten tokenizer jest implementowany przy użyciu platformy Apache Lucene.

PathHierarchyTokenizerV2

Tokenizer dla hierarchii podobnych do ścieżki. Ten tokenizer jest implementowany przy użyciu platformy Apache Lucene.

PatternAnalyzer

Elastycznie oddziela tekst na terminy za pomocą wzorca wyrażenia regularnego. Ten analizator jest implementowany przy użyciu platformy Apache Lucene.

PatternCaptureTokenFilter

Używa wyrażeń regularnych Języka Java do emitowania wielu tokenów — jednej dla każdej grupy przechwytywania w co najmniej jednym wzorze. Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene.

PatternReplaceCharFilter

Filtr znaków, który zastępuje znaki w ciągu wejściowym. Używa wyrażenia regularnego do identyfikowania sekwencji znaków w celu zachowania i wzorca zastępczego w celu zidentyfikowania znaków do zastąpienia. Na przykład, biorąc pod uwagę tekst wejściowy "aa bb aa bb", wzorzec "(aa)\s+(bb)" i zastąpienie "$1#$2", wynik będzie "aa#bb aa#bb". Ten filtr znaków jest implementowany przy użyciu platformy Apache Lucene.

PatternReplaceTokenFilter

Filtr znaków, który zastępuje znaki w ciągu wejściowym. Używa wyrażenia regularnego do identyfikowania sekwencji znaków w celu zachowania i wzorca zamiany w celu zidentyfikowania znaków do zastąpienia. Na przykład, biorąc pod uwagę tekst wejściowy "aa bb aa bb", wzorzec "(aa)\s+(bb)" i zastąpienie wartości "$1#$2", wynikiem będzie "aa#bb aa#bb". Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene.

PatternTokenizer

Tokenizer, który używa dopasowania wzorca regularnego do konstruowania odrębnych tokenów. Ten tokenizer jest implementowany przy użyciu platformy Apache Lucene.

PhoneticEncoder

Określa typ kodera fonetycznego do użycia z PhoneticTokenFilter.

PhoneticTokenFilter

Tworzenie tokenów dla dopasowań fonetycznych. Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene.

PrioritizedFields

Opisuje pola tytułu, zawartości i słów kluczowych, które mają być używane do klasyfikacji semantycznej, podpisów, wyróżnień i odpowiedzi.

RegexFlags

Definiuje flagi, które można połączyć w celu kontrolowania sposobu użycia wyrażeń regularnych w analizatorze wzorców i tokenizatorze wzorca.

ScoringFunctionAggregation

Definiuje funkcję agregacji używaną do łączenia wyników wszystkich funkcji oceniania w profilu oceniania.

ScoringFunctionInterpolation

Definiuje funkcję używaną do interpolacji wyników zwiększających liczbę dokumentów w wielu dokumentach.

ScoringProfile

Definiuje parametry indeksu wyszukiwania, który ma wpływ na ocenianie w zapytaniach wyszukiwania.

SearchError

Opisuje warunek błędu dla interfejsu API.

SearchField

Reprezentuje pole w definicji indeksu, które opisuje nazwę, typ danych i zachowanie wyszukiwania pola.

SearchFieldDataType

Definiuje typ danych pola w indeksie wyszukiwania.

SearchIndex

Reprezentuje definicję indeksu wyszukiwania, która opisuje pola i zachowanie wyszukiwania indeksu.

SearchResourceEncryptionKey

Klucz szyfrowania zarządzany przez klienta w usłudze Azure Key Vault. Klucze tworzone i zarządzane mogą służyć do szyfrowania lub odszyfrowywania danych magazynowanych w usłudze wyszukiwania, takich jak indeksy i mapy synonimów.

SemanticConfiguration

Definiuje określoną konfigurację do użycia w kontekście funkcji semantycznych.

SemanticField

Pole, które jest używane jako część konfiguracji semantycznej.

SemanticSettings

Definiuje parametry indeksu wyszukiwania, który ma wpływ na możliwości semantyczne.

ShingleTokenFilter

Tworzy kombinacje tokenów jako pojedynczy token. Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene.

SnowballTokenFilter

Filtr, który tworzy wyrazy przy użyciu stemmeru wygenerowanego przez snowball. Ten filtr tokenu jest implementowany przy użyciu rozwiązania Apache Lucene.

SnowballTokenFilterLanguage

Język używany dla filtru tokenu Snowball.

StemmerOverrideTokenFilter

Zapewnia możliwość zastępowania innych filtrów macierzystych przy użyciu niestandardowego ściągnięcia opartego na słowniku. Wszystkie terminy powiązane ze słownikiem zostaną oznaczone jako słowa kluczowe, aby nie zostały one powstrzymane od stemmers w dół łańcucha. Należy umieścić przed wszelkimi filtrami macierzystymi. Ten filtr tokenu jest implementowany przy użyciu rozwiązania Apache Lucene.

StemmerTokenFilter

Filtr macierzysty specyficzny dla języka. Ten filtr tokenu jest implementowany przy użyciu rozwiązania Apache Lucene.

StemmerTokenFilterLanguage

Język używany dla filtru tokenu stemmer.

StopAnalyzer

Dzieli tekst na litery inne niż litery; Stosuje małe litery i filtry tokenów stopword. Ten analizator jest implementowany przy użyciu platformy Apache Lucene.

StopwordsList

Identyfikuje wstępnie zdefiniowaną listę słów przestawnych specyficznych dla języka.

StopwordsTokenFilter

Usuwa słowa zatrzymania ze strumienia tokenu. Ten filtr tokenu jest implementowany przy użyciu rozwiązania Apache Lucene.

Suggester

Definiuje sposób stosowania interfejsu API sugerowanego do grupy pól w indeksie.

SuggesterSearchMode

Wartość wskazująca możliwości sugestora.

SynonymTokenFilter

Dopasuje synonimy pojedyncze lub wielosypowe w strumieniu tokenu. Ten filtr tokenu jest implementowany przy użyciu rozwiązania Apache Lucene.

TagScoringFunction

Definiuje funkcję, która zwiększa wyniki dokumentów z wartościami ciągów pasującymi do danej listy tagów.

TagScoringParameters

Udostępnia wartości parametrów funkcji oceniania tagów.

TextWeights

Definiuje wagi pól indeksu, dla których dopasowania powinny zwiększyć ocenianie w zapytaniach wyszukiwania.

TokenCharacterKind

Reprezentuje klasy znaków, na których może działać filtr tokenu.

TokenFilterName

Definiuje nazwy wszystkich filtrów tokenów obsługiwanych przez wyszukiwarkę.

TruncateTokenFilter

Obcina terminy do określonej długości. Ten filtr tokenu jest implementowany przy użyciu rozwiązania Apache Lucene.

UaxUrlEmailTokenizer

Tokenizuje adresy URL i wiadomości e-mail jako jeden token. Ten tokenizer jest implementowany przy użyciu platformy Apache Lucene.

UniqueTokenFilter

Filtruje tokeny z tym samym tekstem co poprzedni token. Ten filtr tokenu jest implementowany przy użyciu rozwiązania Apache Lucene.

VectorSearch

Zawiera opcje konfiguracji związane z wyszukiwaniem wektorów.

VectorSearchAlgorithmKind

Algorytm używany do indeksowania i wykonywania zapytań.

VectorSearchAlgorithmMetric

Metryka podobieństwa do użycia dla porównań wektorów.

VectorSearchProfile

Definiuje kombinację konfiguracji do użycia z wyszukiwaniem wektorów.

WordDelimiterTokenFilter

Dzieli wyrazy na podwordse i wykonuje opcjonalne przekształcenia w grupach podrzędnych. Ten filtr tokenu jest implementowany przy użyciu rozwiązania Apache Lucene.

AsciiFoldingTokenFilter

Konwertuje znaki alfabetyczne, numeryczne i symboliczne Znaki Unicode, które nie znajdują się w pierwszych 127 znakach ASCII (blok "Basic Latin" Unicode) na ich odpowiedniki ASCII, jeśli takie odpowiedniki istnieją. Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene.

Nazwa Typ Wartość domyślna Opis
@odata.type string:

#Microsoft.Azure.Search.AsciiFoldingTokenFilter

Fragment identyfikatora URI określający typ filtru tokenu.

name

string

Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się wyłącznie znakami alfanumerycznymi i jest ograniczona do 128 znaków.

preserveOriginal

boolean

False

Wartość wskazująca, czy oryginalny token będzie przechowywany. Wartość domyślna to false.

AzureActiveDirectoryApplicationCredentials

Poświadczenia zarejestrowanej aplikacji utworzonej dla usługi wyszukiwania używane do uwierzytelnionego dostępu do kluczy szyfrowania przechowywanych w usłudze Azure Key Vault.

Nazwa Typ Opis
applicationId

string

Identyfikator aplikacji usługi AAD, który otrzymał wymagane uprawnienia dostępu do usługi Azure Key Vault, który ma być używany podczas szyfrowania danych magazynowanych. Identyfikator aplikacji nie powinien być mylony z identyfikatorem obiektu aplikacji usługi AAD.

applicationSecret

string

Klucz uwierzytelniania określonej aplikacji usługi AAD.

BM25Similarity

Funkcja klasyfikacji oparta na algorytmie podobieństwa Okapi BM25. BM25 to algorytm podobny do serwera TF-IDF, który obejmuje normalizację długości (kontrolowaną przez parametr "b"), a także nasycenie częstotliwości terminów (kontrolowane przez parametr "k1").

Nazwa Typ Opis
@odata.type string:

#Microsoft.Azure.Search.BM25Similarity

b

number

Ta właściwość określa, jak długość dokumentu wpływa na ocenę istotności. Domyślnie jest używana wartość 0,75. Wartość 0,0 oznacza, że nie zastosowano normalizacji długości, a wartość 1,0 oznacza, że wynik jest w pełni znormalizowany przez długość dokumentu.

k1

number

Ta właściwość steruje funkcją skalowania między częstotliwością terminów poszczególnych pasujących terminów a końcowym wynikiem istotności pary zapytań dokumentów. Domyślnie jest używana wartość 1.2. Wartość 0,0 oznacza, że wynik nie jest skalowany ze wzrostem częstotliwości terminów.

CharFilterName

Definiuje nazwy wszystkich filtrów znaków obsługiwanych przez wyszukiwarkę.

Nazwa Typ Opis
html_strip

string

Filtr znaków, który próbuje usunąć konstrukcje HTML. Zobacz https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html

CjkBigramTokenFilter

Tworzy bigramy terminów CJK generowanych na podstawie standardowego tokenizatora. Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene.

Nazwa Typ Wartość domyślna Opis
@odata.type string:

#Microsoft.Azure.Search.CjkBigramTokenFilter

Fragment identyfikatora URI określający typ filtru tokenu.

ignoreScripts

CjkBigramTokenFilterScripts[]

Skrypty do zignorowania.

name

string

Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się wyłącznie znakami alfanumerycznymi i jest ograniczona do 128 znaków.

outputUnigrams

boolean

False

Wartość wskazująca, czy dane wyjściowe mają zawierać zarówno unigramy, jak i bigramy (jeśli to prawda), czy tylko bigramy (jeśli jest to fałsz). Wartość domyślna to false.

CjkBigramTokenFilterScripts

Skrypty, które mogą być ignorowane przez CjkBigramTokenFilter.

Nazwa Typ Opis
han

string

Ignoruj skrypt Han podczas tworzenia bigramów terminów CJK.

hangul

string

Ignoruj skrypt Hangul podczas tworzenia bigramów terminów CJK.

hiragana

string

Ignoruj skrypt Hiragana podczas tworzenia bigramów terminów CJK.

katakana

string

Ignoruj skrypt Katakana podczas tworzenia bigramów terminów CJK.

ClassicSimilarity

Starszy algorytm podobieństwa, który używa implementacji TFIDFSimilarity Lucene tf-IDF. Ta odmiana funkcji TF-IDF wprowadza statyczną normalizację długości dokumentu, a także koordynuje czynniki, które karują dokumenty, które tylko częściowo pasują do wyszukiwanych zapytań.

Nazwa Typ Opis
@odata.type string:

#Microsoft.Azure.Search.ClassicSimilarity

ClassicTokenizer

Tokenizator oparty na gramatyce, który jest odpowiedni do przetwarzania większości dokumentów w języku europejskim. Ten tokenizer jest implementowany przy użyciu platformy Apache Lucene.

Nazwa Typ Wartość domyślna Opis
@odata.type string:

#Microsoft.Azure.Search.ClassicTokenizer

Fragment identyfikatora URI określający typ tokenizatora.

maxTokenLength

integer

255

Maksymalna długość tokenu. Wartość domyślna to 255. Tokeny dłuższe niż maksymalna długość są podzielone. Maksymalna długość tokenu, która może być używana, to 300 znaków.

name

string

Nazwa tokenizatora. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się tylko znakami alfanumerycznymi i jest ograniczona do 128 znaków.

CommonGramTokenFilter

Konstruowanie bigramów dla często występujących terminów podczas indeksowania. Pojedyncze terminy są również indeksowane, a bigramy nakładają się. Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene.

Nazwa Typ Wartość domyślna Opis
@odata.type string:

#Microsoft.Azure.Search.CommonGramTokenFilter

Fragment identyfikatora URI określający typ filtru tokenu.

commonWords

string[]

Zestaw typowych słów.

ignoreCase

boolean

False

Wartość wskazująca, czy dopasowywanie typowych słów będzie uwzględniać wielkość liter. Wartość domyślna to false.

name

string

Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się wyłącznie znakami alfanumerycznymi i jest ograniczona do 128 znaków.

queryMode

boolean

False

Wartość wskazująca, czy filtr tokenu jest w trybie zapytania. W trybie zapytania filtr tokenu generuje bigramy, a następnie usuwa typowe słowa i pojedyncze terminy, po których następuje słowo wspólne. Wartość domyślna to false.

CorsOptions

Definiuje opcje kontrolowania współużytkowania zasobów między źródłami (CORS) dla indeksu.

Nazwa Typ Opis
allowedOrigins

string[]

Lista źródeł, z których kod JavaScript otrzyma dostęp do indeksu. Może zawierać listę hostów formularza {protocol}://{w pełni kwalifikowana-nazwa-domeny}[:{port#}] lub pojedynczy * , aby zezwolić na wszystkie źródła (niezalecane).

maxAgeInSeconds

integer

Czas trwania, dla którego przeglądarki powinny buforować odpowiedzi wstępne CORS. Wartość domyślna to 5 minut.

CustomAnalyzer

Umożliwia przejęcie kontroli nad procesem konwertowania tekstu na tokeny indeksowalne/wyszukiwalne. Jest to konfiguracja zdefiniowana przez użytkownika składająca się z jednego wstępnie zdefiniowanego tokenizatora i co najmniej jednego filtru. Tokenizer jest odpowiedzialny za podzielenie tekstu na tokeny, a filtry do modyfikowania tokenów emitowanych przez tokenizator.

Nazwa Typ Opis
@odata.type string:

#Microsoft.Azure.Search.CustomAnalyzer

Fragment identyfikatora URI określający typ analizatora.

charFilters

CharFilterName[]

Lista filtrów znaków używanych do przygotowywania tekstu wejściowego przed jego przetworzeniem przez tokenizator. Mogą na przykład zastąpić niektóre znaki lub symbole. Filtry są uruchamiane w kolejności, w której są wyświetlane.

name

string

Nazwa analizatora. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się tylko znakami alfanumerycznymi i jest ograniczona do 128 znaków.

tokenFilters

TokenFilterName[]

Lista filtrów tokenów używanych do filtrowania lub modyfikowania tokenów generowanych przez tokenizator. Można na przykład określić małe litery filtru, który konwertuje wszystkie znaki na małe litery. Filtry są uruchamiane w kolejności, w której są wyświetlane.

tokenizer

LexicalTokenizerName

Nazwa tokenizatora używanego do dzielenia tekstu ciągłego na sekwencję tokenów, na przykład dzielenie zdania na wyrazy.

DictionaryDecompounderTokenFilter

Rozkłada złożone wyrazy znalezione w wielu językach niemieckich. Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene.

Nazwa Typ Wartość domyślna Opis
@odata.type string:

#Microsoft.Azure.Search.DictionaryDecompounderTokenFilter

Fragment identyfikatora URI określający typ filtru tokenu.

maxSubwordSize

integer

15

Maksymalny rozmiar podordu. Tylko subwords krótsze niż te są zwracane. Domyślną jest 15. Wartość maksymalna to 300.

minSubwordSize

integer

2

Minimalny rozmiar podordu. Tylko podwsieci dłuższe niż te są wyświetlane. Wartość domyślna to 2. Wartość maksymalna to 300.

minWordSize

integer

5

Minimalny rozmiar wyrazu. Tylko wyrazy dłuższe niż te są przetwarzane. Wartość domyślna to 5. Wartość maksymalna to 300.

name

string

Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się wyłącznie znakami alfanumerycznymi i jest ograniczona do 128 znaków.

onlyLongestMatch

boolean

False

Wartość wskazująca, czy do danych wyjściowych ma zostać dodany tylko najdłuższy pasujący podord. Wartość domyślna to false.

wordList

string[]

Lista wyrazów do dopasowania.

DistanceScoringFunction

Definiuje funkcję, która zwiększa wyniki na podstawie odległości od lokalizacji geograficznej.

Nazwa Typ Opis
boost

number

Mnożnik dla nieprzetworzonego wyniku. Musi być liczbą dodatnią, która nie jest równa 1,0.

distance

DistanceScoringParameters

Wartości parametrów dla funkcji oceniania odległości.

fieldName

string

Nazwa pola używanego jako dane wejściowe funkcji oceniania.

interpolation

ScoringFunctionInterpolation

Wartość wskazująca, jak zwiększenie będzie interpolowane w wynikach dokumentu; wartość domyślna to "Liniowa".

type string:

distance

Wskazuje typ funkcji do użycia. Prawidłowe wartości obejmują wielkość, świeżość, odległość i tag. Typ funkcji musi mieć małe litery.

DistanceScoringParameters

Udostępnia wartości parametrów funkcji oceniania odległości.

Nazwa Typ Opis
boostingDistance

number

Odległość w kilometrach od lokalizacji referencyjnej, w której kończy się zwiększający się zakres.

referencePointParameter

string

Nazwa parametru przekazanego w zapytaniach wyszukiwania w celu określenia lokalizacji referencyjnej.

EdgeNGramTokenFilter

Generuje n-gramy danych rozmiarów, zaczynając od przodu lub z tyłu tokenu wejściowego. Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene.

Nazwa Typ Wartość domyślna Opis
@odata.type string:

#Microsoft.Azure.Search.EdgeNGramTokenFilter

Fragment identyfikatora URI określający typ filtru tokenu.

maxGram

integer

2

Maksymalna długość n-grama. Wartość domyślna to 2.

minGram

integer

1

Minimalna długość n-grama. Domyślna wartość wynosi 1. Musi być mniejsza niż wartość maxGram.

name

string

Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się wyłącznie znakami alfanumerycznymi i jest ograniczona do 128 znaków.

side

EdgeNGramTokenFilterSide

front

Określa, z której strony wejściowej ma zostać wygenerowany n-gram. Wartość domyślna to "front".

EdgeNGramTokenFilterSide

Określa, z której strony wejściowej ma zostać wygenerowany n-gram.

Nazwa Typ Opis
back

string

Określa, że n-gram powinny być generowane z tyłu danych wejściowych.

front

string

Określa, że n-gram powinny być generowane z przodu danych wejściowych.

EdgeNGramTokenFilterV2

Generuje n-gramy danych rozmiarów, zaczynając od przodu lub z tyłu tokenu wejściowego. Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene.

Nazwa Typ Wartość domyślna Opis
@odata.type string:

#Microsoft.Azure.Search.EdgeNGramTokenFilterV2

Fragment identyfikatora URI określający typ filtru tokenu.

maxGram

integer

2

Maksymalna długość n-grama. Wartość domyślna to 2. Wartość maksymalna to 300.

minGram

integer

1

Minimalna długość n-grama. Domyślna wartość wynosi 1. Wartość maksymalna to 300. Musi być mniejsza niż wartość maxGram.

name

string

Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się wyłącznie znakami alfanumerycznymi i jest ograniczona do 128 znaków.

side

EdgeNGramTokenFilterSide

front

Określa, z której strony wejściowej ma zostać wygenerowany n-gram. Wartość domyślna to "front".

EdgeNGramTokenizer

Tokenizuje dane wejściowe z krawędzi do n-gramów podanych rozmiarów. Ten tokenizer jest implementowany przy użyciu platformy Apache Lucene.

Nazwa Typ Wartość domyślna Opis
@odata.type string:

#Microsoft.Azure.Search.EdgeNGramTokenizer

Fragment identyfikatora URI określający typ tokenizatora.

maxGram

integer

2

Maksymalna długość n-grama. Wartość domyślna to 2. Maksymalna wartość to 300.

minGram

integer

1

Minimalna długość n-grama. Domyślna wartość wynosi 1. Maksymalna wartość to 300. Musi być mniejsza niż wartość maxGram.

name

string

Nazwa tokenizatora. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się tylko znakami alfanumerycznymi i jest ograniczona do 128 znaków.

tokenChars

TokenCharacterKind[]

Klasy znaków do przechowywania w tokenach.

ElisionTokenFilter

Usuwa elizji. Na przykład "l'avion" (płaszczyzna) zostanie przekonwertowana na "avion" (płaszczyzna). Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene.

Nazwa Typ Opis
@odata.type string:

#Microsoft.Azure.Search.ElisionTokenFilter

Fragment identyfikatora URI określający typ filtru tokenu.

articles

string[]

Zestaw artykułów do usunięcia.

name

string

Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się wyłącznie znakami alfanumerycznymi i jest ograniczona do 128 znaków.

ExhaustiveKnnParameters

Zawiera parametry specyficzne dla wyczerpującego algorytmu KNN.

Nazwa Typ Opis
metric

VectorSearchAlgorithmMetric

Metryka podobieństwa do użycia dla porównań wektorów.

ExhaustiveKnnVectorSearchAlgorithmConfiguration

Zawiera opcje konfiguracji specyficzne dla wyczerpującego algorytmu KNN używanego podczas wykonywania zapytań, co spowoduje przeprowadzenie wyszukiwania siłowego w całym indeksie wektorów.

Nazwa Typ Opis
exhaustiveKnnParameters

ExhaustiveKnnParameters

Zawiera parametry specyficzne dla wyczerpującego algorytmu KNN.

kind string:

exhaustiveKnn

Nazwa rodzaju algorytmu skonfigurowanego do użycia z wyszukiwaniem wektorowym.

name

string

Nazwa do skojarzenia z tą konkretną konfiguracją.

FreshnessScoringFunction

Definiuje funkcję, która zwiększa wyniki na podstawie wartości pola daty i godziny.

Nazwa Typ Opis
boost

number

Mnożnik dla nieprzetworzonego wyniku. Musi być liczbą dodatnią, która nie jest równa 1,0.

fieldName

string

Nazwa pola używanego jako dane wejściowe funkcji oceniania.

freshness

FreshnessScoringParameters

Wartości parametrów dla funkcji oceniania świeżości.

interpolation

ScoringFunctionInterpolation

Wartość wskazująca, jak zwiększenie będzie interpolowane w wynikach dokumentu; wartość domyślna to "Liniowa".

type string:

freshness

Wskazuje typ funkcji do użycia. Prawidłowe wartości obejmują wielkość, świeżość, odległość i tag. Typ funkcji musi mieć małe litery.

FreshnessScoringParameters

Udostępnia wartości parametrów funkcji oceniania świeżości.

Nazwa Typ Opis
boostingDuration

string

Okres wygaśnięcia, po którym zwiększenie zostanie zatrzymane dla określonego dokumentu.

HnswParameters

Zawiera parametry specyficzne dla algorytmu HNSW.

Nazwa Typ Wartość domyślna Opis
efConstruction

integer

400

Rozmiar listy dynamicznej zawierającej najbliższych sąsiadów, który jest używany w czasie indeksu. Zwiększenie tego parametru może poprawić jakość indeksu, kosztem zwiększonego czasu indeksowania. W pewnym momencie zwiększenie tego parametru prowadzi do zmniejszenia zwrotów.

efSearch

integer

500

Rozmiar listy dynamicznej zawierającej najbliższych sąsiadów, który jest używany w czasie wyszukiwania. Zwiększenie tego parametru może poprawić wyniki wyszukiwania kosztem wolniejszego wyszukiwania. W pewnym momencie zwiększenie tego parametru prowadzi do zmniejszenia zwrotów.

m

integer

4

Liczba łączy dwukierunkowych utworzonych dla każdego nowego elementu podczas budowy. Zwiększenie tej wartości parametru może poprawić czas wycofywania i zmniejszyć czas pobierania zestawów danych z wysokim wymiarem wewnętrznym kosztem zwiększonego zużycia pamięci i dłuższego czasu indeksowania.

metric

VectorSearchAlgorithmMetric

Metryka podobieństwa do użycia dla porównań wektorów.

HnswVectorSearchAlgorithmConfiguration

Zawiera opcje konfiguracji specyficzne dla algorytmu najbliższego sąsiada HNSW używanego podczas indeksowania i wykonywania zapytań. Algorytm HNSW oferuje możliwą do dostosowania kompromis między szybkością wyszukiwania a dokładnością.

Nazwa Typ Opis
hnswParameters

HnswParameters

Zawiera parametry specyficzne dla algorytmu HNSW.

kind string:

hnsw

Nazwa rodzaju algorytmu skonfigurowanego do użycia z wyszukiwaniem wektorowym.

name

string

Nazwa do skojarzenia z tą konkretną konfiguracją.

KeepTokenFilter

Filtr tokenu, który przechowuje tylko tokeny z tekstem zawartym na określonej liście wyrazów. Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene.

Nazwa Typ Wartość domyślna Opis
@odata.type string:

#Microsoft.Azure.Search.KeepTokenFilter

Fragment identyfikatora URI określający typ filtru tokenu.

keepWords

string[]

Lista wyrazów do zachowania.

keepWordsCase

boolean

False

Wartość wskazująca, czy najpierw ma być małe litery wszystkich wyrazów. Wartość domyślna to false.

name

string

Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się wyłącznie znakami alfanumerycznymi i jest ograniczona do 128 znaków.

KeywordMarkerTokenFilter

Oznacza terminy jako słowa kluczowe. Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene.

Nazwa Typ Wartość domyślna Opis
@odata.type string:

#Microsoft.Azure.Search.KeywordMarkerTokenFilter

Fragment identyfikatora URI określający typ filtru tokenu.

ignoreCase

boolean

False

Wartość wskazująca, czy ignorować wielkość liter. Jeśli wartość true, wszystkie wyrazy są najpierw konwertowane na małe litery. Wartość domyślna to false.

keywords

string[]

Lista wyrazów do oznaczania jako słów kluczowych.

name

string

Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się wyłącznie znakami alfanumerycznymi i jest ograniczona do 128 znaków.

KeywordTokenizer

Emituje całe dane wejściowe jako pojedynczy token. Ten tokenizer jest implementowany przy użyciu platformy Apache Lucene.

Nazwa Typ Wartość domyślna Opis
@odata.type string:

#Microsoft.Azure.Search.KeywordTokenizer

Fragment identyfikatora URI określający typ tokenizatora.

bufferSize

integer

256

Rozmiar buforu odczytu w bajtach. Wartość domyślna to 256.

name

string

Nazwa tokenizatora. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się tylko znakami alfanumerycznymi i jest ograniczona do 128 znaków.

KeywordTokenizerV2

Emituje całe dane wejściowe jako pojedynczy token. Ten tokenizer jest implementowany przy użyciu platformy Apache Lucene.

Nazwa Typ Wartość domyślna Opis
@odata.type string:

#Microsoft.Azure.Search.KeywordTokenizerV2

Fragment identyfikatora URI określający typ tokenizatora.

maxTokenLength

integer

256

Maksymalna długość tokenu. Wartość domyślna to 256. Tokeny dłuższe niż maksymalna długość są podzielone. Maksymalna długość tokenu, która może być używana, to 300 znaków.

name

string

Nazwa tokenizatora. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się tylko znakami alfanumerycznymi i jest ograniczona do 128 znaków.

LengthTokenFilter

Usuwa wyrazy, które są za długie lub zbyt krótkie. Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene.

Nazwa Typ Wartość domyślna Opis
@odata.type string:

#Microsoft.Azure.Search.LengthTokenFilter

Fragment identyfikatora URI określający typ filtru tokenu.

max

integer

300

Maksymalna długość znaków. Wartość domyślna i maksymalna to 300.

min

integer

0

Minimalna długość znaków. Wartość domyślna to 0. Wartość maksymalna to 300. Musi być mniejsza niż wartość maksymalna.

name

string

Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się wyłącznie znakami alfanumerycznymi i jest ograniczona do 128 znaków.

LexicalAnalyzerName

Definiuje nazwy wszystkich analizatorów tekstu obsługiwanych przez wyszukiwarkę.

Nazwa Typ Opis
ar.lucene

string

Analizator Lucene dla języka arabskiego.

ar.microsoft

string

Analizator firmy Microsoft dla języka arabskiego.

bg.lucene

string

Analizator Lucene dla Bułgarskiego.

bg.microsoft

string

Analizator firmy Microsoft dla języka bułgarskiego.

bn.microsoft

string

Analizator firmy Microsoft dla Bangla.

ca.lucene

string

Analizator Lucene dla Katalończyka.

ca.microsoft

string

Analizator firmy Microsoft dla katalońskiego.

cs.lucene

string

Analizator Lucene dla języka czeskiego.

cs.microsoft

string

Analizator firmy Microsoft dla języka czeskiego.

da.lucene

string

Analizator Lucene dla języka duńskiego.

da.microsoft

string

Analizator firmy Microsoft dla języka duńskiego.

de.lucene

string

Analizator Lucene dla języka niemieckiego.

de.microsoft

string

Analizator firmy Microsoft dla języka niemieckiego.

el.lucene

string

Analizator Lucene dla języka greckiego.

el.microsoft

string

Analizator firmy Microsoft dla języka greckiego.

en.lucene

string

Analizator Lucene dla języka angielskiego.

en.microsoft

string

Microsoft analyzer dla języka angielskiego.

es.lucene

string

Analizator Lucene dla języka hiszpańskiego.

es.microsoft

string

Analizator firmy Microsoft dla języka hiszpańskiego.

et.microsoft

string

Analizator firmy Microsoft dla języka estońskiego.

eu.lucene

string

Analizator Lucene dla Basków.

fa.lucene

string

Analizator Lucene dla Perskiego.

fi.lucene

string

Analizator Lucene dla fińskiego.

fi.microsoft

string

Analizator firmy Microsoft dla języka fińskiego.

fr.lucene

string

Analizator Lucene dla języka francuskiego.

fr.microsoft

string

Analizator firmy Microsoft dla języka francuskiego.

ga.lucene

string

Analizator Lucene dla Irlandii.

gl.lucene

string

Analizator Lucene dla Galicji.

gu.microsoft

string

Analizator firmy Microsoft dla Gujarati.

he.microsoft

string

Analizator firmy Microsoft dla języka hebrajskiego.

hi.lucene

string

Analizator Lucene dla języka hindi.

hi.microsoft

string

Analizator firmy Microsoft dla języka hindi.

hr.microsoft

string

Analizator firmy Microsoft dla Chorwacji.

hu.lucene

string

Analizator Lucene dla języka węgierskiego.

hu.microsoft

string

Analizator firmy Microsoft dla języka węgierskiego.

hy.lucene

string

Analizator Lucene dla Ormiańskiego.

id.lucene

string

Analizator Lucene dla indonezyjskiego.

id.microsoft

string

Analizator firmy Microsoft dla indonezyjskiego (Bahasa).

is.microsoft

string

Analizator firmy Microsoft dla islandii.

it.lucene

string

Analizator Lucene dla Włocha.

it.microsoft

string

Analizator firmy Microsoft dla języka włoskiego.

ja.lucene

string

Analizator Lucene dla języka japońskiego.

ja.microsoft

string

Analizator firmy Microsoft dla języka japońskiego.

keyword

string

Traktuje całą zawartość pola jako pojedynczy token. Jest to przydatne w przypadku danych, takich jak kody pocztowe, identyfikatory i niektóre nazwy produktów. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html

kn.microsoft

string

Microsoft analyzer dla Kannada.

ko.lucene

string

Analizator Lucene dla języka koreańskiego.

ko.microsoft

string

Analizator firmy Microsoft dla języka koreańskiego.

lt.microsoft

string

Analizator firmy Microsoft dla Litwy.

lv.lucene

string

Analizator Lucene dla Łotewskiego.

lv.microsoft

string

Analizator firmy Microsoft dla Łotewskiego.

ml.microsoft

string

Analizator firmy Microsoft dla malajalamu.

mr.microsoft

string

Microsoft analyzer dla Marathi.

ms.microsoft

string

Microsoft analyzer dla Malay (łaciński).

nb.microsoft

string

Analizator firmy Microsoft dla języka norweskiego (Bokmål).

nl.lucene

string

Analizator Lucene dla Holendra.

nl.microsoft

string

Analizator firmy Microsoft dla języka holenderskiego.

no.lucene

string

Analizator Lucene dla norweskiego.

pa.microsoft

string

Analizator firmy Microsoft dla Punjabi.

pattern

string

Elastycznie oddziela tekst na terminy za pomocą wzorca wyrażenia regularnego. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html

pl.lucene

string

Analizator Lucene dla polski.

pl.microsoft

string

Microsoft analyzer dla polski.

pt-BR.lucene

string

Analizator Lucene dla portugalskiego (Brazylia).

pt-BR.microsoft

string

Analizator firmy Microsoft dla języka portugalskiego (Brazylia).

pt-PT.lucene

string

Analizator Lucene dla portugalskiego (Portugalia).

pt-PT.microsoft

string

Analizator firmy Microsoft dla portugalskiego (Portugalia).

ro.lucene

string

Analizator Lucene dla rumuńskiego.

ro.microsoft

string

Analizator firmy Microsoft dla rumunii.

ru.lucene

string

Analizator Lucene dla języka rosyjskiego.

ru.microsoft

string

Analizator firmy Microsoft dla języka rosyjskiego.

simple

string

Dzieli tekst na litery inne niż litery i konwertuje je na małe litery. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html

sk.microsoft

string

Analizator firmy Microsoft dla języka słowackiego.

sl.microsoft

string

Analizator firmy Microsoft dla Słowenii.

sr-cyrillic.microsoft

string

Analizator firmy Microsoft dla serbskiego (cyrylica).

sr-latin.microsoft

string

Analizator firmy Microsoft dla serbskiego (łacińskiego).

standard.lucene

string

Analizator Lucene w warstwie Standardowa.

standardasciifolding.lucene

string

Standardowy analizator Lucene składania ASCII. Zobacz https://docs.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers

stop

string

Dzieli tekst na litery inne niż litery; Stosuje małe litery i filtry tokenów stopword. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html

sv.lucene

string

Analizator Lucene dla szwedzkiego.

sv.microsoft

string

Analizator firmy Microsoft dla szwedzkiego.

ta.microsoft

string

Analizator firmy Microsoft dla Tamil.

te.microsoft

string

Analizator firmy Microsoft dla usługi Telugu.

th.lucene

string

Analizator Lucene dla języka tajskiego.

th.microsoft

string

Analizator firmy Microsoft dla języka tajskiego.

tr.lucene

string

Analizator Lucene dla języka tureckiego.

tr.microsoft

string

Analizator firmy Microsoft dla języka tureckiego.

uk.microsoft

string

Analizator firmy Microsoft dla Ukrainy.

ur.microsoft

string

Analizator firmy Microsoft dla urdu.

vi.microsoft

string

Analizator firmy Microsoft dla wietnamskich.

whitespace

string

Analizator używający tokenizatora odstępów. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html

zh-Hans.lucene

string

Analizator Lucene dla języka chińskiego (uproszczony).

zh-Hans.microsoft

string

Analizator firmy Microsoft dla języka chińskiego (uproszczony).

zh-Hant.lucene

string

Analizator Lucene dla języka chińskiego (tradycyjny).

zh-Hant.microsoft

string

Analizator firmy Microsoft dla języka chińskiego (tradycyjny).

LexicalTokenizerName

Definiuje nazwy wszystkich tokenizatorów obsługiwanych przez wyszukiwarkę.

Nazwa Typ Opis
classic

string

Tokenizator oparty na gramatyce, który jest odpowiedni do przetwarzania większości dokumentów w języku europejskim. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html

edgeNGram

string

Tokenizuje dane wejściowe z krawędzi do n-gramów podanych rozmiarów. Zobacz https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html

keyword_v2

string

Emituje całe dane wejściowe jako pojedynczy token. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html

letter

string

Dzieli tekst na litery inne niż litery. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html

lowercase

string

Dzieli tekst na litery inne niż litery i konwertuje je na małe litery. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html

microsoft_language_stemming_tokenizer

string

Dzieli tekst przy użyciu reguł specyficznych dla języka i zmniejsza liczbę wyrazów do ich formularzy podstawowych.

microsoft_language_tokenizer

string

Dzieli tekst przy użyciu reguł specyficznych dla języka.

nGram

string

Tokenizuje dane wejściowe do n-gramów podanych rozmiarów. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html

path_hierarchy_v2

string

Tokenizer dla hierarchii podobnych do ścieżki. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html

pattern

string

Tokenizer, który używa dopasowania wzorca regularnego do konstruowania odrębnych tokenów. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html

standard_v2

string

Analizator Lucene w warstwie Standardowa; Składa się ze standardowego tokenizatora, małych liter i filtru zatrzymania. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html

uax_url_email

string

Tokenizuje adresy URL i wiadomości e-mail jako jeden token. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html

whitespace

string

Dzieli tekst na białe znaki. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html

LimitTokenFilter

Ogranicza liczbę tokenów podczas indeksowania. Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene.

Nazwa Typ Wartość domyślna Opis
@odata.type string:

#Microsoft.Azure.Search.LimitTokenFilter

Fragment identyfikatora URI określający typ filtru tokenu.

consumeAllTokens

boolean

False

Wartość wskazująca, czy wszystkie tokeny z danych wejściowych muszą być używane, nawet jeśli parametr maxTokenCount zostanie osiągnięty. Wartość domyślna to false.

maxTokenCount

integer

1

Maksymalna liczba tokenów do utworzenia. Domyślna wartość wynosi 1.

name

string

Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się wyłącznie znakami alfanumerycznymi i jest ograniczona do 128 znaków.

LuceneStandardAnalyzer

Standardowy analizator Apache Lucene; Składa się ze standardowego tokenizatora, małych liter i filtru zatrzymania.

Nazwa Typ Wartość domyślna Opis
@odata.type string:

#Microsoft.Azure.Search.StandardAnalyzer

Fragment identyfikatora URI określający typ analizatora.

maxTokenLength

integer

255

Maksymalna długość tokenu. Wartość domyślna to 255. Tokeny dłuższe niż maksymalna długość są podzielone. Maksymalna długość tokenu, która może być używana, to 300 znaków.

name

string

Nazwa analizatora. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się tylko znakami alfanumerycznymi i jest ograniczona do 128 znaków.

stopwords

string[]

Lista stopwords.

LuceneStandardTokenizer

Przerywa tekst po regułach segmentacji tekstu Unicode. Ten tokenizer jest implementowany przy użyciu platformy Apache Lucene.

Nazwa Typ Wartość domyślna Opis
@odata.type string:

#Microsoft.Azure.Search.StandardTokenizer

Fragment identyfikatora URI określający typ tokenizatora.

maxTokenLength

integer

255

Maksymalna długość tokenu. Wartość domyślna to 255. Tokeny dłuższe niż maksymalna długość są podzielone.

name

string

Nazwa tokenizatora. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się wyłącznie znakami alfanumerycznymi i jest ograniczona do 128 znaków.

LuceneStandardTokenizerV2

Dzieli tekst zgodnie z regułami segmentacji tekstu Unicode. Ten tokenizer jest implementowany przy użyciu platformy Apache Lucene.

Nazwa Typ Wartość domyślna Opis
@odata.type string:

#Microsoft.Azure.Search.StandardTokenizerV2

Fragment identyfikatora URI określający typ tokenizatora.

maxTokenLength

integer

255

Maksymalna długość tokenu. Wartość domyślna to 255. Tokeny dłuższe niż maksymalna długość są dzielone. Maksymalna długość tokenu, która może być używana, to 300 znaków.

name

string

Nazwa tokenizatora. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się wyłącznie znakami alfanumerycznymi i jest ograniczona do 128 znaków.

MagnitudeScoringFunction

Definiuje funkcję, która zwiększa wyniki na podstawie wielkości pola liczbowego.

Nazwa Typ Opis
boost

number

Mnożnik dla nieprzetworzonego wyniku. Musi być liczbą dodatnią, która nie jest równa 1,0.

fieldName

string

Nazwa pola używanego jako dane wejściowe funkcji oceniania.

interpolation

ScoringFunctionInterpolation

Wartość wskazująca, jak zwiększenie będzie interpolowane w wynikach dokumentu; wartość domyślna to "Liniowa".

magnitude

MagnitudeScoringParameters

Wartości parametrów dla funkcji oceniania wielkości.

type string:

magnitude

Wskazuje typ funkcji do użycia. Prawidłowe wartości obejmują wielkość, świeżość, odległość i tag. Typ funkcji musi mieć małe litery.

MagnitudeScoringParameters

Udostępnia wartości parametrów funkcji oceniania wielkości.

Nazwa Typ Opis
boostingRangeEnd

number

Wartość pola, w której kończy się zwiększenie.

boostingRangeStart

number

Wartość pola, w której rozpoczyna się zwiększanie.

constantBoostBeyondRange

boolean

Wartość wskazująca, czy zastosować stały impuls dla wartości pól poza wartością końcową zakresu; wartość domyślna to false.

MappingCharFilter

Filtr znaków, który stosuje mapowania zdefiniowane za pomocą opcji mapowań. Dopasowanie jest chciwy (najdłuższy wzór pasujący w danym punkcie wygrywa). Zastąpienie może być pustym ciągiem. Ten filtr znaków jest implementowany przy użyciu platformy Apache Lucene.

Nazwa Typ Opis
@odata.type string:

#Microsoft.Azure.Search.MappingCharFilter

Fragment identyfikatora URI określający typ filtru znaków.

mappings

string[]

Lista mapowań w następującym formacie: "a=>b" (wszystkie wystąpienia znaku "a" zostaną zastąpione znakiem "b").

name

string

Nazwa filtru char. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się tylko znakami alfanumerycznymi i jest ograniczona do 128 znaków.

MicrosoftLanguageStemmingTokenizer

Dzieli tekst przy użyciu reguł specyficznych dla języka i zmniejsza liczbę wyrazów do ich formularzy podstawowych.

Nazwa Typ Wartość domyślna Opis
@odata.type string:

#Microsoft.Azure.Search.MicrosoftLanguageStemmingTokenizer

Fragment identyfikatora URI określający typ tokenizatora.

isSearchTokenizer

boolean

False

Wartość wskazująca sposób użycia tokenizatora. Ustaw wartość true, jeśli jest używana jako tokenizer wyszukiwania, ustaw wartość false, jeśli jest używana jako tokenizer indeksowania. Wartość domyślna to false.

language

MicrosoftStemmingTokenizerLanguage

Język do użycia. Wartość domyślna to angielski.

maxTokenLength

integer

255

Maksymalna długość tokenu. Tokeny dłuższe niż maksymalna długość są podzielone. Maksymalna długość tokenu, która może być używana, to 300 znaków. Tokeny dłuższe niż 300 znaków są najpierw podzielone na tokeny o długości 300, a następnie każdy z tych tokenów jest podzielony na podstawie zestawu maksymalnej długości tokenu. Wartość domyślna to 255.

name

string

Nazwa tokenizatora. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się tylko znakami alfanumerycznymi i jest ograniczona do 128 znaków.

MicrosoftLanguageTokenizer

Dzieli tekst przy użyciu reguł specyficznych dla języka.

Nazwa Typ Wartość domyślna Opis
@odata.type string:

#Microsoft.Azure.Search.MicrosoftLanguageTokenizer

Fragment identyfikatora URI określający typ tokenizatora.

isSearchTokenizer

boolean

False

Wartość wskazująca sposób użycia tokenizatora. Ustaw wartość true, jeśli jest używana jako tokenizer wyszukiwania, ustaw wartość false, jeśli jest używana jako tokenizer indeksowania. Wartość domyślna to false.

language

MicrosoftTokenizerLanguage

Język do użycia. Wartość domyślna to angielski.

maxTokenLength

integer

255

Maksymalna długość tokenu. Tokeny dłuższe niż maksymalna długość są podzielone. Maksymalna długość tokenu, która może być używana, to 300 znaków. Tokeny dłuższe niż 300 znaków są najpierw podzielone na tokeny o długości 300, a następnie każdy z tych tokenów jest podzielony na podstawie zestawu maksymalnej długości tokenu. Wartość domyślna to 255.

name

string

Nazwa tokenizatora. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się tylko znakami alfanumerycznymi i jest ograniczona do 128 znaków.

MicrosoftStemmingTokenizerLanguage

Listy języków obsługiwanych przez tokenizatora macierzystego języka firmy Microsoft.

Nazwa Typ Opis
arabic

string

Wybiera tokenizatora macierzystego firmy Microsoft dla języka arabskiego.

bangla

string

Wybiera tokenizatora macierzystego firmy Microsoft dla Bangla.

bulgarian

string

Wybiera tokenizatora macierzystego firmy Microsoft dla języka bułgarskiego.

catalan

string

Wybiera tokenizatora macierzystego firmy Microsoft dla języka katalońskiego.

croatian

string

Wybiera tokenizatora macierzystego firmy Microsoft dla Chorwacji.

czech

string

Wybiera tokenizatora macierzystego firmy Microsoft dla języka czeskiego.

danish

string

Wybiera tokenizatora macierzystego firmy Microsoft dla języka duńskiego.

dutch

string

Wybiera tokenizatora macierzystego firmy Microsoft dla języka holenderskiego.

english

string

Wybiera tokenizatora macierzystego firmy Microsoft dla języka angielskiego.

estonian

string

Wybiera tokenizatora macierzystego firmy Microsoft dla języka estońskiego.

finnish

string

Wybiera tokenizatora macierzystego firmy Microsoft dla języka fińskiego.

french

string

Wybiera tokenizatora macierzystego firmy Microsoft dla języka francuskiego.

german

string

Wybiera tokenizatora macierzystego firmy Microsoft dla języka niemieckiego.

greek

string

Wybiera tokenizatora macierzystego firmy Microsoft dla języka greckiego.

gujarati

string

Wybiera tokenizatora macierzystego firmy Microsoft dla Gujarati.

hebrew

string

Wybiera tokenizatora macierzystego firmy Microsoft dla języka hebrajskiego.

hindi

string

Wybiera tokenizatora macierzystego firmy Microsoft dla języka hindi.

hungarian

string

Wybiera tokenizatora macierzystego firmy Microsoft dla języka węgierskiego.

icelandic

string

Wybiera tokenizatora macierzystego firmy Microsoft dla Islandii.

indonesian

string

Wybiera tokenizatora macierzystego firmy Microsoft dla języka indonezyjskiego.

italian

string

Wybiera wystawcę tokenizatora macierzystego firmy Microsoft dla języka włoskiego.

kannada

string

Wybiera tokenizatora macierzystego firmy Microsoft dla kannady.

latvian

string

Wybiera tokenizatora macierzystego firmy Microsoft dla Łotewskiego.

lithuanian

string

Wybiera tokenizatora macierzystego firmy Microsoft dla Litwy.

malay

string

Wybiera tokenizatora macierzystego firmy Microsoft dla Malay.

malayalam

string

Wybiera tokenizatora macierzystego firmy Microsoft dla malajlamu.

marathi

string

Wybiera tokenizatora macierzystego firmy Microsoft dla marathi.

norwegianBokmaal

string

Wybiera tokenizatora macierzystego firmy Microsoft dla języka norweskiego (Bokmål).

polish

string

Wybiera tokenizatora macierzystego firmy Microsoft dla języka polskiego.

portuguese

string

Wybiera tokenizatora macierzystego firmy Microsoft dla języka portugalskiego.

portugueseBrazilian

string

Wybiera tokenizatora macierzystego firmy Microsoft dla języka portugalskiego (Brazylia).

punjabi

string

Wybiera tokenizatora macierzystego firmy Microsoft dla Punjabi.

romanian

string

Wybiera tokenizatora macierzystego firmy Microsoft dla języka rumuńskiego.

russian

string

Wybiera tokenizatora macierzystego firmy Microsoft dla języka rosyjskiego.

serbianCyrillic

string

Wybiera tokenizatora macierzystego firmy Microsoft dla serbskiego (cyrylica).

serbianLatin

string

Wybiera tokenizatora macierzystego firmy Microsoft dla serbskiego (łacińskiego).

slovak

string

Wybiera tokenizatora macierzystego firmy Microsoft dla języka słowackiego.

slovenian

string

Wybiera tokenizatora macierzystego firmy Microsoft dla słowenii.

spanish

string

Wybiera tokenizatora macierzystego firmy Microsoft dla języka hiszpańskiego.

swedish

string

Wybiera tokenizatora macierzystego firmy Microsoft dla języka szwedzkiego.

tamil

string

Wybiera tokenizatora macierzystego firmy Microsoft dla Tamilu.

telugu

string

Wybiera tokenizatora macierzystego firmy Microsoft dla aplikacji Telugu.

turkish

string

Wybiera tokenizatora macierzystego firmy Microsoft dla języka tureckiego.

ukrainian

string

Wybiera tokenizatora macierzystego firmy Microsoft dla języka ukraińskiego.

urdu

string

Wybiera wystawcę tokenizatora macierzystego firmy Microsoft dla urdu.

MicrosoftTokenizerLanguage

Listy języków obsługiwanych przez tokenizator języka firmy Microsoft.

Nazwa Typ Opis
bangla

string

Wybiera tokenizator firmy Microsoft dla Bangla.

bulgarian

string

Wybiera tokenizator firmy Microsoft dla języka bułgarskiego.

catalan

string

Wybiera tokenizator firmy Microsoft dla języka katalońskiego.

chineseSimplified

string

Wybiera tokenizator firmy Microsoft dla języka chińskiego (uproszczony).

chineseTraditional

string

Wybiera tokenizator firmy Microsoft dla języka chińskiego (tradycyjny).

croatian

string

Wybiera tokenizator firmy Microsoft dla Chorwacji.

czech

string

Wybiera tokenizator firmy Microsoft dla języka czeskiego.

danish

string

Wybiera tokenizator firmy Microsoft dla języka duńskiego.

dutch

string

Wybiera tokenizator firmy Microsoft dla języka holenderskiego.

english

string

Wybiera tokenizator firmy Microsoft dla języka angielskiego.

french

string

Wybiera tokenizator firmy Microsoft dla języka francuskiego.

german

string

Wybiera tokenizator firmy Microsoft dla języka niemieckiego.

greek

string

Wybiera tokenizator firmy Microsoft dla języka greckiego.

gujarati

string

Wybiera tokenizator firmy Microsoft dla gudżarati.

hindi

string

Wybiera tokenizator firmy Microsoft dla języka hindi.

icelandic

string

Wybiera tokenizator firmy Microsoft dla islandii.

indonesian

string

Wybiera tokenizator firmy Microsoft dla języka indonezyjskiego.

italian

string

Wybiera tokenizator firmy Microsoft dla języka włoskiego.

japanese

string

Wybiera tokenizator firmy Microsoft dla języka japońskiego.

kannada

string

Wybiera tokenizator firmy Microsoft dla aplikacji Kannada.

korean

string

Wybiera tokenizator firmy Microsoft dla języka koreańskiego.

malay

string

Wybiera tokenizator firmy Microsoft dla malaji.

malayalam

string

Wybiera tokenizator firmy Microsoft dla malajalamu.

marathi

string

Wybiera tokenizator firmy Microsoft dla programu Marathi.

norwegianBokmaal

string

Wybiera tokenizator firmy Microsoft dla języka norweskiego (Bokmål).

polish

string

Wybiera tokenizator firmy Microsoft dla języka polskiego.

portuguese

string

Wybiera tokenizator firmy Microsoft dla języka portugalskiego.

portugueseBrazilian

string

Wybiera tokenizator firmy Microsoft dla języka portugalskiego (Brazylia).

punjabi

string

Wybiera tokenizator firmy Microsoft dla Punjabi.

romanian

string

Wybiera tokenizator firmy Microsoft dla języka rumuńskiego.

russian

string

Wybiera tokenizator firmy Microsoft dla języka rosyjskiego.

serbianCyrillic

string

Wybiera tokenizator firmy Microsoft dla serbskiego (cyrylica).

serbianLatin

string

Wybiera tokenizator firmy Microsoft dla języka serbskiego (łacińskiego).

slovenian

string

Wybiera tokenizator firmy Microsoft dla słowenii.

spanish

string

Wybiera tokenizator firmy Microsoft dla języka hiszpańskiego.

swedish

string

Wybiera tokenizator firmy Microsoft dla języka szwedzkiego.

tamil

string

Wybiera tokenizator firmy Microsoft dla Tamilu.

telugu

string

Wybiera tokenizator firmy Microsoft dla aplikacji Telugu.

thai

string

Wybiera tokenizator firmy Microsoft dla języka tajskiego.

ukrainian

string

Wybiera tokenizator firmy Microsoft dla języka ukraińskiego.

urdu

string

Wybiera tokenizator firmy Microsoft dla urdu.

vietnamese

string

Wybiera tokenizator firmy Microsoft dla wietnamskich.

NGramTokenFilter

Generuje n-gramy dla danego rozmiaru. Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene.

Nazwa Typ Wartość domyślna Opis
@odata.type string:

#Microsoft.Azure.Search.NGramTokenFilter

Fragment identyfikatora URI określający typ filtru tokenu.

maxGram

integer

2

Maksymalna długość n-grama. Wartość domyślna to 2.

minGram

integer

1

Minimalna długość n-grama. Domyślna wartość wynosi 1. Musi być mniejsza niż wartość maxGram.

name

string

Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się wyłącznie znakami alfanumerycznymi i jest ograniczona do 128 znaków.

NGramTokenFilterV2

Generuje n-gramy dla danego rozmiaru. Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene.

Nazwa Typ Wartość domyślna Opis
@odata.type string:

#Microsoft.Azure.Search.NGramTokenFilterV2

Fragment identyfikatora URI określający typ filtru tokenu.

maxGram

integer

2

Maksymalna długość n-grama. Wartość domyślna to 2. Wartość maksymalna to 300.

minGram

integer

1

Minimalna długość n-grama. Domyślna wartość wynosi 1. Wartość maksymalna to 300. Musi być mniejsza niż wartość maxGram.

name

string

Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się wyłącznie znakami alfanumerycznymi i jest ograniczona do 128 znaków.

NGramTokenizer

Tokenizuje dane wejściowe do n-gramów podanych rozmiarów. Ten tokenizer jest implementowany przy użyciu platformy Apache Lucene.

Nazwa Typ Wartość domyślna Opis
@odata.type string:

#Microsoft.Azure.Search.NGramTokenizer

Fragment identyfikatora URI określający typ tokenizatora.

maxGram

integer

2

Maksymalna długość n-grama. Wartość domyślna to 2. Maksymalna wartość to 300.

minGram

integer

1

Minimalna długość n-grama. Domyślna wartość wynosi 1. Maksymalna wartość to 300. Musi być mniejsza niż wartość maxGram.

name

string

Nazwa tokenizatora. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się tylko znakami alfanumerycznymi i jest ograniczona do 128 znaków.

tokenChars

TokenCharacterKind[]

Klasy znaków do przechowywania w tokenach.

PathHierarchyTokenizerV2

Tokenizer dla hierarchii podobnych do ścieżki. Ten tokenizer jest implementowany przy użyciu platformy Apache Lucene.

Nazwa Typ Wartość domyślna Opis
@odata.type string:

#Microsoft.Azure.Search.PathHierarchyTokenizerV2

Fragment identyfikatora URI określający typ tokenizatora.

delimiter

string

/

Znak ogranicznika do użycia. Wartość domyślna to "/".

maxTokenLength

integer

300

Maksymalna długość tokenu. Wartość domyślna i maksymalna to 300.

name

string

Nazwa tokenizatora. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się tylko znakami alfanumerycznymi i jest ograniczona do 128 znaków.

replacement

string

/

Wartość, która w przypadku ustawienia zastępuje znak ogranicznika. Wartość domyślna to "/".

reverse

boolean

False

Wartość wskazująca, czy wygenerować tokeny w odwrotnej kolejności. Wartość domyślna to false.

skip

integer

0

Liczba tokenów początkowych do pominięcia. Wartość domyślna to 0.

PatternAnalyzer

Elastycznie oddziela tekst na terminy za pomocą wzorca wyrażenia regularnego. Ten analizator jest implementowany przy użyciu platformy Apache Lucene.

Nazwa Typ Wartość domyślna Opis
@odata.type string:

#Microsoft.Azure.Search.PatternAnalyzer

Fragment identyfikatora URI określający typ analizatora.

flags

RegexFlags

Flagi wyrażeń regularnych.

lowercase

boolean

True

Wartość wskazująca, czy terminy powinny być małe litery. Wartość domyślna to „true”.

name

string

Nazwa analizatora. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się tylko znakami alfanumerycznymi i jest ograniczona do 128 znaków.

pattern

string

\W+

Wzorzec wyrażenia regularnego odpowiadający separatorom tokenów. Wartość domyślna to wyrażenie zgodne z co najmniej jednym znakiem innym niż słowo.

stopwords

string[]

Lista stopwords.

PatternCaptureTokenFilter

Używa wyrażeń regularnych Języka Java do emitowania wielu tokenów — jednej dla każdej grupy przechwytywania w co najmniej jednym wzorze. Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene.

Nazwa Typ Wartość domyślna Opis
@odata.type string:

#Microsoft.Azure.Search.PatternCaptureTokenFilter

Fragment identyfikatora URI określający typ filtru tokenu.

name

string

Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się wyłącznie znakami alfanumerycznymi i jest ograniczona do 128 znaków.

patterns

string[]

Lista wzorców, które mają być zgodne z poszczególnymi tokenami.

preserveOriginal

boolean

True

Wartość wskazująca, czy zwracać oryginalny token, nawet jeśli jeden z wzorców jest zgodny. Wartość domyślna to „true”.

PatternReplaceCharFilter

Filtr znaków, który zastępuje znaki w ciągu wejściowym. Używa wyrażenia regularnego do identyfikowania sekwencji znaków w celu zachowania i wzorca zastępczego w celu zidentyfikowania znaków do zastąpienia. Na przykład, biorąc pod uwagę tekst wejściowy "aa bb aa bb", wzorzec "(aa)\s+(bb)" i zastąpienie "$1#$2", wynik będzie "aa#bb aa#bb". Ten filtr znaków jest implementowany przy użyciu platformy Apache Lucene.

Nazwa Typ Opis
@odata.type string:

#Microsoft.Azure.Search.PatternReplaceCharFilter

Fragment identyfikatora URI określający typ filtru znaków.

name

string

Nazwa filtru char. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się tylko znakami alfanumerycznymi i jest ograniczona do 128 znaków.

pattern

string

Wzorzec wyrażenia regularnego.

replacement

string

Tekst zastępczy.

PatternReplaceTokenFilter

Filtr znaków, który zastępuje znaki w ciągu wejściowym. Używa wyrażenia regularnego do identyfikowania sekwencji znaków w celu zachowania i wzorca zamiany w celu zidentyfikowania znaków do zastąpienia. Na przykład, biorąc pod uwagę tekst wejściowy "aa bb aa bb", wzorzec "(aa)\s+(bb)" i zastąpienie wartości "$1#$2", wynikiem będzie "aa#bb aa#bb". Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene.

Nazwa Typ Opis
@odata.type string:

#Microsoft.Azure.Search.PatternReplaceTokenFilter

Fragment identyfikatora URI określający typ filtru tokenu.

name

string

Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się wyłącznie znakami alfanumerycznymi i jest ograniczona do 128 znaków.

pattern

string

Wzorzec wyrażenia regularnego.

replacement

string

Tekst zastępczy.

PatternTokenizer

Tokenizer, który używa dopasowania wzorca regularnego do konstruowania odrębnych tokenów. Ten tokenizer jest implementowany przy użyciu platformy Apache Lucene.

Nazwa Typ Wartość domyślna Opis
@odata.type string:

#Microsoft.Azure.Search.PatternTokenizer

Fragment identyfikatora URI określający typ tokenizatora.

flags

RegexFlags

Flagi wyrażeń regularnych.

group

integer

-1

Porządkowość oparta na zerowej grupie pasującej we wzorcu wyrażenia regularnego w celu wyodrębnienia do tokenów. Użyj -1, jeśli chcesz użyć całego wzorca, aby podzielić dane wejściowe na tokeny, niezależnie od pasujących grup. Wartość domyślna to -1.

name

string

Nazwa tokenizatora. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się tylko znakami alfanumerycznymi i jest ograniczona do 128 znaków.

pattern

string

\W+

Wzorzec wyrażenia regularnego odpowiadający separatorom tokenów. Wartość domyślna to wyrażenie zgodne z co najmniej jednym znakiem innym niż słowo.

PhoneticEncoder

Określa typ kodera fonetycznego do użycia z PhoneticTokenFilter.

Nazwa Typ Opis
beiderMorse

string

Koduje token do wartości Beider-Morse.

caverphone1

string

Koduje token do wartości Caverphone 1.0.

caverphone2

string

Koduje token do wartości Caverphone 2.0.

cologne

string

Koduje token do wartości fonetycznej w Kolonii.

doubleMetaphone

string

Koduje token do podwójnej wartości metafonu.

haasePhonetik

string

Koduje token przy użyciu uściślenia Haase algorytmu Kölner Phonetik.

koelnerPhonetik

string

Koduje token przy użyciu algorytmu Kölner Phonetik.

metaphone

string

Koduje token do wartości metafonu.

nysiis

string

Koduje token do wartości NYSIIS.

refinedSoundex

string

Koduje token do wartości uściślonego elementu Soundex.

soundex

string

Koduje token do wartości Soundex.

PhoneticTokenFilter

Tworzenie tokenów dla dopasowań fonetycznych. Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene.

Nazwa Typ Wartość domyślna Opis
@odata.type string:

#Microsoft.Azure.Search.PhoneticTokenFilter

Fragment identyfikatora URI określający typ filtru tokenu.

encoder

PhoneticEncoder

metaphone

Koder fonetyczny do użycia. Wartość domyślna to "metaphone".

name

string

Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się wyłącznie znakami alfanumerycznymi i jest ograniczona do 128 znaków.

replace

boolean

True

Wartość wskazująca, czy zakodowane tokeny powinny zastąpić oryginalne tokeny. W przypadku wartości false tokeny zakodowane są dodawane jako synonimy. Wartość domyślna to „true”.

PrioritizedFields

Opisuje pola tytułu, zawartości i słów kluczowych, które mają być używane do klasyfikacji semantycznej, podpisów, wyróżnień i odpowiedzi.

Nazwa Typ Opis
prioritizedContentFields

SemanticField[]

Definiuje pola zawartości, które mają być używane do semantycznego klasyfikowania, podpisów, wyróżniania i odpowiedzi. Aby uzyskać najlepszy wynik, wybrane pola powinny zawierać tekst w formularzu języka naturalnego. Kolejność pól w tablicy reprezentuje ich priorytet. Pola o niższym priorytecie mogą zostać obcięte, jeśli zawartość jest długa.

prioritizedKeywordsFields

SemanticField[]

Definiuje pola słów kluczowych, które mają być używane do semantycznego klasyfikowania, podpisów, wyróżniania i odpowiedzi. Aby uzyskać najlepszy wynik, wybrane pola powinny zawierać listę słów kluczowych. Kolejność pól w tablicy reprezentuje ich priorytet. Pola o niższym priorytecie mogą zostać obcięte, jeśli zawartość jest długa.

titleField

SemanticField

Definiuje pole tytułu, które ma być używane do semantycznego klasyfikowania, podpisów, wyróżniania i odpowiedzi. Jeśli nie masz pola tytułu w indeksie, pozostaw to pole puste.

RegexFlags

Definiuje flagi, które można połączyć w celu kontrolowania sposobu użycia wyrażeń regularnych w analizatorze wzorców i tokenizatorze wzorca.

Nazwa Typ Opis
CANON_EQ

string

Umożliwia równoważność kanoniczną.

CASE_INSENSITIVE

string

Włącza dopasowywanie bez uwzględniania wielkości liter.

COMMENTS

string

Zezwala na białe znaki i komentarze we wzorcu.

DOTALL

string

Włącza tryb dotall.

LITERAL

string

Włącza analizowanie literałów wzorca.

MULTILINE

string

Włącza tryb wielowierszowy.

UNICODE_CASE

string

Umożliwia składanie wielkości liter obsługujących kod Unicode.

UNIX_LINES

string

Włącza tryb linii systemu Unix.

ScoringFunctionAggregation

Definiuje funkcję agregacji używaną do łączenia wyników wszystkich funkcji oceniania w profilu oceniania.

Nazwa Typ Opis
average

string

Zwiększ wyniki według średniej wszystkich wyników funkcji oceniania.

firstMatching

string

Zwiększ wyniki przy użyciu pierwszej odpowiedniej funkcji oceniania w profilu oceniania.

maximum

string

Zwiększ wyniki według maksymalnej liczby wszystkich wyników funkcji oceniania.

minimum

string

Zwiększ wyniki według minimum wszystkich wyników funkcji oceniania.

sum

string

Zwiększ wyniki według sumy wszystkich wyników funkcji oceniania.

ScoringFunctionInterpolation

Definiuje funkcję używaną do interpolacji wyników zwiększających liczbę dokumentów w wielu dokumentach.

Nazwa Typ Opis
constant

string

Zwiększa wyniki według stałego współczynnika.

linear

string

Zwiększa wyniki przez liniowo malejącą kwotę. Jest to domyślna interpolacja dla funkcji oceniania.

logarithmic

string

Zwiększa wyniki o kwotę, która zmniejsza logarytmicznie. Impulsy szybko zmniejszają się w przypadku wyższych wyników i wolniej w miarę spadku wyników. Ta opcja interpolacji nie jest dozwolona w funkcjach oceniania tagów.

quadratic

string

Zwiększa wyniki o kwotę, która zmniejsza ćwiartkę. Impulsy powoli zmniejszają się w przypadku wyższych wyników i szybciej, gdy wyniki spadają. Ta opcja interpolacji nie jest dozwolona w funkcjach oceniania tagów.

ScoringProfile

Definiuje parametry indeksu wyszukiwania, który ma wpływ na ocenianie w zapytaniach wyszukiwania.

Nazwa Typ Opis
functionAggregation

ScoringFunctionAggregation

Wartość wskazująca sposób łączenia wyników poszczególnych funkcji oceniania. Wartość domyślna to "Suma". Ignorowane, jeśli nie ma żadnych funkcji oceniania.

functions ScoringFunction[]:

Kolekcja funkcji mających wpływ na ocenianie dokumentów.

name

string

Nazwa profilu oceniania.

text

TextWeights

Parametry zwiększające ocenianie na podstawie dopasowań tekstu w niektórych polach indeksu.

SearchError

Opisuje warunek błędu dla interfejsu API.

Nazwa Typ Opis
code

string

Jeden z zdefiniowanych przez serwer zestaw kodów błędów.

details

SearchError[]

Tablica szczegółów dotyczących określonych błędów, które doprowadziły do tego zgłoszonego błędu.

message

string

Czytelna dla człowieka reprezentacja błędu.

SearchField

Reprezentuje pole w definicji indeksu, które opisuje nazwę, typ danych i zachowanie wyszukiwania pola.

Nazwa Typ Opis
analyzer

LexicalAnalyzerName

Nazwa analizatora do użycia dla pola. Tej opcji można używać tylko z polami z możliwością wyszukiwania i nie można jej ustawić razem z parametrem searchAnalyzer lub indexAnalyzer. Po wybraniu analizatora nie można go zmienić dla pola. Musi mieć wartość null dla pól złożonych.

dimensions

integer

Wymiarowość pola wektorowego.

facetable

boolean

Wartość wskazująca, czy umożliwić odwoływanie się do pola w zapytaniach aspektowych. Zazwyczaj używane w prezentacji wyników wyszukiwania, które obejmują liczbę trafień według kategorii (na przykład wyszukiwanie cyfrowych aparatów fotograficznych i wyświetlanie trafień według marki, przez megapięci, według ceny itd.). Ta właściwość musi mieć wartość null dla pól złożonych. Pola typu Edm.GeographyPoint lub Collection(Edm.GeographyPoint) nie mogą być aspektami. Wartość domyślna ma wartość true dla wszystkich innych prostych pól.

fields

SearchField[]

Lista pól podrzędnych, jeśli jest to pole typu Edm.ComplexType lub Collection(Edm.ComplexType). Musi mieć wartość null lub być pusta dla prostych pól.

filterable

boolean

Wartość wskazująca, czy umożliwić przywoływanie pola w zapytaniach $filter. funkcja filtrowania różni się od możliwości wyszukiwania w sposobie obsługi ciągów. Pola typu Edm.String lub Collection(Edm.String), które można filtrować, nie są poddawane łamaniu wyrazów, więc porównania dotyczą tylko dokładnych dopasowań. Jeśli na przykład ustawisz takie pole f na "słoneczny dzień", $filter=f eq "sunny" nie znajdzie dopasowań, ale $filter=f eq "słoneczny dzień". Ta właściwość musi mieć wartość null dla pól złożonych. Wartość domyślna dotyczy prostych pól i wartości null dla pól złożonych.

indexAnalyzer

LexicalAnalyzerName

Nazwa analizatora używanego w czasie indeksowania dla pola. Tej opcji można używać tylko z polami z możliwością wyszukiwania. Należy go ustawić razem z elementem searchAnalyzer i nie można go ustawić razem z opcją analizatora. Nie można ustawić tej właściwości na nazwę analizatora języka; Zamiast tego należy użyć właściwości analizatora, jeśli potrzebujesz analizatora języka. Po wybraniu analizatora nie można go zmienić dla pola. Musi mieć wartość null dla pól złożonych.

key

boolean

Wartość wskazująca, czy pole jednoznacznie identyfikuje dokumenty w indeksie. Należy wybrać dokładnie jedno pole najwyższego poziomu w każdym indeksie jako pole klucza i musi mieć typ Edm.String. Pola kluczy mogą służyć do bezpośredniego wyszukiwania dokumentów i aktualizowania lub usuwania określonych dokumentów. Wartość domyślna to false dla prostych pól i wartości null dla pól złożonych.

name

string

Nazwa pola, które musi być unikatowe w kolekcji pól indeksu lub pola nadrzędnego.

retrievable

boolean

Wartość wskazująca, czy pole może być zwracane w wynikach wyszukiwania. Możesz wyłączyć tę opcję, jeśli chcesz użyć pola (na przykład marginesu) jako mechanizmu filtrowania, sortowania lub oceniania, ale nie chcesz, aby pole było widoczne dla użytkownika końcowego. Ta właściwość musi mieć wartość true dla pól klucza i musi mieć wartość null dla pól złożonych. Tę właściwość można zmienić w istniejących polach. Włączenie tej właściwości nie powoduje wzrostu wymagań dotyczących magazynu indeksów. Wartość domyślna dotyczy prostych pól i wartości null dla pól złożonych.

searchAnalyzer

LexicalAnalyzerName

Nazwa analizatora używanego w czasie wyszukiwania pola. Tej opcji można używać tylko z polami z możliwością wyszukiwania. Należy go ustawić razem z parametrem indexAnalyzer i nie można go ustawić razem z opcją analizatora. Nie można ustawić tej właściwości na nazwę analizatora języka; Zamiast tego należy użyć właściwości analizatora, jeśli potrzebujesz analizatora języka. Ten analizator można zaktualizować w istniejącym polu. Musi mieć wartość null dla pól złożonych.

searchable

boolean

Wartość wskazująca, czy pole jest możliwe do przeszukiwania pełnotekstowego. Oznacza to, że zostanie ona poddana analizie, takiej jak łamanie wyrazów podczas indeksowania. Ustawienie wartości „sunny day” dla pola z możliwością wyszukiwania spowoduje podział na dwa oddzielne tokeny „sunny” i „day”. Umożliwia to wyszukiwanie pełnotekstowe dla tych terminów. Pola typu Edm.String lub Collection(Edm.String) można wyszukiwać domyślnie. Ta właściwość musi być fałszem dla prostych pól innych typów danych innych niż ciąg i musi mieć wartość null dla pól złożonych. Uwaga: pola z możliwością wyszukiwania zużywają dodatkowe miejsce w indeksie, aby pomieścić dodatkowe tokenizowane wersje wartości pola na potrzeby wyszukiwania pełnotekstowego. Jeśli chcesz zaoszczędzić miejsce w indeksie i nie potrzebujesz pola, które ma zostać uwzględnione w wyszukiwaniach, ustaw wartość false.

sortable

boolean

Wartość wskazująca, czy pole ma być przywoływane w wyrażeniach $orderby. Domyślnie wyszukiwarka sortuje wyniki według wyniku, ale w wielu środowiskach użytkownicy będą chcieli sortować według pól w dokumentach. Proste pole można sortować tylko wtedy, gdy jest jednowartościowe (ma jedną wartość w zakresie dokumentu nadrzędnego). Proste pola kolekcji nie mogą być sortowane, ponieważ są wielowartośćowe. Proste podpola złożonych kolekcji są również wielowartościowe i dlatego nie mogą być sortowalne. Dotyczy to zarówno natychmiastowego pola nadrzędnego, jak i pola nadrzędnego, czyli kolekcji złożonej. Pola złożone nie mogą być sortowalne, a właściwość sortowalna musi mieć wartość null dla takich pól. Wartość domyślna sortowania dotyczy pól prostych z jedną wartością, wartości false dla pól prostych z wieloma wartościami i wartości null dla pól złożonych.

synonymMaps

string[]

Lista nazw synonimów map do skojarzenia z tym polem. Tej opcji można używać tylko z polami z możliwością wyszukiwania. Obecnie jest obsługiwana tylko jedna mapa synonimów na pole. Przypisanie mapy synonimów do pola zapewnia, że terminy zapytania przeznaczone dla tego pola są rozwijane w czasie wykonywania zapytań przy użyciu reguł na mapie synonimów. Ten atrybut można zmienić w istniejących polach. Musi mieć wartość null lub pustą kolekcję dla pól złożonych.

type

SearchFieldDataType

Typ danych pola.

vectorSearchProfile

string

Nazwa profilu wyszukiwania wektorowego, który określa algorytm do użycia podczas wyszukiwania pola wektorowego.

SearchFieldDataType

Definiuje typ danych pola w indeksie wyszukiwania.

Nazwa Typ Opis
Edm.Boolean

string

Wskazuje, że pole zawiera wartość logiczną (prawda lub fałsz).

Edm.ComplexType

string

Wskazuje, że pole zawiera jeden lub więcej złożonych obiektów, które z kolei mają podpola innych typów.

Edm.DateTimeOffset

string

Wskazuje, że pole zawiera wartość daty/godziny, w tym informacje o strefie czasowej.

Edm.Double

string

Wskazuje, że pole zawiera liczbę zmiennoprzecinkową IEEE o podwójnej precyzji.

Edm.GeographyPoint

string

Wskazuje, że pole zawiera lokalizację geograficzną pod względem długości geograficznej i szerokości geograficznej.

Edm.Int32

string

Wskazuje, że pole zawiera 32-bitową liczbę całkowitą ze znakiem.

Edm.Int64

string

Wskazuje, że pole zawiera 64-bitową liczbę całkowitą ze znakiem.

Edm.Single

string

Wskazuje, że pole zawiera liczbę zmiennoprzecinkową o pojedynczej precyzji. Jest to prawidłowe tylko w przypadku użycia z kolekcją (Edm.Single).

Edm.String

string

Wskazuje, że pole zawiera ciąg.

SearchIndex

Reprezentuje definicję indeksu wyszukiwania, która opisuje pola i zachowanie wyszukiwania indeksu.

Nazwa Typ Opis
@odata.etag

string

Element ETag indeksu.

analyzers LexicalAnalyzer[]:

Analizatory indeksu.

charFilters CharFilter[]:

Znaki filtruje indeks.

corsOptions

CorsOptions

Opcje kontrolowania współużytkowania zasobów między źródłami (CORS) dla indeksu.

defaultScoringProfile

string

Nazwa profilu oceniania, który ma być używany, jeśli w zapytaniu nie określono żadnego. Jeśli ta właściwość nie jest ustawiona i nie określono profilu oceniania w zapytaniu, zostanie użyta domyślna ocenianie (tf-idf).

encryptionKey

SearchResourceEncryptionKey

Opis klucza szyfrowania tworzonego w usłudze Azure Key Vault. Ten klucz służy do zapewnienia dodatkowego poziomu szyfrowania danych magazynowanych, gdy chcesz mieć pełną pewność, że nikt, nawet firma Microsoft, nie może odszyfrować dane. Po zaszyfrowaniu danych zawsze pozostaną one zaszyfrowane. Usługa wyszukiwania zignoruje próby ustawienia tej właściwości na wartość null. Tę właściwość można zmienić w razie potrzeby, jeśli chcesz obrócić klucz szyfrowania; Twoje dane nie będą miały wpływu. Szyfrowanie za pomocą kluczy zarządzanych przez klienta nie jest dostępne dla bezpłatnych usług wyszukiwania i jest dostępne tylko dla płatnych usług utworzonych 1 stycznia 2019 r. lub później.

fields

SearchField[]

Pola indeksu.

name

string

Nazwa indeksu.

scoringProfiles

ScoringProfile[]

Profile oceniania dla indeksu.

semantic

SemanticSettings

Definiuje parametry indeksu wyszukiwania, który ma wpływ na możliwości semantyczne.

similarity Similarity:

Typ algorytmu podobieństwa, który ma być używany podczas oceniania i klasyfikowania dokumentów pasujących do zapytania wyszukiwania. Algorytm podobieństwa można zdefiniować tylko w czasie tworzenia indeksu i nie można go modyfikować w istniejących indeksach. Jeśli ma wartość null, jest używany algorytm ClassicSimilarity.

suggesters

Suggester[]

Sugestory indeksu.

tokenFilters TokenFilter[]:

Token filtruje indeks.

tokenizers LexicalTokenizer[]:

Tokenizatory indeksu.

vectorSearch

VectorSearch

Zawiera opcje konfiguracji związane z wyszukiwaniem wektorów.

SearchResourceEncryptionKey

Klucz szyfrowania zarządzany przez klienta w usłudze Azure Key Vault. Klucze tworzone i zarządzane mogą służyć do szyfrowania lub odszyfrowywania danych magazynowanych w usłudze wyszukiwania, takich jak indeksy i mapy synonimów.

Nazwa Typ Opis
accessCredentials

AzureActiveDirectoryApplicationCredentials

Opcjonalne poświadczenia usługi Azure Active Directory używane do uzyskiwania dostępu do usługi Azure Key Vault. Nie jest wymagane, jeśli zamiast tego używasz tożsamości zarządzanej.

keyVaultKeyName

string

Nazwa klucza Key Vault platformy Azure, który ma być używany do szyfrowania danych magazynowanych.

keyVaultKeyVersion

string

Wersja klucza Key Vault platformy Azure, która ma być używana do szyfrowania danych magazynowanych.

keyVaultUri

string

Identyfikator URI usługi Azure Key Vault, nazywany również nazwą DNS, który zawiera klucz używany do szyfrowania danych magazynowanych. Przykładowy identyfikator URI może mieć wartość https://my-keyvault-name.vault.azure.net.

SemanticConfiguration

Definiuje określoną konfigurację do użycia w kontekście funkcji semantycznych.

Nazwa Typ Opis
name

string

Nazwa konfiguracji semantycznej.

prioritizedFields

PrioritizedFields

Opisuje pola tytułu, zawartości i słowa kluczowego, które mają być używane do klasyfikacji semantycznej, podpisów, wyróżnień i odpowiedzi. Należy ustawić co najmniej jedną z trzech właściwości podrzędnych (titleField, priorytetizedKeywordsFields i priorytetizedContentFields).

SemanticField

Pole, które jest używane jako część konfiguracji semantycznej.

Nazwa Typ Opis
fieldName

string

SemanticSettings

Definiuje parametry indeksu wyszukiwania, który ma wpływ na możliwości semantyczne.

Nazwa Typ Opis
configurations

SemanticConfiguration[]

Konfiguracje semantyczne dla indeksu.

defaultConfiguration

string

Umożliwia ustawienie nazwy domyślnej konfiguracji semantycznej w indeksie, dzięki czemu można ją opcjonalnie przekazać jako parametr zapytania za każdym razem.

ShingleTokenFilter

Tworzy kombinacje tokenów jako pojedynczy token. Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene.

Nazwa Typ Wartość domyślna Opis
@odata.type string:

#Microsoft.Azure.Search.ShingleTokenFilter

Fragment identyfikatora URI określający typ filtru tokenu.

filterToken

string

_

Ciąg do wstawienia dla każdej pozycji, w której nie ma tokenu. Wartość domyślna to podkreślenie ("_").

maxShingleSize

integer

2

Maksymalny rozmiar shingle. Wartość domyślna i minimalna to 2.

minShingleSize

integer

2

Minimalny rozmiar shingle. Wartość domyślna i minimalna to 2. Wartość parametru maxShingleSize musi być mniejsza niż wartość parametru maxShingleSize.

name

string

Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się tylko znakami alfanumerycznymi i jest ograniczona do 128 znaków.

outputUnigrams

boolean

True

Wartość wskazująca, czy strumień wyjściowy będzie zawierać tokeny wejściowe (unigramy), a także shingles. Wartość domyślna to „true”.

outputUnigramsIfNoShingles

boolean

False

Wartość wskazująca, czy wyprowadź unigramy dla tych czasów, gdy nie są dostępne żadne shingles. Ta właściwość ma pierwszeństwo, gdy parametr outputUnigrams jest ustawiony na wartość false. Wartość domyślna to false.

tokenSeparator

string

Ciąg do użycia podczas łączenia sąsiednich tokenów w celu utworzenia shingle. Wartość domyślna to pojedyncza spacja (" ").

SnowballTokenFilter

Filtr, który tworzy wyrazy przy użyciu stemmeru wygenerowanego przez snowball. Ten filtr tokenu jest implementowany przy użyciu rozwiązania Apache Lucene.

Nazwa Typ Opis
@odata.type string:

#Microsoft.Azure.Search.SnowballTokenFilter

Fragment identyfikatora URI określający typ filtru tokenu.

language

SnowballTokenFilterLanguage

Język do użycia.

name

string

Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się tylko znakami alfanumerycznymi i jest ograniczona do 128 znaków.

SnowballTokenFilterLanguage

Język używany dla filtru tokenu Snowball.

Nazwa Typ Opis
armenian

string

Wybiera lucene Snowball stemming tokenizer dla Ormiański.

basque

string

Wybiera tokenizator macierzysty Lucene Snowball dla Basków.

catalan

string

Wybiera lucene Snowball stemming tokenizer dla Katalończyka.

danish

string

Wybiera tokenizatora macierzystego Lucene Snowball dla języka duńskiego.

dutch

string

Wybiera tokenizatora macierzystego Lucene Snowball dla Holendrów.

english

string

Wybiera tokenizator lucene Snowball dla języka angielskiego.

finnish

string

Wybiera tokenizatora macierzystego Lucene Snowball dla fińskiego.

french

string

Wybiera tokenizatora macierzystego Lucene Snowball dla języka francuskiego.

german

string

Wybiera tokenizator lucene Snowball dla języka niemieckiego.

german2

string

Wybiera tokenizator macierzysty Lucene Snowball, który używa niemieckiego algorytmu wariantu.

hungarian

string

Wybiera tokenizatora macierzystego Lucene Snowball dla Węgier.

italian

string

Wybiera lucene Snowball macierzysty tokenizer dla Włoch.

kp

string

Wybiera tokenizator macierzysty Lucene Snowball dla Holendrów, który używa Kraaij-Pohlmann algorytmu macierzystego.

lovins

string

Wybiera tokenizator macierzysty Lucene Snowball dla języka angielskiego, który używa algorytmu macierzystego Lovins.

norwegian

string

Wybiera tokenizator macierzysty Lucene Snowball dla Norwega.

porter

string

Wybiera tokenizator macierzysty Lucene Snowball dla języka angielskiego, który używa algorytmu macierzystego portera.

portuguese

string

Wybiera tokenizatora macierzystego Lucene Snowball dla języka portugalskiego.

romanian

string

Wybiera tokenizatora macierzystego Lucene Snowball dla języka rumuńskiego.

russian

string

Wybiera lucene Snowball stemming tokenizer dla Rosji.

spanish

string

Wybiera tokenizator Lucene Snowball dla języka hiszpańskiego.

swedish

string

Wybiera tokenizatora macierzystego Lucene Snowball dla szwedzkiego.

turkish

string

Wybiera tokenizatora macierzystego Lucene Snowball dla języka tureckiego.

StemmerOverrideTokenFilter

Zapewnia możliwość zastępowania innych filtrów macierzystych przy użyciu niestandardowego ściągnięcia opartego na słowniku. Wszystkie terminy powiązane ze słownikiem zostaną oznaczone jako słowa kluczowe, aby nie zostały one powstrzymane od stemmers w dół łańcucha. Należy umieścić przed wszelkimi filtrami macierzystymi. Ten filtr tokenu jest implementowany przy użyciu rozwiązania Apache Lucene.

Nazwa Typ Opis
@odata.type string:

#Microsoft.Azure.Search.StemmerOverrideTokenFilter

Fragment identyfikatora URI określający typ filtru tokenu.

name

string

Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się tylko znakami alfanumerycznymi i jest ograniczona do 128 znaków.

rules

string[]

Lista reguł macierzystych w następującym formacie: "word => stem", na przykład: "ran => run".

StemmerTokenFilter

Filtr macierzysty specyficzny dla języka. Ten filtr tokenu jest implementowany przy użyciu rozwiązania Apache Lucene.

Nazwa Typ Opis
@odata.type string:

#Microsoft.Azure.Search.StemmerTokenFilter

Fragment identyfikatora URI określający typ filtru tokenu.

language

StemmerTokenFilterLanguage

Język do użycia.

name

string

Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się tylko znakami alfanumerycznymi i jest ograniczona do 128 znaków.

StemmerTokenFilterLanguage

Język używany dla filtru tokenu stemmer.

Nazwa Typ Opis
arabic

string

Wybiera tokenizatora macierzystego Lucene dla języka arabskiego.

armenian

string

Wybiera tokenizatora macierzystego Lucene dla Ormiańskiego.

basque

string

Wybiera tokenizatora macierzystego Lucene dla baskijskich.

brazilian

string

Wybiera tokenizatora macierzystego Lucene dla języka portugalskiego (Brazylia).

bulgarian

string

Wybiera tokenizatora macierzystego Lucene dla Bułgara.

catalan

string

Wybiera tokenizatora macierzystego Lucene dla Katalończyka.

czech

string

Wybiera tokenizatora macierzystego Lucene dla Czech.

danish

string

Wybiera tokenizatora macierzystego Lucene dla języka duńskiego.

dutch

string

Wybiera tokenizatora macierzystego Lucene dla języka holenderskiego.

dutchKp

string

Wybiera tokenizatora macierzystego Lucene dla języka holenderskiego, który używa Kraaij-Pohlmann algorytmu macierzystego.

english

string

Wybiera tokenizatora macierzystego Lucene dla języka angielskiego.

finnish

string

Wybiera tokenizatora macierzystego Lucene dla języka fińskiego.

french

string

Wybiera tokenizatora macierzystego Lucene dla języka francuskiego.

galician

string

Wybiera tokenizatora macierzystego Lucene dla Galicji.

german

string

Wybiera tokenizatora macierzystego Lucene dla języka niemieckiego.

german2

string

Wybiera tokenizatora macierzystego Lucene, który używa niemieckiego algorytmu wariantu.

greek

string

Wybiera tokenizatora macierzystego Lucene dla języka greckiego.

hindi

string

Wybiera tokenizatora macierzystego Lucene dla języka Hindi.

hungarian

string

Wybiera tokenizatora macierzystego Lucene dla języka węgierskiego.

indonesian

string

Wybiera tokenizatora macierzystego Lucene dla języka indonezyjskiego.

irish

string

Wybiera tokenizatora macierzystego Lucene dla Irlandii.

italian

string

Wybiera tokenizatora macierzystego Lucene dla języka włoskiego.

latvian

string

Wybiera tokenizatora macierzystego Lucene dla Łotewskiego.

lightEnglish

string

Wybiera tokenizatora macierzystego Lucene dla języka angielskiego, który ma światło wynikające.

lightFinnish

string

Wybiera tokenizatora macierzystego Lucene dla fińskiego, który robi światło wynikające.

lightFrench

string

Wybiera tokenizatora macierzystego Lucene dla języka francuskiego, który ma światło wynikające.

lightGerman

string

Wybiera tokenizatora macierzystego Lucene dla języka niemieckiego, który ma światło wynikające.

lightHungarian

string

Wybiera tokenizatora macierzystego Lucene dla Węgier, który robi światło wynikające.

lightItalian

string

Wybiera lucene stemming tokenizer dla Włocha, który robi światło wynika.

lightNorwegian

string

Wybiera tokenizatora macierzystego Lucene dla norweskiego (Bokmål), który robi lekkie łodygi.

lightNynorsk

string

Wybiera tokenizatora macierzystego Lucene dla norweskiego (Nynorsk), który robi lekkie łodygi.

lightPortuguese

string

Wybiera tokenizatora macierzystego Lucene dla portugalczyka, który ma światło wynikające.

lightRussian

string

Wybiera lucene stemming tokenizer dla Rosji, który robi światło wynika.

lightSpanish

string

Wybiera tokenizator lucene dla języka hiszpańskiego, który ma światło wynikające.

lightSwedish

string

Wybiera tokenizatora macierzystego Lucene dla języka szwedzkiego, który nie jest lekki.

lovins

string

Wybiera tokenizatora macierzystego Lucene dla języka angielskiego, który używa algorytmu macierzystego Lovins.

minimalEnglish

string

Wybiera tokenizatora macierzystego Lucene dla języka angielskiego, który ma minimalny wynik.

minimalFrench

string

Wybiera tokenizatora macierzystego Lucene dla języka francuskiego, który ma minimalny wynik.

minimalGalician

string

Wybiera tokenizatora macierzystego Lucene dla Galicji, który ma minimalne następstwa.

minimalGerman

string

Wybiera tokenizatora macierzystego Lucene dla języka niemieckiego, który ma minimalny wynik.

minimalNorwegian

string

Wybiera tokenizatora macierzystego Lucene dla norweskiego (Bokmål), który ma minimalne następstwa.

minimalNynorsk

string

Wybiera tokenizatora macierzystego Lucene dla norweskiego (Nynorsk), który ma minimalne łodygi.

minimalPortuguese

string

Wybiera tokenizatora macierzystego Lucene dla języka portugalskiego, który ma minimalny wynik.

norwegian

string

Wybiera tokenizatora macierzystego Lucene dla języka norweskiego (Bokmål).

porter2

string

Wybiera moduł tokenizatora macierzystego Lucene dla języka angielskiego, który używa algorytmu macierzystego Porter2.

portuguese

string

Wybiera tokenizatora macierzystego Lucene dla języka portugalskiego.

portugueseRslp

string

Wybiera moduł tokenizatora macierzystego Lucene dla języka portugalskiego, który używa algorytmu ściągniającego RSLP.

possessiveEnglish

string

Wybiera tokenizator Lucene dla języka angielskiego, który usuwa końcowych opętaczy ze słów.

romanian

string

Wybiera tokenizatora macierzystego Lucene dla języka rumuńskiego.

russian

string

Wybiera tokenizatora macierzystego Lucene dla Języka Rosyjskiego.

sorani

string

Wybiera tokenizatora macierzystego Lucene dla Sorani.

spanish

string

Wybiera tokenizatora macierzystego Lucene dla języka hiszpańskiego.

swedish

string

Wybiera tokenizatora macierzystego Lucene dla języka szwedzkiego.

turkish

string

Wybiera tokenizatora macierzystego Lucene dla języka tureckiego.

StopAnalyzer

Dzieli tekst na litery inne niż litery; Stosuje małe litery i filtry tokenów stopword. Ten analizator jest implementowany przy użyciu platformy Apache Lucene.

Nazwa Typ Opis
@odata.type string:

#Microsoft.Azure.Search.StopAnalyzer

Fragment identyfikatora URI określający typ analizatora.

name

string

Nazwa analizatora. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się tylko znakami alfanumerycznymi i jest ograniczona do 128 znaków.

stopwords

string[]

Lista stopwords.

StopwordsList

Identyfikuje wstępnie zdefiniowaną listę słów przestawnych specyficznych dla języka.

Nazwa Typ Opis
arabic

string

Wybiera listę stopwordu dla języka arabskiego.

armenian

string

Wybiera listę stopwordów dla Ormiańskiego.

basque

string

Wybiera listę stopword dla baskijskich.

brazilian

string

Wybiera listę stopwordów dla języka portugalskiego (Brazylia).

bulgarian

string

Wybiera listę stopwordów dla języka bułgarskiego.

catalan

string

Wybiera listę stopwordu katalońskiego.

czech

string

Wybiera listę stopwordów dla języka czeskiego.

danish

string

Wybiera listę stopwordów dla języka duńskiego.

dutch

string

Wybiera listę stopwordów dla języka holenderskiego.

english

string

Wybiera listę stopword dla języka angielskiego.

finnish

string

Wybiera listę stopwordu dla języka fińskiego.

french

string

Wybiera listę stopwordu dla języka francuskiego.

galician

string

Wybiera listę stopwordów galicyjskich.

german

string

Wybiera listę stopwordu dla języka niemieckiego.

greek

string

Wybiera listę stopwordu dla języka greckiego.

hindi

string

Wybiera listę stopwordów dla języka hindi.

hungarian

string

Wybiera listę stopwordów dla języka węgierskiego.

indonesian

string

Wybiera listę stopwordów dla języka indonezyjskiego.

irish

string

Wybiera listę stopwordów dla języka irlandzkiego.

italian

string

Wybiera listę stopwordu dla języka włoskiego.

latvian

string

Wybiera listę stopwordów dla Łotewskiego.

norwegian

string

Wybiera listę stopwordów dla języka norweskiego.

persian

string

Wybiera listę stopwordów perskich.

portuguese

string

Wybiera listę stopword dla języka portugalskiego.

romanian

string

Wybiera listę stopwordu dla języka rumuńskiego.

russian

string

Wybiera listę stopwordu dla języka rosyjskiego.

sorani

string

Wybiera listę stopword dla elementu Sorani.

spanish

string

Wybiera listę stopword dla języka hiszpańskiego.

swedish

string

Wybiera listę stopwordu dla języka szwedzkiego.

thai

string

Wybiera listę stopword dla języka tajskiego.

turkish

string

Wybiera listę stopwordu dla języka tureckiego.

StopwordsTokenFilter

Usuwa słowa zatrzymania ze strumienia tokenu. Ten filtr tokenu jest implementowany przy użyciu rozwiązania Apache Lucene.

Nazwa Typ Wartość domyślna Opis
@odata.type string:

#Microsoft.Azure.Search.StopwordsTokenFilter

Fragment identyfikatora URI określający typ filtru tokenu.

ignoreCase

boolean

False

Wartość wskazująca, czy zignorować wielkość liter. W przypadku wartości true wszystkie wyrazy są najpierw konwertowane na małe litery. Wartość domyślna to false.

name

string

Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się tylko znakami alfanumerycznymi i jest ograniczona do 128 znaków.

removeTrailing

boolean

True

Wartość wskazująca, czy zignorować ostatni termin wyszukiwania, jeśli jest to wyraz zatrzymania. Wartość domyślna to „true”.

stopwords

string[]

Lista stopwords. Nie można ustawić tej właściwości i właściwości listy stopwords.

stopwordsList

StopwordsList

english

Wstępnie zdefiniowana lista stopwords do użycia. Nie można ustawić tej właściwości i właściwości stopwords. Wartość domyślna to angielski.

Suggester

Definiuje sposób stosowania interfejsu API sugerowanego do grupy pól w indeksie.

Nazwa Typ Opis
name

string

Nazwa sugestora.

searchMode

SuggesterSearchMode

Wartość wskazująca możliwości sugestora.

sourceFields

string[]

Lista nazw pól, do których ma zastosowanie sugestor. Każde pole musi być możliwe do przeszukiwania.

SuggesterSearchMode

Wartość wskazująca możliwości sugestora.

Nazwa Typ Opis
analyzingInfixMatching

string

Pasuje do kolejnych całych terminów i prefiksów w polu. Na przykład w polu "Najszybszy brązowy lis" zapytania "szybkie" i "najszybsze brwi" będą zgodne.

SynonymTokenFilter

Dopasuje synonimy pojedyncze lub wielosypowe w strumieniu tokenu. Ten filtr tokenu jest implementowany przy użyciu rozwiązania Apache Lucene.

Nazwa Typ Wartość domyślna Opis
@odata.type string:

#Microsoft.Azure.Search.SynonymTokenFilter

Fragment identyfikatora URI określający typ filtru tokenu.

expand

boolean

True

Wartość wskazująca, czy wszystkie wyrazy na liście synonimów (jeśli => notacja nie jest używana) będą mapować się na siebie. Jeśli wartość true, wszystkie wyrazy na liście synonimów (jeśli => notacja nie jest używana) będą mapować się na siebie nawzajem. Poniższa lista: niesamowita, niewiarygodna, bajeczna, niesamowita jest równoważna: niesamowite, niewiarygodne, wspaniałe, niesamowite => niesamowite, niewiarygodne, wspaniałe, niesamowite. Jeśli fałsz, następująca lista: niesamowita, niewiarygodna, niesamowita, niesamowita będzie równoważna: niesamowite, niewiarygodne, wspaniałe, niesamowite => niesamowite. Wartość domyślna to „true”.

ignoreCase

boolean

False

Wartość wskazująca, czy należy złożyć wielkość liter danych wejściowych w celu dopasowania. Wartość domyślna to false.

name

string

Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się tylko znakami alfanumerycznymi i jest ograniczona do 128 znaków.

synonyms

string[]

Lista synonimów w jednym z dwóch formatów: 1. niesamowite, niewiarygodne, bajeczne => niesamowite - wszystkie terminy po lewej stronie => symbol zostaną zastąpione wszystkimi terminami po prawej stronie; 2. niesamowita, niewiarygodna, bajeczna, niesamowita - rozdzielona przecinkami lista równoważnych słów. Ustaw opcję rozwijania, aby zmienić sposób interpretacji tej listy.

TagScoringFunction

Definiuje funkcję, która zwiększa wyniki dokumentów z wartościami ciągów pasującymi do danej listy tagów.

Nazwa Typ Opis
boost

number

Mnożnik dla nieprzetworzonego wyniku. Musi być liczbą dodatnią, która nie jest równa 1,0.

fieldName

string

Nazwa pola używanego jako dane wejściowe funkcji oceniania.

interpolation

ScoringFunctionInterpolation

Wartość wskazująca, jak zwiększenie będzie interpolowane w wynikach dokumentu; wartość domyślna to "Liniowa".

tag

TagScoringParameters

Wartości parametrów dla funkcji oceniania tagów.

type string:

tag

Wskazuje typ funkcji do użycia. Prawidłowe wartości obejmują wielkość, świeżość, odległość i tag. Typ funkcji musi mieć małe litery.

TagScoringParameters

Udostępnia wartości parametrów funkcji oceniania tagów.

Nazwa Typ Opis
tagsParameter

string

Nazwa parametru przekazanego w zapytaniach wyszukiwania, aby określić listę tagów do porównania z polem docelowym.

TextWeights

Definiuje wagi pól indeksu, dla których dopasowania powinny zwiększyć ocenianie w zapytaniach wyszukiwania.

Nazwa Typ Opis
weights

object

Słownik wag dla poszczególnych pól, aby zwiększyć ocenianie dokumentów. Klucze są nazwami pól, a wartości to wagi dla każdego pola.

TokenCharacterKind

Reprezentuje klasy znaków, na których może działać filtr tokenu.

Nazwa Typ Opis
digit

string

Przechowuje cyfry w tokenach.

letter

string

Przechowuje litery w tokenach.

punctuation

string

Utrzymuje interpunkcję w tokenach.

symbol

string

Przechowuje symbole w tokenach.

whitespace

string

Zachowuje odstępy w tokenach.

TokenFilterName

Definiuje nazwy wszystkich filtrów tokenów obsługiwanych przez wyszukiwarkę.

Nazwa Typ Opis
apostrophe

string

Usuwa wszystkie znaki po apostrofie (w tym sam apostrof). Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/tr/ApostropheFilter.html

arabic_normalization

string

Filtr tokenu, który stosuje arabski normalizator w celu normalizacji ortografii. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ar/ArabicNormalizationFilter.html

asciifolding

string

Konwertuje znaki alfabetyczne, numeryczne i symboliczne Znaki Unicode, które nie znajdują się w pierwszych 127 znakach ASCII (blok "Basic Latin" Unicode) na ich odpowiedniki ASCII, jeśli takie odpowiedniki istnieją. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html

cjk_bigram

string

Tworzy bigramy terminów CJK generowanych na podstawie standardowego tokenizatora. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKBigramFilter.html

cjk_width

string

Normalizuje różnice szerokości CJK. Składa warianty fullwidth ASCII w równoważnym podstawowym języku łacińskim, a warianty Katakana o połowie szerokości do równoważnej Kana. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKWidthFilter.html

classic

string

Usuwa angielskie opętacze i kropki z akronimów. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicFilter.html

common_grams

string

Konstruowanie bigramów dla często występujących terminów podczas indeksowania. Pojedyncze terminy są również indeksowane, a bigramy nakładają się. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/commongrams/CommonGramsFilter.html

edgeNGram_v2

string

Generuje n-gramy danych rozmiarów, zaczynając od przodu lub z tyłu tokenu wejściowego. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenFilter.html

elision

string

Usuwa elizji. Na przykład "l'avion" (płaszczyzna) zostanie przekonwertowana na "avion" (płaszczyzna). Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html

german_normalization

string

Normalizuje znaki niemieckie według algorytmu heurystyki german2 snowball. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/de/GermanNormalizationFilter.html

hindi_normalization

string

Normalizuje tekst w języku hindi, aby usunąć pewne różnice w odmianach pisowni. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/hi/HindiNormalizationFilter.html

indic_normalization

string

Normalizuje reprezentację tekstu w języku indyjskim w formacie Unicode. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/in/IndicNormalizationFilter.html

keyword_repeat

string

Emituje dwa razy każdy token przychodzący, raz jako słowo kluczowe i raz jako nie-słowo kluczowe. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/KeywordRepeatFilter.html

kstem

string

Filtr kstem o wysokiej wydajności dla języka angielskiego. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/en/KStemFilter.html

length

string

Usuwa wyrazy, które są za długie lub zbyt krótkie. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LengthFilter.html

limit

string

Ogranicza liczbę tokenów podczas indeksowania. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LimitTokenCountFilter.html

lowercase

string

Normalizuje tekst tokenu do małych liter. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.htm

nGram_v2

string

Generuje n-gramy dla danego rozmiaru. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenFilter.html

persian_normalization

string

Stosuje normalizację perskiej. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/fa/PersianNormalizationFilter.html

phonetic

string

Tworzenie tokenów dla dopasowań fonetycznych. Zobacz https://lucene.apache.org/core/4_10_3/analyzers-phonetic/org/apache/lucene/analysis/phonetic/package-tree.html

porter_stem

string

Używa algorytmu uczenia macierzystego usługi Porter do przekształcania strumienia tokenu. Zobacz http://tartarus.org/~martin/PorterStemmer

reverse

string

Odwraca ciąg tokenu. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html

scandinavian_folding

string

Składa skandynawskie znaki åÅäæÄÆ-a> i öÖøØ-o>. Dyskryminuje również stosowanie podwójnych samogłosek aa, ae, ao, oe i oo, pozostawiając tylko pierwszy. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianFoldingFilter.html

scandinavian_normalization

string

Normalizuje użycie wymiennych znaków skandynawskich. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianNormalizationFilter.html

shingle

string

Tworzy kombinacje tokenów jako pojedynczy token. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/shingle/ShingleFilter.html

snowball

string

Filtr, który tworzy wyrazy przy użyciu stemmer wygenerowanego przez Snowball. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/snowball/SnowballFilter.html

sorani_normalization

string

Normalizuje reprezentację unicode tekstu Sorani. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ckb/SoraniNormalizationFilter.html

stemmer

string

Filtr macierzysły specyficzny dla języka. Zobacz https://docs.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#TokenFilters

stopwords

string

Usuwa słowa zatrzymania ze strumienia tokenu. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html

trim

string

Przycina wiodące i końcowe białe znaki z tokenów. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TrimFilter.html

truncate

string

Obcina terminy do określonej długości. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TruncateTokenFilter.html

unique

string

Filtruje tokeny z tym samym tekstem co poprzedni token. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/RemoveDuplicatesTokenFilter.html

uppercase

string

Normalizuje tekst tokenu na wielkie litery. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html

word_delimiter

string

Dzieli wyrazy na słowa podrzędne i wykonuje opcjonalne przekształcenia w grupach podrzędnych.

TruncateTokenFilter

Obcina terminy do określonej długości. Ten filtr tokenu jest implementowany przy użyciu rozwiązania Apache Lucene.

Nazwa Typ Wartość domyślna Opis
@odata.type string:

#Microsoft.Azure.Search.TruncateTokenFilter

Fragment identyfikatora URI określający typ filtru tokenu.

length

integer

300

Długość, w której terminy zostaną obcięte. Wartość domyślna i maksymalna to 300.

name

string

Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się tylko znakami alfanumerycznymi i jest ograniczona do 128 znaków.

UaxUrlEmailTokenizer

Tokenizuje adresy URL i wiadomości e-mail jako jeden token. Ten tokenizer jest implementowany przy użyciu platformy Apache Lucene.

Nazwa Typ Wartość domyślna Opis
@odata.type string:

#Microsoft.Azure.Search.UaxUrlEmailTokenizer

Fragment identyfikatora URI określający typ tokenizatora.

maxTokenLength

integer

255

Maksymalna długość tokenu. Wartość domyślna to 255. Tokeny dłuższe niż maksymalna długość są dzielone. Maksymalna długość tokenu, która może być używana, to 300 znaków.

name

string

Nazwa tokenizatora. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się wyłącznie znakami alfanumerycznymi i jest ograniczona do 128 znaków.

UniqueTokenFilter

Filtruje tokeny z tym samym tekstem co poprzedni token. Ten filtr tokenu jest implementowany przy użyciu rozwiązania Apache Lucene.

Nazwa Typ Wartość domyślna Opis
@odata.type string:

#Microsoft.Azure.Search.UniqueTokenFilter

Fragment identyfikatora URI określający typ filtru tokenu.

name

string

Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się tylko znakami alfanumerycznymi i jest ograniczona do 128 znaków.

onlyOnSamePosition

boolean

False

Wartość wskazująca, czy usunąć duplikaty tylko w tej samej pozycji. Wartość domyślna to false.

VectorSearch

Zawiera opcje konfiguracji związane z wyszukiwaniem wektorów.

Nazwa Typ Opis
algorithms VectorSearchAlgorithmConfiguration[]:

Zawiera opcje konfiguracji specyficzne dla algorytmu używanego podczas indeksowania lub wykonywania zapytań.

profiles

VectorSearchProfile[]

Definiuje kombinacje konfiguracji do użycia z wyszukiwaniem wektorów.

VectorSearchAlgorithmKind

Algorytm używany do indeksowania i wykonywania zapytań.

Nazwa Typ Opis
exhaustiveKnn

string

Wyczerpujący algorytm KNN, który będzie wykonywać wyszukiwanie siłowe.

hnsw

string

HNSW (Hierarchiczna nawigacja mały świat), typ przybliżonego algorytmu najbliższych sąsiadów.

VectorSearchAlgorithmMetric

Metryka podobieństwa do użycia dla porównań wektorów.

Nazwa Typ Opis
cosine

string

dotProduct

string

euclidean

string

VectorSearchProfile

Definiuje kombinację konfiguracji do użycia z wyszukiwaniem wektorów.

Nazwa Typ Opis
algorithm

string

Nazwa konfiguracji algorytmu wyszukiwania wektorowego, która określa algorytm i parametry opcjonalne.

name

string

Nazwa do skojarzenia z tym konkretnym profilem wyszukiwania wektorów.

WordDelimiterTokenFilter

Dzieli wyrazy na podwordse i wykonuje opcjonalne przekształcenia w grupach podrzędnych. Ten filtr tokenu jest implementowany przy użyciu rozwiązania Apache Lucene.

Nazwa Typ Wartość domyślna Opis
@odata.type string:

#Microsoft.Azure.Search.WordDelimiterTokenFilter

Fragment identyfikatora URI określający typ filtru tokenu.

catenateAll

boolean

False

Wartość wskazująca, czy wszystkie części podrzędne będą podzielone na elementy podrzędne. Jeśli na przykład ustawiono wartość true, wartość "Azure-Search-1" zostanie ustawiona na wartość "AzureSearch1". Wartość domyślna to false.

catenateNumbers

boolean

False

Wartość wskazująca, czy maksymalna liczba przebiegów części będzie podzielona na kategoryzowane. Jeśli na przykład ustawiono wartość true, wartość "1–2" zostanie ustawiona na "12". Wartość domyślna to false.

catenateWords

boolean

False

Wartość wskazująca, czy maksymalna liczba przebiegów części wyrazów zostanie podzielona na kategoryzowane. Jeśli na przykład ustawiono wartość true, wartość "Azure-Search" zostanie ustawiona na "AzureSearch". Wartość domyślna to false.

generateNumberParts

boolean

True

Wartość wskazująca, czy wygenerować podwłoki liczbowe. Wartość domyślna to „true”.

generateWordParts

boolean

True

Wartość wskazująca, czy generować wyrazy części. W przypadku ustawienia powoduje wygenerowanie części wyrazów; na przykład "AzureSearch" staje się "Azure" "Search". Wartość domyślna to „true”.

name

string

Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się tylko znakami alfanumerycznymi i jest ograniczona do 128 znaków.

preserveOriginal

boolean

False

Wartość wskazująca, czy oryginalne wyrazy zostaną zachowane i dodane do listy podordów. Wartość domyślna to false.

protectedWords

string[]

Lista tokenów do ochrony przed ogranicznikami.

splitOnCaseChange

boolean

True

Wartość wskazująca, czy podzielić wyrazy na caseChange. Jeśli na przykład ustawiono wartość true, wyrażenie "AzureSearch" stanie się "Azure" "Search". Wartość domyślna to „true”.

splitOnNumerics

boolean

True

Wartość wskazująca, czy należy podzielić liczby. Jeśli na przykład ustawiono wartość true, wyrażenie "Azure1Search" stanie się "Azure" "1" "Wyszukaj". Wartość domyślna to „true”.

stemEnglishPossessive

boolean

True

Wartość wskazująca, czy usunąć końcowe "", dla każdego podordu. Wartość domyślna to „true”.