Поделиться через


Indexes - Create Or Update

Создает новый индекс поиска или обновляет индекс, если он уже существует.

PUT {endpoint}/indexes('{indexName}')?api-version=2024-07-01
PUT {endpoint}/indexes('{indexName}')?allowIndexDowntime={allowIndexDowntime}&api-version=2024-07-01

Параметры URI

Имя В Обязательно Тип Описание
endpoint
path True

string

URL-адрес конечной точки службы поиска.

indexName
path True

string

Определение индекса для создания или обновления.

api-version
query True

string

Версия клиентского API.

allowIndexDowntime
query

boolean

Позволяет добавлять новые анализаторы, маркеризаторы, фильтры маркеров или фильтры символов в индекс, принимая индекс в автономный режим по крайней мере через несколько секунд. Это временно приводит к сбою индексирования и запросов. Производительность и доступность индекса записи могут быть нарушены в течение нескольких минут после обновления индекса или длиннее для очень больших индексов.

Заголовок запроса

Имя Обязательно Тип Описание
x-ms-client-request-id

string

uuid

Идентификатор отслеживания, отправляемый запросом на отладку.

If-Match

string

Определяет условие If-Match. Операция будет выполнена только в том случае, если ETag на сервере соответствует этому значению.

If-None-Match

string

Определяет условие If-None-Match. Операция будет выполнена только в том случае, если ETag на сервере не соответствует этому значению.

Prefer True

string

Для HTTP-запросов PUT служба возвращает созданный или обновленный ресурс успешно.

Текст запроса

Имя Обязательно Тип Описание
fields True

SearchField[]

Поля индекса.

name True

string

Имя индекса.

@odata.etag

string

ETag индекса.

analyzers LexicalAnalyzer[]:

Анализаторы индекса.

charFilters CharFilter[]:

Фильтры символов для индекса.

corsOptions

CorsOptions

Параметры управления общим доступом к ресурсам между источниками (CORS) для индекса.

defaultScoringProfile

string

Имя профиля оценки, используемого, если ни один из них не указан в запросе. Если это свойство не задано, а профиль оценки не указан в запросе, будет использоваться оценка по умолчанию (tf-idf).

encryptionKey

SearchResourceEncryptionKey

Описание ключа шифрования, созданного в Azure Key Vault. Этот ключ используется для предоставления дополнительного уровня шифрования неактивных данных, если требуется полная уверенность в том, что никто, даже не Корпорация Майкрософт, не может расшифровать данные. После шифрования данных он всегда будет оставаться зашифрованным. Служба поиска игнорирует попытки задать для этого свойства значение NULL. Это свойство можно изменить по мере необходимости, если вы хотите повернуть ключ шифрования; Ваши данные не будут затронуты. Шифрование с помощью ключей, управляемых клиентом, недоступно для бесплатных служб поиска и доступно только для платных служб, созданных 1 января 2019 г.

scoringProfiles

ScoringProfile[]

Профили оценки для индекса.

semantic

SemanticSettings

Определяет параметры индекса поиска, влияющего на семантические возможности.

similarity Similarity:

Тип алгоритма сходства, используемый при оценке и ранжировании документов, соответствующих поисковому запросу. Алгоритм сходства может быть определен только во время создания индекса и не может быть изменен на существующих индексах. Если значение NULL, используется алгоритм ClassicSimilarity.

suggesters

Suggester[]

Предложения для индекса.

tokenFilters TokenFilter[]:

Маркер фильтрует индекс.

tokenizers LexicalTokenizer[]:

Маркеризаторы индекса.

vectorSearch

VectorSearch

Содержит параметры конфигурации, связанные с векторным поиском.

Ответы

Имя Тип Описание
200 OK

SearchIndex

201 Created

SearchIndex

Other Status Codes

ErrorResponse

Ответ на ошибку.

Примеры

SearchServiceCreateOrUpdateIndex

Образец запроса

PUT https://myservice.search.windows.net/indexes('hotels')?allowIndexDowntime=False&api-version=2024-07-01


{
  "name": "hotels",
  "fields": [
    {
      "name": "hotelId",
      "type": "Edm.String",
      "key": true,
      "searchable": false
    },
    {
      "name": "baseRate",
      "type": "Edm.Double"
    },
    {
      "name": "description",
      "type": "Edm.String",
      "filterable": false,
      "sortable": false,
      "facetable": false
    },
    {
      "name": "descriptionEmbedding",
      "type": "Collection(Edm.Single)",
      "dimensions": 1536,
      "vectorSearchProfile": "myHnswProfile",
      "searchable": true,
      "retrievable": true
    },
    {
      "name": "description_fr",
      "type": "Edm.String",
      "filterable": false,
      "sortable": false,
      "facetable": false,
      "analyzer": "fr.lucene"
    },
    {
      "name": "hotelName",
      "type": "Edm.String"
    },
    {
      "name": "category",
      "type": "Edm.String"
    },
    {
      "name": "tags",
      "type": "Collection(Edm.String)",
      "analyzer": "tagsAnalyzer"
    },
    {
      "name": "parkingIncluded",
      "type": "Edm.Boolean"
    },
    {
      "name": "smokingAllowed",
      "type": "Edm.Boolean"
    },
    {
      "name": "lastRenovationDate",
      "type": "Edm.DateTimeOffset"
    },
    {
      "name": "rating",
      "type": "Edm.Int32"
    },
    {
      "name": "location",
      "type": "Edm.GeographyPoint"
    }
  ],
  "scoringProfiles": [
    {
      "name": "geo",
      "text": {
        "weights": {
          "hotelName": 5
        }
      },
      "functions": [
        {
          "type": "distance",
          "boost": 5,
          "fieldName": "location",
          "interpolation": "logarithmic",
          "distance": {
            "referencePointParameter": "currentLocation",
            "boostingDistance": 10
          }
        }
      ]
    }
  ],
  "defaultScoringProfile": "geo",
  "suggesters": [
    {
      "name": "sg",
      "searchMode": "analyzingInfixMatching",
      "sourceFields": [
        "hotelName"
      ]
    }
  ],
  "analyzers": [
    {
      "name": "tagsAnalyzer",
      "@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
      "charFilters": [
        "html_strip"
      ],
      "tokenizer": "standard_v2"
    }
  ],
  "corsOptions": {
    "allowedOrigins": [
      "tempuri.org"
    ],
    "maxAgeInSeconds": 60
  },
  "encryptionKey": {
    "keyVaultKeyName": "myUserManagedEncryptionKey-createdinAzureKeyVault",
    "keyVaultKeyVersion": "myKeyVersion-32charAlphaNumericString",
    "keyVaultUri": "https://myKeyVault.vault.azure.net",
    "accessCredentials": null
  },
  "similarity": {
    "@odata.type": "#Microsoft.Azure.Search.ClassicSimilarity"
  },
  "semantic": {
    "configurations": [
      {
        "name": "semanticHotels",
        "prioritizedFields": {
          "titleField": {
            "fieldName": "hotelName"
          },
          "prioritizedContentFields": [
            {
              "fieldName": "description"
            },
            {
              "fieldName": "description_fr"
            }
          ],
          "prioritizedKeywordsFields": [
            {
              "fieldName": "tags"
            },
            {
              "fieldName": "category"
            }
          ]
        }
      }
    ]
  },
  "vectorSearch": {
    "profiles": [
      {
        "name": "myHnswProfile",
        "algorithm": "myHnsw"
      },
      {
        "name": "myAlgorithm",
        "algorithm": "myExhaustive"
      }
    ],
    "algorithms": [
      {
        "name": "myHnsw",
        "kind": "hnsw",
        "hnswParameters": {
          "m": 4,
          "metric": "cosine"
        }
      },
      {
        "name": "myExhaustive",
        "kind": "exhaustiveKnn",
        "exhaustiveKnnParameters": {
          "metric": "cosine"
        }
      }
    ]
  }
}

Пример ответа

{
  "name": "hotels",
  "fields": [
    {
      "name": "hotelId",
      "type": "Edm.String",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": true,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "baseRate",
      "type": "Edm.Double",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "description",
      "type": "Edm.String",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "descriptionEmbedding",
      "type": "Collection(Edm.Single)",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": 1536,
      "vectorSearchProfile": "myHnswProfile",
      "synonymMaps": []
    },
    {
      "name": "description_fr",
      "type": "Edm.String",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": "fr.lucene",
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "hotelName",
      "type": "Edm.String",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "category",
      "type": "Edm.String",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "tags",
      "type": "Collection(Edm.String)",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "sortable": false,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": "tagsAnalyzer",
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "parkingIncluded",
      "type": "Edm.Boolean",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "smokingAllowed",
      "type": "Edm.Boolean",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "lastRenovationDate",
      "type": "Edm.DateTimeOffset",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "rating",
      "type": "Edm.Int32",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "location",
      "type": "Edm.GeographyPoint",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": false,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    }
  ],
  "scoringProfiles": [
    {
      "name": "geo",
      "functionAggregation": "sum",
      "text": {
        "weights": {
          "hotelName": 5
        }
      },
      "functions": [
        {
          "type": "distance",
          "boost": 5,
          "fieldName": "location",
          "interpolation": "logarithmic",
          "distance": {
            "referencePointParameter": "currentLocation",
            "boostingDistance": 10
          }
        }
      ]
    }
  ],
  "defaultScoringProfile": "geo",
  "suggesters": [
    {
      "name": "sg",
      "searchMode": "analyzingInfixMatching",
      "sourceFields": [
        "hotelName"
      ]
    }
  ],
  "analyzers": [
    {
      "name": "tagsAnalyzer",
      "@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
      "charFilters": [
        "html_strip"
      ],
      "tokenizer": "standard_v2"
    }
  ],
  "tokenizers": [],
  "tokenFilters": [],
  "charFilters": [],
  "corsOptions": {
    "allowedOrigins": [
      "tempuri.org"
    ],
    "maxAgeInSeconds": 60
  },
  "encryptionKey": {
    "keyVaultKeyName": "myUserManagedEncryptionKey-createdinAzureKeyVault",
    "keyVaultKeyVersion": "myKeyVersion-32charAlphaNumericString",
    "keyVaultUri": "https://myKeyVault.vault.azure.net",
    "accessCredentials": null
  },
  "similarity": {
    "@odata.type": "#Microsoft.Azure.Search.ClassicSimilarity"
  },
  "semantic": {
    "configurations": [
      {
        "name": "semanticHotels",
        "prioritizedFields": {
          "titleField": {
            "fieldName": "hotelName"
          },
          "prioritizedContentFields": [
            {
              "fieldName": "description"
            },
            {
              "fieldName": "description_fr"
            }
          ],
          "prioritizedKeywordsFields": [
            {
              "fieldName": "tags"
            },
            {
              "fieldName": "category"
            }
          ]
        }
      }
    ]
  },
  "vectorSearch": {
    "algorithms": [
      {
        "name": "myHnsw",
        "kind": "hnsw",
        "hnswParameters": {
          "metric": "cosine",
          "m": 4,
          "efConstruction": 400,
          "efSearch": 500
        }
      },
      {
        "name": "myExhaustive",
        "kind": "exhaustiveKnn",
        "exhaustiveKnnParameters": {
          "metric": "cosine"
        }
      }
    ],
    "profiles": [
      {
        "name": "myHnswProfile",
        "algorithm": "myHnsw"
      },
      {
        "name": "myAlgorithm",
        "algorithm": "myExhaustive"
      }
    ]
  }
}
{
  "name": "hotels",
  "fields": [
    {
      "name": "hotelId",
      "type": "Edm.String",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": true,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "baseRate",
      "type": "Edm.Double",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "description",
      "type": "Edm.String",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "descriptionEmbedding",
      "type": "Collection(Edm.Single)",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": 1536,
      "vectorSearchProfile": "myHnswProfile",
      "synonymMaps": []
    },
    {
      "name": "description_fr",
      "type": "Edm.String",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": "fr.lucene",
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "hotelName",
      "type": "Edm.String",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "category",
      "type": "Edm.String",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "tags",
      "type": "Collection(Edm.String)",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "sortable": false,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": "tagsAnalyzer",
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "parkingIncluded",
      "type": "Edm.Boolean",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "smokingAllowed",
      "type": "Edm.Boolean",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "lastRenovationDate",
      "type": "Edm.DateTimeOffset",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "rating",
      "type": "Edm.Int32",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "location",
      "type": "Edm.GeographyPoint",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": false,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    }
  ],
  "scoringProfiles": [
    {
      "name": "geo",
      "functionAggregation": "sum",
      "text": {
        "weights": {
          "hotelName": 5
        }
      },
      "functions": [
        {
          "type": "distance",
          "boost": 5,
          "fieldName": "location",
          "interpolation": "logarithmic",
          "distance": {
            "referencePointParameter": "currentLocation",
            "boostingDistance": 10
          }
        }
      ]
    }
  ],
  "defaultScoringProfile": "geo",
  "suggesters": [
    {
      "name": "sg",
      "searchMode": "analyzingInfixMatching",
      "sourceFields": [
        "hotelName"
      ]
    }
  ],
  "analyzers": [
    {
      "name": "tagsAnalyzer",
      "@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
      "charFilters": [
        "html_strip"
      ],
      "tokenizer": "standard_v2"
    }
  ],
  "tokenizers": [],
  "tokenFilters": [],
  "charFilters": [],
  "corsOptions": {
    "allowedOrigins": [
      "tempuri.org"
    ],
    "maxAgeInSeconds": 60
  },
  "encryptionKey": {
    "keyVaultKeyName": "myUserManagedEncryptionKey-createdinAzureKeyVault",
    "keyVaultKeyVersion": "myKeyVersion-32charAlphaNumericString",
    "keyVaultUri": "https://myKeyVault.vault.azure.net",
    "accessCredentials": null
  },
  "semantic": {
    "configurations": [
      {
        "name": "semanticHotels",
        "prioritizedFields": {
          "titleField": {
            "fieldName": "hotelName"
          },
          "prioritizedContentFields": [
            {
              "fieldName": "description"
            },
            {
              "fieldName": "description_fr"
            }
          ],
          "prioritizedKeywordsFields": [
            {
              "fieldName": "tags"
            },
            {
              "fieldName": "category"
            }
          ]
        }
      }
    ]
  },
  "vectorSearch": {
    "algorithms": [
      {
        "name": "myHnsw",
        "kind": "hnsw",
        "hnswParameters": {
          "metric": "cosine",
          "m": 4,
          "efConstruction": 400,
          "efSearch": 500
        }
      },
      {
        "name": "myExhaustive",
        "kind": "exhaustiveKnn",
        "exhaustiveKnnParameters": {
          "metric": "cosine"
        }
      }
    ],
    "profiles": [
      {
        "name": "myHnswProfile",
        "algorithm": "myHnsw"
      },
      {
        "name": "myAlgorithm",
        "algorithm": "myExhaustive"
      }
    ]
  }
}

Определения

Имя Описание
AsciiFoldingTokenFilter

Преобразует алфавитные, числовые и символьные символы Юникода, которые не находятся в первых 127 символах ASCII (блок Юникода "Базовый латиница") в эквиваленты ASCII, если такие эквиваленты существуют. Этот фильтр маркеров реализуется с помощью Apache Lucene.

AzureActiveDirectoryApplicationCredentials

Учетные данные зарегистрированного приложения, созданного для службы поиска, используемого для проверки подлинности доступа к ключам шифрования, хранящимся в Azure Key Vault.

AzureOpenAIEmbeddingSkill

Позволяет создать вектор внедрения для заданного текстового ввода с помощью ресурса Azure OpenAI.

AzureOpenAIModelName

Имя модели Azure Open AI, которое будет вызываться.

AzureOpenAIParameters

Задает параметры для подключения к ресурсу Azure OpenAI.

AzureOpenAIVectorizer

Указывает ресурс Azure OpenAI, используемый для векторизации строки запроса.

BinaryQuantizationVectorSearchCompressionConfiguration

Содержит параметры конфигурации, относящиеся к методу сжатия двоичной квантизации, используемому во время индексирования и запроса.

BM25Similarity

Функция ранжирования на основе алгоритма сходства Okapi BM25. BM25 — это алгоритм TF-IDF, включающий нормализацию длины (контролируемый параметром B), а также насыщенность терминов (контролируемый параметром k1).

CharFilterName

Определяет имена всех фильтров символов, поддерживаемых поисковой системой.

CjkBigramTokenFilter

Формирует большие кадры терминов CJK, созданных из стандартного токенизатора. Этот фильтр маркеров реализуется с помощью Apache Lucene.

CjkBigramTokenFilterScripts

Скрипты, которые могут игнорироваться CjkBigramTokenFilter.

ClassicSimilarity

Устаревший алгоритм сходства, использующий реализацию TF-IDF Lucene TFIDFSimilarity. Этот вариант TF-IDF представляет нормализацию статического длины документа, а также координирующие факторы, которые наказывают документы, которые частично соответствуют поисковым запросам.

ClassicTokenizer

Токенизатор на основе грамматики, подходящий для обработки большинства европейских языковых документов. Этот токенизатор реализуется с помощью Apache Lucene.

CommonGramTokenFilter

Создавайте bigrams для часто встречающихся терминов при индексировании. Отдельные термины по-прежнему индексируются слишком, при наложении bigrams. Этот фильтр маркеров реализуется с помощью Apache Lucene.

CorsOptions

Определяет параметры управления общим доступом к ресурсам между источниками (CORS) для индекса.

CustomAnalyzer

Позволяет контролировать процесс преобразования текста в индексируемые и поисковые маркеры. Это определяемая пользователем конфигурация, состоящая из одного предопределенного токенизатора и одного или нескольких фильтров. Маркеризатор отвечает за разбиение текста в маркеры и фильтры для изменения маркеров, создаваемых токенизатором.

DictionaryDecompounderTokenFilter

Раскомпозирует составные слова, найденные во многих немецких языках. Этот фильтр маркеров реализуется с помощью Apache Lucene.

DistanceScoringFunction

Определяет функцию, которая повышает оценки на основе расстояния от географического расположения.

DistanceScoringParameters

Предоставляет значения параметров функции оценки расстояния.

EdgeNGramTokenFilter

Создает n-граммы заданных размеров, начиная с передней или задней части входного маркера. Этот фильтр маркеров реализуется с помощью Apache Lucene.

EdgeNGramTokenFilterSide

Указывает, какая сторона входных данных должна быть создана из n-граммы.

EdgeNGramTokenFilterV2

Создает n-граммы заданных размеров, начиная с передней или задней части входного маркера. Этот фильтр маркеров реализуется с помощью Apache Lucene.

EdgeNGramTokenizer

Маркеризирует входные данные из края в n-граммы заданных размеров. Этот токенизатор реализуется с помощью Apache Lucene.

ElisionTokenFilter

Удаляет излизии. Например, "l'avion" (плоскость) преобразуется в "avion" (плоскость). Этот фильтр маркеров реализуется с помощью Apache Lucene.

ErrorAdditionalInfo

Дополнительные сведения об ошибке управления ресурсами.

ErrorDetail

Сведения об ошибке.

ErrorResponse

Ответ на ошибку

ExhaustiveKnnParameters

Содержит параметры, относящиеся к исчерпывающим алгоритмам KNN.

ExhaustiveKnnVectorSearchAlgorithmConfiguration

Содержит параметры конфигурации, относящиеся к исчерпывающим алгоритму KNN, используемому во время запроса, который будет выполнять поиск методом подбора по всему векторному индексу.

FreshnessScoringFunction

Определяет функцию, которая повышает оценки на основе значения поля даты и времени.

FreshnessScoringParameters

Предоставляет значения параметров функции оценки свежести.

HnswParameters

Содержит параметры, относящиеся к алгоритму HNSW.

HnswVectorSearchAlgorithmConfiguration

Содержит параметры конфигурации, относящиеся к алгоритму HNSW, приблизительному ближайшему соседу, используемому во время индексирования и запроса. Алгоритм HNSW предлагает ошеломимый компромисс между скоростью поиска и точностью.

InputFieldMappingEntry

Сопоставление полей ввода для навыка.

KeepTokenFilter

Фильтр маркеров, который сохраняет только маркеры с текстом, содержащимся в указанном списке слов. Этот фильтр маркеров реализуется с помощью Apache Lucene.

KeywordMarkerTokenFilter

Помечает термины как ключевые слова. Этот фильтр маркеров реализуется с помощью Apache Lucene.

KeywordTokenizer

Выводит все входные данные в виде одного маркера. Этот токенизатор реализуется с помощью Apache Lucene.

KeywordTokenizerV2

Выводит все входные данные в виде одного маркера. Этот токенизатор реализуется с помощью Apache Lucene.

LengthTokenFilter

Удаляет слова, слишком длинные или слишком короткие. Этот фильтр маркеров реализуется с помощью Apache Lucene.

LexicalAnalyzerName

Определяет имена всех текстовых анализаторов, поддерживаемых поисковой системой.

LexicalTokenizerName

Определяет имена всех токенизаторов, поддерживаемых поисковой системой.

LimitTokenFilter

Ограничивает количество маркеров при индексировании. Этот фильтр маркеров реализуется с помощью Apache Lucene.

LuceneStandardAnalyzer

Стандартный анализатор Apache Lucene; Состоит из стандартного токенизатора, нижнего регистра фильтра и фильтра остановки.

LuceneStandardTokenizer

Разбивает текст в соответствии с правилами сегментации текста Юникода. Этот токенизатор реализуется с помощью Apache Lucene.

LuceneStandardTokenizerV2

Разбивает текст в соответствии с правилами сегментации текста Юникода. Этот токенизатор реализуется с помощью Apache Lucene.

MagnitudeScoringFunction

Определяет функцию, которая повышает оценки на основе величины числового поля.

MagnitudeScoringParameters

Предоставляет значения параметров функции оценки величины.

MappingCharFilter

Фильтр символов, который применяет сопоставления, определенные с параметром сопоставления. Сопоставление жадно (самый длинный шаблон сопоставления в заданной точке выигрывает). Допускается замена пустой строки. Этот фильтр символов реализуется с помощью Apache Lucene.

MicrosoftLanguageStemmingTokenizer

Разделяет текст с помощью правил, относящихся к языку, и сокращает количество слов к базовым формам.

MicrosoftLanguageTokenizer

Делит текст с помощью правил, относящихся к языку.

MicrosoftStemmingTokenizerLanguage

Выводит список языков, поддерживаемых маркеризатором маркеров языка Майкрософт.

MicrosoftTokenizerLanguage

Выводит список языков, поддерживаемых токенизатором языка Майкрософт.

NGramTokenFilter

Создает n-граммы заданного размера. Этот фильтр маркеров реализуется с помощью Apache Lucene.

NGramTokenFilterV2

Создает n-граммы заданного размера. Этот фильтр маркеров реализуется с помощью Apache Lucene.

NGramTokenizer

Маркеризирует входные данные в n-граммах заданных размеров. Этот токенизатор реализуется с помощью Apache Lucene.

OutputFieldMappingEntry

Сопоставление полей вывода для навыка.

PathHierarchyTokenizerV2

Токенизатор для иерархий, похожих на пути. Этот токенизатор реализуется с помощью Apache Lucene.

PatternAnalyzer

Гибкий разделяет текст на термины с помощью шаблона регулярного выражения. Этот анализатор реализуется с помощью Apache Lucene.

PatternCaptureTokenFilter

Использует регрессии Java для выдачи нескольких маркеров — по одному для каждой группы захвата в одном или нескольких шаблонах. Этот фильтр маркеров реализуется с помощью Apache Lucene.

PatternReplaceCharFilter

Фильтр символов, заменяющий символы во входной строке. Он использует регулярное выражение для идентификации последовательностей символов для сохранения и замены шаблона для определения символов для замены. Например, учитывая входной текст "aa bb aa bb", шаблон "(aa)\s+(bb)" и замену "$1#2", результатом будет "aa#bb aa#bb". Этот фильтр символов реализуется с помощью Apache Lucene.

PatternReplaceTokenFilter

Фильтр символов, заменяющий символы во входной строке. Он использует регулярное выражение для идентификации последовательностей символов для сохранения и замены шаблона для определения символов для замены. Например, учитывая входной текст "aa bb aa bb", шаблон "(aa)\s+(bb)" и замену "$1#2", результатом будет "aa#bb aa#bb". Этот фильтр маркеров реализуется с помощью Apache Lucene.

PatternTokenizer

Токенизатор, использующий сопоставление шаблонов regex для создания уникальных маркеров. Этот токенизатор реализуется с помощью Apache Lucene.

PhoneticEncoder

Определяет тип фонетического кодировщика, используемого с PhoneticTokenFilter.

PhoneticTokenFilter

Создайте маркеры для фонетических совпадений. Этот фильтр маркеров реализуется с помощью Apache Lucene.

PrioritizedFields

Описывает поля заголовка, содержимого и ключевых слов, которые будут использоваться для семантического ранжирования, подписей, выделений и ответов.

RegexFlags

Определяет флаги, которые можно объединить для управления использованием регулярных выражений в анализаторе шаблонов и маркеризаторе шаблонов.

ScalarQuantizationParameters

Содержит параметры, относящиеся к скалярной квантизации.

ScalarQuantizationVectorSearchCompressionConfiguration

Содержит параметры конфигурации, относящиеся к методу сжатия скалярной квантизации, используемому во время индексирования и запроса.

ScoringFunctionAggregation

Определяет функцию агрегирования, используемую для объединения результатов всех функций оценки в профиле оценки.

ScoringFunctionInterpolation

Определяет функцию, используемую для интерполяции показателей повышения в диапазоне документов.

ScoringProfile

Определяет параметры индекса поиска, влияющего на оценку в поисковых запросах.

SearchField

Представляет поле в определении индекса, описывающее имя, тип данных и поведение поиска поля.

SearchFieldDataType

Определяет тип данных поля в индексе поиска.

SearchIndex

Представляет определение индекса поиска, описывающее поля и поведение поиска индекса.

SearchIndexerDataNoneIdentity

Очищает свойство удостоверения источника данных.

SearchIndexerDataUserAssignedIdentity

Указывает удостоверение для используемого источника данных.

SearchResourceEncryptionKey

Ключ шифрования, управляемый клиентом, в Azure Key Vault. Ключи, которые создаются и управляются, можно использовать для шифрования или расшифровки неактивных данных, таких как индексы и карты синонимов.

SemanticConfiguration

Определяет определенную конфигурацию, используемую в контексте семантических возможностей.

SemanticField

Поле, используемое в рамках семантической конфигурации.

SemanticSettings

Определяет параметры индекса поиска, влияющего на семантические возможности.

ShingleTokenFilter

Создает сочетания маркеров в виде одного маркера. Этот фильтр маркеров реализуется с помощью Apache Lucene.

SnowballTokenFilter

Фильтр, который стебляет слова с помощью созданного сноубола стебля. Этот фильтр маркеров реализуется с помощью Apache Lucene.

SnowballTokenFilterLanguage

Язык, используемый для фильтра маркеров Snowball.

StemmerOverrideTokenFilter

Предоставляет возможность переопределить другие фильтры с использованием пользовательских фильтров на основе словаря. Все термины, связанные с словарем, будут помечены как ключевые слова, чтобы они не были стеблированы с помощью стволовых модулей вниз по цепочке. Необходимо поместить перед любыми фильтрами с использованием стволовых элементов. Этот фильтр маркеров реализуется с помощью Apache Lucene.

StemmerTokenFilter

Фильтр для конкретного языка. Этот фильтр маркеров реализуется с помощью Apache Lucene.

StemmerTokenFilterLanguage

Язык, используемый для фильтра маркеров stemmer.

StopAnalyzer

Делит текст на небуквенный; Применяет фильтры маркеров стоп-слов и строчных регистров. Этот анализатор реализуется с помощью Apache Lucene.

StopwordsList

Определяет предопределенный список слов стоп-слов для конкретного языка.

StopwordsTokenFilter

Удаляет слова остановки из потока маркеров. Этот фильтр маркеров реализуется с помощью Apache Lucene.

Suggester

Определяет, как API предложения должен применяться к группе полей в индексе.

SuggesterSearchMode

Значение, указывающее возможности средства предложения.

SynonymTokenFilter

Соответствует синонимам одного или нескольких слов в потоке маркеров. Этот фильтр маркеров реализуется с помощью Apache Lucene.

TagScoringFunction

Определяет функцию, которая повышает оценку документов со строковыми значениями, соответствующими заданному списку тегов.

TagScoringParameters

Предоставляет значения параметров функции оценки тегов.

TextWeights

Определяет весы в полях индекса, для которых совпадения должны повысить оценку в поисковых запросах.

TokenCharacterKind

Представляет классы символов, на которых может работать фильтр маркеров.

TokenFilterName

Определяет имена всех фильтров маркеров, поддерживаемых поисковой системой.

TruncateTokenFilter

Усечение терминов до определенной длины. Этот фильтр маркеров реализуется с помощью Apache Lucene.

UaxUrlEmailTokenizer

Маркеризирует URL-адреса и сообщения электронной почты в виде одного маркера. Этот токенизатор реализуется с помощью Apache Lucene.

UniqueTokenFilter

Фильтрует маркеры с тем же текстом, что и предыдущий маркер. Этот фильтр маркеров реализуется с помощью Apache Lucene.

VectorEncodingFormat

Формат кодирования для интерпретации содержимого поля вектора.

VectorSearch

Содержит параметры конфигурации, связанные с векторным поиском.

VectorSearchAlgorithmKind

Алгоритм, используемый для индексирования и запроса.

VectorSearchAlgorithmMetric

Метрика сходства, используемая для сравнения векторов. Рекомендуется выбрать ту же метрику сходства, что и модель внедрения.

VectorSearchCompressionKind

Метод сжатия, используемый для индексирования и запроса.

VectorSearchCompressionTargetDataType

Квантизованный тип данных сжатых векторных значений.

VectorSearchProfile

Определяет сочетание конфигураций для использования с векторным поиском.

VectorSearchVectorizerKind

Метод векторизации, используемый во время запроса.

WebApiParameters

Задает свойства для подключения к определяемой пользователем векторизаторе.

WebApiVectorizer

Задает определяемый пользователем векторизатор для создания векторного внедрения строки запроса. Интеграция внешнего векторизатора достигается с помощью пользовательского интерфейса веб-API набора навыков.

WordDelimiterTokenFilter

Разбивает слова на вложенные слова и выполняет необязательные преобразования в группах подслугов. Этот фильтр маркеров реализуется с помощью Apache Lucene.

AsciiFoldingTokenFilter

Преобразует алфавитные, числовые и символьные символы Юникода, которые не находятся в первых 127 символах ASCII (блок Юникода "Базовый латиница") в эквиваленты ASCII, если такие эквиваленты существуют. Этот фильтр маркеров реализуется с помощью Apache Lucene.

Имя Тип Default value Описание
@odata.type string:

#Microsoft.Azure.Search.AsciiFoldingTokenFilter

Фрагмент URI, указывающий тип фильтра маркеров.

name

string

Имя фильтра маркеров. Он должен содержать только буквы, цифры, пробелы, дефисы или символы подчеркивания, может начинаться и заканчиваться буквенно-цифровыми символами и ограничен 128 символами.

preserveOriginal

boolean

False

Значение, указывающее, будет ли храниться исходный токен. Значение по умолчанию — false.

AzureActiveDirectoryApplicationCredentials

Учетные данные зарегистрированного приложения, созданного для службы поиска, используемого для проверки подлинности доступа к ключам шифрования, хранящимся в Azure Key Vault.

Имя Тип Описание
applicationId

string

Идентификатор приложения AAD, которому было предоставлено необходимые разрешения на доступ к Azure Key Vault, который будет использоваться при шифровании неактивных данных. Идентификатор приложения не следует путать с идентификатором объекта для приложения AAD.

applicationSecret

string

Ключ проверки подлинности указанного приложения AAD.

AzureOpenAIEmbeddingSkill

Позволяет создать вектор внедрения для заданного текстового ввода с помощью ресурса Azure OpenAI.

Имя Тип Описание
@odata.type string:

#Microsoft.Skills.Text.AzureOpenAIEmbeddingSkill

Фрагмент URI, указывающий тип навыка.

apiKey

string

Ключ API указанного ресурса Azure OpenAI.

authIdentity SearchIndexerDataIdentity:

Назначаемое пользователем управляемое удостоверение, используемое для исходящих подключений.

context

string

Представляет уровень, на котором выполняются операции, такие как корневой каталог документа или содержимое документа (например, /document или /document/content). Значение по умолчанию — /document.

deploymentId

string

Идентификатор развертывания модели Azure OpenAI в указанном ресурсе.

description

string

Описание навыка, описывающего входные данные, выходные данные и использование навыка.

dimensions

integer

Число измерений, в которых должны быть внедренные выходные данные. Поддерживается только в моделях с внедрением текста-3 и более поздних версий.

inputs

InputFieldMappingEntry[]

Входные данные навыков могут быть столбцом в исходном наборе данных или выходными данными вышестоящего навыка.

modelName

AzureOpenAIModelName

Имя модели внедрения, развернутой по указанному пути deploymentId.

name

string

Имя навыка, который однозначно идентифицирует его в наборе навыков. Навык без определенного имени будет указан по умолчанию для его 1-го индекса в массиве навыков, префиксированного символом "#".

outputs

OutputFieldMappingEntry[]

Выходные данные навыка — это поле в индексе поиска или значение, которое можно использовать в качестве входных данных другим навыком.

resourceUri

string

URI ресурса ресурса Azure OpenAI.

AzureOpenAIModelName

Имя модели Azure Open AI, которое будет вызываться.

Имя Тип Описание
text-embedding-3-large

string

text-embedding-3-small

string

text-embedding-ada-002

string

AzureOpenAIParameters

Задает параметры для подключения к ресурсу Azure OpenAI.

Имя Тип Описание
apiKey

string

Ключ API указанного ресурса Azure OpenAI.

authIdentity SearchIndexerDataIdentity:

Назначаемое пользователем управляемое удостоверение, используемое для исходящих подключений.

deploymentId

string

Идентификатор развертывания модели Azure OpenAI в указанном ресурсе.

modelName

AzureOpenAIModelName

Имя модели внедрения, развернутой по указанному пути deploymentId.

resourceUri

string

URI ресурса ресурса Azure OpenAI.

AzureOpenAIVectorizer

Указывает ресурс Azure OpenAI, используемый для векторизации строки запроса.

Имя Тип Описание
azureOpenAIParameters AzureOpenAIParameters:

AzureOpenAIEmbeddingSkill

Содержит параметры, относящиеся к векторизации внедрения Azure OpenAI.

kind string:

azureOpenAI

Имя типа метода векторизации, настроенного для использования с векторным поиском.

name

string

Имя, сопоставленное с этим конкретным методом векторизации.

BinaryQuantizationVectorSearchCompressionConfiguration

Содержит параметры конфигурации, относящиеся к методу сжатия двоичной квантизации, используемому во время индексирования и запроса.

Имя Тип Default value Описание
defaultOversampling

number

Коэффициент превышения по умолчанию. Oversampling внутренне запрашивает дополнительные документы (указанные этим умножением) в первоначальном поиске. Это увеличивает набор результатов, которые будут повторно выполняться с помощью перекомпилированных показателей сходства из векторов полной точности. Минимальное значение равно 1, то есть без превышения (1x). Этот параметр можно задать только в том случае, если параметр rerankWithOriginalVectors имеет значение true. Более высокие значения улучшают отзыв за счет задержки.

kind string:

binaryQuantization

Имя типа метода сжатия, настроенного для использования с векторным поиском.

name

string

Имя, сопоставленное с этой конкретной конфигурацией.

rerankWithOriginalVectors

boolean

True

Если задано значение true, после получения упорядоченного набора результатов, вычисляемого с помощью сжатых векторов, они будут повторно оценены путем пересчета показателей сходства полной точности. Это улучшит отзыв за счет задержки.

BM25Similarity

Функция ранжирования на основе алгоритма сходства Okapi BM25. BM25 — это алгоритм TF-IDF, включающий нормализацию длины (контролируемый параметром B), а также насыщенность терминов (контролируемый параметром k1).

Имя Тип Описание
@odata.type string:

#Microsoft.Azure.Search.BM25Similarity

b

number

Это свойство определяет, как длина документа влияет на оценку релевантности. По умолчанию используется значение 0,75. Значение 0,0 означает, что нормализация длины не применяется, а значение 1,0 означает, что оценка полностью нормализуется длиной документа.

k1

number

Это свойство управляет функцией масштабирования между частотой терминов каждого соответствующего термина и конечной оценкой релевантности пары document-query. По умолчанию используется значение 1.2. Значение 0,0 означает, что оценка не масштабируется с увеличением частоты термина.

CharFilterName

Определяет имена всех фильтров символов, поддерживаемых поисковой системой.

Имя Тип Описание
html_strip

string

Фильтр символов, который пытается удалить конструкции HTML. См. https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html

CjkBigramTokenFilter

Формирует большие кадры терминов CJK, созданных из стандартного токенизатора. Этот фильтр маркеров реализуется с помощью Apache Lucene.

Имя Тип Default value Описание
@odata.type string:

#Microsoft.Azure.Search.CjkBigramTokenFilter

Фрагмент URI, указывающий тип фильтра маркеров.

ignoreScripts

CjkBigramTokenFilterScripts[]

Скрипты, которые следует игнорировать.

name

string

Имя фильтра маркеров. Он должен содержать только буквы, цифры, пробелы, дефисы или символы подчеркивания, может начинаться и заканчиваться буквенно-цифровыми символами и ограничен 128 символами.

outputUnigrams

boolean

False

Значение, указывающее, следует ли выводить юниграммы и bigrams (если значение true), или просто bigrams (если значение false). Значение по умолчанию — false.

CjkBigramTokenFilterScripts

Скрипты, которые могут игнорироваться CjkBigramTokenFilter.

Имя Тип Описание
han

string

Игнорировать скрипт Han при формировании bigrams терминов CJK.

hangul

string

Игнорировать скрипт Hangul при формировании bigrams терминов CJK.

hiragana

string

Игнорировать скрипт Hiragana при формировании bigrams терминов CJK.

katakana

string

Игнорировать скрипт Katakana при формировании bigrams терминов CJK.

ClassicSimilarity

Устаревший алгоритм сходства, использующий реализацию TF-IDF Lucene TFIDFSimilarity. Этот вариант TF-IDF представляет нормализацию статического длины документа, а также координирующие факторы, которые наказывают документы, которые частично соответствуют поисковым запросам.

Имя Тип Описание
@odata.type string:

#Microsoft.Azure.Search.ClassicSimilarity

ClassicTokenizer

Токенизатор на основе грамматики, подходящий для обработки большинства европейских языковых документов. Этот токенизатор реализуется с помощью Apache Lucene.

Имя Тип Default value Описание
@odata.type string:

#Microsoft.Azure.Search.ClassicTokenizer

Фрагмент URI, указывающий тип токенизатора.

maxTokenLength

integer

255

Максимальная длина маркера. Значение по умолчанию — 255. Маркеры длиннее, чем максимальная длина, разделены. Максимальная длина маркера, которую можно использовать, составляет 300 символов.

name

string

Имя токенизатора. Он должен содержать только буквы, цифры, пробелы, дефисы или символы подчеркивания, может начинаться и заканчиваться буквенно-цифровыми символами и ограничен 128 символами.

CommonGramTokenFilter

Создавайте bigrams для часто встречающихся терминов при индексировании. Отдельные термины по-прежнему индексируются слишком, при наложении bigrams. Этот фильтр маркеров реализуется с помощью Apache Lucene.

Имя Тип Default value Описание
@odata.type string:

#Microsoft.Azure.Search.CommonGramTokenFilter

Фрагмент URI, указывающий тип фильтра маркеров.

commonWords

string[]

Набор общих слов.

ignoreCase

boolean

False

Значение, указывающее, не учитывается ли совпадение распространенных слов. Значение по умолчанию — false.

name

string

Имя фильтра маркеров. Он должен содержать только буквы, цифры, пробелы, дефисы или символы подчеркивания, может начинаться и заканчиваться буквенно-цифровыми символами и ограничен 128 символами.

queryMode

boolean

False

Значение, указывающее, находится ли фильтр маркеров в режиме запроса. При использовании режима запроса фильтр маркеров создает большие кадры, а затем удаляет общие слова и отдельные термины, за которым следует общее слово. Значение по умолчанию — false.

CorsOptions

Определяет параметры управления общим доступом к ресурсам между источниками (CORS) для индекса.

Имя Тип Описание
allowedOrigins

string[]

Список источников, из которых код JavaScript будет предоставлен доступ к индексу. Может содержать список узлов формы {protocol}://{полное доменное имя}[:{port#}], или один "*", чтобы разрешить все источники (не рекомендуется).

maxAgeInSeconds

integer

Длительность, в течение которой браузеры должны кэшировать предварительные ответы CORS. По умолчанию — 5 минут.

CustomAnalyzer

Позволяет контролировать процесс преобразования текста в индексируемые и поисковые маркеры. Это определяемая пользователем конфигурация, состоящая из одного предопределенного токенизатора и одного или нескольких фильтров. Маркеризатор отвечает за разбиение текста в маркеры и фильтры для изменения маркеров, создаваемых токенизатором.

Имя Тип Описание
@odata.type string:

#Microsoft.Azure.Search.CustomAnalyzer

Фрагмент URI, указывающий тип анализатора.

charFilters

CharFilterName[]

Список фильтров символов, используемых для подготовки входного текста перед обработкой маркеризатором. Например, они могут заменить определенные символы или символы. Фильтры выполняются в том порядке, в котором они перечислены.

name

string

Имя анализатора. Он должен содержать только буквы, цифры, пробелы, дефисы или символы подчеркивания, может начинаться и заканчиваться буквенно-цифровыми символами и ограничен 128 символами.

tokenFilters

TokenFilterName[]

Список фильтров маркеров, используемых для фильтрации или изменения маркеров, созданных токенизатором. Например, можно указать строчный фильтр, который преобразует все символы в строчный регистр. Фильтры выполняются в том порядке, в котором они перечислены.

tokenizer

LexicalTokenizerName

Имя токенизатора, используемого для разделения непрерывного текста на последовательность маркеров, например разбиение предложения на слова.

DictionaryDecompounderTokenFilter

Раскомпозирует составные слова, найденные во многих немецких языках. Этот фильтр маркеров реализуется с помощью Apache Lucene.

Имя Тип Default value Описание
@odata.type string:

#Microsoft.Azure.Search.DictionaryDecompounderTokenFilter

Фрагмент URI, указывающий тип фильтра маркеров.

maxSubwordSize

integer

15

Максимальный размер подслугов. Только вложенные слова короче, чем это выводится. Значение по умолчанию — 15. Максимальное значение — 300.

minSubwordSize

integer

2

Минимальный размер подслогов. Выводятся только вложенные слова, превышающие это значение. Значение по умолчанию — 2. Максимальное значение — 300.

minWordSize

integer

5

Минимальный размер слова. Только слова дольше, чем это обрабатывается. Значение по умолчанию — 5. Максимальное значение — 300.

name

string

Имя фильтра маркеров. Он должен содержать только буквы, цифры, пробелы, дефисы или символы подчеркивания, может начинаться и заканчиваться буквенно-цифровыми символами и ограничен 128 символами.

onlyLongestMatch

boolean

False

Значение, указывающее, следует ли добавлять в выходные данные только самый длинный соответствующий подсловь. Значение по умолчанию — false.

wordList

string[]

Список слов, которые нужно сопоставить.

DistanceScoringFunction

Определяет функцию, которая повышает оценки на основе расстояния от географического расположения.

Имя Тип Описание
boost

number

Умножение для необработанной оценки. Должно быть положительным числом, не равным 1,0.

distance

DistanceScoringParameters

Значения параметров для функции оценки расстояния.

fieldName

string

Имя поля, используемого в качестве входных данных для функции оценки.

interpolation

ScoringFunctionInterpolation

Значение, указывающее, как повышение будет интерполировано по оценкам документов; По умолчанию используется значение "Linear".

type string:

distance

Указывает тип используемой функции. Допустимые значения включают величину, свежесть, расстояние и тег. Тип функции должен быть нижним регистром.

DistanceScoringParameters

Предоставляет значения параметров функции оценки расстояния.

Имя Тип Описание
boostingDistance

number

Расстояние в километрах от эталонного расположения, где заканчивается повышение диапазона.

referencePointParameter

string

Имя параметра, переданного в поисковых запросах, для указания расположения ссылки.

EdgeNGramTokenFilter

Создает n-граммы заданных размеров, начиная с передней или задней части входного маркера. Этот фильтр маркеров реализуется с помощью Apache Lucene.

Имя Тип Default value Описание
@odata.type string:

#Microsoft.Azure.Search.EdgeNGramTokenFilter

Фрагмент URI, указывающий тип фильтра маркеров.

maxGram

integer

2

Максимальная длина n-грамма. Значение по умолчанию — 2.

minGram

integer

1

Минимальная длина n-грамма. Значение по умолчанию — 1. Должно быть меньше значения maxGram.

name

string

Имя фильтра маркеров. Он должен содержать только буквы, цифры, пробелы, дефисы или символы подчеркивания, может начинаться и заканчиваться буквенно-цифровыми символами и ограничен 128 символами.

side

EdgeNGramTokenFilterSide

front

Указывает, какая сторона входных данных должна быть создана из n-граммы. Значение по умолчанию — front.

EdgeNGramTokenFilterSide

Указывает, какая сторона входных данных должна быть создана из n-граммы.

Имя Тип Описание
back

string

Указывает, что n-грамма должна быть создана из задней части входных данных.

front

string

Указывает, что n-грамма должна быть создана на передней части входных данных.

EdgeNGramTokenFilterV2

Создает n-граммы заданных размеров, начиная с передней или задней части входного маркера. Этот фильтр маркеров реализуется с помощью Apache Lucene.

Имя Тип Default value Описание
@odata.type string:

#Microsoft.Azure.Search.EdgeNGramTokenFilterV2

Фрагмент URI, указывающий тип фильтра маркеров.

maxGram

integer

2

Максимальная длина n-грамма. Значение по умолчанию — 2. Максимальное значение — 300.

minGram

integer

1

Минимальная длина n-грамма. Значение по умолчанию — 1. Максимальное значение — 300. Должно быть меньше значения maxGram.

name

string

Имя фильтра маркеров. Он должен содержать только буквы, цифры, пробелы, дефисы или символы подчеркивания, может начинаться и заканчиваться буквенно-цифровыми символами и ограничен 128 символами.

side

EdgeNGramTokenFilterSide

front

Указывает, какая сторона входных данных должна быть создана из n-граммы. Значение по умолчанию — front.

EdgeNGramTokenizer

Маркеризирует входные данные из края в n-граммы заданных размеров. Этот токенизатор реализуется с помощью Apache Lucene.

Имя Тип Default value Описание
@odata.type string:

#Microsoft.Azure.Search.EdgeNGramTokenizer

Фрагмент URI, указывающий тип токенизатора.

maxGram

integer

2

Максимальная длина n-грамма. Значение по умолчанию — 2. Максимальное значение — 300.

minGram

integer

1

Минимальная длина n-грамма. Значение по умолчанию — 1. Максимальное значение — 300. Должно быть меньше значения maxGram.

name

string

Имя токенизатора. Он должен содержать только буквы, цифры, пробелы, дефисы или символы подчеркивания, может начинаться и заканчиваться буквенно-цифровыми символами и ограничен 128 символами.

tokenChars

TokenCharacterKind[]

Классы символов, которые хранятся в маркерах.

ElisionTokenFilter

Удаляет излизии. Например, "l'avion" (плоскость) преобразуется в "avion" (плоскость). Этот фильтр маркеров реализуется с помощью Apache Lucene.

Имя Тип Описание
@odata.type string:

#Microsoft.Azure.Search.ElisionTokenFilter

Фрагмент URI, указывающий тип фильтра маркеров.

articles

string[]

Набор статей для удаления.

name

string

Имя фильтра маркеров. Он должен содержать только буквы, цифры, пробелы, дефисы или символы подчеркивания, может начинаться и заканчиваться буквенно-цифровыми символами и ограничен 128 символами.

ErrorAdditionalInfo

Дополнительные сведения об ошибке управления ресурсами.

Имя Тип Описание
info

object

Дополнительные сведения.

type

string

Дополнительный тип сведений.

ErrorDetail

Сведения об ошибке.

Имя Тип Описание
additionalInfo

ErrorAdditionalInfo[]

Дополнительные сведения об ошибке.

code

string

Код ошибки.

details

ErrorDetail[]

Сведения об ошибке.

message

string

Сообщение об ошибке.

target

string

Целевой объект ошибки.

ErrorResponse

Ответ на ошибку

Имя Тип Описание
error

ErrorDetail

Объект ошибки.

ExhaustiveKnnParameters

Содержит параметры, относящиеся к исчерпывающим алгоритмам KNN.

Имя Тип Описание
metric

VectorSearchAlgorithmMetric

Метрика сходства, используемая для сравнения векторов.

ExhaustiveKnnVectorSearchAlgorithmConfiguration

Содержит параметры конфигурации, относящиеся к исчерпывающим алгоритму KNN, используемому во время запроса, который будет выполнять поиск методом подбора по всему векторному индексу.

Имя Тип Описание
exhaustiveKnnParameters

ExhaustiveKnnParameters

Содержит параметры, относящиеся к исчерпывающим алгоритмам KNN.

kind string:

exhaustiveKnn

Имя типа алгоритма, настроенного для использования с векторным поиском.

name

string

Имя, сопоставленное с этой конкретной конфигурацией.

FreshnessScoringFunction

Определяет функцию, которая повышает оценки на основе значения поля даты и времени.

Имя Тип Описание
boost

number

Умножение для необработанной оценки. Должно быть положительным числом, не равным 1,0.

fieldName

string

Имя поля, используемого в качестве входных данных для функции оценки.

freshness

FreshnessScoringParameters

Значения параметров для функции оценки свежести.

interpolation

ScoringFunctionInterpolation

Значение, указывающее, как повышение будет интерполировано по оценкам документов; По умолчанию используется значение "Linear".

type string:

freshness

Указывает тип используемой функции. Допустимые значения включают величину, свежесть, расстояние и тег. Тип функции должен быть нижним регистром.

FreshnessScoringParameters

Предоставляет значения параметров функции оценки свежести.

Имя Тип Описание
boostingDuration

string

Срок действия, после которого повышение будет прекращено для определенного документа.

HnswParameters

Содержит параметры, относящиеся к алгоритму HNSW.

Имя Тип Default value Описание
efConstruction

integer

400

Размер динамического списка, содержащего ближайшие соседи, который используется во время индексирования. Увеличение этого параметра может повысить качество индекса за счет увеличения времени индексирования. В определенный момент увеличение этого параметра приводит к уменьшению возврата.

efSearch

integer

500

Размер динамического списка, содержащего ближайших соседей, который используется во время поиска. Увеличение этого параметра может улучшить результаты поиска за счет более медленного поиска. В определенный момент увеличение этого параметра приводит к уменьшению возврата.

m

integer

4

Количество двунаправленных ссылок, созданных для каждого нового элемента во время построения. Увеличение этого значения параметра может повысить время отзыва и уменьшить время извлечения для наборов данных с высокой встроенной размерностью за счет увеличения потребления памяти и длительного времени индексирования.

metric

VectorSearchAlgorithmMetric

Метрика сходства, используемая для сравнения векторов.

HnswVectorSearchAlgorithmConfiguration

Содержит параметры конфигурации, относящиеся к алгоритму HNSW, приблизительному ближайшему соседу, используемому во время индексирования и запроса. Алгоритм HNSW предлагает ошеломимый компромисс между скоростью поиска и точностью.

Имя Тип Описание
hnswParameters

HnswParameters

Содержит параметры, относящиеся к алгоритму HNSW.

kind string:

hnsw

Имя типа алгоритма, настроенного для использования с векторным поиском.

name

string

Имя, сопоставленное с этой конкретной конфигурацией.

InputFieldMappingEntry

Сопоставление полей ввода для навыка.

Имя Тип Описание
inputs

InputFieldMappingEntry[]

Рекурсивные входные данные, используемые при создании сложного типа.

name

string

Имя входных данных.

source

string

Источник входных данных.

sourceContext

string

Исходный контекст, используемый для выбора рекурсивных входных данных.

KeepTokenFilter

Фильтр маркеров, который сохраняет только маркеры с текстом, содержащимся в указанном списке слов. Этот фильтр маркеров реализуется с помощью Apache Lucene.

Имя Тип Default value Описание
@odata.type string:

#Microsoft.Azure.Search.KeepTokenFilter

Фрагмент URI, указывающий тип фильтра маркеров.

keepWords

string[]

Список слов, которые нужно сохранить.

keepWordsCase

boolean

False

Значение, указывающее, следует ли сначала ввести все слова в нижний регистр. Значение по умолчанию — false.

name

string

Имя фильтра маркеров. Он должен содержать только буквы, цифры, пробелы, дефисы или символы подчеркивания, может начинаться и заканчиваться буквенно-цифровыми символами и ограничен 128 символами.

KeywordMarkerTokenFilter

Помечает термины как ключевые слова. Этот фильтр маркеров реализуется с помощью Apache Lucene.

Имя Тип Default value Описание
@odata.type string:

#Microsoft.Azure.Search.KeywordMarkerTokenFilter

Фрагмент URI, указывающий тип фильтра маркеров.

ignoreCase

boolean

False

Значение, указывающее, следует ли игнорировать регистр. Если значение true, все слова преобразуются в нижний регистр. Значение по умолчанию — false.

keywords

string[]

Список слов, которые нужно пометить как ключевые слова.

name

string

Имя фильтра маркеров. Он должен содержать только буквы, цифры, пробелы, дефисы или символы подчеркивания, может начинаться и заканчиваться буквенно-цифровыми символами и ограничен 128 символами.

KeywordTokenizer

Выводит все входные данные в виде одного маркера. Этот токенизатор реализуется с помощью Apache Lucene.

Имя Тип Default value Описание
@odata.type string:

#Microsoft.Azure.Search.KeywordTokenizer

Фрагмент URI, указывающий тип токенизатора.

bufferSize

integer

256

Размер буфера чтения в байтах. Значение по умолчанию — 256.

name

string

Имя токенизатора. Он должен содержать только буквы, цифры, пробелы, дефисы или символы подчеркивания, может начинаться и заканчиваться буквенно-цифровыми символами и ограничен 128 символами.

KeywordTokenizerV2

Выводит все входные данные в виде одного маркера. Этот токенизатор реализуется с помощью Apache Lucene.

Имя Тип Default value Описание
@odata.type string:

#Microsoft.Azure.Search.KeywordTokenizerV2

Фрагмент URI, указывающий тип токенизатора.

maxTokenLength

integer

256

Максимальная длина маркера. Значение по умолчанию — 256. Маркеры длиннее, чем максимальная длина, разделены. Максимальная длина маркера, которую можно использовать, составляет 300 символов.

name

string

Имя токенизатора. Он должен содержать только буквы, цифры, пробелы, дефисы или символы подчеркивания, может начинаться и заканчиваться буквенно-цифровыми символами и ограничен 128 символами.

LengthTokenFilter

Удаляет слова, слишком длинные или слишком короткие. Этот фильтр маркеров реализуется с помощью Apache Lucene.

Имя Тип Default value Описание
@odata.type string:

#Microsoft.Azure.Search.LengthTokenFilter

Фрагмент URI, указывающий тип фильтра маркеров.

max

integer

300

Максимальная длина символов. Значение по умолчанию и максимальное значение — 300.

min

integer

0

Минимальная длина символов. Значение по умолчанию — 0. Максимальное значение — 300. Должно быть меньше значения максимального значения.

name

string

Имя фильтра маркеров. Он должен содержать только буквы, цифры, пробелы, дефисы или символы подчеркивания, может начинаться и заканчиваться буквенно-цифровыми символами и ограничен 128 символами.

LexicalAnalyzerName

Определяет имена всех текстовых анализаторов, поддерживаемых поисковой системой.

Имя Тип Описание
ar.lucene

string

Анализатор Lucene для арабского языка.

ar.microsoft

string

Анализатор Майкрософт для арабского языка.

bg.lucene

string

Анализатор Lucene для Болгарии.

bg.microsoft

string

Анализатор Майкрософт для болгарского.

bn.microsoft

string

Анализатор Майкрософт для Bangla.

ca.lucene

string

Анализатор Lucene для каталонца.

ca.microsoft

string

Анализатор Майкрософт для каталонца.

cs.lucene

string

Анализатор Lucene для Чехии.

cs.microsoft

string

Анализатор Майкрософт для Чехии.

da.lucene

string

Анализатор Lucene для датского языка.

da.microsoft

string

Анализатор Майкрософт для датского языка.

de.lucene

string

Анализатор Lucene для немецкого языка.

de.microsoft

string

Анализатор Майкрософт для немецкого языка.

el.lucene

string

Анализатор Lucene для греческого языка.

el.microsoft

string

Анализатор Майкрософт для греческого языка.

en.lucene

string

Анализатор Lucene для английского языка.

en.microsoft

string

Анализатор Майкрософт для английского языка.

es.lucene

string

Анализатор Lucene для испанского языка.

es.microsoft

string

Анализатор Майкрософт для испанского языка.

et.microsoft

string

Анализатор Майкрософт для Эстонии.

eu.lucene

string

Анализатор Lucene для Баска.

fa.lucene

string

Анализатор Lucene для персидского языка.

fi.lucene

string

Анализатор Lucene для финляндии.

fi.microsoft

string

Анализатор Майкрософт для Финляндии.

fr.lucene

string

Анализатор Lucene для французского языка.

fr.microsoft

string

Анализатор Майкрософт для французского языка.

ga.lucene

string

Анализатор Lucene для ирландских.

gl.lucene

string

Анализатор Lucene для Галисиана.

gu.microsoft

string

Анализатор Майкрософт для Gujarati.

he.microsoft

string

Анализатор Майкрософт для иврита.

hi.lucene

string

Анализатор Lucene для Хинди.

hi.microsoft

string

Анализатор Майкрософт для Хинди.

hr.microsoft

string

Анализатор Майкрософт для хорватского языка.

hu.lucene

string

Анализатор Lucene для венгерского.

hu.microsoft

string

Анализатор Майкрософт для венгерского.

hy.lucene

string

Анализатор Lucene для армян.

id.lucene

string

Анализатор Lucene для Индонезии.

id.microsoft

string

Анализатор Майкрософт для Индонезии (Бахаса).

is.microsoft

string

Анализатор Майкрософт для Исландии.

it.lucene

string

Анализатор Lucene для итальянского языка.

it.microsoft

string

Анализатор Майкрософт для итальянского языка.

ja.lucene

string

Анализатор Lucene для японского языка.

ja.microsoft

string

Анализатор Майкрософт для японского языка.

keyword

string

Обрабатывает все содержимое поля как один маркер. Это полезно для таких данных, как zip-коды, идентификаторы и некоторые имена продуктов. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html

kn.microsoft

string

Анализатор Майкрософт для Kannada.

ko.lucene

string

Анализатор Lucene для корейского языка.

ko.microsoft

string

Анализатор Майкрософт для корейского языка.

lt.microsoft

string

Анализатор Майкрософт для Литвы.

lv.lucene

string

Анализатор Lucene для Латышского.

lv.microsoft

string

Анализатор Майкрософт для латышского языка.

ml.microsoft

string

Анализатор Microsoft для Малаялам.

mr.microsoft

string

Анализатор Майкрософт для Маратхи.

ms.microsoft

string

Анализатор Майкрософт для Малая (латиница).

nb.microsoft

string

Анализатор Майкрософт для норвежского языка (Bokmål).

nl.lucene

string

Анализатор Lucene для голландцев.

nl.microsoft

string

Анализатор Майкрософт для голландского языка.

no.lucene

string

Анализатор Lucene для норвежского языка.

pa.microsoft

string

Анализатор Майкрософт для Пенджаби.

pattern

string

Гибкий разделяет текст на термины с помощью шаблона регулярного выражения. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html

pl.lucene

string

Анализатор Lucene для польского.

pl.microsoft

string

Анализатор Майкрософт для польского.

pt-BR.lucene

string

Анализатор Lucene для португальского (Бразилия).

pt-BR.microsoft

string

Анализатор Майкрософт для португальского языка (Бразилия).

pt-PT.lucene

string

Анализатор Lucene для португальского (Португалия).

pt-PT.microsoft

string

Анализатор Майкрософт для португальского языка (Португалия).

ro.lucene

string

Анализатор Lucene для румына.

ro.microsoft

string

Анализатор Майкрософт для румына.

ru.lucene

string

Анализатор Lucene для россии.

ru.microsoft

string

Анализатор Майкрософт для русского языка.

simple

string

Делит текст на небуквенных и преобразует их в нижний регистр. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html

sk.microsoft

string

Анализатор Майкрософт для словацких.

sl.microsoft

string

Анализатор Майкрософт для словенцев.

sr-cyrillic.microsoft

string

Анализатор Майкрософт для сербских (кириллица).

sr-latin.microsoft

string

Анализатор Майкрософт для сербских (латиница).

standard.lucene

string

Стандартный анализатор Lucene.

standardasciifolding.lucene

string

Стандартный анализатор ASCII Folding Lucene. См. https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers

stop

string

Делит текст на небуквенный; Применяет фильтры маркеров стоп-слов и строчных регистров. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html

sv.lucene

string

Анализатор Lucene для шведского языка.

sv.microsoft

string

Анализатор Майкрософт для шведского языка.

ta.microsoft

string

Анализатор Майкрософт для Тамила.

te.microsoft

string

Анализатор Майкрософт для Telugu.

th.lucene

string

Анализатор Lucene для тайского языка.

th.microsoft

string

Анализатор Майкрософт для тайского языка.

tr.lucene

string

Анализатор Lucene для турецкого языка.

tr.microsoft

string

Анализатор Майкрософт для турецкого языка.

uk.microsoft

string

Анализатор Майкрософт для украины.

ur.microsoft

string

Анализатор Майкрософт для Urdu.

vi.microsoft

string

Анализатор Майкрософт для вьетнамцев.

whitespace

string

Анализатор, использующий токенизатор пробелов. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html

zh-Hans.lucene

string

Анализатор Lucene для китайского (упрощенное письмо).

zh-Hans.microsoft

string

Анализатор Майкрософт для китайского (упрощенное письмо).

zh-Hant.lucene

string

Анализатор Lucene для китайского (традиционного).

zh-Hant.microsoft

string

Анализатор Майкрософт для китайского (традиционного языка).

LexicalTokenizerName

Определяет имена всех токенизаторов, поддерживаемых поисковой системой.

Имя Тип Описание
classic

string

Токенизатор на основе грамматики, подходящий для обработки большинства европейских языковых документов. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html

edgeNGram

string

Маркеризирует входные данные из края в n-граммы заданных размеров. См. https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html

keyword_v2

string

Выводит все входные данные в виде одного маркера. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html

letter

string

Делит текст на небуквенный. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html

lowercase

string

Делит текст на небуквенных и преобразует их в нижний регистр. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html

microsoft_language_stemming_tokenizer

string

Разделяет текст с помощью правил, относящихся к языку, и сокращает количество слов к базовым формам.

microsoft_language_tokenizer

string

Делит текст с помощью правил, относящихся к языку.

nGram

string

Маркеризирует входные данные в n-граммах заданных размеров. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html

path_hierarchy_v2

string

Токенизатор для иерархий, похожих на пути. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html

pattern

string

Токенизатор, использующий сопоставление шаблонов regex для создания уникальных маркеров. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html

standard_v2

string

Стандартный анализатор Lucene; Состоит из стандартного токенизатора, нижнего регистра фильтра и фильтра остановки. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html

uax_url_email

string

Маркеризирует URL-адреса и сообщения электронной почты в виде одного маркера. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html

whitespace

string

Делит текст на пробелы. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html

LimitTokenFilter

Ограничивает количество маркеров при индексировании. Этот фильтр маркеров реализуется с помощью Apache Lucene.

Имя Тип Default value Описание
@odata.type string:

#Microsoft.Azure.Search.LimitTokenFilter

Фрагмент URI, указывающий тип фильтра маркеров.

consumeAllTokens

boolean

False

Значение, указывающее, должны ли все маркеры из входных данных использоваться, даже если достигается maxTokenCount. Значение по умолчанию — false.

maxTokenCount

integer

1

Максимальное количество маркеров для создания. Значение по умолчанию — 1.

name

string

Имя фильтра маркеров. Он должен содержать только буквы, цифры, пробелы, дефисы или символы подчеркивания, может начинаться и заканчиваться буквенно-цифровыми символами и ограничен 128 символами.

LuceneStandardAnalyzer

Стандартный анализатор Apache Lucene; Состоит из стандартного токенизатора, нижнего регистра фильтра и фильтра остановки.

Имя Тип Default value Описание
@odata.type string:

#Microsoft.Azure.Search.StandardAnalyzer

Фрагмент URI, указывающий тип анализатора.

maxTokenLength

integer

255

Максимальная длина маркера. Значение по умолчанию — 255. Маркеры длиннее, чем максимальная длина, разделены. Максимальная длина маркера, которую можно использовать, составляет 300 символов.

name

string

Имя анализатора. Он должен содержать только буквы, цифры, пробелы, дефисы или символы подчеркивания, может начинаться и заканчиваться буквенно-цифровыми символами и ограничен 128 символами.

stopwords

string[]

Список стоп-слов.

LuceneStandardTokenizer

Разбивает текст в соответствии с правилами сегментации текста Юникода. Этот токенизатор реализуется с помощью Apache Lucene.

Имя Тип Default value Описание
@odata.type string:

#Microsoft.Azure.Search.StandardTokenizer

Фрагмент URI, указывающий тип токенизатора.

maxTokenLength

integer

255

Максимальная длина маркера. Значение по умолчанию — 255. Маркеры длиннее, чем максимальная длина, разделены.

name

string

Имя токенизатора. Он должен содержать только буквы, цифры, пробелы, дефисы или символы подчеркивания, может начинаться и заканчиваться буквенно-цифровыми символами и ограничен 128 символами.

LuceneStandardTokenizerV2

Разбивает текст в соответствии с правилами сегментации текста Юникода. Этот токенизатор реализуется с помощью Apache Lucene.

Имя Тип Default value Описание
@odata.type string:

#Microsoft.Azure.Search.StandardTokenizerV2

Фрагмент URI, указывающий тип токенизатора.

maxTokenLength

integer

255

Максимальная длина маркера. Значение по умолчанию — 255. Маркеры длиннее, чем максимальная длина, разделены. Максимальная длина маркера, которую можно использовать, составляет 300 символов.

name

string

Имя токенизатора. Он должен содержать только буквы, цифры, пробелы, дефисы или символы подчеркивания, может начинаться и заканчиваться буквенно-цифровыми символами и ограничен 128 символами.

MagnitudeScoringFunction

Определяет функцию, которая повышает оценки на основе величины числового поля.

Имя Тип Описание
boost

number

Умножение для необработанной оценки. Должно быть положительным числом, не равным 1,0.

fieldName

string

Имя поля, используемого в качестве входных данных для функции оценки.

interpolation

ScoringFunctionInterpolation

Значение, указывающее, как повышение будет интерполировано по оценкам документов; По умолчанию используется значение "Linear".

magnitude

MagnitudeScoringParameters

Значения параметров для функции оценки величины.

type string:

magnitude

Указывает тип используемой функции. Допустимые значения включают величину, свежесть, расстояние и тег. Тип функции должен быть нижним регистром.

MagnitudeScoringParameters

Предоставляет значения параметров функции оценки величины.

Имя Тип Описание
boostingRangeEnd

number

Значение поля, на котором заканчивается повышение.

boostingRangeStart

number

Значение поля, с которого начинается повышение.

constantBoostBeyondRange

boolean

Значение, указывающее, следует ли применять константный импульс для значений полей за пределами конечного значения диапазона; значение по умолчанию — false.

MappingCharFilter

Фильтр символов, который применяет сопоставления, определенные с параметром сопоставления. Сопоставление жадно (самый длинный шаблон сопоставления в заданной точке выигрывает). Допускается замена пустой строки. Этот фильтр символов реализуется с помощью Apache Lucene.

Имя Тип Описание
@odata.type string:

#Microsoft.Azure.Search.MappingCharFilter

Фрагмент URI, указывающий тип фильтра char.

mappings

string[]

Список сопоставлений следующего формата: "a=>b" (все вхождения символа "a" будут заменены символом "b").

name

string

Имя фильтра char. Он должен содержать только буквы, цифры, пробелы, дефисы или символы подчеркивания, может начинаться и заканчиваться буквенно-цифровыми символами и ограничен 128 символами.

MicrosoftLanguageStemmingTokenizer

Разделяет текст с помощью правил, относящихся к языку, и сокращает количество слов к базовым формам.

Имя Тип Default value Описание
@odata.type string:

#Microsoft.Azure.Search.MicrosoftLanguageStemmingTokenizer

Фрагмент URI, указывающий тип токенизатора.

isSearchTokenizer

boolean

False

Значение, указывающее, как используется токенизатор. Установите значение true, если используется в качестве маркеризатора поиска, установите значение false, если используется в качестве маркеризатора индексирования. Значение по умолчанию — false.

language

MicrosoftStemmingTokenizerLanguage

Используемый язык. По умолчанию используется английский язык.

maxTokenLength

integer

255

Максимальная длина маркера. Маркеры длиннее, чем максимальная длина, разделены. Максимальная длина маркера, которую можно использовать, составляет 300 символов. Маркеры длиной более 300 символов сначала разделяются на маркеры длины 300, а затем каждый из этих маркеров разбивается на основе максимального набора длины маркеров. Значение по умолчанию — 255.

name

string

Имя токенизатора. Он должен содержать только буквы, цифры, пробелы, дефисы или символы подчеркивания, может начинаться и заканчиваться буквенно-цифровыми символами и ограничен 128 символами.

MicrosoftLanguageTokenizer

Делит текст с помощью правил, относящихся к языку.

Имя Тип Default value Описание
@odata.type string:

#Microsoft.Azure.Search.MicrosoftLanguageTokenizer

Фрагмент URI, указывающий тип токенизатора.

isSearchTokenizer

boolean

False

Значение, указывающее, как используется токенизатор. Установите значение true, если используется в качестве маркеризатора поиска, установите значение false, если используется в качестве маркеризатора индексирования. Значение по умолчанию — false.

language

MicrosoftTokenizerLanguage

Используемый язык. По умолчанию используется английский язык.

maxTokenLength

integer

255

Максимальная длина маркера. Маркеры длиннее, чем максимальная длина, разделены. Максимальная длина маркера, которую можно использовать, составляет 300 символов. Маркеры длиной более 300 символов сначала разделяются на маркеры длины 300, а затем каждый из этих маркеров разбивается на основе максимального набора длины маркеров. Значение по умолчанию — 255.

name

string

Имя токенизатора. Он должен содержать только буквы, цифры, пробелы, дефисы или символы подчеркивания, может начинаться и заканчиваться буквенно-цифровыми символами и ограничен 128 символами.

MicrosoftStemmingTokenizerLanguage

Выводит список языков, поддерживаемых маркеризатором маркеров языка Майкрософт.

Имя Тип Описание
arabic

string

Выбирает токенизатор маркеров microsoft stemming для арабского языка.

bangla

string

Выбирает средство маркеров для Microsoft stemming для Bangla.

bulgarian

string

Выбирает средство токенизации microsoft stemming для болгарии.

catalan

string

Выбирает токенизатор маркеров для каталонца Майкрософт.

croatian

string

Выбирает средство токенизации Майкрософт для хорватского языка.

czech

string

Выбирает средство маркеров для microsoft stemming для Чехии.

danish

string

Выбирает токенизатор маркеров microsoft stemming для датского языка.

dutch

string

Выбирает средство токенизации майкрософт для голландцев.

english

string

Выбирает средство маркеров для microsoft stemming для английского языка.

estonian

string

Выбирает токенизатор маркеров microsoft stemming для Эстонии.

finnish

string

Выбирает токенизатор маркеров microsoft stemming для финляндии.

french

string

Выбирает средство маркеров для французского языка с использованием маркеров для microsoft stemming.

german

string

Выбирает токенизатор маркеров microsoft stemming для немецкого языка.

greek

string

Выбирает токенизатор маркеров microsoft stemming для греческого языка.

gujarati

string

Выбирает средство токенизации microsoft stemming для Gujarati.

hebrew

string

Выбирает средство маркеров для иврита в microsoft stemming.

hindi

string

Выбирает средство маркеров для Хинди в microsoft stemming.

hungarian

string

Выбирает средство маркеров для венгерских сценариев майкрософт.

icelandic

string

Выбирает средство токенизации майкрософт для Исландии.

indonesian

string

Выбирает средство маркеров для индонезийского языка с использованием маркеров для microsoft stemming.

italian

string

Выбирает средство маркеров для итальянского языка с использованием маркеров для microsoft stemming.

kannada

string

Выбирает средство маркеров для Microsoft stemming для Kannada.

latvian

string

Выбирает токенизатор маркеров microsoft stemming для Латышского языка.

lithuanian

string

Выбирает токенизатор маркеров microsoft stemming для Литвы.

malay

string

Выбирает токенизатор для Microsoft stemming для Малая.

malayalam

string

Выбирает средство маркеров для Microsoft stemming для Малаялам.

marathi

string

Выбирает средство маркеров для Маратхи в microsoft stemming.

norwegianBokmaal

string

Выбирает токенизатор для норвежского языка (Bokmål).

polish

string

Выбирает токенизатор маркеров microsoft stemming для польского.

portuguese

string

Выбирает токенизатор маркеров microsoft stemming для португальского языка.

portugueseBrazilian

string

Выбирает средство маркеров для португальского языка (Бразилия).

punjabi

string

Выбирает средство токенизации для Пенджаби майкрософт.

romanian

string

Выбирает токенизатор для румына microsoft stemming.

russian

string

Выбирает средство маркеров для microsoft stemming для русского языка.

serbianCyrillic

string

Выбирает токенизатор маркеров для сербских (кириллица).

serbianLatin

string

Выбирает токенизатор для сербских (латиница).

slovak

string

Выбирает токенизатор для словацкого маркера microsoft stemming.

slovenian

string

Выбирает средство маркеров для словенцев в microsoft stemming.

spanish

string

Выбирает токенизатор маркеров microsoft stemming для испанского языка.

swedish

string

Выбирает средство токенизации microsoft stemming для шведского языка.

tamil

string

Выбирает токенизатор маркеров для Тамил для Microsoft stemming.

telugu

string

Выбирает средство токенизации microsoft stemming для Telugu.

turkish

string

Выбирает токенизатор маркеров для турецкого языка с использованием маркеров для microsoft stemming.

ukrainian

string

Выбирает токенизатор маркеров microsoft stemming для украины.

urdu

string

Выбирает средство маркеров для Урду для microsoft stemming.

MicrosoftTokenizerLanguage

Выводит список языков, поддерживаемых токенизатором языка Майкрософт.

Имя Тип Описание
bangla

string

Выбирает токенизатор Майкрософт для Bangla.

bulgarian

string

Выбирает токенизатор Майкрософт для болгарии.

catalan

string

Выбирает токенизатор Майкрософт для каталонского.

chineseSimplified

string

Выбирает токенизатор Майкрософт для китайского (упрощенное письмо).

chineseTraditional

string

Выбирает токенизатор Майкрософт для китайского (традиционного).

croatian

string

Выбирает токенизатор Майкрософт для хорватского.

czech

string

Выбирает средство токенизатора Майкрософт для Чехии.

danish

string

Выбирает токенизатор Майкрософт для датского.

dutch

string

Выбирает токенизатор Майкрософт для голландцев.

english

string

Выбирает токенизатор Майкрософт для английского языка.

french

string

Выбирает токенизатор Майкрософт для французского языка.

german

string

Выбирает токенизатор Майкрософт для немецкого языка.

greek

string

Выбирает токенизатор Майкрософт для греческого языка.

gujarati

string

Выбирает токенизатор Майкрософт для Gujarati.

hindi

string

Выбирает токенизатор Майкрософт для Хинди.

icelandic

string

Выбирает токенизатор Майкрософт для Исландии.

indonesian

string

Выбирает токенизатор Майкрософт для Индонезии.

italian

string

Выбирает токенизатор Майкрософт для итальянского языка.

japanese

string

Выбирает токенизатор Майкрософт для японского языка.

kannada

string

Выбирает токенизатор Майкрософт для Kannada.

korean

string

Выбирает токенизатор Майкрософт для корейского языка.

malay

string

Выбирает токенизатор Майкрософт для Малая.

malayalam

string

Выбирает токенизатор Майкрософт для Малаялам.

marathi

string

Выбирает токенизатор Майкрософт для Marathi.

norwegianBokmaal

string

Выбирает токенизатор Майкрософт для норвежского языка (Bokmål).

polish

string

Выбирает токенизатор Майкрософт для польского.

portuguese

string

Выбирает токенизатор Майкрософт для португальского языка.

portugueseBrazilian

string

Выбирает токенизатор Майкрософт для португальского языка (Бразилия).

punjabi

string

Выбирает токенизатор Майкрософт для Punjabi.

romanian

string

Выбирает токенизатор Майкрософт для румына.

russian

string

Выбирает токенизатор Майкрософт для русского языка.

serbianCyrillic

string

Выбирает токенизатор Майкрософт для сербских (кириллица).

serbianLatin

string

Выбирает токенизатор Майкрософт для сербских (латиница).

slovenian

string

Выбирает токенизатор Майкрософт для словенцев.

spanish

string

Выбирает токенизатор Майкрософт для испанского языка.

swedish

string

Выбирает токенизатор Майкрософт для шведского языка.

tamil

string

Выбирает токенизатор Майкрософт для Тамила.

telugu

string

Выбирает токенизатор Майкрософт для Telugu.

thai

string

Выбирает токенизатор Майкрософт для тайского языка.

ukrainian

string

Выбирает токенизатор Майкрософт для украины.

urdu

string

Выбирает токенизатор Майкрософт для Urdu.

vietnamese

string

Выбирает токенизатор Майкрософт для вьетнамцев.

NGramTokenFilter

Создает n-граммы заданного размера. Этот фильтр маркеров реализуется с помощью Apache Lucene.

Имя Тип Default value Описание
@odata.type string:

#Microsoft.Azure.Search.NGramTokenFilter

Фрагмент URI, указывающий тип фильтра маркеров.

maxGram

integer

2

Максимальная длина n-грамма. Значение по умолчанию — 2.

minGram

integer

1

Минимальная длина n-грамма. Значение по умолчанию — 1. Должно быть меньше значения maxGram.

name

string

Имя фильтра маркеров. Он должен содержать только буквы, цифры, пробелы, дефисы или символы подчеркивания, может начинаться и заканчиваться буквенно-цифровыми символами и ограничен 128 символами.

NGramTokenFilterV2

Создает n-граммы заданного размера. Этот фильтр маркеров реализуется с помощью Apache Lucene.

Имя Тип Default value Описание
@odata.type string:

#Microsoft.Azure.Search.NGramTokenFilterV2

Фрагмент URI, указывающий тип фильтра маркеров.

maxGram

integer

2

Максимальная длина n-грамма. Значение по умолчанию — 2. Максимальное значение — 300.

minGram

integer

1

Минимальная длина n-грамма. Значение по умолчанию — 1. Максимальное значение — 300. Должно быть меньше значения maxGram.

name

string

Имя фильтра маркеров. Он должен содержать только буквы, цифры, пробелы, дефисы или символы подчеркивания, может начинаться и заканчиваться буквенно-цифровыми символами и ограничен 128 символами.

NGramTokenizer

Маркеризирует входные данные в n-граммах заданных размеров. Этот токенизатор реализуется с помощью Apache Lucene.

Имя Тип Default value Описание
@odata.type string:

#Microsoft.Azure.Search.NGramTokenizer

Фрагмент URI, указывающий тип токенизатора.

maxGram

integer

2

Максимальная длина n-грамма. Значение по умолчанию — 2. Максимальное значение — 300.

minGram

integer

1

Минимальная длина n-грамма. Значение по умолчанию — 1. Максимальное значение — 300. Должно быть меньше значения maxGram.

name

string

Имя токенизатора. Он должен содержать только буквы, цифры, пробелы, дефисы или символы подчеркивания, может начинаться и заканчиваться буквенно-цифровыми символами и ограничен 128 символами.

tokenChars

TokenCharacterKind[]

Классы символов, которые хранятся в маркерах.

OutputFieldMappingEntry

Сопоставление полей вывода для навыка.

Имя Тип Описание
name

string

Имя выходных данных, определенных навыком.

targetName

string

Целевое имя выходных данных. Это необязательно и по умолчанию имя.

PathHierarchyTokenizerV2

Токенизатор для иерархий, похожих на пути. Этот токенизатор реализуется с помощью Apache Lucene.

Имя Тип Default value Описание
@odata.type string:

#Microsoft.Azure.Search.PathHierarchyTokenizerV2

Фрагмент URI, указывающий тип токенизатора.

delimiter

string

/

Используемый символ разделителя. Значение по умолчанию — "/".

maxTokenLength

integer

300

Максимальная длина маркера. Значение по умолчанию и максимальное значение — 300.

name

string

Имя токенизатора. Он должен содержать только буквы, цифры, пробелы, дефисы или символы подчеркивания, может начинаться и заканчиваться буквенно-цифровыми символами и ограничен 128 символами.

replacement

string

/

Значение, которое, если задано, заменяет символ разделителя. Значение по умолчанию — "/".

reverse

boolean

False

Значение, указывающее, следует ли создавать маркеры в обратном порядке. Значение по умолчанию — false.

skip

integer

0

Количество пропустить начальных маркеров. Значение по умолчанию — 0.

PatternAnalyzer

Гибкий разделяет текст на термины с помощью шаблона регулярного выражения. Этот анализатор реализуется с помощью Apache Lucene.

Имя Тип Default value Описание
@odata.type string:

#Microsoft.Azure.Search.PatternAnalyzer

Фрагмент URI, указывающий тип анализатора.

flags

RegexFlags

Флаги регулярных выражений.

lowercase

boolean

True

Значение, указывающее, должны ли термины быть строчными. Значение по умолчанию — true.

name

string

Имя анализатора. Он должен содержать только буквы, цифры, пробелы, дефисы или символы подчеркивания, может начинаться и заканчиваться буквенно-цифровыми символами и ограничен 128 символами.

pattern

string

\W+

Шаблон регулярного выражения для сопоставления разделителей маркеров. По умолчанию используется выражение, соответствующее одному или нескольким символам, не являющихся словами.

stopwords

string[]

Список стоп-слов.

PatternCaptureTokenFilter

Использует регрессии Java для выдачи нескольких маркеров — по одному для каждой группы захвата в одном или нескольких шаблонах. Этот фильтр маркеров реализуется с помощью Apache Lucene.

Имя Тип Default value Описание
@odata.type string:

#Microsoft.Azure.Search.PatternCaptureTokenFilter

Фрагмент URI, указывающий тип фильтра маркеров.

name

string

Имя фильтра маркеров. Он должен содержать только буквы, цифры, пробелы, дефисы или символы подчеркивания, может начинаться и заканчиваться буквенно-цифровыми символами и ограничен 128 символами.

patterns

string[]

Список шаблонов для сопоставления с каждым маркером.

preserveOriginal

boolean

True

Значение, указывающее, следует ли возвращать исходный маркер, даже если один из шаблонов соответствует. Значение по умолчанию — true.

PatternReplaceCharFilter

Фильтр символов, заменяющий символы во входной строке. Он использует регулярное выражение для идентификации последовательностей символов для сохранения и замены шаблона для определения символов для замены. Например, учитывая входной текст "aa bb aa bb", шаблон "(aa)\s+(bb)" и замену "$1#2", результатом будет "aa#bb aa#bb". Этот фильтр символов реализуется с помощью Apache Lucene.

Имя Тип Описание
@odata.type string:

#Microsoft.Azure.Search.PatternReplaceCharFilter

Фрагмент URI, указывающий тип фильтра char.

name

string

Имя фильтра char. Он должен содержать только буквы, цифры, пробелы, дефисы или символы подчеркивания, может начинаться и заканчиваться буквенно-цифровыми символами и ограничен 128 символами.

pattern

string

Шаблон регулярного выражения.

replacement

string

Замещающий текст.

PatternReplaceTokenFilter

Фильтр символов, заменяющий символы во входной строке. Он использует регулярное выражение для идентификации последовательностей символов для сохранения и замены шаблона для определения символов для замены. Например, учитывая входной текст "aa bb aa bb", шаблон "(aa)\s+(bb)" и замену "$1#2", результатом будет "aa#bb aa#bb". Этот фильтр маркеров реализуется с помощью Apache Lucene.

Имя Тип Описание
@odata.type string:

#Microsoft.Azure.Search.PatternReplaceTokenFilter

Фрагмент URI, указывающий тип фильтра маркеров.

name

string

Имя фильтра маркеров. Он должен содержать только буквы, цифры, пробелы, дефисы или символы подчеркивания, может начинаться и заканчиваться буквенно-цифровыми символами и ограничен 128 символами.

pattern

string

Шаблон регулярного выражения.

replacement

string

Замещающий текст.

PatternTokenizer

Токенизатор, использующий сопоставление шаблонов regex для создания уникальных маркеров. Этот токенизатор реализуется с помощью Apache Lucene.

Имя Тип Default value Описание
@odata.type string:

#Microsoft.Azure.Search.PatternTokenizer

Фрагмент URI, указывающий тип токенизатора.

flags

RegexFlags

Флаги регулярных выражений.

group

integer

-1

Отсчитываемый от нуля порядковый номер соответствующей группы в шаблоне регулярного выражения для извлечения в токены. Используйте -1, если вы хотите использовать весь шаблон для разделения входных данных на маркеры независимо от совпадающих групп. Значение по умолчанию — -1.

name

string

Имя токенизатора. Он должен содержать только буквы, цифры, пробелы, дефисы или символы подчеркивания, может начинаться и заканчиваться буквенно-цифровыми символами и ограничен 128 символами.

pattern

string

\W+

Шаблон регулярного выражения для сопоставления разделителей маркеров. По умолчанию используется выражение, соответствующее одному или нескольким символам, не являющихся словами.

PhoneticEncoder

Определяет тип фонетического кодировщика, используемого с PhoneticTokenFilter.

Имя Тип Описание
beiderMorse

string

Кодирует маркер в значение Beider-Morse.

caverphone1

string

Кодирует маркер в значение Caverphone 1.0.

caverphone2

string

Кодирует маркер в значение Caverphone 2.0.

cologne

string

Кодирует маркер в значение Phonetic в Кельне.

doubleMetaphone

string

Кодирует маркер в двойное значение метафона.

haasePhonetik

string

Кодирует токен с помощью уточнения Haase алгоритма Kölner Phonetik.

koelnerPhonetik

string

Кодирует маркер с помощью алгоритма Kölner Phonetik.

metaphone

string

Кодирует маркер в значение Метафона.

nysiis

string

Кодирует маркер в значение NYSIIS.

refinedSoundex

string

Кодирует маркер в значение Уточненного soundex.

soundex

string

Кодирует маркер в значение Soundex.

PhoneticTokenFilter

Создайте маркеры для фонетических совпадений. Этот фильтр маркеров реализуется с помощью Apache Lucene.

Имя Тип Default value Описание
@odata.type string:

#Microsoft.Azure.Search.PhoneticTokenFilter

Фрагмент URI, указывающий тип фильтра маркеров.

encoder

PhoneticEncoder

metaphone

Используемый фонетический кодировщик. По умолчанию используется метафон.

name

string

Имя фильтра маркеров. Он должен содержать только буквы, цифры, пробелы, дефисы или символы подчеркивания, может начинаться и заканчиваться буквенно-цифровыми символами и ограничен 128 символами.

replace

boolean

True

Значение, указывающее, должны ли кодированные маркеры заменить исходные маркеры. Если значение false, закодированные маркеры добавляются в качестве синонимов. Значение по умолчанию — true.

PrioritizedFields

Описывает поля заголовка, содержимого и ключевых слов, которые будут использоваться для семантического ранжирования, подписей, выделений и ответов.

Имя Тип Описание
prioritizedContentFields

SemanticField[]

Определяет поля содержимого, которые будут использоваться для семантического ранжирования, заголовков, выделений и ответов. Для лучшего результата выбранные поля должны содержать текст в форме естественного языка. Порядок полей в массиве представляет их приоритет. Поля с более низким приоритетом могут быть усечены, если содержимое длинное.

prioritizedKeywordsFields

SemanticField[]

Определяет поля ключевых слов, которые будут использоваться для семантического ранжирования, подписей, выделений и ответов. Для наилучшего результата выбранные поля должны содержать список ключевых слов. Порядок полей в массиве представляет их приоритет. Поля с более низким приоритетом могут быть усечены, если содержимое длинное.

titleField

SemanticField

Определяет поле заголовка, используемое для семантического ранжирования, подписей, выделений и ответов. Если в индексе нет поля заголовка, оставьте его пустым.

RegexFlags

Определяет флаги, которые можно объединить для управления использованием регулярных выражений в анализаторе шаблонов и маркеризаторе шаблонов.

Имя Тип Описание
CANON_EQ

string

Включает каноническую эквивалентность.

CASE_INSENSITIVE

string

Включает сопоставление без учета регистра.

COMMENTS

string

Разрешает пробелы и комментарии в шаблоне.

DOTALL

string

Включает режим dotall.

LITERAL

string

Включает синтаксический анализ шаблона литерала.

MULTILINE

string

Включает многостроевой режим.

UNICODE_CASE

string

Включает свертывание регистра с поддержкой Юникода.

UNIX_LINES

string

Включает режим строк Unix.

ScalarQuantizationParameters

Содержит параметры, относящиеся к скалярной квантизации.

Имя Тип Описание
quantizedDataType

VectorSearchCompressionTargetDataType

Квантизованный тип данных сжатых векторных значений.

ScalarQuantizationVectorSearchCompressionConfiguration

Содержит параметры конфигурации, относящиеся к методу сжатия скалярной квантизации, используемому во время индексирования и запроса.

Имя Тип Default value Описание
defaultOversampling

number

Коэффициент превышения по умолчанию. Oversampling внутренне запрашивает дополнительные документы (указанные этим умножением) в первоначальном поиске. Это увеличивает набор результатов, которые будут повторно выполняться с помощью перекомпилированных показателей сходства из векторов полной точности. Минимальное значение равно 1, то есть без превышения (1x). Этот параметр можно задать только в том случае, если параметр rerankWithOriginalVectors имеет значение true. Более высокие значения улучшают отзыв за счет задержки.

kind string:

scalarQuantization

Имя типа метода сжатия, настроенного для использования с векторным поиском.

name

string

Имя, сопоставленное с этой конкретной конфигурацией.

rerankWithOriginalVectors

boolean

True

Если задано значение true, после получения упорядоченного набора результатов, вычисляемого с помощью сжатых векторов, они будут повторно оценены путем пересчета показателей сходства полной точности. Это улучшит отзыв за счет задержки.

scalarQuantizationParameters

ScalarQuantizationParameters

Содержит параметры, относящиеся к скалярной квантизации.

ScoringFunctionAggregation

Определяет функцию агрегирования, используемую для объединения результатов всех функций оценки в профиле оценки.

Имя Тип Описание
average

string

Повышение показателей на средний показатель всех результатов функции оценки.

firstMatching

string

Повышение показателей с помощью первой применимой функции оценки в профиле оценки.

maximum

string

Повышение показателей на максимальное количество всех результатов функции оценки.

minimum

string

Повышение показателей по минимуму всех результатов функции оценки.

sum

string

Повышение показателей по сумме всех результатов функции оценки.

ScoringFunctionInterpolation

Определяет функцию, используемую для интерполяции показателей повышения в диапазоне документов.

Имя Тип Описание
constant

string

Повышает оценки на константный фактор.

linear

string

Повышает оценку по линейному уменьшению суммы. Это интерполяция по умолчанию для функций оценки.

logarithmic

string

Повышает оценку на сумму, которая уменьшает логарифмически. Повышение быстро уменьшается для более высоких показателей и более медленно по мере уменьшения показателей. Этот параметр интерполяции не допускается в функциях оценки тегов.

quadratic

string

Повышает оценки на сумму, которая уменьшается квадратично. Повышение снижается медленно для более высоких показателей и быстрее по мере уменьшения показателей. Этот параметр интерполяции не допускается в функциях оценки тегов.

ScoringProfile

Определяет параметры индекса поиска, влияющего на оценку в поисковых запросах.

Имя Тип Описание
functionAggregation

ScoringFunctionAggregation

Значение, указывающее, как следует объединять результаты отдельных функций оценки. По умолчанию используется значение Sum. Игнорируется, если нет функций оценки.

functions ScoringFunction[]:

Коллекция функций, влияющих на оценку документов.

name

string

Имя профиля оценки.

text

TextWeights

Параметры, повышающие оценку на основе текстовых совпадений в определенных полях индекса.

SearchField

Представляет поле в определении индекса, описывающее имя, тип данных и поведение поиска поля.

Имя Тип Описание
analyzer

LexicalAnalyzerName

Имя анализатора, используемого для поля. Этот параметр можно использовать только с полями, доступными для поиска, и его нельзя задать вместе с searchAnalyzer или indexAnalyzer. После выбора анализатора его нельзя изменить для поля. Должен иметь значение NULL для сложных полей.

dimensions

integer

Размерность поля вектора.

facetable

boolean

Значение, указывающее, следует ли указывать поле в запросах аспектов. Обычно используется в презентации результатов поиска, включающих количество попаданий по категориям (например, поиск цифровых камер и просмотр хитов по бренду, по мегапикселям, по цене и т. д.). Это свойство должно иметь значение NULL для сложных полей. Поля типа Edm.GeographyPoint или Collection(Edm.GeographyPoint) не могут быть аспектируемыми. По умолчанию используется значение true для всех остальных простых полей.

fields

SearchField[]

Список вложенных полей, если это поле типа Edm.ComplexType или Collection(Edm.ComplexType). Должно быть пустым или пустым для простых полей.

filterable

boolean

Значение, указывающее, следует ли указывать поле в $filter запросах. Фильтрация отличается от способа обработки строк поиска. Поля типа Edm.String или Collection(Edm.String), которые можно фильтровать, не проходят разбиение слов, поэтому сравнения предназначены только для точных совпадений. Например, если задать такое поле f на "солнечный день", $filter=fq "солнечный" не будет найти совпадений, но $filter=fq "солнечный день". Это свойство должно иметь значение NULL для сложных полей. По умолчанию используется значение true для простых полей и null для сложных полей.

indexAnalyzer

LexicalAnalyzerName

Имя анализатора, используемого во время индексирования поля. Этот параметр можно использовать только с полями, доступными для поиска. Он должен быть установлен вместе с searchAnalyzer, и его нельзя задать вместе с параметром анализатора. Это свойство нельзя задать для имени анализатора языка; используйте свойство анализатора вместо этого, если вам нужен анализатор языка. После выбора анализатора его нельзя изменить для поля. Должен иметь значение NULL для сложных полей.

key

boolean

Значение, указывающее, однозначно ли поле идентифицирует документы в индексе. В качестве ключевого поля необходимо выбрать ровно одно поле верхнего уровня в каждом индексе, и оно должно иметь тип Edm.String. Ключевые поля можно использовать для поиска документов напрямую и обновления или удаления определенных документов. Значение по умолчанию — false для простых полей и null для сложных полей.

name

string

Имя поля, которое должно быть уникальным в коллекции полей индекса или родительского поля.

retrievable

boolean

Значение, указывающее, можно ли возвращать поле в результатах поиска. Этот параметр можно отключить, если вы хотите использовать поле (например, поле) в качестве фильтра, сортировки или механизма оценки, но не хотите, чтобы поле отображалось для конечного пользователя. Это свойство должно иметь значение true для ключевых полей, и оно должно иметь значение NULL для сложных полей. Это свойство можно изменить в существующих полях. Включение этого свойства не приводит к увеличению требований к хранилищу индексов. По умолчанию используется значение true для простых полей, false для векторных полей и null для сложных полей.

searchAnalyzer

LexicalAnalyzerName

Имя анализатора, используемого во время поиска поля. Этот параметр можно использовать только с полями, доступными для поиска. Он должен быть установлен вместе с indexAnalyzer, и его нельзя задать вместе с параметром анализатора. Это свойство нельзя задать для имени анализатора языка; используйте свойство анализатора вместо этого, если вам нужен анализатор языка. Этот анализатор можно обновить в существующем поле. Должен иметь значение NULL для сложных полей.

searchable

boolean

Значение, указывающее, доступно ли поле для полнотекстового поиска. Это означает, что он будет проходить анализ, например критические слова во время индексирования. Если вы устанавливаете для поиска значение, например "солнечный день", внутренне оно будет разделено на отдельные токены "солнечный" и "день". Это позволяет выполнять полнотекстовый поиск этих терминов. Поля типа Edm.String или Collection(Edm.String) доступны для поиска по умолчанию. Это свойство должно быть false для простых полей других типов данных, не являющихся строковыми, и оно должно иметь значение NULL для сложных полей. Примечание. Поля, доступные для поиска, используют дополнительное пространство в индексе для размещения дополнительных маркеризованных версий значения поля для полнотекстового поиска. Если вы хотите сэкономить место в индексе и не требуется, чтобы поле было включено в поиск, задайте для поиска значение false.

sortable

boolean

Значение, указывающее, следует ли ссылаться на поле в выражениях $orderby. По умолчанию поисковая система сортирует результаты по оценке, но во многих интерфейсах пользователи хотят отсортировать поля в документах. Простое поле может быть сортировано только в том случае, если оно имеет одно значение в области родительского документа. Простые поля коллекции не могут быть сортируемыми, так как они имеют многозначное значение. Простые вложенные поля сложных коллекций также являются многозначными и поэтому не могут быть сортируемыми. Это верно, является ли это немедленное родительское поле или поле предка, это сложная коллекция. Сложные поля не могут быть сортируемыми, а свойство сортировки должно иметь значение NULL для таких полей. Значение по умолчанию для сортировки равно true для однозначных простых полей, false для многозначных простых полей и null для сложных полей.

stored

boolean

Неизменяемое значение, указывающее, будет ли поле сохраняться отдельно на диске, возвращаемое в результатах поиска. Этот параметр можно отключить, если вы не планируете возвращать содержимое поля в ответе поиска, чтобы сэкономить на затратах на хранение. Это можно задать только во время создания индекса и только для полей векторов. Это свойство нельзя изменить для существующих полей или задать значение false для новых полей. Если это свойство задано как false, свойство "извлекаемое" также должно иметь значение false. Это свойство должно быть true или не задано для ключевых полей, для новых полей, а также для полей, не являющихся векторными, и оно должно иметь значение NULL для сложных полей. Отключение этого свойства приведет к снижению требований к хранилищу индексов. Значение по умолчанию имеет значение true для полей векторов.

synonymMaps

string[]

Список имен синонимов сопоставляется с этим полем. Этот параметр можно использовать только с полями, доступными для поиска. В настоящее время поддерживается только одна карта синонимов на поле. Назначение сопоставления синонимов полю гарантирует, что условия запроса, предназначенные для этого поля, развертываются во время запроса с помощью правил в карте синонимов. Этот атрибут можно изменить в существующих полях. Должен иметь значение NULL или пустую коллекцию для сложных полей.

type

SearchFieldDataType

Тип данных поля.

vectorEncoding

VectorEncodingFormat

Формат кодирования для интерпретации содержимого поля.

vectorSearchProfile

string

Имя профиля векторного поиска, указывающего алгоритм и векторизатор для использования при поиске поля вектора.

SearchFieldDataType

Определяет тип данных поля в индексе поиска.

Имя Тип Описание
Edm.Boolean

string

Указывает, что поле содержит логическое значение (true или false).

Edm.Byte

string

Указывает, что поле содержит 8-разрядное целое число без знака. Это допустимо только при использовании с collection(Edm.Byte).

Edm.ComplexType

string

Указывает, что поле содержит один или несколько сложных объектов, которые, в свою очередь, имеют под поля других типов.

Edm.DateTimeOffset

string

Указывает, что поле содержит значение даты и времени, включая сведения о часовом поясе.

Edm.Double

string

Указывает, что поле содержит число с плавающей запятой с двойной точностью IEEE.

Edm.GeographyPoint

string

Указывает, что поле содержит географическое расположение с точки зрения долготы и широты.

Edm.Half

string

Указывает, что поле содержит число с плавающей запятой половины точности. Это допустимо только при использовании с коллекцией (Edm.Half).

Edm.Int16

string

Указывает, что поле содержит 16-разрядное целое число со знаком. Это допустимо только при использовании с collection(Edm.Int16).

Edm.Int32

string

Указывает, что поле содержит 32-разрядное целое число со знаком.

Edm.Int64

string

Указывает, что поле содержит 64-разрядное целое число со знаком.

Edm.SByte

string

Указывает, что поле содержит 8-разрядное целое число со знаком. Это допустимо только при использовании с Collection(Edm.SByte).

Edm.Single

string

Указывает, что поле содержит число с плавающей запятой с одной точностью. Это допустимо только при использовании с collection(Edm.Single).

Edm.String

string

Указывает, что поле содержит строку.

SearchIndex

Представляет определение индекса поиска, описывающее поля и поведение поиска индекса.

Имя Тип Описание
@odata.etag

string

ETag индекса.

analyzers LexicalAnalyzer[]:

Анализаторы индекса.

charFilters CharFilter[]:

Фильтры символов для индекса.

corsOptions

CorsOptions

Параметры управления общим доступом к ресурсам между источниками (CORS) для индекса.

defaultScoringProfile

string

Имя профиля оценки, используемого, если ни один из них не указан в запросе. Если это свойство не задано, а профиль оценки не указан в запросе, будет использоваться оценка по умолчанию (tf-idf).

encryptionKey

SearchResourceEncryptionKey

Описание ключа шифрования, созданного в Azure Key Vault. Этот ключ используется для предоставления дополнительного уровня шифрования неактивных данных, если требуется полная уверенность в том, что никто, даже не Корпорация Майкрософт, не может расшифровать данные. После шифрования данных он всегда будет оставаться зашифрованным. Служба поиска игнорирует попытки задать для этого свойства значение NULL. Это свойство можно изменить по мере необходимости, если вы хотите повернуть ключ шифрования; Ваши данные не будут затронуты. Шифрование с помощью ключей, управляемых клиентом, недоступно для бесплатных служб поиска и доступно только для платных служб, созданных 1 января 2019 г.

fields

SearchField[]

Поля индекса.

name

string

Имя индекса.

scoringProfiles

ScoringProfile[]

Профили оценки для индекса.

semantic

SemanticSettings

Определяет параметры индекса поиска, влияющего на семантические возможности.

similarity Similarity:

Тип алгоритма сходства, используемый при оценке и ранжировании документов, соответствующих поисковому запросу. Алгоритм сходства может быть определен только во время создания индекса и не может быть изменен на существующих индексах. Если значение NULL, используется алгоритм ClassicSimilarity.

suggesters

Suggester[]

Предложения для индекса.

tokenFilters TokenFilter[]:

Маркер фильтрует индекс.

tokenizers LexicalTokenizer[]:

Маркеризаторы индекса.

vectorSearch

VectorSearch

Содержит параметры конфигурации, связанные с векторным поиском.

SearchIndexerDataNoneIdentity

Очищает свойство удостоверения источника данных.

Имя Тип Описание
@odata.type string:

#Microsoft.Azure.Search.DataNoneIdentity

Фрагмент URI, указывающий тип удостоверения.

SearchIndexerDataUserAssignedIdentity

Указывает удостоверение для используемого источника данных.

Имя Тип Описание
@odata.type string:

#Microsoft.Azure.Search.DataUserAssignedIdentity

Фрагмент URI, указывающий тип удостоверения.

userAssignedIdentity

string

Полный идентификатор ресурса Azure назначаемого пользователем управляемого удостоверения обычно в форме "/subscriptions/12345678-1234-1234-1234-1234567890ab/resourceGroups/rg/providers/Microsoft.ManagedIdentity/userAssignedIdentities/myId", который должен быть назначен службе поиска.

SearchResourceEncryptionKey

Ключ шифрования, управляемый клиентом, в Azure Key Vault. Ключи, которые создаются и управляются, можно использовать для шифрования или расшифровки неактивных данных, таких как индексы и карты синонимов.

Имя Тип Описание
accessCredentials

AzureActiveDirectoryApplicationCredentials

Необязательные учетные данные Azure Active Directory, используемые для доступа к Azure Key Vault. Не требуется, если вместо этого используется управляемое удостоверение.

keyVaultKeyName

string

Имя ключа Azure Key Vault, используемого для шифрования неактивных данных.

keyVaultKeyVersion

string

Версия ключа Azure Key Vault, используемая для шифрования неактивных данных.

keyVaultUri

string

Универсальный код ресурса (URI) Хранилища ключей Azure, который также называется DNS-именем, который содержит ключ, используемый для шифрования неактивных данных. Пример URI может быть https://my-keyvault-name.vault.azure.net.

SemanticConfiguration

Определяет определенную конфигурацию, используемую в контексте семантических возможностей.

Имя Тип Описание
name

string

Имя семантической конфигурации.

prioritizedFields

PrioritizedFields

Описание полей заголовка, содержимого и ключевых слов, используемых для семантического ранжирования, подписей, выделений и ответов. Необходимо задать по крайней мере один из трех вложенных свойств (titleField, приоритетыKeywordsFields и приоритетыContentFields).

SemanticField

Поле, используемое в рамках семантической конфигурации.

Имя Тип Описание
fieldName

string

SemanticSettings

Определяет параметры индекса поиска, влияющего на семантические возможности.

Имя Тип Описание
configurations

SemanticConfiguration[]

Семантические конфигурации индекса.

defaultConfiguration

string

Позволяет задать имя семантической конфигурации по умолчанию в индексе, что делает его необязательным для передачи в качестве параметра запроса каждый раз.

ShingleTokenFilter

Создает сочетания маркеров в виде одного маркера. Этот фильтр маркеров реализуется с помощью Apache Lucene.

Имя Тип Default value Описание
@odata.type string:

#Microsoft.Azure.Search.ShingleTokenFilter

Фрагмент URI, указывающий тип фильтра маркеров.

filterToken

string

_

Строка для вставки для каждой позиции, в которой нет маркера. По умолчанию используется символ подчеркивания ("_").

maxShingleSize

integer

2

Максимальный размер голени. Значение по умолчанию и минимальное значение — 2.

minShingleSize

integer

2

Минимальный размер голени. Значение по умолчанию и минимальное значение — 2. Должно быть меньше значения maxShingleSize.

name

string

Имя фильтра маркеров. Он должен содержать только буквы, цифры, пробелы, дефисы или символы подчеркивания, может начинаться и заканчиваться буквенно-цифровыми символами и ограничен 128 символами.

outputUnigrams

boolean

True

Значение, указывающее, будет ли выходной поток содержать входные маркеры (юниграммы), а также мешки. Значение по умолчанию — true.

outputUnigramsIfNoShingles

boolean

False

Значение, указывающее, следует ли выводить юниграммы в те времена, когда не доступны мешки. Это свойство имеет приоритет, если outputUnigrams имеет значение false. Значение по умолчанию — false.

tokenSeparator

string

Строка, используемая при присоединении смежных маркеров для формирования голени. По умолчанию используется одно пространство (" ").

SnowballTokenFilter

Фильтр, который стебляет слова с помощью созданного сноубола стебля. Этот фильтр маркеров реализуется с помощью Apache Lucene.

Имя Тип Описание
@odata.type string:

#Microsoft.Azure.Search.SnowballTokenFilter

Фрагмент URI, указывающий тип фильтра маркеров.

language

SnowballTokenFilterLanguage

Используемый язык.

name

string

Имя фильтра маркеров. Он должен содержать только буквы, цифры, пробелы, дефисы или символы подчеркивания, может начинаться и заканчиваться буквенно-цифровыми символами и ограничен 128 символами.

SnowballTokenFilterLanguage

Язык, используемый для фильтра маркеров Snowball.

Имя Тип Описание
armenian

string

Выбирает токенизатор стебля Lucene Snowball для армян.

basque

string

Выбирает токенизатор стебля Lucene Snowball для Баска.

catalan

string

Выбирает токенизатор стебля Lucene Snowball для каталонского.

danish

string

Выбирает токенизатор стебля Lucene Snowball для датского языка.

dutch

string

Выбирает токенизатор для голландцев Lucene Snowball.

english

string

Выбирает токенизатор маркеров Lucene Snowball для английского языка.

finnish

string

Выбирает токенизатор стебля Lucene Snowball для финляндии.

french

string

Выбирает токенизатор стебля Lucene Snowball для французского языка.

german

string

Выбирает токенизатор стебля Lucene Snowball для немецкого языка.

german2

string

Выбирает токенизатор стебля Lucene Snowball, использующий алгоритм немецкого варианта.

hungarian

string

Выбирает токенизатор стебля Lucene Snowball для венгерского.

italian

string

Выбирает токенизатор маркеров Lucene Snowball для итальянского языка.

kp

string

Выбирает токенизатор стебля Lucene Snowball для Нидерландов, который использует алгоритм Kraaij-Pohlmann стебля.

lovins

string

Выбирает токенизатор стебля Lucene Snowball для английского языка, использующего алгоритм Lovins stemming.

norwegian

string

Выбирает токенизатор стебля Lucene Snowball для норвежского языка.

porter

string

Выбирает токенизатор стебля Lucene Snowball для английского языка, использующего алгоритм стебляния Porter.

portuguese

string

Выбирает токенизатор стебля Lucene Snowball для португальского языка.

romanian

string

Выбирает токенизатор стебля Lucene Snowball для румына.

russian

string

Выбирает токенизатор стебля Lucene Snowball для россии.

spanish

string

Выбирает токенизатор стебля Lucene Snowball для испанского языка.

swedish

string

Выбирает токенизатор стебля Lucene Snowball для шведского языка.

turkish

string

Выбирает токенизатор стебля Lucene Snowball для турецкого языка.

StemmerOverrideTokenFilter

Предоставляет возможность переопределить другие фильтры с использованием пользовательских фильтров на основе словаря. Все термины, связанные с словарем, будут помечены как ключевые слова, чтобы они не были стеблированы с помощью стволовых модулей вниз по цепочке. Необходимо поместить перед любыми фильтрами с использованием стволовых элементов. Этот фильтр маркеров реализуется с помощью Apache Lucene.

Имя Тип Описание
@odata.type string:

#Microsoft.Azure.Search.StemmerOverrideTokenFilter

Фрагмент URI, указывающий тип фильтра маркеров.

name

string

Имя фильтра маркеров. Он должен содержать только буквы, цифры, пробелы, дефисы или символы подчеркивания, может начинаться и заканчиваться буквенно-цифровыми символами и ограничен 128 символами.

rules

string[]

Список правил стека в следующем формате: "word => stem", например "run => run".

StemmerTokenFilter

Фильтр для конкретного языка. Этот фильтр маркеров реализуется с помощью Apache Lucene.

Имя Тип Описание
@odata.type string:

#Microsoft.Azure.Search.StemmerTokenFilter

Фрагмент URI, указывающий тип фильтра маркеров.

language

StemmerTokenFilterLanguage

Используемый язык.

name

string

Имя фильтра маркеров. Он должен содержать только буквы, цифры, пробелы, дефисы или символы подчеркивания, может начинаться и заканчиваться буквенно-цифровыми символами и ограничен 128 символами.

StemmerTokenFilterLanguage

Язык, используемый для фильтра маркеров stemmer.

Имя Тип Описание
arabic

string

Выбирает токенизатор стебля Lucene для арабского языка.

armenian

string

Выбирает токенизатор стебля Lucene для армян.

basque

string

Выбирает токенизатор стебля Lucene для Баска.

brazilian

string

Выбирает токенизатор стебля Lucene для португальского (Бразилия).

bulgarian

string

Выбирает токенизатор стебля Lucene для болгарии.

catalan

string

Выбирает токенизатор стебля Lucene для каталонца.

czech

string

Выбирает токенизатор блюсти Lucene для Чехии.

danish

string

Выбирает токенизатор стебля Lucene для датского языка.

dutch

string

Выбирает токенизатор люсена для голландцев.

dutchKp

string

Выбирает токенизатор стебля Lucene для Нидерландов, использующий алгоритм Kraaij-Pohlmann стебля.

english

string

Выбирает токенизатор стека Lucene для английского языка.

finnish

string

Выбирает токенизатор стебля Lucene для финляндии.

french

string

Выбирает токенизатор стека Lucene для французского языка.

galician

string

Выбирает токенизатор стебля Lucene для Галисиана.

german

string

Выбирает токенизатор стебля Lucene для немецкого языка.

german2

string

Выбирает токенизатор стека Lucene, использующий алгоритм немецкого варианта.

greek

string

Выбирает токенизатор стебля Lucene для греческого языка.

hindi

string

Выбирает токенизатор Хинди Lucene для Хинди.

hungarian

string

Выбирает токенизатор стебля Lucene для венгерских.

indonesian

string

Выбирает токенизатор стебля Lucene для индонезийского языка.

irish

string

Выбирает токенизатор стебля Lucene для ирландских.

italian

string

Выбирает токенизатор стека Lucene для итальянского языка.

latvian

string

Выбирает токенизатор стебля Lucene для Латвии.

lightEnglish

string

Выбирает токенизатор стебля Lucene для английского языка, который делает легкий стебли.

lightFinnish

string

Выбирает токенизатор стебля Lucene для финляндии, который делает легкий стебли.

lightFrench

string

Выбирает токенизатор стебля Lucene для французского языка, который делает легкий стебли.

lightGerman

string

Выбирает токенизатор стебля Lucene для германии, который делает легкий стебли.

lightHungarian

string

Выбирает токенизатор стебля Lucene для венгерских, который делает легкий стебли.

lightItalian

string

Выбирает токенизатор стебля Lucene для итальянского языка, который делает легкий стебли.

lightNorwegian

string

Выбирает токенизатор стебля Lucene для норвежского (Bokmål), который делает легкий стебли.

lightNynorsk

string

Выбирает токенизатор стебля Lucene для норвежского (Nynorsk), который делает легкий стебли.

lightPortuguese

string

Выбирает токенизатор стебля Lucene для португальского языка, который делает легкий стебли.

lightRussian

string

Выбирает токенизатор стебля Lucene для россии, который делает легкий стебли.

lightSpanish

string

Выбирает токенизатор стебля Lucene для испанского языка, который делает легкий стебли.

lightSwedish

string

Выбирает токенизатор стебля Lucene для шведского языка, который делает легкий стебли.

lovins

string

Выбирает токенизатор стека Lucene для английского языка, использующего алгоритм Lovins stemming.

minimalEnglish

string

Выбирает токенизатор стебля Lucene для английского языка, который делает минимальный стебли.

minimalFrench

string

Выбирает токенизатор стека Lucene для французского языка, который делает минимальный стебли.

minimalGalician

string

Выбирает токенизатор стебля Lucene для Галисиана, который делает минимальное стеблирование.

minimalGerman

string

Выбирает токенизатор стебля Lucene для германии, который делает минимальный стебли.

minimalNorwegian

string

Выбирает токенизатор стебля Lucene для норвежского (Bokmål), который делает минимальный стебли.

minimalNynorsk

string

Выбирает токенизатор стебля Lucene для норвежского (Nynorsk), который делает минимальный стебли.

minimalPortuguese

string

Выбирает токенизатор стебля Lucene для португальского языка, который делает минимальный стебли.

norwegian

string

Выбирает токенизатор стека Lucene для норвежского языка (Bokmål).

porter2

string

Выбирает токенизатор стебля Lucene для английского языка, использующего алгоритм stemming Porter2.

portuguese

string

Выбирает токенизатор стека Lucene для португальского языка.

portugueseRslp

string

Выбирает токенизатор стебля Lucene для португальского языка, использующего алгоритм стеммирования RSLP.

possessiveEnglish

string

Выбирает токенизатор стека Lucene для английского языка, который удаляет конечные пристрастия из слов.

romanian

string

Выбирает токенизатор стебля Lucene для румына.

russian

string

Выбирает токенизатор стека Lucene для русского языка.

sorani

string

Выбирает токенизатор для Lucene stemming для Sorani.

spanish

string

Выбирает токенизатор стека Lucene для испанского языка.

swedish

string

Выбирает токенизатор стека Lucene для шведского языка.

turkish

string

Выбирает токенизатор стебля Lucene для турецкого языка.

StopAnalyzer

Делит текст на небуквенный; Применяет фильтры маркеров стоп-слов и строчных регистров. Этот анализатор реализуется с помощью Apache Lucene.

Имя Тип Описание
@odata.type string:

#Microsoft.Azure.Search.StopAnalyzer

Фрагмент URI, указывающий тип анализатора.

name

string

Имя анализатора. Он должен содержать только буквы, цифры, пробелы, дефисы или символы подчеркивания, может начинаться и заканчиваться буквенно-цифровыми символами и ограничен 128 символами.

stopwords

string[]

Список стоп-слов.

StopwordsList

Определяет предопределенный список слов стоп-слов для конкретного языка.

Имя Тип Описание
arabic

string

Выбирает список стоп-слов для арабского языка.

armenian

string

Выбирает список стоп-слов для армян.

basque

string

Выбирает список стоп-слов для Баска.

brazilian

string

Выбирает список стоп-слов для португальского (Бразилия).

bulgarian

string

Выбирает список стоп-слов для болгарского.

catalan

string

Выбирает список стоп-слов для каталонца.

czech

string

Выбирает список стоп-слов для Чехии.

danish

string

Выбирает список стоп-слов для датского языка.

dutch

string

Выбирает список стоп-слов для голландцев.

english

string

Выбирает список стоп-слов для английского языка.

finnish

string

Выбирает список стоп-слов для финляндии.

french

string

Выбирает список стоп-слов для французского языка.

galician

string

Выбирает список стоп-слов для Галисиана.

german

string

Выбирает список стоп-слов для немецкого языка.

greek

string

Выбирает список стоп-слов для греческого языка.

hindi

string

Выбирает список стоп-слов для Хинди.

hungarian

string

Выбирает список стоп-слов для венгерского.

indonesian

string

Выбирает список стоп-слов для Индонезии.

irish

string

Выбирает список стоп-слов для ирландских.

italian

string

Выбирает список стоп-слов для итальянского языка.

latvian

string

Выбирает список стоп-слов для латышского языка.

norwegian

string

Выбирает список стоп-слов для норвежского языка.

persian

string

Выбирает список стоп-слов для персидского языка.

portuguese

string

Выбирает список стоп-слов для португальского языка.

romanian

string

Выбирает список стоп-слов для румынка.

russian

string

Выбирает список стоп-слов для русского языка.

sorani

string

Выбирает список стоп-слов для Sorani.

spanish

string

Выбирает список стоп-слов для испанского языка.

swedish

string

Выбирает список стоп-слов для шведского языка.

thai

string

Выбирает список стоп-слов для тайского языка.

turkish

string

Выбирает список стоп-слов для турецкого языка.

StopwordsTokenFilter

Удаляет слова остановки из потока маркеров. Этот фильтр маркеров реализуется с помощью Apache Lucene.

Имя Тип Default value Описание
@odata.type string:

#Microsoft.Azure.Search.StopwordsTokenFilter

Фрагмент URI, указывающий тип фильтра маркеров.

ignoreCase

boolean

False

Значение, указывающее, следует ли игнорировать регистр. Если значение true, все слова преобразуются в нижний регистр. Значение по умолчанию — false.

name

string

Имя фильтра маркеров. Он должен содержать только буквы, цифры, пробелы, дефисы или символы подчеркивания, может начинаться и заканчиваться буквенно-цифровыми символами и ограничен 128 символами.

removeTrailing

boolean

True

Значение, указывающее, следует ли игнорировать последний поисковый термин, если это стоп-слово. Значение по умолчанию — true.

stopwords

string[]

Список стоп-слов. Это свойство и свойство списка стоп-слов не могут быть заданы.

stopwordsList

StopwordsList

english

Предопределенный список стоп-слов для использования. Это свойство и свойство stopwords не могут быть заданы. По умолчанию используется английский язык.

Suggester

Определяет, как API предложения должен применяться к группе полей в индексе.

Имя Тип Описание
name

string

Имя средства предложения.

searchMode

SuggesterSearchMode

Значение, указывающее возможности средства предложения.

sourceFields

string[]

Список имен полей, к которым применяется средство предложения. Каждое поле должно быть доступны для поиска.

SuggesterSearchMode

Значение, указывающее возможности средства предложения.

Имя Тип Описание
analyzingInfixMatching

string

Соответствует последовательным целым терминам и префиксам в поле. Например, для поля "Самый быстрый коричневый фокс", запросы "быстрый" и "самый быстрый бровь" оба совпадают.

SynonymTokenFilter

Соответствует синонимам одного или нескольких слов в потоке маркеров. Этот фильтр маркеров реализуется с помощью Apache Lucene.

Имя Тип Default value Описание
@odata.type string:

#Microsoft.Azure.Search.SynonymTokenFilter

Фрагмент URI, указывающий тип фильтра маркеров.

expand

boolean

True

Значение, указывающее, будут ли все слова в списке синонимов (если => нотация не используется) сопоставляться друг с другом. Если значение true, все слова в списке синонимов (если => нотация не используется) будут сопоставляться друг с другом. Следующий список: невероятный, невероятный, сказочный, удивительный эквивалент: невероятный, невероятный, сказочный, удивительный => невероятные, сказочные, удивительные, удивительные. Если ложь, следующий список: невероятный, невероятный, сказочный, удивительный будет эквивалентно: невероятным, невероятным, сказочным, удивительным => невероятным. Значение по умолчанию — true.

ignoreCase

boolean

False

Значение, указывающее, следует ли регистрировать входные данные для сопоставления. Значение по умолчанию — false.

name

string

Имя фильтра маркеров. Он должен содержать только буквы, цифры, пробелы, дефисы или символы подчеркивания, может начинаться и заканчиваться буквенно-цифровыми символами и ограничен 128 символами.

synonyms

string[]

Список синонимов в одном из двух форматов: 1. невероятные, невероятные, сказочные => удивительные - все термины слева от => символ будет заменен всеми условиями на правой стороне; 2. невероятный, невероятный, сказочный, удивительный - запятая разделил список эквивалентных слов. Задайте параметр развертывания, чтобы изменить способ интерпретации этого списка.

TagScoringFunction

Определяет функцию, которая повышает оценку документов со строковыми значениями, соответствующими заданному списку тегов.

Имя Тип Описание
boost

number

Умножение для необработанной оценки. Должно быть положительным числом, не равным 1,0.

fieldName

string

Имя поля, используемого в качестве входных данных для функции оценки.

interpolation

ScoringFunctionInterpolation

Значение, указывающее, как повышение будет интерполировано по оценкам документов; По умолчанию используется значение "Linear".

tag

TagScoringParameters

Значения параметров для функции оценки тегов.

type string:

tag

Указывает тип используемой функции. Допустимые значения включают величину, свежесть, расстояние и тег. Тип функции должен быть нижним регистром.

TagScoringParameters

Предоставляет значения параметров функции оценки тегов.

Имя Тип Описание
tagsParameter

string

Имя параметра, переданного в поисковых запросах, чтобы указать список тегов для сравнения с целевым полем.

TextWeights

Определяет весы в полях индекса, для которых совпадения должны повысить оценку в поисковых запросах.

Имя Тип Описание
weights

object

Словарь весов по полю для повышения оценки документов. Ключи являются именами полей, а значения — весами для каждого поля.

TokenCharacterKind

Представляет классы символов, на которых может работать фильтр маркеров.

Имя Тип Описание
digit

string

Сохраняет цифры в токенах.

letter

string

Хранит буквы в маркерах.

punctuation

string

Сохраняет знаки препинания в токенах.

symbol

string

Сохраняет символы в токенах.

whitespace

string

Сохраняет пробелы в маркерах.

TokenFilterName

Определяет имена всех фильтров маркеров, поддерживаемых поисковой системой.

Имя Тип Описание
apostrophe

string

Полоскает все символы после апострофа (включая сам апостроф). См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/tr/ApostropheFilter.html

arabic_normalization

string

Фильтр маркеров, который применяет арабский нормализатор для нормализации ортографии. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ar/ArabicNormalizationFilter.html

asciifolding

string

Преобразует алфавитные, числовые и символьные символы Юникода, которые не находятся в первых 127 символах ASCII (блок Юникода "Базовый латиница") в эквиваленты ASCII, если такие эквиваленты существуют. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html

cjk_bigram

string

Формирует большие кадры терминов CJK, созданных из стандартного токенизатора. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKBigramFilter.html

cjk_width

string

Нормализует различия ширины CJK. Сворачивать варианты fullwidth ASCII в эквивалентную базовую латиницу и половину ширины вариантов Katakana в эквивалентную Кану. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKWidthFilter.html

classic

string

Удаляет англоязычные присяговы и точки из акронимов. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicFilter.html

common_grams

string

Создавайте bigrams для часто встречающихся терминов при индексировании. Отдельные термины по-прежнему индексируются слишком, при наложении bigrams. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/commongrams/CommonGramsFilter.html

edgeNGram_v2

string

Создает n-граммы заданных размеров, начиная с передней или задней части входного маркера. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenFilter.html

elision

string

Удаляет излизии. Например, "l'avion" (плоскость) преобразуется в "avion" (плоскость). См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html

german_normalization

string

Нормализует немецкие символы в соответствии с эвристиками алгоритма снежного шара Германии 2. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/de/GermanNormalizationFilter.html

hindi_normalization

string

Нормализует текст в Хинди, чтобы удалить некоторые различия в вариантах орфографии. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/hi/HindiNormalizationFilter.html

indic_normalization

string

Нормализует представление текста Юникода на индийских языках. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/in/IndicNormalizationFilter.html

keyword_repeat

string

Выводит каждый входящий токен дважды, один раз в качестве ключевого слова и один раз как не ключевое слово. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/KeywordRepeatFilter.html

kstem

string

Высокопроизводительный фильтр kstem для английского языка. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/en/KStemFilter.html

length

string

Удаляет слова, слишком длинные или слишком короткие. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LengthFilter.html

limit

string

Ограничивает количество маркеров при индексировании. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LimitTokenCountFilter.html

lowercase

string

Нормализует текст маркера в нижний регистр. См. https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html

nGram_v2

string

Создает n-граммы заданного размера. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenFilter.html

persian_normalization

string

Применяет нормализацию для персидского языка. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/fa/PersianNormalizationFilter.html

phonetic

string

Создайте маркеры для фонетических совпадений. См. https://lucene.apache.org/core/4_10_3/analyzers-phonetic/org/apache/lucene/analysis/phonetic/package-tree.html

porter_stem

string

Для преобразования потока маркеров используется алгоритм стебля портера. См. http://tartarus.org/~martin/PorterStemmer

reverse

string

Отменяет строку маркера. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html

scandinavian_folding

string

Сворачивать скандинавские символы åÅäääÄÄÄÖ->a и öÖøØ->o. Он также дискриминирует использование двойных гласных aa, ae, ao, oe и oo, оставляя только первый. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianFoldingFilter.html

scandinavian_normalization

string

Нормализует использование взаимозаменяемых скандинавских символов. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianNormalizationFilter.html

shingle

string

Создает сочетания маркеров в виде одного маркера. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/shingle/ShingleFilter.html

snowball

string

Фильтр, который стебляет слова с помощью созданного сноубола стебля. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/snowball/SnowballFilter.html

sorani_normalization

string

Нормализует представление текста Sorani в Юникоде. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ckb/SoraniNormalizationFilter.html

stemmer

string

Фильтр для конкретного языка. См. https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#TokenFilters

stopwords

string

Удаляет слова остановки из потока маркеров. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html

trim

string

Обрезает начальные и конечные пробелы из маркеров. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TrimFilter.html

truncate

string

Усечение терминов до определенной длины. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TruncateTokenFilter.html

unique

string

Фильтрует маркеры с тем же текстом, что и предыдущий маркер. См. http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/RemoveDuplicatesTokenFilter.html

uppercase

string

Нормализует текст маркера в верхний регистр. См. https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html

word_delimiter

string

Разбивает слова на вложенные слова и выполняет необязательные преобразования в группах подслугов.

TruncateTokenFilter

Усечение терминов до определенной длины. Этот фильтр маркеров реализуется с помощью Apache Lucene.

Имя Тип Default value Описание
@odata.type string:

#Microsoft.Azure.Search.TruncateTokenFilter

Фрагмент URI, указывающий тип фильтра маркеров.

length

integer

300

Длина усечения терминов. Значение по умолчанию и максимальное значение — 300.

name

string

Имя фильтра маркеров. Он должен содержать только буквы, цифры, пробелы, дефисы или символы подчеркивания, может начинаться и заканчиваться буквенно-цифровыми символами и ограничен 128 символами.

UaxUrlEmailTokenizer

Маркеризирует URL-адреса и сообщения электронной почты в виде одного маркера. Этот токенизатор реализуется с помощью Apache Lucene.

Имя Тип Default value Описание
@odata.type string:

#Microsoft.Azure.Search.UaxUrlEmailTokenizer

Фрагмент URI, указывающий тип токенизатора.

maxTokenLength

integer

255

Максимальная длина маркера. Значение по умолчанию — 255. Маркеры длиннее, чем максимальная длина, разделены. Максимальная длина маркера, которую можно использовать, составляет 300 символов.

name

string

Имя токенизатора. Он должен содержать только буквы, цифры, пробелы, дефисы или символы подчеркивания, может начинаться и заканчиваться буквенно-цифровыми символами и ограничен 128 символами.

UniqueTokenFilter

Фильтрует маркеры с тем же текстом, что и предыдущий маркер. Этот фильтр маркеров реализуется с помощью Apache Lucene.

Имя Тип Default value Описание
@odata.type string:

#Microsoft.Azure.Search.UniqueTokenFilter

Фрагмент URI, указывающий тип фильтра маркеров.

name

string

Имя фильтра маркеров. Он должен содержать только буквы, цифры, пробелы, дефисы или символы подчеркивания, может начинаться и заканчиваться буквенно-цифровыми символами и ограничен 128 символами.

onlyOnSamePosition

boolean

False

Значение, указывающее, следует ли удалять дубликаты только в той же позиции. Значение по умолчанию — false.

VectorEncodingFormat

Формат кодирования для интерпретации содержимого поля вектора.

Имя Тип Описание
packedBit

string

Формат кодирования, представляющий биты, упакованные в более широкий тип данных.

VectorSearch

Содержит параметры конфигурации, связанные с векторным поиском.

Имя Тип Описание
algorithms VectorSearchAlgorithmConfiguration[]:

Содержит параметры конфигурации, относящиеся к алгоритму, используемому во время индексирования или запроса.

compressions VectorSearchCompressionConfiguration[]:

Содержит параметры конфигурации, относящиеся к методу сжатия, используемому во время индексирования или запроса.

profiles

VectorSearchProfile[]

Определяет сочетания конфигураций для использования с векторным поиском.

vectorizers VectorSearchVectorizer[]:

Содержит параметры конфигурации по векторным запросам вектора текста.

VectorSearchAlgorithmKind

Алгоритм, используемый для индексирования и запроса.

Имя Тип Описание
exhaustiveKnn

string

Исчерпывающий алгоритм KNN, который будет выполнять поиск методом подбора.

hnsw

string

HNSW (иерархический навигации small world), тип приблизительного ближайшего алгоритма соседей.

VectorSearchAlgorithmMetric

Метрика сходства, используемая для сравнения векторов. Рекомендуется выбрать ту же метрику сходства, что и модель внедрения.

Имя Тип Описание
cosine

string

Измеряет угол между векторами, чтобы квалифицировать их сходство, игнорируя величину. Чем меньше угол, тем ближе сходство.

dotProduct

string

Вычисляет сумму продуктов, мудрых элементами, чтобы оценить выравнивание и сходство величины. Чем больше, тем ближе сходство.

euclidean

string

Вычисляет расстояние прямой линии между векторами в многомерном пространстве. Чем меньше расстояние, тем ближе сходство.

hamming

string

Применимо только к типам двоичных данных с битовой упаковкой. Определяет непохожесть путем подсчета разных позиций в двоичных векторах. Чем меньше различий, тем ближе сходство.

VectorSearchCompressionKind

Метод сжатия, используемый для индексирования и запроса.

Имя Тип Описание
binaryQuantization

string

Двоичная квантизация— тип метода сжатия. В двоичном квантизации исходные значения векторов сжимаются до более узкого двоичного типа путем дискретизации и представления каждого компонента вектора с использованием двоичных значений, тем самым уменьшая общий размер данных.

scalarQuantization

string

Скалярная квантизация, тип метода сжатия. В скалярной квантизации исходные значения векторов сжимаются до более узкого типа путем дискретизации и представления каждого компонента вектора с помощью сокращенного набора квантизованных значений, тем самым уменьшая общий размер данных.

VectorSearchCompressionTargetDataType

Квантизованный тип данных сжатых векторных значений.

Имя Тип Описание
int8

string

VectorSearchProfile

Определяет сочетание конфигураций для использования с векторным поиском.

Имя Тип Описание
algorithm

string

Имя конфигурации алгоритма векторного поиска, указывающее алгоритм и необязательные параметры.

compression

string

Имя конфигурации метода сжатия, указывающей метод сжатия и необязательные параметры.

name

string

Имя, сопоставленное с данным векторным профилем поиска.

vectorizer

string

Имя векторизации, настроенной для использования с векторным поиском.

VectorSearchVectorizerKind

Метод векторизации, используемый во время запроса.

Имя Тип Описание
azureOpenAI

string

Создайте внедрение с помощью ресурса Azure OpenAI во время запроса.

customWebApi

string

Создание внедрения с помощью пользовательской веб-конечной точки во время запроса.

WebApiParameters

Задает свойства для подключения к определяемой пользователем векторизаторе.

Имя Тип Описание
authIdentity SearchIndexerDataIdentity:

Назначаемое пользователем управляемое удостоверение, используемое для исходящих подключений. Если указан идентификатор authResourceId и он не указан, используется управляемое удостоверение, назначаемое системой. При обновлении индексатора, если удостоверение не указано, значение остается неизменным. Если задано значение none, то значение этого свойства очищается.

authResourceId

string

Применяется к пользовательским конечным точкам, которые подключаются к внешнему коду в функции Azure или другом приложении, которое предоставляет преобразования. Это значение должно быть идентификатором приложения, созданным для функции или приложения при регистрации в Azure Active Directory. При указании векторизация подключается к функции или приложению с помощью управляемого идентификатора (назначаемого системой или пользователем) службы поиска и маркера доступа функции или приложения, используя это значение в качестве идентификатора ресурса для создания области маркера доступа.

httpHeaders

object

Заголовки, необходимые для выполнения HTTP-запроса.

httpMethod

string

Метод HTTP-запроса.

timeout

string

Требуемое время ожидания запроса. Значение по умолчанию — 30 секунд.

uri

string

Универсальный код ресурса (URI) веб-API, предоставляющий векторизатор.

WebApiVectorizer

Задает определяемый пользователем векторизатор для создания векторного внедрения строки запроса. Интеграция внешнего векторизатора достигается с помощью пользовательского интерфейса веб-API набора навыков.

Имя Тип Описание
customWebApiParameters

WebApiParameters

Задает свойства определяемого пользователем векторизатора.

kind string:

customWebApi

Имя типа метода векторизации, настроенного для использования с векторным поиском.

name

string

Имя, сопоставленное с этим конкретным методом векторизации.

WordDelimiterTokenFilter

Разбивает слова на вложенные слова и выполняет необязательные преобразования в группах подслугов. Этот фильтр маркеров реализуется с помощью Apache Lucene.

Имя Тип Default value Описание
@odata.type string:

#Microsoft.Azure.Search.WordDelimiterTokenFilter

Фрагмент URI, указывающий тип фильтра маркеров.

catenateAll

boolean

False

Значение, указывающее, будут ли все части подсловных элементов катенироваться. Например, если задано значение true, "Azure-Search-1" становится "AzureSearch1". Значение по умолчанию — false.

catenateNumbers

boolean

False

Значение, указывающее, будет ли выполняться максимальное число частей. Например, если задано значение true, значение "1–2" становится "12". Значение по умолчанию — false.

catenateWords

boolean

False

Значение, указывающее, будет ли выполняться максимальное количество слов. Например, если для этого задано значение true, "Azure-Search" становится "AzureSearch". Значение по умолчанию — false.

generateNumberParts

boolean

True

Значение, указывающее, следует ли создавать подзадачки чисел. Значение по умолчанию — true.

generateWordParts

boolean

True

Значение, указывающее, следует ли создавать слова частей. Если задано, создается часть слов; Например, AzureSearch становится "Azure" "Поиск". Значение по умолчанию — true.

name

string

Имя фильтра маркеров. Он должен содержать только буквы, цифры, пробелы, дефисы или символы подчеркивания, может начинаться и заканчиваться буквенно-цифровыми символами и ограничен 128 символами.

preserveOriginal

boolean

False

Значение, указывающее, будут ли сохранены исходные слова и добавлены в список подслугов. Значение по умолчанию — false.

protectedWords

string[]

Список маркеров для защиты от разделителя.

splitOnCaseChange

boolean

True

Значение, указывающее, следует ли разделять слова на caseChange. Например, если задано значение true, AzureSearch становится "Azure" "Поиск". Значение по умолчанию — true.

splitOnNumerics

boolean

True

Значение, указывающее, следует ли разделять числа. Например, если задано значение true, "Azure1Search" становится "Azure" "1" "Поиск". Значение по умолчанию — true.

stemEnglishPossessive

boolean

True

Значение, указывающее, следует ли удалять конечные "s" для каждого подсловия. Значение по умолчанию — true.