Indexes - Get
Извлекает определение индекса.
GET {endpoint}/indexes('{indexName}')?api-version=2024-05-01-preview
Параметры URI
Имя | В | Обязательно | Тип | Описание |
---|---|---|---|---|
endpoint
|
path | True |
string |
URL-адрес конечной точки службы поиска. |
index
|
path | True |
string |
Имя извлекаемого индекса. |
api-version
|
query | True |
string |
Версия API клиента. |
Заголовок запроса
Имя | Обязательно | Тип | Описание |
---|---|---|---|
x-ms-client-request-id |
string uuid |
Идентификатор отслеживания, отправленный с запросом для помощи в отладке. |
Ответы
Имя | Тип | Описание |
---|---|---|
200 OK | ||
Other Status Codes |
Ответ об ошибке. |
Примеры
SearchServiceGetIndex
Образец запроса
GET https://myservice.search.windows.net/indexes('hotels')?api-version=2024-05-01-preview
Пример ответа
{
"name": "hotels",
"fields": [
{
"name": "hotelId",
"type": "Edm.String",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": true,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "baseRate",
"type": "Edm.Double",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "description",
"type": "Edm.String",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "descriptionEmbedding",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": 1536,
"vectorSearchProfile": "myHnswProfile",
"synonymMaps": []
},
{
"name": "descriptionEmbedding_notstored",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": false,
"stored": false,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"synonymMaps": [],
"dimensions": 1536,
"vectorSearchProfile": "myCompressedHnswProfile"
},
{
"name": "description_fr",
"type": "Edm.String",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": "fr.lucene",
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "hotelName",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "category",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "tags",
"type": "Collection(Edm.String)",
"searchable": true,
"filterable": true,
"retrievable": true,
"sortable": false,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": "tagsAnalyzer",
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "parkingIncluded",
"type": "Edm.Boolean",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "smokingAllowed",
"type": "Edm.Boolean",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "lastRenovationDate",
"type": "Edm.DateTimeOffset",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "rating",
"type": "Edm.Int32",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "location",
"type": "Edm.GeographyPoint",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
}
],
"scoringProfiles": [
{
"name": "geo",
"functionAggregation": "sum",
"text": {
"weights": {
"hotelName": 5
}
},
"functions": [
{
"fieldName": "location",
"interpolation": "logarithmic",
"type": "distance",
"boost": 5,
"distance": {
"referencePointParameter": "currentLocation",
"boostingDistance": 10
}
}
]
}
],
"defaultScoringProfile": "geo",
"similarity": {
"@odata.type": "#Microsoft.Azure.Search.BM25Similarity",
"k1": null,
"b": null
},
"suggesters": [
{
"name": "sg",
"searchMode": "analyzingInfixMatching",
"sourceFields": [
"hotelName"
]
}
],
"analyzers": [
{
"@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
"name": "tagsAnalyzer",
"tokenizer": "standard_v2",
"tokenFilters": [],
"charFilters": [
"html_strip"
]
}
],
"normalizers": [],
"tokenizers": [],
"tokenFilters": [],
"charFilters": [],
"corsOptions": {
"allowedOrigins": [
"tempuri.org"
],
"maxAgeInSeconds": 60
},
"encryptionKey": {
"keyVaultKeyName": "myKeyName",
"keyVaultKeyVersion": "myKeyVersion",
"keyVaultUri": "https://myKeyVault.vault.azure.net",
"accessCredentials": {
"applicationId": "00000000-0000-0000-0000-000000000000",
"applicationSecret": null
}
},
"semantic": {
"defaultConfiguration": null,
"configurations": [
{
"name": "semanticHotels",
"prioritizedFields": {
"titleField": {
"fieldName": "hotelName"
},
"prioritizedContentFields": [
{
"fieldName": "description"
},
{
"fieldName": "description_fr"
}
],
"prioritizedKeywordsFields": [
{
"fieldName": "tags"
},
{
"fieldName": "category"
}
]
}
}
]
},
"vectorSearch": {
"algorithms": [
{
"name": "myHnsw",
"kind": "hnsw",
"hnswParameters": {
"metric": "cosine",
"m": 4,
"efConstruction": 400,
"efSearch": 500
}
},
{
"name": "myExhaustiveKnn",
"kind": "exhaustiveKnn",
"exhaustiveKnnParameters": {
"metric": "cosine"
}
}
],
"compressions": [
{
"name": "mySQ8",
"kind": "scalarQuantization",
"scalarQuantizationParameters": {
"quantizedDataType": "int8"
},
"rerankWithOriginalVectors": true,
"defaultOversampling": 10
}
],
"profiles": [
{
"name": "myHnswProfile",
"algorithm": "myHnsw",
"vectorizer": "myOpenAi"
},
{
"name": "myCompressedHnswProfile",
"algorithm": "myHnsw",
"vectorizer": "myOpenAi",
"compression": "mySQ8"
},
{
"name": "myAlgorithm",
"algorithm": "myHnsw"
}
],
"vectorizers": [
{
"name": "myOpenAi",
"kind": "azureOpenAI",
"azureOpenAIParameters": {
"resourceUri": "https://url.openai.azure.com",
"deploymentId": "text-embedding-ada-002",
"apiKey": "topsecretkey",
"authIdentity": null
}
}
]
}
}
Определения
Имя | Описание |
---|---|
AIServices |
Задает параметры визуального распознавания служб ИИ для векторизации изображения или текста запроса. |
AIServices |
Задает параметры визуального распознавания служб ИИ для векторизации изображения или текста запроса. |
AIStudio |
Имя модели внедрения из каталога Azure AI Studio, который будет вызываться. |
AMLParameters |
Задает свойства для подключения к векторизатору AML. |
AMLVectorizer |
Указывает конечную точку Машинного обучения Azure, развернутую через каталог моделей Azure AI Studio для создания векторного внедрения строки запроса. |
Ascii |
Преобразует буквенные, числовые и символические символы Юникода, которые не входят в первые 127 символов ASCII (блок Юникода "Базовый латиница"), в их эквиваленты ASCII, если такие эквиваленты существуют. Этот фильтр маркеров реализуется с помощью Apache Lucene. |
Azure |
Учетные данные зарегистрированного приложения, созданного для службы поиска, которые используются для доступа к ключам шифрования, хранящимся в Azure Key Vault с проверкой подлинности. |
Azure |
Позволяет создать внедрение вектора для заданного текстового ввода с помощью ресурса Azure OpenAI. |
Azure |
Имя модели Azure Open AI, которое будет вызываться. |
Azure |
Задает параметры для подключения к ресурсу Azure OpenAI. |
Azure |
Указывает ресурс Azure OpenAI, используемый для векторизации строки запроса. |
BM25Similarity |
Ранжирующая функция на основе алгоритма сходства Okapi BM25. BM25 — это алгоритм, подобный TF-IDF, который включает нормализацию длины (управляется параметром b), а также насыщенность термина частоты (управляется параметром k1). |
Char |
Определяет имена всех фильтров символов, поддерживаемых поисковой системой. |
Cjk |
Forms бикрамы терминов CJK, созданные из стандартного создателя маркеров. Этот фильтр маркеров реализуется с помощью Apache Lucene. |
Cjk |
Скрипты, которые могут игнорироваться CjkBigramTokenFilter. |
Classic |
Устаревший алгоритм подобия, использующий реализацию TF-IDF Lucene TFIDFSimilarity. Этот вариант TF-IDF вводит нормализацию статической длины документа, а также координирующих факторов, которые наказывают документы, которые только частично соответствуют поисковым запросам. |
Classic |
Грамматический токенизатор, который подходит для обработки большинства документов на европейском языке. Этот создатель маркеров реализуется с помощью Apache Lucene. |
Common |
Создает биграммы для часто встречающихся терминов при индексировании. Отдельные термины также индексируются с наложением биграмм. Этот фильтр маркеров реализуется с помощью Apache Lucene. |
Cors |
Определяет параметры для управления общим доступом к ресурсам независимо от источника (CORS) для индекса. |
Custom |
Позволяет управлять процессом преобразования текста в индексируемые и доступные для поиска маркеры. Это определяемая пользователем конфигурация, состоящая из одного предопределенного создателя маркеров и одного или нескольких фильтров. Создатель маркеров отвечает за разбиение текста на маркеры и фильтры для изменения маркеров, созданных создателем маркеров. |
Custom |
Позволяет настроить нормализацию для фильтруемых, сортируемых и фасетных полей, которые по умолчанию работают со строгим соответствием. Это определяемая пользователем конфигурация, состоящая по крайней мере из одного или нескольких фильтров, которые изменяют хранимый токен. |
Custom |
Задает определяемый пользователем векторизатор для создания векторного внедрения строки запроса. Интеграция внешнего векторизатора достигается с помощью пользовательского интерфейса веб-API набора навыков. |
Custom |
Задает свойства для подключения к пользовательскому векторизатору. |
Dictionary |
Разбивает составные слова, распространенные во многих германских языках. Этот фильтр маркеров реализуется с помощью Apache Lucene. |
Distance |
Определяет функцию, повышающую оценку на основе расстояния от географического расположения. |
Distance |
Предоставляет значения параметров для функции оценки расстояний. |
Edge |
Создает n-граммов заданного размера, начиная с передней или задней части входного маркера. Этот фильтр маркеров реализуется с помощью Apache Lucene. |
Edge |
Указывает, на какой стороне входных данных должна быть создана n-грамма. |
Edge |
Создает n-граммов заданного размера, начиная с передней или задней части входного маркера. Этот фильтр маркеров реализуется с помощью Apache Lucene. |
Edge |
Маркеризует входные данные из края в n-граммы заданного размера. Этот создатель маркеров реализуется с помощью Apache Lucene. |
Elision |
Удаляет элизии. Например, "l'avion" (плоскость) будет преобразован в "avion" (плоскость). Этот фильтр маркеров реализуется с помощью Apache Lucene. |
Error |
Дополнительные сведения об ошибке управления ресурсами. |
Error |
Сведения об ошибке. |
Error |
Сообщение об ошибке |
Exhaustive |
Содержит параметры, относящиеся к исчерпывающим алгоритмам KNN. |
Exhaustive |
Содержит параметры конфигурации, характерные для исчерпывающего алгоритма KNN, используемого во время запроса, который будет выполнять поиск методом подбора по всему индексу вектора. |
Freshness |
Определяет функцию, повышающую оценку на основе значения поля даты и времени. |
Freshness |
Предоставляет значения параметров для функции оценки актуальности. |
Hnsw |
Содержит параметры, относящиеся к алгоритму HNSW. |
Hnsw |
Содержит параметры конфигурации, относящиеся к алгоритму приблизительных ближайших соседей HNSW, используемому во время индексирования и выполнения запросов. Алгоритм HNSW предлагает настраиваемый компромисс между скоростью поиска и точностью. |
Input |
Сопоставление полей ввода для навыка. |
Keep |
Фильтр маркеров, который хранит только маркеры с текстом, содержащимся в указанном списке слов. Этот фильтр маркеров реализуется с помощью Apache Lucene. |
Keyword |
Помечает термины как ключевые слова. Этот фильтр маркеров реализуется с помощью Apache Lucene. |
Keyword |
Выдает все входные данные в виде одного маркера. Этот создатель маркеров реализуется с помощью Apache Lucene. |
Keyword |
Выдает все входные данные в виде одного маркера. Этот создатель маркеров реализуется с помощью Apache Lucene. |
Length |
Удаляет слишком длинные или слишком короткие слова. Этот фильтр маркеров реализуется с помощью Apache Lucene. |
Lexical |
Определяет имена всех анализаторов текста, поддерживаемых поисковой системой. |
Lexical |
Определяет имена всех нормализаторов текста, поддерживаемых поисковой системой. |
Lexical |
Определяет имена всех создателей маркеров, поддерживаемых поисковой системой. |
Limit |
Ограничивает количество маркеров при индексировании. Этот фильтр маркеров реализуется с помощью Apache Lucene. |
Lucene |
Стандартный анализатор Apache Lucene; Состоит из стандартного создателя маркеров, фильтра в нижнем регистре и фильтра stop. |
Lucene |
Разбивает текст по правилам сегментации текста в формате Юникод. Этот создатель маркеров реализуется с помощью Apache Lucene. |
Lucene |
Разбивает текст по правилам сегментации текста в формате Юникод. Этот создатель маркеров реализуется с помощью Apache Lucene. |
Magnitude |
Определяет функцию, повышающую оценки на основе величины числового поля. |
Magnitude |
Предоставляет значения параметров для функции оценки величины. |
Mapping |
Символьный фильтр, который применяет сопоставления, определенные с помощью параметра сопоставления. Сопоставление является каскадным (самое длинное сопоставление шаблона в заданной точке имеет приоритет). Замена может быть пустой строкой. Этот фильтр символов реализуется с помощью Apache Lucene. |
Microsoft |
Разделяет текст с помощью правил, зависящих от языка, и сводит слова к их базовым формам. |
Microsoft |
Разбивает текст на основе правил определенного языка. |
Microsoft |
Списки языки, поддерживаемые создателем маркеров языка Майкрософт. |
Microsoft |
Списки языки, поддерживаемые создателем маркеров языка Майкрософт. |
NGram |
Создает N-граммы заданного размера. Этот фильтр маркеров реализуется с помощью Apache Lucene. |
NGram |
Создает N-граммы заданного размера. Этот фильтр маркеров реализуется с помощью Apache Lucene. |
NGram |
Размечает входные данные на N-граммы заданного размера. Этот создатель маркеров реализуется с помощью Apache Lucene. |
Output |
Сопоставление выходных полей для навыка. |
Path |
Создатель маркеров для иерархий в виде пути. Этот создатель маркеров реализуется с помощью Apache Lucene. |
Pattern |
Гибко разделяет текст на термины с помощью шаблона регулярного выражения. Этот анализатор реализуется с помощью Apache Lucene. |
Pattern |
Использует регулярные выражения Java для создания нескольких маркеров — по одному для каждой группы захвата в одном или нескольких шаблонах. Этот фильтр маркеров реализуется с помощью Apache Lucene. |
Pattern |
Фильтр символов, заменяющий символы во входной строке. Он использует регулярное выражение, чтобы определить последовательности знаков, которые нужно сохранить, и шаблон замены, чтобы определить знаки для замены. Например, учитывая входной текст "aa bb aa bb", шаблон "(aa)\s+(bb)" и замену "$1#$2", результатом будет "aa#bb aa#bb". Этот фильтр символов реализуется с помощью Apache Lucene. |
Pattern |
Фильтр символов, заменяющий символы во входной строке. Он использует регулярное выражение, чтобы определить последовательности знаков, которые нужно сохранить, и шаблон замены, чтобы определить знаки для замены. Например, учитывая входной текст "aa bb aa bb", шаблон "(aa)\s+(bb)" и замену "$1#$2", результатом будет "aa#bb aa#bb". Этот фильтр маркеров реализуется с помощью Apache Lucene. |
Pattern |
Создатель маркеров, использующий сопоставление шаблонов регулярных выражений для создания уникальных маркеров. Этот создатель маркеров реализуется с помощью Apache Lucene. |
Phonetic |
Определяет тип фонетического кодировщика для использования с PhoneticTokenFilter. |
Phonetic |
Создает маркеры для фонетических совпадений. Этот фильтр маркеров реализуется с помощью Apache Lucene. |
Prioritized |
Описывает поля заголовка, содержимого и ключевых слов, которые будут использоваться для семантического ранжирования, субтитров, выделений и ответов. |
Regex |
Определяет флаги, которые можно объединить для управления использованием регулярных выражений в анализаторе шаблонов и создателе маркеров шаблонов. |
Scalar |
Содержит параметры, относящиеся к скалярной квантизации. |
Scalar |
Содержит параметры конфигурации, относящиеся к методу сжатия скалярных квантования, используемому во время индексирования и выполнения запросов. |
Scoring |
Определяет агрегатную функцию, используемую для объединения результатов всех функций оценки в профиле оценки. |
Scoring |
Определяет функцию, используемую для интерполяции повышения оценки в диапазоне документов. |
Scoring |
Определяет параметры для индекса поиска, влияющие на оценку в поисковых запросах. |
Search |
Представляет поле в определении индекса, описывающее имя, тип данных и поведение поиска поля. |
Search |
Определяет тип данных поля в индексе поиска. |
Search |
Представляет определение индекса поиска, которое описывает поля и поведение поиска индекса. |
Search |
Очищает свойство identity источника данных. |
Search |
Указывает удостоверение для используемого источника данных. |
Search |
Ключ шифрования, управляемый клиентом, в Azure Key Vault. Ключи, которые вы создаете и которыми управляете, можно использовать для шифрования и расшифровки неактивных данных, таких как индексы и сопоставления синонимов. |
Semantic |
Определяет определенную конфигурацию для использования в контексте семантических возможностей. |
Semantic |
Поле, используемое как часть семантической конфигурации. |
Semantic |
Определяет параметры для индекса поиска, которые влияют на семантические возможности. |
Shingle |
Создает сочетания маркеров в виде одного маркера. Этот фильтр маркеров реализуется с помощью Apache Lucene. |
Snowball |
Фильтр, который содержит слова с помощью сгенерированного Снежком парадигматического модуля. Этот фильтр маркеров реализуется с помощью Apache Lucene. |
Snowball |
Язык, используемый для фильтра токенов Snowball. |
Stemmer |
Предоставляет возможность переопределять другие фильтры с помощью настраиваемого заполнения на основе словаря. Любые термины, связанные со словарем, будут помечены как ключевые слова, чтобы они не были объединяться со стеммерами по цепочке. Необходимо поместить перед всеми стемминговыми фильтрами. Этот фильтр маркеров реализуется с помощью Apache Lucene. |
Stemmer |
Фильтр стволов для конкретного языка. Этот фильтр маркеров реализуется с помощью Apache Lucene. |
Stemmer |
Язык, используемый для фильтра маркеров парадигматического модуля. |
Stop |
Делит текст на небуквенный; Применяет фильтры токенов в нижнем регистре и маркеров стоп-слов. Этот анализатор реализуется с помощью Apache Lucene. |
Stopwords |
Определяет предопределенный список стоп-слов для конкретного языка. |
Stopwords |
Удаляет стоп-слова из потока маркеров. Этот фильтр маркеров реализуется с помощью Apache Lucene. |
Suggester |
Определяет, как API suggest должен применяться к группе полей в индексе. |
Suggester |
Значение , указывающее возможности средства подбора. |
Synonym |
Соответствует синонимам из одного или нескольких слов в потоке маркеров. Этот фильтр маркеров реализуется с помощью Apache Lucene. |
Tag |
Определяет функцию, которая увеличивает количество документов со строковыми значениями, соответствующими заданному списку тегов. |
Tag |
Предоставляет значения параметров для функции оценки тегов. |
Text |
Определяет весовые коэффициенты для полей индекса, для которых совпадения должны повысить оценку в поисковых запросах. |
Token |
Представляет классы символов, с которыми может работать фильтр маркеров. |
Token |
Определяет имена всех фильтров маркеров, поддерживаемых поисковой системой. |
Truncate |
Усекает термины до определенной длины. Этот фильтр маркеров реализуется с помощью Apache Lucene. |
Uax |
Размечает URL-адреса и сообщения электронной почты как один маркер. Этот создатель маркеров реализуется с помощью Apache Lucene. |
Unique |
Отфильтровывает маркеры с тем же текстом, что и в предыдущем маркере. Этот фильтр маркеров реализуется с помощью Apache Lucene. |
Vector |
Формат кодирования для интерпретации содержимого векторного поля. |
Vector |
Содержит параметры конфигурации, связанные с поиском векторов. |
Vector |
Алгоритм, используемый для индексирования и выполнения запросов. |
Vector |
Метрика сходства, используемая для векторного сравнения. Рекомендуется выбрать ту же метрику подобия, на основе, насколько обучена модель внедрения. |
Vector |
Метод сжатия, используемый для индексирования и выполнения запросов. |
Vector |
Квантованный тип данных сжатых векторных значений. |
Vector |
Определяет сочетание конфигураций, используемых при поиске векторов. |
Vector |
Метод векторизации, используемый во время запроса. |
Word |
Разделяет слова на подслова и выполняет необязательные преобразования в группах подслов. Этот фильтр маркеров реализуется с помощью Apache Lucene. |
AIServicesVisionParameters
Задает параметры визуального распознавания служб ИИ для векторизации изображения или текста запроса.
Имя | Тип | Описание |
---|---|---|
apiKey |
string |
Ключ API назначенного ресурса Служб ИИ. |
authIdentity | SearchIndexerDataIdentity: |
Управляемое удостоверение, назначаемое пользователем, используемое для исходящих подключений. Если указан идентификатор authResourceId, а он не указан, используется управляемое удостоверение, назначаемое системой. При обновлении индекса, если удостоверение не указано, значение остается неизменным. Если задано значение none, значение этого свойства очищается. |
modelVersion |
string |
Версия модели, используемая при вызове службы визуального распознавания служб ИИ. Если значение не указано, по умолчанию будет использоваться последняя доступная версия. |
resourceUri |
string |
Универсальный код ресурса (URI) ресурса Служб ИИ. |
AIServicesVisionVectorizer
Задает параметры визуального распознавания служб ИИ для векторизации изображения или текста запроса.
Имя | Тип | Описание |
---|---|---|
aiServicesVisionParameters |
Содержит параметры, относящиеся к внедрению векторизации Служб ИИ. |
|
kind |
string:
ai |
Имя типа метода векторизации, который настраивается для использования с векторным поиском. |
name |
string |
Имя, связываемого с этим методом векторизации. |
AIStudioModelCatalogName
Имя модели внедрения из каталога Azure AI Studio, который будет вызываться.
Имя | Тип | Описание |
---|---|---|
Cohere-embed-v3-english |
string |
|
Cohere-embed-v3-multilingual |
string |
|
Facebook-DinoV2-Image-Embeddings-ViT-Base |
string |
|
Facebook-DinoV2-Image-Embeddings-ViT-Giant |
string |
|
OpenAI-CLIP-Image-Text-Embeddings-ViT-Large-Patch14-336 |
string |
|
OpenAI-CLIP-Image-Text-Embeddings-vit-base-patch32 |
string |
AMLParameters
Задает свойства для подключения к векторизатору AML.
Имя | Тип | Описание |
---|---|---|
key |
string |
(Требуется для проверки подлинности с помощью ключа) Ключ для службы AML. |
modelName |
Имя модели внедрения из каталога Azure AI Studio, развернутого в предоставленной конечной точке. |
|
region |
string |
(Необязательно для проверки подлинности с помощью маркера). Регион, в котором развернута служба AML. |
resourceId |
string |
(Требуется для проверки подлинности с помощью маркера). Идентификатор ресурса Azure Resource Manager для службы AML. Должен иметь следующий формат: subscriptions/{guid}/resourceGroups/{имя_группы_ресурсов}/Microsoft.MachineLearningServices/workspaces/{имя_рабочей_области}/services/{имя_службы}. |
timeout |
string |
(Необязательно.) Если указано, означает время ожидания вызова API HTTP-клиента. |
uri |
string |
(Требуется в режиме без проверки подлинности или проверки подлинности с помощью ключа) URI оценки службы AML, в которую будут отправлены полезные данные JSON. Допускается только схема URI HTTPS. |
AMLVectorizer
Указывает конечную точку Машинного обучения Azure, развернутую через каталог моделей Azure AI Studio для создания векторного внедрения строки запроса.
Имя | Тип | Описание |
---|---|---|
amlParameters |
Задает свойства векторизатора AML. |
|
kind |
string:
aml |
Имя типа метода векторизации, который настраивается для использования с векторным поиском. |
name |
string |
Имя, связываемого с этим методом векторизации. |
AsciiFoldingTokenFilter
Преобразует буквенные, числовые и символические символы Юникода, которые не входят в первые 127 символов ASCII (блок Юникода "Базовый латиница"), в их эквиваленты ASCII, если такие эквиваленты существуют. Этот фильтр маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
|
name |
string |
Имя фильтра маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
|
preserveOriginal |
boolean |
False |
Значение, указывающее, будет ли сохранен исходный токен. Значение по умолчанию — false. |
AzureActiveDirectoryApplicationCredentials
Учетные данные зарегистрированного приложения, созданного для службы поиска, которые используются для доступа к ключам шифрования, хранящимся в Azure Key Vault с проверкой подлинности.
Имя | Тип | Описание |
---|---|---|
applicationId |
string |
Идентификатор приложения AAD, которому предоставлены необходимые разрешения на доступ к Key Vault Azure, который будет использоваться при шифровании неактивных данных. Идентификатор приложения не следует путать с идентификатором объекта для приложения AAD. |
applicationSecret |
string |
Ключ проверки подлинности указанного приложения AAD. |
AzureOpenAIEmbeddingSkill
Позволяет создать внедрение вектора для заданного текстового ввода с помощью ресурса Azure OpenAI.
Имя | Тип | Описание |
---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип навыка. |
apiKey |
string |
Ключ API назначенного ресурса Azure OpenAI. |
authIdentity | SearchIndexerDataIdentity: |
Управляемое удостоверение, назначаемое пользователем, используемое для исходящих подключений. |
context |
string |
Представляет уровень, на котором выполняются операции, такие как корневой каталог документа или содержимое документа (например, /document или /document/content). Значение по умолчанию — /document. |
deploymentId |
string |
Идентификатор развертывания модели Azure OpenAI в назначенном ресурсе. |
description |
string |
Описание навыка, в котором описываются входные, выходные данные и использование навыка. |
dimensions |
integer |
Количество измерений, которые должны иметь результирующие выходные внедрения. Поддерживается только в моделях text-embedding-3 и более поздних версий. |
inputs |
Входные данные навыков могут быть столбцом в исходном наборе данных или выходными данными вышестоящий навыка. |
|
modelName |
Имя модели внедрения, развернутой по указанному пути deploymentId. |
|
name |
string |
Имя навыка, которое однозначно идентифицирует его в наборе навыков. Навыку без определенного имени будет присвоено имя по умолчанию его 1-го индекса в массиве навыков с префиксом символа "#". |
outputs |
Результатом навыка является либо поле в индексе поиска, либо значение, которое может использоваться в качестве входных данных другим навыком. |
|
resourceUri |
string |
URI ресурса Azure OpenAI. |
AzureOpenAIModelName
Имя модели Azure Open AI, которое будет вызываться.
Имя | Тип | Описание |
---|---|---|
experimental |
string |
|
text-embedding-3-large |
string |
|
text-embedding-3-small |
string |
|
text-embedding-ada-002 |
string |
AzureOpenAIParameters
Задает параметры для подключения к ресурсу Azure OpenAI.
Имя | Тип | Описание |
---|---|---|
apiKey |
string |
Ключ API назначенного ресурса Azure OpenAI. |
authIdentity | SearchIndexerDataIdentity: |
Управляемое удостоверение, назначаемое пользователем, используемое для исходящих подключений. |
deploymentId |
string |
Идентификатор развертывания модели Azure OpenAI в указанном ресурсе. |
modelName |
Имя модели внедрения, которая развертывается по указанному пути deploymentId. |
|
resourceUri |
string |
URI ресурса Azure OpenAI. |
AzureOpenAIVectorizer
Указывает ресурс Azure OpenAI, используемый для векторизации строки запроса.
Имя | Тип | Описание |
---|---|---|
azureOpenAIParameters | AzureOpenAIParameters: |
Содержит параметры, относящиеся к векторизации внедрения Azure OpenAI. |
kind |
string:
azure |
Имя типа метода векторизации, настраиваемого для использования с поиском векторов. |
name |
string |
Имя, сопоставленное с этим методом векторизации. |
BM25Similarity
Ранжирующая функция на основе алгоритма сходства Okapi BM25. BM25 — это алгоритм, подобный TF-IDF, который включает нормализацию длины (управляется параметром b), а также насыщенность термина частоты (управляется параметром k1).
Имя | Тип | Описание |
---|---|---|
@odata.type |
string:
#Microsoft. |
|
b |
number |
Это свойство определяет, как длина документа влияет на оценку релевантности. По умолчанию используется значение 0,75. Значение 0,0 означает, что нормализация длины не применяется, а значение 1,0 означает, что оценка полностью нормализована по длине документа. |
k1 |
number |
Это свойство управляет функцией масштабирования между частотой каждого соответствующего термина и конечной оценкой релевантности пары "документ-запрос". По умолчанию используется значение 1,2. Значение 0,0 означает, что оценка не масштабируется с увеличением частоты терминов. |
CharFilterName
Определяет имена всех фильтров символов, поддерживаемых поисковой системой.
Имя | Тип | Описание |
---|---|---|
html_strip |
string |
Фильтр символов, который пытается удалить конструкции HTML. См. раздел https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html |
CjkBigramTokenFilter
Forms бикрамы терминов CJK, созданные из стандартного создателя маркеров. Этот фильтр маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
|
ignoreScripts |
Скрипты, которые следует игнорировать. |
||
name |
string |
Имя фильтра маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
|
outputUnigrams |
boolean |
False |
Значение типа , указывающее, следует ли выводить как юниграммы, так и биграмы (если значение true) или просто bigrams (если false). Значение по умолчанию — false. |
CjkBigramTokenFilterScripts
Скрипты, которые могут игнорироваться CjkBigramTokenFilter.
Имя | Тип | Описание |
---|---|---|
han |
string |
Игнорируйте ханьский скрипт при формировании биграмов терминов CJK. |
hangul |
string |
Игнорируйте скрипт хангыль при формировании биграмов терминов CJK. |
hiragana |
string |
Игнорируйте скрипт хираганы при формировании биграмов терминов CJK. |
katakana |
string |
Игнорируйте скрипт Катакана при формировании биграмов терминов CJK. |
ClassicSimilarity
Устаревший алгоритм подобия, использующий реализацию TF-IDF Lucene TFIDFSimilarity. Этот вариант TF-IDF вводит нормализацию статической длины документа, а также координирующих факторов, которые наказывают документы, которые только частично соответствуют поисковым запросам.
Имя | Тип | Описание |
---|---|---|
@odata.type |
string:
#Microsoft. |
ClassicTokenizer
Грамматический токенизатор, который подходит для обработки большинства документов на европейском языке. Этот создатель маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип создателя маркеров. |
|
maxTokenLength |
integer |
255 |
Максимальная длина маркера. Значение по умолчанию — 255. Маркеры, размер которых превышает максимальную длину, разделяются. Максимальная длина маркера, которую можно использовать, составляет 300 символов. |
name |
string |
Имя создателя маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
CommonGramTokenFilter
Создает биграммы для часто встречающихся терминов при индексировании. Отдельные термины также индексируются с наложением биграмм. Этот фильтр маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
|
commonWords |
string[] |
Набор общих слов. |
|
ignoreCase |
boolean |
False |
Значение , указывающее, будет ли совпадение с общими словами без учета регистра. Значение по умолчанию — false. |
name |
string |
Имя фильтра маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
|
queryMode |
boolean |
False |
Значение типа , указывающее, находится ли фильтр маркеров в режиме запроса. В режиме запроса фильтр маркеров создает bigrams, а затем удаляет распространенные слова и отдельные термины, за которыми следует общее слово. Значение по умолчанию — false. |
CorsOptions
Определяет параметры для управления общим доступом к ресурсам независимо от источника (CORS) для индекса.
Имя | Тип | Описание |
---|---|---|
allowedOrigins |
string[] |
Список источников, из которых коду JavaScript будет предоставлен доступ к индексу. Может содержать список узлов в формате {protocol}://{полное доменное имя}[:{порт#}] или один символ "*", разрешающий все источники (не рекомендуется). |
maxAgeInSeconds |
integer |
Продолжительность, в течение которой браузеры должны кэшировать предварительные ответы CORS. Значение по умолчанию — 5 минут. |
CustomAnalyzer
Позволяет управлять процессом преобразования текста в индексируемые и доступные для поиска маркеры. Это определяемая пользователем конфигурация, состоящая из одного предопределенного создателя маркеров и одного или нескольких фильтров. Создатель маркеров отвечает за разбиение текста на маркеры и фильтры для изменения маркеров, созданных создателем маркеров.
Имя | Тип | Описание |
---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип анализатора. |
charFilters |
Список символьных фильтров, используемых для подготовки входного текста перед его обработкой создателем маркеров. Например, фильтр может заменить определенные знаки или символы. Фильтры выполняются в том порядке, в котором они перечислены. |
|
name |
string |
Имя анализатора. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
tokenFilters |
Список фильтров маркеров, используемых для фильтрации или изменения маркеров, созданных создателем маркеров. Например, вы можете указать специальный фильтр, который преобразует все символы в нижний регистр. Фильтры выполняются в том порядке, в котором они перечислены. |
|
tokenizer |
Имя создателя маркеров, используемое для разделения непрерывного текста на последовательность маркеров, например разбиение предложения на слова. |
CustomNormalizer
Позволяет настроить нормализацию для фильтруемых, сортируемых и фасетных полей, которые по умолчанию работают со строгим соответствием. Это определяемая пользователем конфигурация, состоящая по крайней мере из одного или нескольких фильтров, которые изменяют хранимый токен.
Имя | Тип | Описание |
---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип нормализатор. |
charFilters |
Список символьных фильтров, используемых для подготовки входного текста перед его обработкой. Например, фильтр может заменить определенные знаки или символы. Фильтры выполняются в том порядке, в котором они перечислены. |
|
name |
string |
Имя нормализатора. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. Он не может заканчиваться на ".microsoft" или ".lucene", а также не может называться "asciifolding", "standard", "строчные", "прописные" или "elision". |
tokenFilters |
Список фильтров маркеров, используемых для фильтрации или изменения входного маркера. Например, вы можете указать специальный фильтр, который преобразует все символы в нижний регистр. Фильтры выполняются в том порядке, в котором они перечислены. |
CustomVectorizer
Задает определяемый пользователем векторизатор для создания векторного внедрения строки запроса. Интеграция внешнего векторизатора достигается с помощью пользовательского интерфейса веб-API набора навыков.
Имя | Тип | Описание |
---|---|---|
customWebApiParameters |
Задает свойства определяемого пользователем векторизатора. |
|
kind |
string:
custom |
Имя типа метода векторизации, который настраивается для использования с векторным поиском. |
name |
string |
Имя, связываемого с этим методом векторизации. |
CustomWebApiParameters
Задает свойства для подключения к пользовательскому векторизатору.
Имя | Тип | Описание |
---|---|---|
authIdentity | SearchIndexerDataIdentity: |
Управляемое удостоверение, назначаемое пользователем, используемое для исходящих подключений. Если указан идентификатор authResourceId, а он не указан, используется управляемое удостоверение, назначаемое системой. При обновлении индексатора, если удостоверение не указано, значение остается неизменным. Если задано значение none, значение этого свойства очищается. |
authResourceId |
string |
Применяется к пользовательским конечным точкам, которые подключаются к внешнему коду в функции Azure или другом приложении, которое предоставляет преобразования. Это значение должно быть идентификатором приложения, созданного для функции или приложения при его регистрации в Azure Active Directory. При указании векторизации подключается к функции или приложению с помощью управляемого идентификатора (назначаемого системой или пользователем) службы поиска и маркера доступа функции или приложения, используя это значение в качестве идентификатора ресурса для создания область маркера доступа. |
httpHeaders |
object |
Заголовки, необходимые для выполнения HTTP-запроса. |
httpMethod |
string |
Метод для HTTP-запроса. |
timeout |
string |
Требуемое время ожидания для запроса. Значение по умолчанию — 30 секунд. |
uri |
string |
Универсальный код ресурса (URI) веб-API, предоставляющего векторизатор. |
DictionaryDecompounderTokenFilter
Разбивает составные слова, распространенные во многих германских языках. Этот фильтр маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
|
maxSubwordSize |
integer |
15 |
Максимальный размер подсловия. Выводится только подслови, короче, чем это. Значение по умолчанию — 15. Максимум — 300. |
minSubwordSize |
integer |
2 |
Минимальный размер подсловия. Выводятся только подсчитаны более длинные слова. По умолчанию используется значение 2. Максимум — 300. |
minWordSize |
integer |
5 |
Минимальный размер слова. Обрабатываются только слова дольше, чем это. Значение по умолчанию — 5. Максимум — 300. |
name |
string |
Имя фильтра маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
|
onlyLongestMatch |
boolean |
False |
Значение , указывающее, следует ли добавлять в выходные данные только самое длинное соответствующее подсловие. Значение по умолчанию — false. |
wordList |
string[] |
Список слов для сопоставления. |
DistanceScoringFunction
Определяет функцию, повышающую оценку на основе расстояния от географического расположения.
Имя | Тип | Описание |
---|---|---|
boost |
number |
Множитель для необработанной оценки. Должно быть положительным числом, не равным 1,0. |
distance |
Значения параметров для функции оценки расстояния. |
|
fieldName |
string |
Имя поля, используемого в качестве входных данных для функции оценки. |
interpolation |
Значение, указывающее, как повышение будет интерполировано в оценках документа; значение по умолчанию — "Linear". |
|
type |
string:
distance |
Указывает тип используемой функции. Допустимые значения: magnitude, freshness, distance и tag. Тип функции должен иметь нижний регистр. |
DistanceScoringParameters
Предоставляет значения параметров для функции оценки расстояний.
Имя | Тип | Описание |
---|---|---|
boostingDistance |
number |
Расстояние в километрах от эталонного расположения, где заканчивается диапазон повышения. |
referencePointParameter |
string |
Имя параметра, передаваемого в поисковых запросах для указания расположения ссылки. |
EdgeNGramTokenFilter
Создает n-граммов заданного размера, начиная с передней или задней части входного маркера. Этот фильтр маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
|
maxGram |
integer |
2 |
Максимальная n-граммовая длина. По умолчанию используется значение 2. |
minGram |
integer |
1 |
Минимальная n-граммовая длина. Значение по умолчанию: 1. Должно быть меньше значения maxGram. |
name |
string |
Имя фильтра маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
|
side | front |
Указывает, с какой стороны входных данных должен быть создан n-грамм. Значение по умолчанию — front. |
EdgeNGramTokenFilterSide
Указывает, на какой стороне входных данных должна быть создана n-грамма.
Имя | Тип | Описание |
---|---|---|
back |
string |
Указывает, что n-грамм должен быть создан из задней части входных данных. |
front |
string |
Указывает, что n-грамма должна быть создана из передней части входных данных. |
EdgeNGramTokenFilterV2
Создает n-граммов заданного размера, начиная с передней или задней части входного маркера. Этот фильтр маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
|
maxGram |
integer |
2 |
Максимальная n-граммовая длина. По умолчанию используется значение 2. Максимум — 300. |
minGram |
integer |
1 |
Минимальная n-граммовая длина. Значение по умолчанию: 1. Максимум — 300. Должно быть меньше значения maxGram. |
name |
string |
Имя фильтра маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
|
side | front |
Указывает, с какой стороны входных данных должен быть создан n-грамм. Значение по умолчанию — front. |
EdgeNGramTokenizer
Маркеризует входные данные из края в n-граммы заданного размера. Этот создатель маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип создателя маркеров. |
|
maxGram |
integer |
2 |
Максимальная n-граммовая длина. По умолчанию используется значение 2. Максимум — 300. |
minGram |
integer |
1 |
Минимальная n-граммовая длина. Значение по умолчанию: 1. Максимум — 300. Должно быть меньше значения maxGram. |
name |
string |
Имя создателя маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
|
tokenChars |
Классы символов для сохранения в маркерах. |
ElisionTokenFilter
Удаляет элизии. Например, "l'avion" (плоскость) будет преобразован в "avion" (плоскость). Этот фильтр маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Описание |
---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
articles |
string[] |
Набор удаляемых статей. |
name |
string |
Имя фильтра маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
ErrorAdditionalInfo
Дополнительные сведения об ошибке управления ресурсами.
Имя | Тип | Описание |
---|---|---|
info |
object |
Дополнительные сведения. |
type |
string |
Тип дополнительных сведений. |
ErrorDetail
Сведения об ошибке.
Имя | Тип | Описание |
---|---|---|
additionalInfo |
Дополнительные сведения об ошибке. |
|
code |
string |
Код ошибки. |
details |
Сведения об ошибке. |
|
message |
string |
Сообщение об ошибке. |
target |
string |
Целевой объект ошибки. |
ErrorResponse
Сообщение об ошибке
Имя | Тип | Описание |
---|---|---|
error |
Объект ошибки. |
ExhaustiveKnnParameters
Содержит параметры, относящиеся к исчерпывающим алгоритмам KNN.
Имя | Тип | Описание |
---|---|---|
metric |
Метрика подобия, используемая для векторных сравнений. |
ExhaustiveKnnVectorSearchAlgorithmConfiguration
Содержит параметры конфигурации, характерные для исчерпывающего алгоритма KNN, используемого во время запроса, который будет выполнять поиск методом подбора по всему индексу вектора.
Имя | Тип | Описание |
---|---|---|
exhaustiveKnnParameters |
Содержит параметры, относящиеся к исчерпывающим алгоритмам KNN. |
|
kind |
string:
exhaustive |
Имя типа алгоритма, настраиваемого для использования с поиском векторов. |
name |
string |
Имя, сопоставленное с данной конкретной конфигурацией. |
FreshnessScoringFunction
Определяет функцию, повышающую оценку на основе значения поля даты и времени.
Имя | Тип | Описание |
---|---|---|
boost |
number |
Множитель для необработанной оценки. Должно быть положительным числом, не равным 1,0. |
fieldName |
string |
Имя поля, используемого в качестве входных данных для функции оценки. |
freshness |
Значения параметров для функции оценки актуальности. |
|
interpolation |
Значение, указывающее, как повышение будет интерполировано в оценках документа; значение по умолчанию — "Linear". |
|
type |
string:
freshness |
Указывает тип используемой функции. Допустимые значения: magnitude, freshness, distance и tag. Тип функции должен иметь нижний регистр. |
FreshnessScoringParameters
Предоставляет значения параметров для функции оценки актуальности.
Имя | Тип | Описание |
---|---|---|
boostingDuration |
string |
Срок действия, по истечении которого повышение будет прекращено для определенного документа. |
HnswParameters
Содержит параметры, относящиеся к алгоритму HNSW.
Имя | Тип | Default value | Описание |
---|---|---|---|
efConstruction |
integer |
400 |
Размер динамического списка, содержащего ближайшие соседи, который используется во время индексирования. Увеличение этого параметра может повысить качество индекса за счет увеличения времени индексирования. В определенный момент увеличение этого параметра приводит к уменьшению возвращаемого значения. |
efSearch |
integer |
500 |
Размер динамического списка, содержащего ближайшие соседи, который используется во время поиска. Увеличение этого параметра может улучшить результаты поиска за счет более медленного поиска. В определенный момент увеличение этого параметра приводит к уменьшению возвращаемого значения. |
m |
integer |
4 |
Количество двунаправленных связей, созданных для каждого нового элемента во время построения. Увеличение значения этого параметра может улучшить полноту и сократить время извлечения для наборов данных с высокой встроенной размерностью за счет увеличения потребления памяти и более длительного времени индексирования. |
metric |
Метрика подобия, используемая для векторных сравнений. |
HnswVectorSearchAlgorithmConfiguration
Содержит параметры конфигурации, относящиеся к алгоритму приблизительных ближайших соседей HNSW, используемому во время индексирования и выполнения запросов. Алгоритм HNSW предлагает настраиваемый компромисс между скоростью поиска и точностью.
Имя | Тип | Описание |
---|---|---|
hnswParameters |
Содержит параметры, относящиеся к алгоритму HNSW. |
|
kind |
string:
hnsw |
Имя типа алгоритма, настраиваемого для использования с поиском векторов. |
name |
string |
Имя, сопоставленное с данной конкретной конфигурацией. |
InputFieldMappingEntry
Сопоставление полей ввода для навыка.
Имя | Тип | Описание |
---|---|---|
inputs |
Рекурсивные входные данные, используемые при создании сложного типа. |
|
name |
string |
Имя входа. |
source |
string |
Источник входных данных. |
sourceContext |
string |
Исходный контекст, используемый для выбора рекурсивных входных данных. |
KeepTokenFilter
Фильтр маркеров, который хранит только маркеры с текстом, содержащимся в указанном списке слов. Этот фильтр маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
|
keepWords |
string[] |
Список слов, которые нужно сохранить. |
|
keepWordsCase |
boolean |
False |
Значение, указывающее, следует ли в начале использовать все слова в нижнем регистре. Значение по умолчанию — false. |
name |
string |
Имя фильтра маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
KeywordMarkerTokenFilter
Помечает термины как ключевые слова. Этот фильтр маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
|
ignoreCase |
boolean |
False |
Значение , указывающее, следует ли игнорировать регистр. Если значение равно true, все слова сначала преобразуются в строчные буквы. Значение по умолчанию — false. |
keywords |
string[] |
Список слов, которые нужно пометить как ключевые слова. |
|
name |
string |
Имя фильтра маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
KeywordTokenizer
Выдает все входные данные в виде одного маркера. Этот создатель маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип создателя маркеров. |
|
bufferSize |
integer |
256 |
Размер буфера чтения в байтах. Значение по умолчанию — 256. |
name |
string |
Имя создателя маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
KeywordTokenizerV2
Выдает все входные данные в виде одного маркера. Этот создатель маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип создателя маркеров. |
|
maxTokenLength |
integer |
256 |
Максимальная длина маркера. Значение по умолчанию — 256. Маркеры, размер которых превышает максимальную длину, разделяются. Максимальная длина маркера, которую можно использовать, составляет 300 символов. |
name |
string |
Имя создателя маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
LengthTokenFilter
Удаляет слишком длинные или слишком короткие слова. Этот фильтр маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
|
max |
integer |
300 |
Максимальная длина в символах. По умолчанию и максимум — 300. |
min |
integer |
0 |
Минимальная длина символов. Значение по умолчанию — 0. Максимум — 300. Должно быть меньше значения max. |
name |
string |
Имя фильтра маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
LexicalAnalyzerName
Определяет имена всех анализаторов текста, поддерживаемых поисковой системой.
Имя | Тип | Описание |
---|---|---|
ar.lucene |
string |
Анализатор Lucene для арабского языка. |
ar.microsoft |
string |
Анализатор Майкрософт для арабского языка. |
bg.lucene |
string |
Анализатор Lucene для болгарского. |
bg.microsoft |
string |
Анализатор Майкрософт для болгарского. |
bn.microsoft |
string |
Анализатор Майкрософт для Bangla. |
ca.lucene |
string |
Анализатор Lucene для каталонского. |
ca.microsoft |
string |
Анализатор Майкрософт для каталонского. |
cs.lucene |
string |
Анализатор Lucene для чешского языка. |
cs.microsoft |
string |
Анализатор Майкрософт для чешского языка. |
da.lucene |
string |
Анализатор Lucene для датского языка. |
da.microsoft |
string |
Анализатор Майкрософт для датского языка. |
de.lucene |
string |
Анализатор Lucene для немецкого языка. |
de.microsoft |
string |
Анализатор Майкрософт для немецкого языка. |
el.lucene |
string |
Анализатор Lucene для греческого языка. |
el.microsoft |
string |
Анализатор Майкрософт для греческого языка. |
en.lucene |
string |
Анализатор Lucene для английского языка. |
en.microsoft |
string |
Анализатор Майкрософт для английского языка. |
es.lucene |
string |
Анализатор Lucene для испанского языка. |
es.microsoft |
string |
Анализатор Майкрософт для испанского языка. |
et.microsoft |
string |
Анализатор Майкрософт для эстонии. |
eu.lucene |
string |
Анализатор Lucene для Баскского. |
fa.lucene |
string |
Анализатор Люцена для персидского языка. |
fi.lucene |
string |
Анализатор Lucene для финского языка. |
fi.microsoft |
string |
Анализатор Майкрософт для финского языка. |
fr.lucene |
string |
Анализатор Lucene для французского языка. |
fr.microsoft |
string |
Анализатор Майкрософт для французского языка. |
ga.lucene |
string |
Анализатор Lucene для ирландского. |
gl.lucene |
string |
Анализатор Lucene для Галисии. |
gu.microsoft |
string |
Анализатор Майкрософт для Гуджарати. |
he.microsoft |
string |
Анализатор Майкрософт для иврита. |
hi.lucene |
string |
Анализатор Lucene для хинди. |
hi.microsoft |
string |
Анализатор Майкрософт для хинди. |
hr.microsoft |
string |
Анализатор Майкрософт для хорватского языка. |
hu.lucene |
string |
Анализатор Lucene для венгерского. |
hu.microsoft |
string |
Анализатор Майкрософт для венгерского. |
hy.lucene |
string |
Анализатор Lucene для армянского. |
id.lucene |
string |
Анализатор Lucene для индонезийского языка. |
id.microsoft |
string |
Анализатор Майкрософт для индонезийского языка (Bahasa). |
is.microsoft |
string |
Анализатор Майкрософт для Исландии. |
it.lucene |
string |
Анализатор Lucene для итальянского языка. |
it.microsoft |
string |
Анализатор Майкрософт для итальянского языка. |
ja.lucene |
string |
Анализатор Lucene для японского языка. |
ja.microsoft |
string |
Анализатор Майкрософт для японского языка. |
keyword |
string |
Обрабатывает все содержимое поля как один маркер. Это полезно для данных некоторых типов, таких как почтовые индексы, идентификаторы и названия продуктов. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html |
kn.microsoft |
string |
Анализатор Майкрософт для Kannada. |
ko.lucene |
string |
Анализатор Lucene для корейского языка. |
ko.microsoft |
string |
Анализатор Майкрософт для корейского языка. |
lt.microsoft |
string |
Анализатор Майкрософт для Литвы. |
lv.lucene |
string |
Анализатор Lucene для латышского языка. |
lv.microsoft |
string |
Анализатор Майкрософт для латышского языка. |
ml.microsoft |
string |
Анализатор Майкрософт для Малаялам. |
mr.microsoft |
string |
Анализатор Майкрософт для Маратхи. |
ms.microsoft |
string |
Анализатор Майкрософт для малайского языка (латиница). |
nb.microsoft |
string |
Анализатор Microsoft для норвежского языка (Букмол). |
nl.lucene |
string |
Анализатор Lucene для голландского языка. |
nl.microsoft |
string |
Анализатор Майкрософт для голландского языка. |
no.lucene |
string |
Анализатор Lucene для норвежского языка. |
pa.microsoft |
string |
Анализатор Майкрософт для Пенджаби. |
pattern |
string |
Гибко разделяет текст на термины с помощью шаблона регулярного выражения. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html |
pl.lucene |
string |
Анализатор Lucene для польского. |
pl.microsoft |
string |
Анализатор Майкрософт для польского. |
pt-BR.lucene |
string |
Анализатор Lucene для португальского языка (Бразилия). |
pt-BR.microsoft |
string |
Анализатор Майкрософт для португальского языка (Бразилия). |
pt-PT.lucene |
string |
Анализатор Lucene для португальского языка (Португалия). |
pt-PT.microsoft |
string |
Анализатор Майкрософт для португальского языка (Португалия). |
ro.lucene |
string |
Анализатор Lucene для румынского языка. |
ro.microsoft |
string |
Анализатор Майкрософт для румынского языка. |
ru.lucene |
string |
Анализатор Lucene для русского языка. |
ru.microsoft |
string |
Анализатор Майкрософт для русского языка. |
simple |
string |
Разбивает текст по небуквенным знакам и преобразует его в нижний регистр. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html |
sk.microsoft |
string |
Анализатор Майкрософт для словацкого языка. |
sl.microsoft |
string |
Анализатор Майкрософт для словенского языка. |
sr-cyrillic.microsoft |
string |
Анализатор Майкрософт для сербского языка (кириллица). |
sr-latin.microsoft |
string |
Анализатор Майкрософт для сербского языка (латиница). |
standard.lucene |
string |
Стандартный анализатор Lucene. |
standardasciifolding.lucene |
string |
Стандартный анализатор ASCII Свертывание Lucene. См. раздел https://docs.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers |
stop |
string |
Делит текст на небуквенный; Применяет фильтры токенов в нижнем регистре и маркеров стоп-слов. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html |
sv.lucene |
string |
Анализатор Lucene для шведского языка. |
sv.microsoft |
string |
Анализатор Майкрософт для шведского языка. |
ta.microsoft |
string |
Анализатор Майкрософт для Тамильского. |
te.microsoft |
string |
Анализатор Майкрософт для Telugu. |
th.lucene |
string |
Анализатор Lucene для тайского языка. |
th.microsoft |
string |
Анализатор Майкрософт для тайского языка. |
tr.lucene |
string |
Анализатор Lucene для турецкого языка. |
tr.microsoft |
string |
Анализатор Майкрософт для турецкого языка. |
uk.microsoft |
string |
Анализатор Майкрософт для украинского языка. |
ur.microsoft |
string |
Анализатор Майкрософт для Urdu. |
vi.microsoft |
string |
Анализатор Майкрософт для вьетнамского. |
whitespace |
string |
Анализатор, использующий создатель маркеров пробелов. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html |
zh-Hans.lucene |
string |
Анализатор Lucene для китайского языка (упрощенное письмо). |
zh-Hans.microsoft |
string |
Анализатор Майкрософт для китайского языка (упрощенное письмо). |
zh-Hant.lucene |
string |
Анализатор Lucene для китайского языка (традиционное письмо). |
zh-Hant.microsoft |
string |
Анализатор Майкрософт для китайского языка (традиционное письмо). |
LexicalNormalizerName
Определяет имена всех нормализаторов текста, поддерживаемых поисковой системой.
Имя | Тип | Описание |
---|---|---|
asciifolding |
string |
Преобразует буквенные, числовые и символьные символы Юникода, которые не входят в первые 127 символов ASCII (блок Юникода "Базовый латиница"), в их эквиваленты ASCII, если такие эквиваленты существуют. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html |
elision |
string |
Удаляет элизии. Например, "l'avion" (плоскость) будет преобразован в "avion" (плоскость). См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html |
lowercase |
string |
Нормализует текст токена в нижнем регистре. См. раздел https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html |
standard |
string |
Стандартный нормализатор, состоящий из нижнего регистра и асциимирования. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html |
uppercase |
string |
Нормализует текст маркера в верхнем регистре. См. раздел https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html |
LexicalTokenizerName
Определяет имена всех создателей маркеров, поддерживаемых поисковой системой.
Имя | Тип | Описание |
---|---|---|
classic |
string |
Грамматический токенизатор, который подходит для обработки большинства документов на европейском языке. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html |
edgeNGram |
string |
Маркеризует входные данные из края в n-граммы заданного размера. См. раздел https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html |
keyword_v2 |
string |
Выдает все входные данные в виде одного маркера. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html |
letter |
string |
Разбивает текст по небуквенным знакам. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html |
lowercase |
string |
Разбивает текст по небуквенным знакам и преобразует его в нижний регистр. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html |
microsoft_language_stemming_tokenizer |
string |
Разделяет текст с помощью правил, зависящих от языка, и сводит слова к их базовым формам. |
microsoft_language_tokenizer |
string |
Разбивает текст на основе правил определенного языка. |
nGram |
string |
Размечает входные данные на N-граммы заданного размера. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html |
path_hierarchy_v2 |
string |
Создатель маркеров для иерархий в виде пути. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html |
pattern |
string |
Создатель маркеров, использующий сопоставление шаблонов регулярных выражений для создания уникальных маркеров. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html |
standard_v2 |
string |
Стандартный анализатор Lucene; Состоит из стандартного создателя маркеров, фильтра в нижнем регистре и фильтра stop. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html |
uax_url_email |
string |
Размечает URL-адреса и сообщения электронной почты как один маркер. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html |
whitespace |
string |
Разбивает текст по пробелам. См. раздел http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html |
LimitTokenFilter
Ограничивает количество маркеров при индексировании. Этот фильтр маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
|
consumeAllTokens |
boolean |
False |
Значение, указывающее, должны ли использоваться все маркеры из входных данных, даже если достигнут параметр maxTokenCount. Значение по умолчанию — false. |
maxTokenCount |
integer |
1 |
Максимальное число маркеров для создания. Значение по умолчанию: 1. |
name |
string |
Имя фильтра маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
LuceneStandardAnalyzer
Стандартный анализатор Apache Lucene; Состоит из стандартного создателя маркеров, фильтра в нижнем регистре и фильтра stop.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип анализатора. |
|
maxTokenLength |
integer |
255 |
Максимальная длина маркера. Значение по умолчанию — 255. Маркеры, размер которых превышает максимальную длину, разделяются. Максимальная длина маркера, которую можно использовать, составляет 300 символов. |
name |
string |
Имя анализатора. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
|
stopwords |
string[] |
Список стоп-слов. |
LuceneStandardTokenizer
Разбивает текст по правилам сегментации текста в формате Юникод. Этот создатель маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип создателя маркеров. |
|
maxTokenLength |
integer |
255 |
Максимальная длина маркера. Значение по умолчанию — 255. Маркеры, размер которых превышает максимальную длину, разделяются. |
name |
string |
Имя создателя маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
LuceneStandardTokenizerV2
Разбивает текст по правилам сегментации текста в формате Юникод. Этот создатель маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип создателя маркеров. |
|
maxTokenLength |
integer |
255 |
Максимальная длина маркера. Значение по умолчанию — 255. Маркеры, размер которых превышает максимальную длину, разделяются. Максимальная длина маркера, которую можно использовать, составляет 300 символов. |
name |
string |
Имя создателя маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
MagnitudeScoringFunction
Определяет функцию, повышающую оценки на основе величины числового поля.
Имя | Тип | Описание |
---|---|---|
boost |
number |
Множитель для необработанной оценки. Должно быть положительным числом, не равным 1,0. |
fieldName |
string |
Имя поля, используемого в качестве входных данных для функции оценки. |
interpolation |
Значение, указывающее, как повышение будет интерполировано в оценках документа; значение по умолчанию — "Linear". |
|
magnitude |
Значения параметров для функции оценки величины. |
|
type |
string:
magnitude |
Указывает тип используемой функции. Допустимые значения: magnitude, freshness, distance и tag. Тип функции должен иметь нижний регистр. |
MagnitudeScoringParameters
Предоставляет значения параметров для функции оценки величины.
Имя | Тип | Описание |
---|---|---|
boostingRangeEnd |
number |
Значение поля, на котором заканчивается повышение. |
boostingRangeStart |
number |
Значение поля, с которого начинается повышение. |
constantBoostBeyondRange |
boolean |
Значение, указывающее, следует ли применять постоянное увеличение значений полей за пределами конечного значения диапазона; Значение по умолчанию — false. |
MappingCharFilter
Символьный фильтр, который применяет сопоставления, определенные с помощью параметра сопоставления. Сопоставление является каскадным (самое длинное сопоставление шаблона в заданной точке имеет приоритет). Замена может быть пустой строкой. Этот фильтр символов реализуется с помощью Apache Lucene.
Имя | Тип | Описание |
---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра символов. |
mappings |
string[] |
Список сопоставлений в следующем формате: "a=>b" (все вхождения символа "a" будут заменены символом "b"). |
name |
string |
Имя фильтра символов. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
MicrosoftLanguageStemmingTokenizer
Разделяет текст с помощью правил, зависящих от языка, и сводит слова к их базовым формам.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип создателя маркеров. |
|
isSearchTokenizer |
boolean |
False |
Значение , указывающее, как используется создатель маркеров. Задайте значение true, если используется в качестве создателя маркеров поиска, если используется в качестве маркеризатора индексирования. Значение по умолчанию — false. |
language |
Используемый язык. Значение по умолчанию — английский. |
||
maxTokenLength |
integer |
255 |
Максимальная длина маркера. Маркеры, размер которых превышает максимальную длину, разделяются. Максимальная допустимая длина маркера — 300 знаков. Маркеры длиной более 300 символов сначала разбиваются на маркеры длиной 300, а затем каждый из них разбивается на основе набора максимальной длины маркеров. Значение по умолчанию — 255. |
name |
string |
Имя создателя маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
MicrosoftLanguageTokenizer
Разбивает текст на основе правил определенного языка.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип создателя маркеров. |
|
isSearchTokenizer |
boolean |
False |
Значение , указывающее, как используется создатель маркеров. Задайте значение true, если используется в качестве создателя маркеров поиска, если используется в качестве маркеризатора индексирования. Значение по умолчанию — false. |
language |
Используемый язык. Значение по умолчанию — английский. |
||
maxTokenLength |
integer |
255 |
Максимальная длина маркера. Маркеры, размер которых превышает максимальную длину, разделяются. Максимальная допустимая длина маркера — 300 знаков. Маркеры длиной более 300 символов сначала разбиваются на маркеры длиной 300, а затем каждый из них разбивается на основе набора максимальной длины маркеров. Значение по умолчанию — 255. |
name |
string |
Имя создателя маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
MicrosoftStemmingTokenizerLanguage
Списки языки, поддерживаемые создателем маркеров языка Майкрософт.
Имя | Тип | Описание |
---|---|---|
arabic |
string |
Выбирает microsoft stemming tokenizer для арабского языка. |
bangla |
string |
Выбирает microsoft stemming tokenizer для Bangla. |
bulgarian |
string |
Выбирает microsoft stemming tokenizer для болгарского. |
catalan |
string |
Выбирает microsoft stemming tokenizer для каталонского. |
croatian |
string |
Выбирает microsoft stemming tokenizer для хорватского языка. |
czech |
string |
Выбирает microsoft stemming tokenizer для чешского языка. |
danish |
string |
Выбирает microsoft stemming tokenizer для датского языка. |
dutch |
string |
Выбирает microsoft stemming tokenizer для голландского языка. |
english |
string |
Выбирает microsoft stemming tokenizer для английского языка. |
estonian |
string |
Выбирает microsoft stemming tokenizer для эстонии. |
finnish |
string |
Выбирает microsoft stemming tokenizer для финского языка. |
french |
string |
Выбирает microsoft stemming tokenizer для французского языка. |
german |
string |
Выбирает microsoft stemming tokenizer для немецкого языка. |
greek |
string |
Выбирает microsoft stemming tokenizer для греческого языка. |
gujarati |
string |
Выбирает microsoft stemming tokenizer для Gujarati. |
hebrew |
string |
Выбирает microsoft stemming tokenizer для иврита. |
hindi |
string |
Выбирает microsoft stemming tokenizer для хинди. |
hungarian |
string |
Выбирает microsoft stemming tokenizer для венгерского. |
icelandic |
string |
Выбирает microsoft stemming tokenizer для исландийского. |
indonesian |
string |
Выбирает microsoft stemming tokenizer для индонезийского языка. |
italian |
string |
Выбирает microsoft stemming tokenizer для итальянского языка. |
kannada |
string |
Выбирает microsoft stemming tokenizer для Kannada. |
latvian |
string |
Выбирает microsoft stemming tokenizer для латышского языка. |
lithuanian |
string |
Выбирает microsoft stemming tokenizer для литвы. |
malay |
string |
Выбирает microsoft stemming tokenizer для малайского. |
malayalam |
string |
Выбирает microsoft stemming tokenizer for Malayalam. |
marathi |
string |
Выбирает microsoft stemming tokenizer для Marathi. |
norwegianBokmaal |
string |
Выбирает microsoft stemming tokenizer для норвежского языка (букмол). |
polish |
string |
Выбирает microsoft stemming tokenizer для польского. |
portuguese |
string |
Выбирает microsoft stemming tokenizer для португальского языка. |
portugueseBrazilian |
string |
Выбирает microsoft stemming tokenizer для португальского языка (Бразилия). |
punjabi |
string |
Выбирает microsoft stemming tokenizer for Punjabi. |
romanian |
string |
Выбирает microsoft stemming tokenizer для румынского языка. |
russian |
string |
Выбирает microsoft stemming tokenizer для русского языка. |
serbianCyrillic |
string |
Выбирает microsoft stemming tokenizer для сербского языка (кириллица). |
serbianLatin |
string |
Выбирает microsoft stemming tokenizer для сербского языка (латиница). |
slovak |
string |
Выбирает microsoft stemming tokenizer для словацкого языка. |
slovenian |
string |
Выбирает microsoft stemming tokenizer для словенского языка. |
spanish |
string |
Выбирает microsoft stemming tokenizer для испанского языка. |
swedish |
string |
Выбирает microsoft stemming tokenizer для шведского языка. |
tamil |
string |
Выбирает microsoft stemming tokenizer для тамильского. |
telugu |
string |
Выбирает microsoft stemming tokenizer для Telugu. |
turkish |
string |
Выбирает microsoft stemming tokenizer для турецкого языка. |
ukrainian |
string |
Выбирает microsoft stemming tokenizer для украинского языка. |
urdu |
string |
Выбирает microsoft stemming tokenizer для Urdu. |
MicrosoftTokenizerLanguage
Списки языки, поддерживаемые создателем маркеров языка Майкрософт.
Имя | Тип | Описание |
---|---|---|
bangla |
string |
Выбирает создатель токенов Майкрософт для Bangla. |
bulgarian |
string |
Выбирает создатель маркеров Майкрософт для болгарского. |
catalan |
string |
Выбирает создатель токенов Майкрософт для каталонского. |
chineseSimplified |
string |
Выбирает создатель токенов Майкрософт для китайского языка (упрощенное письмо). |
chineseTraditional |
string |
Выбирает создатель токенов Майкрософт для китайского языка (традиционное письмо). |
croatian |
string |
Выбирает создатель токенов Майкрософт для хорватского языка. |
czech |
string |
Выбирает создатель токенов Майкрософт для чешского языка. |
danish |
string |
Выбирает создатель токенов Майкрософт для датского языка. |
dutch |
string |
Выбирает создатель токенов Майкрософт для голландского языка. |
english |
string |
Выбирает создатель маркеров Майкрософт для английского языка. |
french |
string |
Выбирает создатель маркеров Майкрософт для французского языка. |
german |
string |
Выбирает создатель токенов Майкрософт для немецкого языка. |
greek |
string |
Выбирает создатель токенов Майкрософт для греческого языка. |
gujarati |
string |
Выбирает создатель токенов Майкрософт для Гуджарати. |
hindi |
string |
Выбирает создатель токенов Майкрософт для хинди. |
icelandic |
string |
Выбирает создатель токенов Майкрософт для исландийского. |
indonesian |
string |
Выбирает создатель токенов Майкрософт для индонезийского языка. |
italian |
string |
Выбирает создатель токенов Майкрософт для итальянского языка. |
japanese |
string |
Выбирает создатель токенов Майкрософт для японского языка. |
kannada |
string |
Выбирает создатель токенов Майкрософт для Kannada. |
korean |
string |
Выбирает создатель токенов Майкрософт для корейского языка. |
malay |
string |
Выбирает создатель токенов Майкрософт для малайского. |
malayalam |
string |
Выбирает создатель токенов Майкрософт для Малаялама. |
marathi |
string |
Выбирает создатель маркеров Майкрософт для Маратхи. |
norwegianBokmaal |
string |
Выбирает microsoft tokenizer для норвежского языка (букмол). |
polish |
string |
Выбирает создатель токенов Майкрософт для польского. |
portuguese |
string |
Выбирает создатель токенов Майкрософт для португальского языка. |
portugueseBrazilian |
string |
Выбирает создатель токенов Майкрософт для португальского языка (Бразилия). |
punjabi |
string |
Выбирает создатель токенов Майкрософт для Punjabi. |
romanian |
string |
Выбирает создатель токенов Майкрософт для румынского языка. |
russian |
string |
Выбирает создатель токенов Майкрософт для русского языка. |
serbianCyrillic |
string |
Выбирает microsoft tokenizer для сербского языка (кириллица). |
serbianLatin |
string |
Выбирает создатель маркеров Майкрософт для сербского языка (латиница). |
slovenian |
string |
Выбирает создатель токенов Майкрософт для словенского языка. |
spanish |
string |
Выбирает создатель токенов Майкрософт для испанского языка. |
swedish |
string |
Выбирает создатель токенов Майкрософт для шведского языка. |
tamil |
string |
Выбирает создатель токенов Майкрософт для тамильского. |
telugu |
string |
Выбирает создатель токенов Майкрософт для Telugu. |
thai |
string |
Выбирает создатель токенов Майкрософт для тайского языка. |
ukrainian |
string |
Выбирает создатель токенов Майкрософт для украинского языка. |
urdu |
string |
Выбирает создатель токенов Майкрософт для Urdu. |
vietnamese |
string |
Выбирает создатель маркеров Майкрософт для вьетнамского. |
NGramTokenFilter
Создает N-граммы заданного размера. Этот фильтр маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
|
maxGram |
integer |
2 |
Максимальная n-граммовая длина. По умолчанию используется значение 2. |
minGram |
integer |
1 |
Минимальная n-граммовая длина. Значение по умолчанию: 1. Должно быть меньше значения maxGram. |
name |
string |
Имя фильтра маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
NGramTokenFilterV2
Создает N-граммы заданного размера. Этот фильтр маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
|
maxGram |
integer |
2 |
Максимальная n-граммовая длина. По умолчанию используется значение 2. Максимум — 300. |
minGram |
integer |
1 |
Минимальная n-граммовая длина. Значение по умолчанию: 1. Максимум — 300. Должно быть меньше значения maxGram. |
name |
string |
Имя фильтра маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
NGramTokenizer
Размечает входные данные на N-граммы заданного размера. Этот создатель маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип создателя маркеров. |
|
maxGram |
integer |
2 |
Максимальная длина n-грамма. По умолчанию используется значение 2. Максимум — 300. |
minGram |
integer |
1 |
Минимальная n-граммовая длина. Значение по умолчанию: 1. Максимум — 300. Значение должно быть меньше значения maxGram. |
name |
string |
Имя создателя маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
|
tokenChars |
Классы символов, которые нужно сохранить в маркерах. |
OutputFieldMappingEntry
Сопоставление выходных полей для навыка.
Имя | Тип | Описание |
---|---|---|
name |
string |
Имя выходных данных, определенное навыком. |
targetName |
string |
Целевое имя выходных данных. Это необязательный параметр, и по умолчанию используется имя. |
PathHierarchyTokenizerV2
Создатель маркеров для иерархий в виде пути. Этот создатель маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип создателя маркеров. |
|
delimiter |
string |
/ |
Используемый символ разделителя. Значение по умолчанию — "/". |
maxTokenLength |
integer |
300 |
Максимальная длина маркера. Значение по умолчанию и максимальное значение — 300. |
name |
string |
Имя создателя маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
|
replacement |
string |
/ |
Значение , которое, если задано, заменяет символ разделителя. Значение по умолчанию — "/". |
reverse |
boolean |
False |
Значение типа , указывающее, следует ли создавать маркеры в обратном порядке. Значение по умолчанию — false. |
skip |
integer |
0 |
Количество пропускаемых начальных маркеров. Значение по умолчанию — 0. |
PatternAnalyzer
Гибко разделяет текст на термины с помощью шаблона регулярного выражения. Этот анализатор реализуется с помощью Apache Lucene.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип анализатора. |
|
flags |
Флаги регулярных выражений. |
||
lowercase |
boolean |
True |
Значение, указывающее, следует ли указывать термины в нижнем регистре. Значение по умолчанию — true. |
name |
string |
Имя анализатора. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
|
pattern |
string |
\W+ |
Шаблон регулярного выражения для сопоставления разделителей маркеров. По умолчанию является выражением, которое соответствует одному или нескольким символам, не являющихся словами. |
stopwords |
string[] |
Список стоп-слов. |
PatternCaptureTokenFilter
Использует регулярные выражения Java для создания нескольких маркеров — по одному для каждой группы захвата в одном или нескольких шаблонах. Этот фильтр маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
|
name |
string |
Имя фильтра маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
|
patterns |
string[] |
Список шаблонов для сопоставления с каждым токеном. |
|
preserveOriginal |
boolean |
True |
Значение, указывающее, следует ли возвращать исходный маркер, даже если один из шаблонов совпадает. Значение по умолчанию — true. |
PatternReplaceCharFilter
Фильтр символов, заменяющий символы во входной строке. Он использует регулярное выражение, чтобы определить последовательности знаков, которые нужно сохранить, и шаблон замены, чтобы определить знаки для замены. Например, учитывая входной текст "aa bb aa bb", шаблон "(aa)\s+(bb)" и замену "$1#$2", результатом будет "aa#bb aa#bb". Этот фильтр символов реализуется с помощью Apache Lucene.
Имя | Тип | Описание |
---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра символов. |
name |
string |
Имя фильтра символов. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
pattern |
string |
Шаблон регулярного выражения. |
replacement |
string |
Текст замены. |
PatternReplaceTokenFilter
Фильтр символов, заменяющий символы во входной строке. Он использует регулярное выражение, чтобы определить последовательности знаков, которые нужно сохранить, и шаблон замены, чтобы определить знаки для замены. Например, учитывая входной текст "aa bb aa bb", шаблон "(aa)\s+(bb)" и замену "$1#$2", результатом будет "aa#bb aa#bb". Этот фильтр маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Описание |
---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
name |
string |
Имя фильтра маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
pattern |
string |
Шаблон регулярного выражения. |
replacement |
string |
Текст замены. |
PatternTokenizer
Создатель маркеров, использующий сопоставление шаблонов регулярных выражений для создания уникальных маркеров. Этот создатель маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип создателя маркеров. |
|
flags |
Флаги регулярных выражений. |
||
group |
integer |
-1 |
Отсчитываемый от нуля порядковый номер соответствующей группы в шаблоне регулярного выражения для извлечения в маркеры. Используйте значение -1, если вы хотите использовать весь шаблон для разделения входных данных на маркеры независимо от совпадающих групп. Значение по умолчанию — -1. |
name |
string |
Имя создателя маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
|
pattern |
string |
\W+ |
Шаблон регулярного выражения для сопоставления разделителей маркеров. По умолчанию — это выражение, которое соответствует одному или нескольким символам, не используемым в словах. |
PhoneticEncoder
Определяет тип фонетического кодировщика для использования с PhoneticTokenFilter.
Имя | Тип | Описание |
---|---|---|
beiderMorse |
string |
Кодирует маркер в Beider-Morse значение. |
caverphone1 |
string |
Кодирует токен в значение Caverphone 1.0. |
caverphone2 |
string |
Кодирует токен в значение Caverphone 2.0. |
cologne |
string |
Кодирует токен в фонетическое значение Кельна. |
doubleMetaphone |
string |
Кодирует токен в значение двойного метафона. |
haasePhonetik |
string |
Кодирует маркер с помощью уточнения Haase алгоритма Kölner Phonetik. |
koelnerPhonetik |
string |
Кодирует маркер с помощью алгоритма Kölner Phonetik. |
metaphone |
string |
Кодирует токен в значение Метафона. |
nysiis |
string |
Кодирует токен в значение NYSIIS. |
refinedSoundex |
string |
Кодирует токен в уточненное значение Soundex. |
soundex |
string |
Кодирует токен в значение Soundex. |
PhoneticTokenFilter
Создает маркеры для фонетических совпадений. Этот фильтр маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
|
encoder | metaphone |
Используемый фонетический кодировщик. Значение по умолчанию — metaphone. |
|
name |
string |
Имя фильтра маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
|
replace |
boolean |
True |
Значение , указывающее, должны ли закодированные маркеры заменять исходные маркеры. Если значение равно false, закодированные маркеры добавляются в качестве синонимов. Значение по умолчанию — true. |
PrioritizedFields
Описывает поля заголовка, содержимого и ключевых слов, которые будут использоваться для семантического ранжирования, субтитров, выделений и ответов.
Имя | Тип | Описание |
---|---|---|
prioritizedContentFields |
Определяет поля содержимого, используемые для семантического ранжирования, субтитров, выделений и ответов. Для наилучшего результата выбранные поля должны содержать текст в форме естественного языка. Порядок полей в массиве представляет их приоритет. Поля с более низким приоритетом могут быть усечены, если содержимое длинное. |
|
prioritizedKeywordsFields |
Определяет поля ключевое слово, которые будут использоваться для семантического ранжирования, субтитров, выделений и ответов. Для достижения наилучшего результата выбранные поля должны содержать список ключевых слов. Порядок полей в массиве представляет их приоритет. Поля с более низким приоритетом могут быть усечены, если содержимое длинное. |
|
titleField |
Определяет поле заголовка, используемое для семантического ранжирования, субтитров, выделений и ответов. Если в индексе нет поля заголовка, оставьте это поле пустым. |
RegexFlags
Определяет флаги, которые можно объединить для управления использованием регулярных выражений в анализаторе шаблонов и создателе маркеров шаблонов.
Имя | Тип | Описание |
---|---|---|
CANON_EQ |
string |
Включает каноническую эквивалентность. |
CASE_INSENSITIVE |
string |
Включает сопоставление без учета регистра. |
COMMENTS |
string |
Разрешает пробелы и комментарии в шаблоне. |
DOTALL |
string |
Включает режим dotall. |
LITERAL |
string |
Включает литеральный анализ шаблона. |
MULTILINE |
string |
Включает многостроковый режим. |
UNICODE_CASE |
string |
Включает свертывание регистра с поддержкой Юникода. |
UNIX_LINES |
string |
Включает режим линий Unix. |
ScalarQuantizationParameters
Содержит параметры, относящиеся к скалярной квантизации.
Имя | Тип | Описание |
---|---|---|
quantizedDataType |
Квантованный тип данных сжатых векторных значений. |
ScalarQuantizationVectorSearchCompressionConfiguration
Содержит параметры конфигурации, относящиеся к методу сжатия скалярных квантования, используемому во время индексирования и выполнения запросов.
Имя | Тип | Default value | Описание |
---|---|---|---|
defaultOversampling |
number |
Коэффициент превышения выборки по умолчанию. Превышение выборки приведет к внутреннему запросу дополнительных документов (заданных этим множителем) в начальном поиске. Это увеличивает набор результатов, которые будут повторно отсняты с помощью повторно вычисляемых оценок подобия из векторов полной точности. Минимальное значение — 1, то есть нет избыточной выборки (1x). Этот параметр можно задать, только если параметр rerankWithOriginalVectors имеет значение true. Более высокие значения улучшают полноту за счет задержки. |
|
kind |
string:
scalar |
Имя типа метода сжатия, настроенного для использования с векторным поиском. |
|
name |
string |
Имя, связываемые с этой конкретной конфигурацией. |
|
rerankWithOriginalVectors |
boolean |
True |
Если задано значение true, то после получения упорядоченного набора результатов, вычисленных с помощью сжатых векторов, они будут повторно оценены путем пересчета оценок сходства с полной точностью. Это улучшит отзыв за счет задержки. |
scalarQuantizationParameters |
Содержит параметры, относящиеся к скалярной квантизации. |
ScoringFunctionAggregation
Определяет агрегатную функцию, используемую для объединения результатов всех функций оценки в профиле оценки.
Имя | Тип | Описание |
---|---|---|
average |
string |
Увелижи оценку на среднее значение для всех результатов функции оценки. |
firstMatching |
string |
Повышение оценок с помощью первой применимой функции оценки в профиле оценки. |
maximum |
string |
Увеливание оценок на максимальное количество всех результатов функции оценки. |
minimum |
string |
Увелижите оценки на минимум всех результатов функции оценки. |
sum |
string |
Увелижи оценки на сумму всех результатов функции оценки. |
ScoringFunctionInterpolation
Определяет функцию, используемую для интерполяции повышения оценки в диапазоне документов.
Имя | Тип | Описание |
---|---|---|
constant |
string |
Повышает оценку на постоянный коэффициент. |
linear |
string |
Повышает оценку на линейно уменьшающуюся величину. Это интерполяция по умолчанию для функций оценки. |
logarithmic |
string |
Повышает оценку на величину, которая логарифмически уменьшается. Повышение быстро уменьшается для более высоких оценок и медленнее по мере уменьшения оценок. Этот тип интерполяции невозможно использовать в функциях оценки tag. |
quadratic |
string |
Увеличивает баллы на величину, которая уменьшается в четыре раза. Повышение медленно уменьшается для более высоких оценок и быстрее по мере уменьшения оценок. Этот тип интерполяции невозможно использовать в функциях оценки tag. |
ScoringProfile
Определяет параметры для индекса поиска, влияющие на оценку в поисковых запросах.
Имя | Тип | Описание |
---|---|---|
functionAggregation |
Значение типа , указывающее, как следует объединять результаты отдельных функций оценки. По умолчанию — "Sum". Игнорируется, если отсутствуют функции оценки. |
|
functions | ScoringFunction[]: |
Коллекция функций, влияющих на оценку документов. |
name |
string |
Имя профиля оценки. |
text |
Параметры, повышающие оценку на основе текстовых совпадений в определенных полях индекса. |
SearchField
Представляет поле в определении индекса, описывающее имя, тип данных и поведение поиска поля.
Имя | Тип | Описание |
---|---|---|
analyzer |
Имя анализатора, используемого для поля. Этот параметр можно использовать только с полями, поддерживающими поиск. Параметр не совместим с элементами searchAnalyzer и indexAnalyzer. Выбрав для поля анализатор, его невозможно изменить. Для сложных полей должен иметь значение NULL. |
|
dimensions |
integer |
Размерность поля вектора. |
facetable |
boolean |
Значение , указывающее, следует ли включить ссылку на поле в фасетных запросах. Обычно используется в представлении результатов поиска, включая количество попаданий по категориям (например, поиск цифровых камер и просмотр хитов по брендам, мегапикселям, по цене и т. д.). Это свойство должно иметь значение NULL для сложных полей. Поля типа Edm.GeographyPoint или Collection(Edm.GeographyPoint) не могут быть фасетными. Значение по умолчанию равно true для всех других простых полей. |
fields |
Список вложенных полей, если это поле типа Edm.ComplexType или Collection(Edm.ComplexType). Для простых полей должен быть пустым или пустым. |
|
filterable |
boolean |
Значение , указывающее, следует ли включить ссылку на поле в $filter запросах. Фильтруемый отличается от доступных для поиска способом обработки строк. Поля типа Edm.String или Collection(Edm.String), которые можно фильтровать, не подвергаются разбиениям по словам, поэтому сравнения выполняются только для точных совпадений. Например, если задать для такого поля f значение "солнечный день", $filter=f eq "солнечный" не найдет совпадений, но $filter=f eq "солнечный день". Это свойство должно иметь значение NULL для сложных полей. Значение по умолчанию равно true для простых полей и null для сложных полей. |
indexAnalyzer |
Имя анализатора, используемого во время индексирования для поля. Этот параметр можно использовать только с полями с возможностью поиска. Он должен быть задан вместе с searchAnalyzer и не может быть задан вместе с параметром анализатора. Для этого свойства нельзя задать имя анализатора языка; Используйте свойство анализатора, если вам нужен анализатор языка. Выбрав для поля анализатор, его невозможно изменить. Для сложных полей должен иметь значение NULL. |
|
key |
boolean |
Значение , указывающее, однозначно ли поле идентифицирует документы в индексе. В качестве ключевого поля должно быть выбрано ровно одно поле верхнего уровня в каждом индексе и иметь тип Edm.String. Ключевые поля можно использовать для поиска документов напрямую, а также для обновления или удаления определенных документов. Значение по умолчанию равно false для простых полей и null для сложных полей. |
name |
string |
Имя поля, которое должно быть уникальным в коллекции полей индекса или родительского поля. |
normalizer |
Имя нормализатора, используемого для поля. Этот параметр можно использовать только в полях с включенными фильтруемыми, сортируемыми или фасетными. После выбора нормализатора его нельзя изменить для поля. Для сложных полей должен иметь значение NULL. |
|
retrievable |
boolean |
Значение , указывающее, может ли поле быть возвращено в результатах поиска. Этот параметр можно отключить, если вы хотите использовать поле (например, поле) в качестве механизма фильтрации, сортировки или оценки, но не хотите, чтобы поле было видимым для конечного пользователя. Это свойство должно иметь значение true для ключевых полей, а для сложных полей — значение NULL. Это свойство можно изменить в существующих полях. Включение этого свойства не приводит к увеличению требований к хранилищу индексов. Значение по умолчанию равно true для простых полей, false для векторных полей и null для сложных полей. |
searchAnalyzer |
Имя анализатора, используемого во время поиска поля. Этот параметр можно использовать только с полями с возможностью поиска. Он должен быть задан вместе с indexAnalyzer и не может быть задан вместе с параметром анализатора. Для этого свойства нельзя задать имя анализатора языка; Используйте свойство анализатора, если вам нужен анализатор языка. Этот анализатор можно обновить на существующее поле. Для сложных полей должен иметь значение NULL. |
|
searchable |
boolean |
Значение , указывающее, доступно ли поле для полнотекстового поиска. Это означает, что во время индексирования оно будет включено в анализ (в частности, для разбиения на слова). Если, например, задать для поля, поддерживающего поиск, значение sunny day (солнечный день), оно будет разделено на элементы sunny и day. В результате эти слова смогут участвовать в полнотекстовом поиске. Поля типа Edm.String или Collection(Edm.String) доступны для поиска по умолчанию. Это свойство должно иметь значение false для простых полей других нестроковых типов данных, а для сложных полей — null. Примечание. Поля, доступные для поиска, занимают дополнительное место в индексе для размещения дополнительных версий значения поля с маркерами для полнотекстового поиска. Если вы хотите сэкономить место в индексе и вам не нужно включать поле в поисковые запросы, задайте для поиска значение false. |
sortable |
boolean |
Значение , указывающее, следует ли включить ссылку на поле в $orderby выражениях. По умолчанию поисковая система сортирует результаты по оценке, но во многих интерфейсах пользователи хотят выполнять сортировку по полям в документах. Простое поле можно сортировать только в том случае, если оно имеет одно значение (оно имеет одно значение в область родительского документа). Простые поля коллекции нельзя сортировать, так как они имеют многозначное значение. Простые вложенные поля сложных коллекций также имеют многозначные значения и поэтому не могут быть сортируемыми. Это верно, будь то непосредственное родительское поле или поле предка, это сложная коллекция. Сложные поля не могут быть сортируемыми, и свойство сортируемой функции должно иметь значение NULL для таких полей. Значение по умолчанию для сортируемых полей равно true для простых полей с одним значением, false для простых полей с несколькими значениями и null для сложных полей. |
stored |
boolean |
Неизменяемое значение, указывающее, будет ли поле храниться отдельно на диске, возвращаемое в результатах поиска. Этот параметр можно отключить, если вы не планируете возвращать содержимое поля в ответе поиска, чтобы сэкономить на хранении. Это можно задать только во время создания индекса и только для векторных полей. Это свойство нельзя изменить для существующих полей или задать значение false для новых полей. Если это свойство имеет значение false, свойство "извлекаемое" также должно иметь значение false. Это свойство должно иметь значение true или unset для ключевых полей, для новых полей и для невекторных полей, а для сложных полей оно должно иметь значение NULL. Отключение этого свойства снизит требования к хранилищу индексов. Значение по умолчанию — true для векторных полей. |
synonymMaps |
string[] |
Список имен сопоставлений синонимов, которые необходимо связать с этим полем. Этот параметр можно использовать только с полями с возможностью поиска. В настоящее время поддерживается только одно сопоставление синонимов для каждого поля. Назначение сопоставления синонимов полю гарантирует, что термины запроса, предназначенные для этого поля, будут развернуты во время запроса с помощью правил в сопоставлении синонимов. Этот атрибут можно изменить в существующих полях. Для сложных полей должен иметь значение NULL или пустую коллекцию. |
type |
Тип данных поля. |
|
vectorEncoding |
Формат кодирования для интерпретации содержимого поля. |
|
vectorSearchProfile |
string |
Имя профиля поиска векторов, указывающее алгоритм и векторизатор, используемый при поиске поля вектора. |
SearchFieldDataType
Определяет тип данных поля в индексе поиска.
Имя | Тип | Описание |
---|---|---|
Edm.Boolean |
string |
Указывает, что поле содержит логическое значение (true или false). |
Edm.Byte |
string |
Указывает, что поле содержит 8-битовое целое число без знака. Это допустимо только при использовании с Collection(Edm.Byte). |
Edm.ComplexType |
string |
Указывает, что поле содержит один или несколько сложных объектов, которые, в свою очередь, содержат вложенные поля других типов. |
Edm.DateTimeOffset |
string |
Указывает, что поле содержит значение даты и времени, включая сведения о часовом поясе. |
Edm.Double |
string |
Указывает, что поле содержит число с плавающей запятой двойной точности IEEE. |
Edm.GeographyPoint |
string |
Указывает, что поле содержит географическое расположение с точки зрения долготы и широты. |
Edm.Half |
string |
Указывает, что поле содержит число с плавающей запятой половинной точности. Это допустимо только при использовании с Collection(Edm.Half). |
Edm.Int16 |
string |
Указывает, что поле содержит 16-разрядное целое число со знаком. Это допустимо только при использовании с Collection(Edm.Int16). |
Edm.Int32 |
string |
Указывает, что поле содержит 32-разрядное целое число со знаком. |
Edm.Int64 |
string |
Указывает, что поле содержит 64-разрядное целое число со знаком. |
Edm.SByte |
string |
Указывает, что поле содержит 8-разрядное целое число со знаком. Это допустимо только при использовании с Collection(Edm.SByte). |
Edm.Single |
string |
Указывает, что поле содержит число с плавающей запятой одной точности. Это допустимо только при использовании с Collection(Edm.Single). |
Edm.String |
string |
Указывает, что поле содержит строку. |
SearchIndex
Представляет определение индекса поиска, которое описывает поля и поведение поиска индекса.
Имя | Тип | Описание |
---|---|---|
@odata.etag |
string |
ETag индекса. |
analyzers | LexicalAnalyzer[]: |
Анализаторы для индекса. |
charFilters | CharFilter[]: |
Символьные фильтры для индекса. |
corsOptions |
Параметры управления общим доступом к ресурсам независимо от источника (CORS) для индекса. |
|
defaultScoringProfile |
string |
Имя профиля оценки, используемого, если в запросе нет. Если это свойство не задано и в запросе не указан профиль оценки, будет использоваться оценка по умолчанию (tf-idf). |
encryptionKey |
Описание ключа шифрования, созданного в Azure Key Vault. Этот ключ используется для обеспечения дополнительного уровня шифрования неактивных данных, если требуется полная гарантия того, что никто, даже корпорация Майкрософт, не может расшифровать ваши данные. После шифрования данных они всегда остаются зашифрованными. Служба поиска игнорирует попытки присвоить этому свойству значение NULL. Это свойство можно изменить при необходимости, если требуется сменить ключ шифрования. Ваши данные не будут затронуты. Шифрование с помощью ключей, управляемых клиентом, недоступно для бесплатных служб поиска и доступно только для платных служб, созданных 1 января 2019 года или позже. |
|
fields |
Поля индекса. |
|
name |
string |
Имя индекса. |
normalizers | LexicalNormalizer[]: |
Нормализаторы для индекса. |
scoringProfiles |
Профили оценки для индекса. |
|
semantic |
Определяет параметры для индекса поиска, влияющие на семантические возможности. |
|
similarity | Similarity: |
Тип алгоритма сходства, используемого при оценке и ранжировании документов, соответствующих поисковому запросу. Алгоритм подобия может быть определен только во время создания индекса и не может быть изменен в существующих индексах. Если значение равно null, используется алгоритм ClassicSimilarity. |
suggesters |
Средства подбора для индекса. |
|
tokenFilters |
TokenFilter[]:
|
Маркер фильтрует индекс. |
tokenizers | LexicalTokenizer[]: |
Создатели маркеров для индекса. |
vectorSearch |
Содержит параметры конфигурации, связанные с поиском векторов. |
SearchIndexerDataNoneIdentity
Очищает свойство identity источника данных.
Имя | Тип | Описание |
---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип удостоверения. |
SearchIndexerDataUserAssignedIdentity
Указывает удостоверение для используемого источника данных.
Имя | Тип | Описание |
---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип удостоверения. |
userAssignedIdentity |
string |
Полный идентификатор ресурса Azure управляемого удостоверения, назначаемого пользователем, обычно в формате "/subscriptions/12345678-1234-1234-1234567890ab/resourceGroups/rg/providers/Microsoft.ManagedIdentity/userAssignedIdentities/myId", который должен быть назначен службе поиска. |
SearchResourceEncryptionKey
Ключ шифрования, управляемый клиентом, в Azure Key Vault. Ключи, которые вы создаете и которыми управляете, можно использовать для шифрования и расшифровки неактивных данных, таких как индексы и сопоставления синонимов.
Имя | Тип | Описание |
---|---|---|
accessCredentials |
Необязательные учетные данные Azure Active Directory, используемые для доступа к Key Vault Azure. Не требуется, если вместо этого используется управляемое удостоверение. |
|
identity | SearchIndexerDataIdentity: |
Явное управляемое удостоверение, используемое для этого ключа шифрования. Если значение не указано и свойство учетных данных доступа имеет значение NULL, используется управляемое удостоверение, назначаемое системой. Если при обновлении ресурса явное удостоверение не указано, оно остается неизменным. Если указано значение none, значение этого свойства очищается. |
keyVaultKeyName |
string |
Имя ключа Key Vault Azure, который будет использоваться для шифрования неактивных данных. |
keyVaultKeyVersion |
string |
Версия ключа Key Vault Azure, который будет использоваться для шифрования неактивных данных. |
keyVaultUri |
string |
URI Key Vault Azure, также называемого DNS-именем, который содержит ключ, используемый для шифрования неактивных данных. Пример URI: |
SemanticConfiguration
Определяет определенную конфигурацию для использования в контексте семантических возможностей.
Имя | Тип | Описание |
---|---|---|
name |
string |
Имя семантической конфигурации. |
prioritizedFields |
Описывает заголовок, содержимое и поля ключевое слово, используемые для семантического ранжирования, субтитров, выделений и ответов. Необходимо задать по крайней мере одно из трех вложенных свойств (titleField, prioritizedKeywordsFields и prioritizedContentFields). |
SemanticField
Поле, используемое как часть семантической конфигурации.
Имя | Тип | Описание |
---|---|---|
fieldName |
string |
SemanticSettings
Определяет параметры для индекса поиска, которые влияют на семантические возможности.
Имя | Тип | Описание |
---|---|---|
configurations |
Семантические конфигурации для индекса. |
|
defaultConfiguration |
string |
Позволяет задать имя семантической конфигурации по умолчанию в индексе, делая необязательным передавать его в качестве параметра запроса каждый раз. |
ShingleTokenFilter
Создает сочетания маркеров в виде одного маркера. Этот фильтр маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
|
filterToken |
string |
_ |
Строка для вставки для каждой позиции, в которой нет маркера. По умолчанию используется символ подчеркивания ("_"). |
maxShingleSize |
integer |
2 |
Максимальный размер гальки. По умолчанию и минимальное значение — 2. |
minShingleSize |
integer |
2 |
Минимальный размер гальки. По умолчанию и минимальное значение — 2. Должно быть меньше значения maxShingleSize. |
name |
string |
Имя фильтра маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
|
outputUnigrams |
boolean |
True |
Значение , указывающее, будет ли выходной поток содержать входные маркеры (юниграммы), а также черепица. Значение по умолчанию — true. |
outputUnigramsIfNoShingles |
boolean |
False |
Значение, указывающее, следует ли выводить юниграммы для тех случаев, когда не доступны черепицы. Это свойство имеет приоритет, если outputUnigrams имеет значение false. Значение по умолчанию — false. |
tokenSeparator |
string |
Строка, используемая при объединении смежных маркеров для формирования голени. По умолчанию используется один пробел (" "). |
SnowballTokenFilter
Фильтр, который содержит слова с помощью сгенерированного Снежком парадигматического модуля. Этот фильтр маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Описание |
---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
language |
Используемый язык. |
|
name |
string |
Имя фильтра маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
SnowballTokenFilterLanguage
Язык, используемый для фильтра токенов Snowball.
Имя | Тип | Описание |
---|---|---|
armenian |
string |
Выбирает токенизатора люсене Снежного кома для армянского. |
basque |
string |
Выбирает создатель маркеров люсена Снежного кома для баскского. |
catalan |
string |
Выбирает создатель маркеров люсене Snowball для каталонского. |
danish |
string |
Выбирает создатель маркеров люсена Снежного кома для датского языка. |
dutch |
string |
Выбирает создатель маркеров люсене Snowball для голландского языка. |
english |
string |
Выбирает создатель маркеров люсене Snowball для английского языка. |
finnish |
string |
Выбирает создатель маркеров люсене Snowball для финского языка. |
french |
string |
Выбирает создатель маркеров люсена Снежного кома для французского языка. |
german |
string |
Выбирает создатель маркеров люсене Snowball для немецкого языка. |
german2 |
string |
Выбирает создатель маркеров для парадигмы Lucene Snowball, который использует немецкий алгоритм вариантов. |
hungarian |
string |
Выбирает создатель маркеров люсене Snowball для венгерского. |
italian |
string |
Выбирает создатель маркеров люсене Snowball для итальянского языка. |
kp |
string |
Выбирает создатель маркеров для выделения стволов Lucene Snowball для голландского языка, использующего алгоритм Kraaij-Pohlmann. |
lovins |
string |
Выбирает создатель маркеров для корежки Lucene Snowball для английского языка, который использует алгоритм парадигмы Lovins. |
norwegian |
string |
Выбирает создатель маркеров люсене Snowball для норвежского языка. |
porter |
string |
Выбирает маркеризатора парадигматического кода Lucene Snowball для английского языка, в котором используется алгоритм определения парадигмы Портера. |
portuguese |
string |
Выбирает создатель маркеров люсене Snowball для португальского языка. |
romanian |
string |
Выбирает lucene Snowball stemming tokenizer для румынского языка. |
russian |
string |
Выбирает создатель маркеров люсене Snowball для русского языка. |
spanish |
string |
Выбирает создатель маркеров люсене Снежного кома для испанского языка. |
swedish |
string |
Выбирает создатель маркеров люсене Snowball для шведского языка. |
turkish |
string |
Выбирает создатель маркеров люсене Снежного кома для турецкого языка. |
StemmerOverrideTokenFilter
Предоставляет возможность переопределять другие фильтры с помощью настраиваемого заполнения на основе словаря. Любые термины, связанные со словарем, будут помечены как ключевые слова, чтобы они не были объединяться со стеммерами по цепочке. Необходимо поместить перед всеми стемминговыми фильтрами. Этот фильтр маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Описание |
---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
name |
string |
Имя фильтра маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
rules |
string[] |
Список правил stemming в следующем формате: "word => stem", например: "run => run". |
StemmerTokenFilter
Фильтр стволов для конкретного языка. Этот фильтр маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Описание |
---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
language |
Используемый язык. |
|
name |
string |
Имя фильтра маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
StemmerTokenFilterLanguage
Язык, используемый для фильтра маркеров парадигматического модуля.
Имя | Тип | Описание |
---|---|---|
arabic |
string |
Выбирает создатель маркеров для языка Lucene stemming для арабского языка. |
armenian |
string |
Выбирает токенизатора выделения стволов Lucene для армянского. |
basque |
string |
Выбирает создатель маркеров люсена для баскского. |
brazilian |
string |
Выбирает создатель маркеров для определения парадигмы Lucene для португальского языка (Бразилия). |
bulgarian |
string |
Выбирает маркеризатора выделения стволов Lucene для болгарского. |
catalan |
string |
Выбирает создатель маркеров люсене для каталонского. |
czech |
string |
Выбирает создатель маркеров люсене для чешского языка. |
danish |
string |
Выбирает создатель маркеров для выделения стволов Lucene для датского языка. |
dutch |
string |
Выбирает создатель маркеров для выделения стволов Lucene для голландского языка. |
dutchKp |
string |
Выбирает создатель маркеров stemming Lucene для голландского языка, который использует алгоритм Kraaij-Pohlmann. |
english |
string |
Выбирает создатель маркеров люсена для английского языка. |
finnish |
string |
Выбирает создатель маркеров для языка Lucene для финского языка. |
french |
string |
Выбирает создатель маркеров для языка Lucene stemming для французского языка. |
galician |
string |
Выбирает создатель маркеров для галисианской разметки Lucene. |
german |
string |
Выбирает создатель маркеров для языка Lucene stemming для немецкого языка. |
german2 |
string |
Выбирает создатель маркеров для определения стволов Lucene, использующий немецкий алгоритм вариантов. |
greek |
string |
Выбирает создатель маркеров для языка Lucene stemming для греческого языка. |
hindi |
string |
Выбирает создатель маркеров для хинди lucene stemming. |
hungarian |
string |
Выбирает создатель маркеров lucene stemming для венгерского. |
indonesian |
string |
Выбирает создатель маркеров для языка Lucene для индонезийского языка. |
irish |
string |
Выбирает создатель маркеров для выделения маркеров lucene для ирландского. |
italian |
string |
Выбирает создатель маркеров для языка Lucene для итальянского языка. |
latvian |
string |
Выбирает создатель маркеров для языка Lucene для латышского языка. |
lightEnglish |
string |
Выбирает создатель маркеров для языка Lucene stemming для английского языка, который выполняет легкую фильтрацию. |
lightFinnish |
string |
Выбирает создатель маркеров для языка Lucene stemming для финского языка, который выполняет светлую фильтрацию. |
lightFrench |
string |
Выбирает создатель маркеров для языка Lucene stemming для французского языка, который выполняет легкую фильтрацию. |
lightGerman |
string |
Выбирает создатель маркеров lucene stemming для немецкого языка, который выполняет легкую фильтрацию. |
lightHungarian |
string |
Выбирает создатель токенизатора выделения лексемы Lucene для венгерского, который выполняет легкую стеблицию. |
lightItalian |
string |
Выбирает создатель маркеров для языка Lucene stemming для итальянского языка, который выполняет легкую стеблицию. |
lightNorwegian |
string |
Выбирает создатель маркеров для языка Lucene stemming для норвежского языка (букмол), который выполняет световую фильтрацию. |
lightNynorsk |
string |
Выбирает создатель маркеров для языка Lucene stemming для норвежского языка (Nynorsk), который выполняет светлую фильтрацию. |
lightPortuguese |
string |
Выбирает создатель маркеров для языка Lucene stemming для португальского языка, который выполняет легкую фильтрацию. |
lightRussian |
string |
Выбирает создатель маркеров lucene stemming для русского языка, который выполняет светлую стеблицию. |
lightSpanish |
string |
Выбирает создатель маркеров lucene stemming для испанского языка, который выполняет светлую фильтрацию. |
lightSwedish |
string |
Выбирает создатель маркеров lucene stemming для шведского языка, который выполняет легкую фильтрацию. |
lovins |
string |
Выбирает создатель маркеров для языка Lucene для английского языка, который использует алгоритм определения Lovins. |
minimalEnglish |
string |
Выбирает создатель маркеров для языка Lucene stemming для английского языка, который выполняет минимальное выделение стволов. |
minimalFrench |
string |
Выбирает создатель маркеров для языка Lucene stemming для французского языка, который выполняет минимальное выделение. |
minimalGalician |
string |
Выбирает создатель маркеров для галисианской разметки Lucene, который выполняет минимальное выделение. |
minimalGerman |
string |
Выбирает создатель маркеров для языка Lucene stemming для немецкого языка, который выполняет минимальное выделение. |
minimalNorwegian |
string |
Выбирает создатель маркеров lucene stemming для норвежского языка (букмол), который выполняет минимальное выделение. |
minimalNynorsk |
string |
Выбирает создатель маркеров для языка Lucene stemming для норвежского языка (Nynorsk), который выполняет минимальное выделение. |
minimalPortuguese |
string |
Выбирает создатель маркеров для языка Lucene для португальского языка, который выполняет минимальное выделение. |
norwegian |
string |
Выбирает создатель маркеров для языка Lucene stemming для норвежского языка (букмол). |
porter2 |
string |
Выбирает создатель маркеров для языка Lucene stemming для английского языка, в котором используется алгоритм портер2. |
portuguese |
string |
Выбирает создатель маркеров для языка Lucene stemming для португальского языка. |
portugueseRslp |
string |
Выбирает создатель маркеров для языка Lucene для португальского языка, использующего алгоритм определения РСОП. |
possessiveEnglish |
string |
Выбирает создатель маркеров для языка Lucene stemming для английского языка, который удаляет конечные притяжательные знаки из слов. |
romanian |
string |
Выбирает создатель маркеров для языка Lucene stemming для румынского языка. |
russian |
string |
Выбирает создатель маркеров для языка Lucene для русского языка. |
sorani |
string |
Выбирает создатель маркеров lucene stemming для Sorani. |
spanish |
string |
Выбирает создатель маркеров для языка Lucene stemming для испанского языка. |
swedish |
string |
Выбирает создатель маркеров для языка Lucene stemming для шведского языка. |
turkish |
string |
Выбирает создатель маркеров для языка Lucene stemming для турецкого языка. |
StopAnalyzer
Делит текст на небуквенный; Применяет фильтры токенов в нижнем регистре и маркеров стоп-слов. Этот анализатор реализуется с помощью Apache Lucene.
Имя | Тип | Описание |
---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип анализатора. |
name |
string |
Имя анализатора. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
stopwords |
string[] |
Список стоп-слов. |
StopwordsList
Определяет предопределенный список стоп-слов для конкретного языка.
Имя | Тип | Описание |
---|---|---|
arabic |
string |
Выбирает список стоп-слов для арабского языка. |
armenian |
string |
Выбирает список стоп-слов для армянского. |
basque |
string |
Выбирает список стоп-слов для баскского. |
brazilian |
string |
Выбирает список стоп-слов для португальского (Бразилия). |
bulgarian |
string |
Выбирает список стоп-слов для болгарского. |
catalan |
string |
Выбирает список стоп-слов для каталонского. |
czech |
string |
Выбирает список стоп-слов для чешского языка. |
danish |
string |
Выбирает список стоп-слов для датского языка. |
dutch |
string |
Выбирает список стоп-слов для голландского языка. |
english |
string |
Выбирает список стоп-слов для английского языка. |
finnish |
string |
Выбирает список стоп-слов для финского языка. |
french |
string |
Выбирает список стоп-слов для французского языка. |
galician |
string |
Выбирает список стоп-слов для галисийского. |
german |
string |
Выбирает список стоп-слов для немецкого языка. |
greek |
string |
Выбирает список стоп-слов для греческого языка. |
hindi |
string |
Выбирает список стоп-слов для хинди. |
hungarian |
string |
Выбирает список стоп-слов для венгерского. |
indonesian |
string |
Выбирает список стоп-слов для индонезийского языка. |
irish |
string |
Выбирает список стоп-слов для ирландского. |
italian |
string |
Выбирает список стоп-слов для итальянского языка. |
latvian |
string |
Выбирает список стоп-слов для латышского языка. |
norwegian |
string |
Выбирает список стоп-слов для норвежского языка. |
persian |
string |
Выбирает список стоп-слов для персидского языка. |
portuguese |
string |
Выбирает список стоп-слов для португальского языка. |
romanian |
string |
Выбирает список стоп-слов для румынского языка. |
russian |
string |
Выбирает список стоп-слов для русского языка. |
sorani |
string |
Выбирает список стоп-слов для Sorani. |
spanish |
string |
Выбирает список стоп-слов для испанского языка. |
swedish |
string |
Выбирает список стоп-слов для шведского языка. |
thai |
string |
Выбирает список стоп-слов для тайского языка. |
turkish |
string |
Выбирает список стоп-слов для турецкого языка. |
StopwordsTokenFilter
Удаляет стоп-слова из потока маркеров. Этот фильтр маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
|
ignoreCase |
boolean |
False |
Значение , указывающее, следует ли игнорировать регистр. Если значение равно true, все слова сначала преобразуются в строчные буквы. Значение по умолчанию — false. |
name |
string |
Имя фильтра маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
|
removeTrailing |
boolean |
True |
Значение, указывающее, следует ли игнорировать последнее условие поиска, если это стоп-слово. Значение по умолчанию — true. |
stopwords |
string[] |
Список стоп-слов. Это свойство и свойство списка стоп-слов не могут быть заданы. |
|
stopwordsList | english |
Предопределенный список стоп-слов для использования. Это свойство и свойство стоп-слов не могут быть заданы. По умолчанию используется английский язык. |
Suggester
Определяет, как API suggest должен применяться к группе полей в индексе.
Имя | Тип | Описание |
---|---|---|
name |
string |
Имя средства подбора. |
searchMode |
Значение , указывающее возможности средства подбора. |
|
sourceFields |
string[] |
Список имен полей, к которым применяется средство подбора. Каждое поле должно быть доступны для поиска. |
SuggesterSearchMode
Значение , указывающее возможности средства подбора.
Имя | Тип | Описание |
---|---|---|
analyzingInfixMatching |
string |
Соответствует последовательным целым терминам и префиксам в поле. Например, для поля "Самая быстрая коричневая лиса" запросы "fast" и "fastest brow" будут совпадать. |
SynonymTokenFilter
Соответствует синонимам из одного или нескольких слов в потоке маркеров. Этот фильтр маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
|
expand |
boolean |
True |
Значение , указывающее, будут ли все слова в списке синонимов (если не используется нотация )> сопоставляться друг с другом. Если значение равно true, все слова в списке синонимов (если => нотация не используется) будут сопоставляться друг с другом. Следующий список: невероятный, невероятный, сказочный, удивительный эквивалентно: невероятный, невероятный, сказочный, удивительный => невероятный, невероятный, сказочный, удивительный. Если ложь, следующий список: невероятный, невероятный, сказочный, удивительный будет эквивалентен: невероятный, невероятный, сказочный, удивительный => невероятный. Значение по умолчанию — true. |
ignoreCase |
boolean |
False |
Значение, указывающее, следует ли использовать входные данные свертывания регистра для сопоставления. Значение по умолчанию — false. |
name |
string |
Имя фильтра маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
|
synonyms |
string[] |
Список синонимов в одном из двух форматов: 1. невероятный, невероятный, сказочный => удивительный - все термины слева от символа> будут заменены всеми терминами на правой стороне; 2. невероятный, невероятный, сказочный, удивительный - разделенный запятыми список эквивалентных слов. Установите параметр expand, чтобы изменить способ интерпретации этого списка. |
TagScoringFunction
Определяет функцию, которая увеличивает количество документов со строковыми значениями, соответствующими заданному списку тегов.
Имя | Тип | Описание |
---|---|---|
boost |
number |
Множитель для необработанной оценки. Должно быть положительным числом, не равным 1,0. |
fieldName |
string |
Имя поля, используемого в качестве входных данных для функции оценки. |
interpolation |
Значение, указывающее, как повышение будет интерполировано в оценках документа; значение по умолчанию — "Linear". |
|
tag |
Значения параметров для функции оценки тегов. |
|
type |
string:
tag |
Указывает тип используемой функции. Допустимые значения: magnitude, freshness, distance и tag. Тип функции должен иметь нижний регистр. |
TagScoringParameters
Предоставляет значения параметров для функции оценки тегов.
Имя | Тип | Описание |
---|---|---|
tagsParameter |
string |
Имя параметра, передаваемого в поисковых запросах для указания списка тегов для сравнения с целевым полем. |
TextWeights
Определяет весовые коэффициенты для полей индекса, для которых совпадения должны повысить оценку в поисковых запросах.
Имя | Тип | Описание |
---|---|---|
weights |
object |
Словарь весовых коэффициентов по полю для повышения оценки документов. Ключи — это имена полей, а значения — весовые коэффициенты для каждого поля. |
TokenCharacterKind
Представляет классы символов, с которыми может работать фильтр маркеров.
Имя | Тип | Описание |
---|---|---|
digit |
string |
Сохраняет цифры в токенах. |
letter |
string |
Хранит буквы в токенах. |
punctuation |
string |
Сохраняет знаки препинания в маркерах. |
symbol |
string |
Сохраняет символы в маркерах. |
whitespace |
string |
Сохраняет пробелы в маркерах. |
TokenFilterName
Определяет имена всех фильтров маркеров, поддерживаемых поисковой системой.
TruncateTokenFilter
Усекает термины до определенной длины. Этот фильтр маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
|
length |
integer |
300 |
Длина, при которой будут усечены термины. По умолчанию и максимум — 300. |
name |
string |
Имя фильтра маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
UaxUrlEmailTokenizer
Размечает URL-адреса и сообщения электронной почты как один маркер. Этот создатель маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип создателя маркеров. |
|
maxTokenLength |
integer |
255 |
Максимальная длина маркера. Значение по умолчанию — 255. Маркеры, размер которых превышает максимальную длину, разделяются. Максимальная длина маркера, которую можно использовать, составляет 300 символов. |
name |
string |
Имя создателя маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
UniqueTokenFilter
Отфильтровывает маркеры с тем же текстом, что и в предыдущем маркере. Этот фильтр маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
|
name |
string |
Имя фильтра маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
|
onlyOnSamePosition |
boolean |
False |
Значение , указывающее, следует ли удалять дубликаты только в той же позиции. Значение по умолчанию — false. |
VectorEncodingFormat
Формат кодирования для интерпретации содержимого векторного поля.
Имя | Тип | Описание |
---|---|---|
packedBit |
string |
Формат кодирования, представляющий биты, упакованные в более широкий тип данных. |
VectorSearch
Содержит параметры конфигурации, связанные с поиском векторов.
Имя | Тип | Описание |
---|---|---|
algorithms | VectorSearchAlgorithmConfiguration[]: |
Содержит параметры конфигурации, относящиеся к алгоритму, используемому во время индексирования или запроса. |
compressions | VectorSearchCompressionConfiguration[]: |
Содержит параметры конфигурации, относящиеся к методу сжатия, используемому во время индексирования или запроса. |
profiles |
Определяет сочетания конфигураций, используемых при поиске векторов. |
|
vectorizers | VectorSearchVectorizer[]: |
Содержит параметры конфигурации для векторизации запросов векторов текста. |
VectorSearchAlgorithmKind
Алгоритм, используемый для индексирования и выполнения запросов.
Имя | Тип | Описание |
---|---|---|
exhaustiveKnn |
string |
Исчерпывающий алгоритм KNN, который будет выполнять поиск методом подбора. |
hnsw |
string |
HNSW (Иерархический навигация малый мир), тип алгоритма приблизительных ближайших соседей. |
VectorSearchAlgorithmMetric
Метрика сходства, используемая для векторного сравнения. Рекомендуется выбрать ту же метрику подобия, на основе, насколько обучена модель внедрения.
Имя | Тип | Описание |
---|---|---|
cosine |
string |
Измеряет угол между векторами для количественной оценки их сходства, игнорируя величину. Чем меньше угол, тем ближе сходство. |
dotProduct |
string |
Вычисляет сумму элементовных продуктов для измерения сходства выравнивания и величины. Чем больше и позитивнее, тем ближе сходство. |
euclidean |
string |
Вычисляет расстояние по прямой линии между векторами в многомерном пространстве. Чем меньше расстояние, тем ближе сходство. |
hamming |
string |
Применимо только к битово упакованным двоичным типам данных. Определяет несхожесть путем подсчета различных позиций в двоичных векторах. Чем меньше различий, тем ближе сходство. |
VectorSearchCompressionKind
Метод сжатия, используемый для индексирования и выполнения запросов.
Имя | Тип | Описание |
---|---|---|
scalarQuantization |
string |
Скалярное квантование, тип метода сжатия. При скалярном квантизации исходные значения векторов сжимаются до более узкого типа путем дискретизации и представления каждого компонента вектора с помощью уменьшенного набора квантизованных значений, тем самым уменьшая общий размер данных. |
VectorSearchCompressionTargetDataType
Квантованный тип данных сжатых векторных значений.
Имя | Тип | Описание |
---|---|---|
int8 |
string |
VectorSearchProfile
Определяет сочетание конфигураций, используемых при поиске векторов.
Имя | Тип | Описание |
---|---|---|
algorithm |
string |
Имя конфигурации алгоритма поиска векторов, указывающее алгоритм и необязательные параметры. |
compression |
string |
Имя конфигурации метода сжатия, указывающее метод сжатия и необязательные параметры. |
name |
string |
Имя, сопоставленное с этим конкретным профилем поиска вектора. |
vectorizer |
string |
Имя типа метода векторизации, настраиваемого для использования с поиском векторов. |
VectorSearchVectorizerKind
Метод векторизации, используемый во время запроса.
Имя | Тип | Описание |
---|---|---|
aiServicesVision |
string |
Создавайте внедрения для ввода изображений или текста во время запроса с помощью API Vectorize Служб ИИ Azure. |
aml |
string |
Создавайте внедрения с помощью конечной точки Машинного обучения Azure, развернутой с помощью каталога моделей Azure AI Studio во время запроса. |
azureOpenAI |
string |
Создавайте внедрения с помощью ресурса Azure OpenAI во время запроса. |
customWebApi |
string |
Создавать внедрения с помощью пользовательской конечной точки веб-сайта во время запроса. |
WordDelimiterTokenFilter
Разделяет слова на подслова и выполняет необязательные преобразования в группах подслов. Этот фильтр маркеров реализуется с помощью Apache Lucene.
Имя | Тип | Default value | Описание |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Фрагмент URI, указывающий тип фильтра маркеров. |
|
catenateAll |
boolean |
False |
Значение , указывающее, будут ли все части подсловных слов катенироваться. Например, если задано значение true, "Azure-Search-1" станет "AzureSearch1". Значение по умолчанию — false. |
catenateNumbers |
boolean |
False |
Значение , указывающее, будет ли выполняться максимальное число частей. Например, если задано значение true, "1–2" станет "12". Значение по умолчанию — false. |
catenateWords |
boolean |
False |
Значение, указывающее, будет ли выполняться максимальное количество слов. Например, если задано значение true, "Azure-Search" станет "AzureSearch". Значение по умолчанию — false. |
generateNumberParts |
boolean |
True |
Значение, указывающее, следует ли создавать подслови числа. Значение по умолчанию — true. |
generateWordParts |
boolean |
True |
Значение, указывающее, следует ли создавать слова-части. Если задано значение , вызывает создание частей слов; Например, "AzureSearch" становится "Azure" "Поиск". Значение по умолчанию — true. |
name |
string |
Имя фильтра маркеров. Название должно содержать только буквы, цифры, тире или знаки подчеркивания. Оно может начинаться и заканчиваться только буквенно-цифровыми знаками, и его длина не должна превышать 128 знаков. |
|
preserveOriginal |
boolean |
False |
Значение , указывающее, будут ли сохраняться исходные слова и добавляться в список подсловий. Значение по умолчанию — false. |
protectedWords |
string[] |
Список маркеров для защиты от разделителей. |
|
splitOnCaseChange |
boolean |
True |
Значение, указывающее, следует ли разделять слова в caseChange. Например, если задано значение true, "AzureSearch" становится "Azure" "Поиск". Значение по умолчанию — true. |
splitOnNumerics |
boolean |
True |
Значение, указывающее, следует ли разделять числа. Например, если задано значение true, "Azure1Search" становится "Azure" "1" "Поиск". Значение по умолчанию — true. |
stemEnglishPossessive |
boolean |
True |
Значение, указывающее, следует ли удалять конечные "s" для каждого подсловия. Значение по умолчанию — true. |