Indexes - Create Or Update
Crea un nuovo indice di ricerca o aggiorna un indice, se già esistente.
PUT {endpoint}/indexes('{indexName}')?api-version=2025-09-01
PUT {endpoint}/indexes('{indexName}')?allowIndexDowntime={allowIndexDowntime}&api-version=2025-09-01
Parametri dell'URI
| Nome | In | Necessario | Tipo | Descrizione |
|---|---|---|---|---|
|
endpoint
|
path | True |
string |
URL dell'endpoint del servizio di ricerca. |
|
index
|
path | True |
string |
Definizione dell'indice da creare o aggiornare. |
|
api-version
|
query | True |
string |
Versione dell'API client. |
|
allow
|
query |
boolean |
Consente l'aggiunta di nuovi analizzatori, tokenizzatori, filtri token o filtri char a un indice disconnettendo l'indice per almeno alcuni secondi. In questo modo l'indicizzazione e le richieste di query hanno temporaneamente esito negativo. Le prestazioni e la disponibilità di scrittura dell'indice possono essere compromesse per diversi minuti dopo l'aggiornamento dell'indice o più a lungo per indici molto grandi. |
Intestazione della richiesta
| Nome | Necessario | Tipo | Descrizione |
|---|---|---|---|
| x-ms-client-request-id |
string (uuid) |
ID di rilevamento inviato con la richiesta di assistenza per il debug. |
|
| If-Match |
string |
Definisce la condizione di If-Match. L'operazione verrà eseguita solo se l'ETag sul server corrisponde a questo valore. |
|
| If-None-Match |
string |
Definisce la condizione If-None-Match. L'operazione verrà eseguita solo se l'ETag sul server non corrisponde a questo valore. |
|
| Prefer | True |
string |
Per le richieste HTTP PUT, indica al servizio di restituire la risorsa creata/aggiornata in caso di esito positivo. |
Corpo della richiesta
| Nome | Necessario | Tipo | Descrizione |
|---|---|---|---|
| fields | True |
I campi dell'indice. |
|
| name | True |
string |
Nome dell'indice. |
| @odata.etag |
string |
L'ETag dell'indice. |
|
| analyzers | LexicalAnalyzer[]: |
Analizzatori per l'indice. |
|
| charFilters | CharFilter[]: |
I filtri dei caratteri per l'indice. |
|
| corsOptions |
Opzioni per controllare la condivisione di risorse tra le origini (CORS) per l'indice. |
||
| defaultScoringProfile |
string |
Nome del profilo di punteggio da utilizzare se nella query non è specificato alcun profilo. Se questa proprietà non è impostata e nella query non viene specificato alcun profilo di punteggio, verrà utilizzato il punteggio predefinito (tf-idf). |
|
| description |
string |
Descrizione dell'indice. |
|
| encryptionKey |
Descrizione di una chiave di crittografia creata in Azure Key Vault. Questa chiave viene usata per fornire un ulteriore livello di crittografia dei dati inattivi quando si desidera la certezza completa che nessuno, nemmeno Microsoft, possa decrittografare i dati. Una volta crittografati i dati, questi rimarranno sempre crittografati. Il servizio di ricerca ignorerà i tentativi di impostare questa proprietà su null. È possibile modificare questa proprietà in base alle esigenze se si desidera ruotare la chiave di crittografia; I tuoi dati non saranno interessati. La crittografia con chiavi gestite dal cliente non è disponibile per i servizi di ricerca gratuiti ed è disponibile solo per i servizi a pagamento creati a partire dal 1° gennaio 2019. |
||
| normalizers | LexicalNormalizer[]: |
Normalizzatori per l'indice. |
|
| scoringProfiles |
Profili di punteggio per l'indice. |
||
| semantic |
Definisce i parametri per un indice di ricerca che influenzano le funzionalità semantiche. |
||
| similarity | Similarity: |
Il tipo di algoritmo di somiglianza da utilizzare per l'assegnazione del punteggio e la classificazione dei documenti corrispondenti a una query di ricerca. L'algoritmo di somiglianza può essere definito solo al momento della creazione dell'indice e non può essere modificato negli indici esistenti. Se null, viene utilizzato l'algoritmo ClassicSimilarity. |
|
| suggesters |
I suggerimenti per l'indice. |
||
| tokenFilters |
TokenFilter[]:
|
Il token filtra per l'indice. |
|
| tokenizers | LexicalTokenizer[]: |
I tokenizzatori per l'indice. |
|
| vectorSearch |
Contiene opzioni di configurazione relative alla ricerca vettoriale. |
Risposte
| Nome | Tipo | Descrizione |
|---|---|---|
| 200 OK | ||
| 201 Created | ||
| Other Status Codes |
Risposta di errore. |
Esempio
SearchServiceCreateOrUpdateIndex
Esempio di richiesta
PUT https://stableexampleservice.search.windows.net/indexes('temp-stable-test')?allowIndexDowntime=&api-version=2025-09-01
{
"name": "temp-stable-test",
"description": "description",
"fields": [
{
"name": "id",
"type": "Edm.String",
"key": true,
"sortable": true
},
{
"name": "vector1",
"type": "Collection(Edm.Single)",
"retrievable": true,
"searchable": true,
"dimensions": 20,
"vectorSearchProfile": "config1"
},
{
"name": "vector1b",
"type": "Collection(Edm.Single)",
"retrievable": true,
"searchable": true,
"dimensions": 10,
"vectorSearchProfile": "config2"
},
{
"name": "vector2",
"type": "Collection(Edm.Single)",
"retrievable": true,
"searchable": true,
"dimensions": 5,
"vectorSearchProfile": "config3"
},
{
"name": "vector3",
"type": "Collection(Edm.Single)",
"retrievable": true,
"searchable": true,
"dimensions": 5,
"vectorSearchProfile": "config3"
},
{
"name": "vector22",
"type": "Collection(Edm.Single)",
"retrievable": true,
"searchable": true,
"dimensions": 10,
"vectorSearchProfile": "config2"
},
{
"name": "name",
"type": "Edm.String",
"retrievable": true,
"searchable": true,
"filterable": true,
"sortable": true,
"facetable": true,
"analyzer": "en.lucene"
},
{
"name": "description",
"type": "Edm.String",
"retrievable": true,
"searchable": true,
"filterable": true,
"sortable": true,
"facetable": true,
"analyzer": "standard.lucene"
},
{
"name": "category",
"type": "Edm.String",
"retrievable": true,
"searchable": true,
"filterable": true,
"sortable": true,
"facetable": true,
"analyzer": "en.lucene",
"normalizer": "standard"
},
{
"name": "ownerId",
"type": "Edm.String",
"retrievable": true,
"searchable": true,
"filterable": true,
"sortable": true,
"facetable": true,
"analyzer": "en.lucene"
}
],
"scoringProfiles": [
{
"name": "stringFieldBoost",
"text": {
"weights": {
"name": 3,
"description": 1,
"category": 2,
"ownerId": 1
}
},
"functions": [
{
"tag": {
"tagsParameter": "categoryTag"
},
"type": "tag",
"fieldName": "category",
"boost": 2
}
]
}
],
"defaultScoringProfile": "stringFieldBoost",
"corsOptions": {
"allowedOrigins": [
"https://www.example.com/foo"
],
"maxAgeInSeconds": 10
},
"suggesters": [
{
"name": "sg",
"searchMode": "analyzingInfixMatching",
"sourceFields": [
"category",
"ownerId"
]
}
],
"analyzers": [
{
"tokenizer": "standard_v2",
"tokenFilters": [
"common_grams"
],
"charFilters": [
"html_strip"
],
"@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
"name": "tagsAnalyzer"
}
],
"tokenizers": [
{
"maxTokenLength": 100,
"@odata.type": "#Microsoft.Azure.Search.StandardTokenizerV2",
"name": "my_tokenizer"
}
],
"tokenFilters": [
{
"preserveOriginal": false,
"@odata.type": "#Microsoft.Azure.Search.AsciiFoldingTokenFilter",
"name": "my_tokenFilter"
}
],
"charFilters": [
{
"mappings": [
".=>,",
"_=>-"
],
"@odata.type": "#Microsoft.Azure.Search.MappingCharFilter",
"name": "my_mapping"
}
],
"normalizers": [
{
"tokenFilters": [
"asciifolding"
],
"charFilters": [
"my_mapping"
],
"@odata.type": "#Microsoft.Azure.Search.CustomNormalizer",
"name": "tagsNormalizer"
}
],
"similarity": {
"k1": 10,
"b": 0.1,
"@odata.type": "#Microsoft.Azure.Search.BM25Similarity"
},
"semantic": {
"defaultConfiguration": "testconfig",
"configurations": [
{
"name": "testconfig",
"prioritizedFields": {
"titleField": {
"fieldName": "category"
},
"prioritizedContentFields": [
{
"fieldName": "description"
}
],
"prioritizedKeywordsFields": [
{
"fieldName": "ownerId"
}
]
},
"rankingOrder": "BoostedRerankerScore"
}
]
},
"vectorSearch": {
"profiles": [
{
"name": "config1",
"algorithm": "cosine",
"vectorizer": "openai",
"compression": "mySQ8"
},
{
"name": "config2",
"algorithm": "euclidean",
"vectorizer": "custom-web-api",
"compression": "mySQ8"
},
{
"name": "config3",
"algorithm": "dotProduct",
"vectorizer": "custom-web-api",
"compression": "myBQC"
}
],
"algorithms": [
{
"hnswParameters": {
"metric": "cosine"
},
"name": "cosine",
"kind": "hnsw"
},
{
"hnswParameters": {
"metric": "euclidean"
},
"name": "euclidean",
"kind": "hnsw"
},
{
"hnswParameters": {
"metric": "dotProduct"
},
"name": "dotProduct",
"kind": "hnsw"
}
],
"vectorizers": [
{
"azureOpenAIParameters": {
"resourceUri": "https://test-sample.openai.azure.com/",
"deploymentId": "model",
"apiKey": "api-key",
"modelName": "text-embedding-3-large"
},
"name": "openai",
"kind": "azureOpenAI"
},
{
"customWebApiParameters": {
"uri": "https://my-custom-endpoint.org/",
"httpHeaders": {
"header1": "value1",
"header2": "value2"
},
"httpMethod": "POST",
"timeout": "PT1M",
"authResourceId": "api://f89d1c93-58a7-4b07-9a5b-5f89048b927b",
"authIdentity": {
"@odata.type": "#Microsoft.Azure.Search.DataNoneIdentity"
}
},
"name": "custom-web-api",
"kind": "customWebApi"
}
],
"compressions": [
{
"scalarQuantizationParameters": {
"quantizedDataType": "int8"
},
"name": "mySQ8",
"kind": "scalarQuantization",
"truncationDimension": 2
},
{
"name": "myBQC",
"kind": "binaryQuantization",
"truncationDimension": 2
}
]
},
"@odata.etag": "0x1234568AE7E58A1"
}
Risposta di esempio
{
"name": "temp-stable-test",
"description": "description",
"defaultScoringProfile": "stringFieldBoost",
"fields": [
{
"name": "id",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"stored": true,
"sortable": true,
"facetable": true,
"key": true,
"synonymMaps": []
},
{
"name": "vector1",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"stored": true,
"sortable": false,
"facetable": false,
"key": false,
"dimensions": 20,
"vectorSearchProfile": "config1",
"synonymMaps": []
},
{
"name": "vector1b",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"stored": true,
"sortable": false,
"facetable": false,
"key": false,
"dimensions": 10,
"vectorSearchProfile": "config2",
"synonymMaps": []
},
{
"name": "vector2",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"stored": true,
"sortable": false,
"facetable": false,
"key": false,
"dimensions": 5,
"vectorSearchProfile": "config3",
"synonymMaps": []
},
{
"name": "vector3",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"stored": true,
"sortable": false,
"facetable": false,
"key": false,
"dimensions": 5,
"vectorSearchProfile": "config3",
"synonymMaps": []
},
{
"name": "vector22",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"stored": true,
"sortable": false,
"facetable": false,
"key": false,
"dimensions": 10,
"vectorSearchProfile": "config2",
"synonymMaps": []
},
{
"name": "name",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"stored": true,
"sortable": true,
"facetable": true,
"key": false,
"analyzer": "en.lucene",
"synonymMaps": []
},
{
"name": "description",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"stored": true,
"sortable": true,
"facetable": true,
"key": false,
"analyzer": "standard.lucene",
"synonymMaps": []
},
{
"name": "category",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"stored": true,
"sortable": true,
"facetable": true,
"key": false,
"analyzer": "en.lucene",
"normalizer": "standard",
"synonymMaps": []
},
{
"name": "ownerId",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"stored": true,
"sortable": true,
"facetable": true,
"key": false,
"analyzer": "en.lucene",
"synonymMaps": []
}
],
"scoringProfiles": [
{
"name": "stringFieldBoost",
"functionAggregation": "sum",
"text": {
"weights": {
"name": 3,
"description": 1,
"category": 2,
"ownerId": 1
}
},
"functions": [
{
"fieldName": "category",
"interpolation": "linear",
"type": "tag",
"boost": 2,
"tag": {
"tagsParameter": "categoryTag"
}
}
]
}
],
"corsOptions": {
"allowedOrigins": [
"https://www.example.com/foo"
],
"maxAgeInSeconds": 10
},
"suggesters": [
{
"name": "sg",
"searchMode": "analyzingInfixMatching",
"sourceFields": [
"category",
"ownerId"
]
}
],
"analyzers": [
{
"@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
"name": "tagsAnalyzer",
"tokenizer": "standard_v2",
"tokenFilters": [
"common_grams"
],
"charFilters": [
"html_strip"
]
}
],
"normalizers": [
{
"@odata.type": "#Microsoft.Azure.Search.CustomNormalizer",
"name": "tagsNormalizer",
"tokenFilters": [
"asciifolding"
],
"charFilters": [
"my_mapping"
]
}
],
"tokenizers": [
{
"@odata.type": "#Microsoft.Azure.Search.StandardTokenizerV2",
"name": "my_tokenizer",
"maxTokenLength": 100
}
],
"tokenFilters": [
{
"@odata.type": "#Microsoft.Azure.Search.AsciiFoldingTokenFilter",
"name": "my_tokenFilter",
"preserveOriginal": false
}
],
"charFilters": [
{
"@odata.type": "#Microsoft.Azure.Search.MappingCharFilter",
"name": "my_mapping",
"mappings": [
".=>,",
"_=>-"
]
}
],
"similarity": {
"@odata.type": "#Microsoft.Azure.Search.BM25Similarity",
"k1": 10,
"b": 0.1
},
"semantic": {
"defaultConfiguration": "testconfig",
"configurations": [
{
"name": "testconfig",
"rankingOrder": "BoostedRerankerScore",
"prioritizedFields": {
"titleField": {
"fieldName": "category"
},
"prioritizedContentFields": [
{
"fieldName": "description"
}
],
"prioritizedKeywordsFields": [
{
"fieldName": "ownerId"
}
]
}
}
]
},
"vectorSearch": {
"algorithms": [
{
"name": "cosine",
"kind": "hnsw",
"hnswParameters": {
"metric": "cosine",
"m": 4,
"efConstruction": 400,
"efSearch": 500
}
},
{
"name": "euclidean",
"kind": "hnsw",
"hnswParameters": {
"metric": "euclidean",
"m": 4,
"efConstruction": 400,
"efSearch": 500
}
},
{
"name": "dotProduct",
"kind": "hnsw",
"hnswParameters": {
"metric": "dotProduct",
"m": 4,
"efConstruction": 400,
"efSearch": 500
}
}
],
"profiles": [
{
"name": "config1",
"algorithm": "cosine",
"vectorizer": "openai",
"compression": "mySQ8"
},
{
"name": "config2",
"algorithm": "euclidean",
"vectorizer": "custom-web-api",
"compression": "mySQ8"
},
{
"name": "config3",
"algorithm": "dotProduct",
"vectorizer": "custom-web-api",
"compression": "myBQC"
}
],
"vectorizers": [
{
"name": "openai",
"kind": "azureOpenAI",
"azureOpenAIParameters": {
"resourceUri": "https://test-sample.openai.azure.com",
"deploymentId": "model",
"apiKey": "api-key",
"modelName": "text-embedding-3-large"
}
},
{
"name": "custom-web-api",
"kind": "customWebApi",
"customWebApiParameters": {
"httpMethod": "POST",
"uri": "https://my-custom-endpoint.org/",
"timeout": "PT1M",
"authResourceId": "api://f89d1c93-58a7-4b07-9a5b-5f89048b927b",
"httpHeaders": {
"header1": "value1",
"header2": "value2"
},
"authIdentity": {
"@odata.type": "#Microsoft.Azure.Search.DataNoneIdentity"
}
}
}
],
"compressions": [
{
"name": "mySQ8",
"kind": "scalarQuantization",
"truncationDimension": 2,
"scalarQuantizationParameters": {
"quantizedDataType": "int8"
},
"rescoringOptions": {
"enableRescoring": true,
"defaultOversampling": 4,
"rescoreStorageMethod": "preserveOriginals"
}
},
{
"name": "myBQC",
"kind": "binaryQuantization",
"truncationDimension": 2,
"rescoringOptions": {
"enableRescoring": true,
"defaultOversampling": 4,
"rescoreStorageMethod": "preserveOriginals"
}
}
]
}
}
{
"name": "temp-stable-test",
"description": "description",
"defaultScoringProfile": "stringFieldBoost",
"fields": [
{
"name": "id",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"stored": true,
"sortable": true,
"facetable": true,
"key": true,
"synonymMaps": []
},
{
"name": "vector1",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"stored": true,
"sortable": false,
"facetable": false,
"key": false,
"dimensions": 20,
"vectorSearchProfile": "config1",
"synonymMaps": []
},
{
"name": "vector1b",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"stored": true,
"sortable": false,
"facetable": false,
"key": false,
"dimensions": 10,
"vectorSearchProfile": "config2",
"synonymMaps": []
},
{
"name": "vector2",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"stored": true,
"sortable": false,
"facetable": false,
"key": false,
"dimensions": 5,
"vectorSearchProfile": "config3",
"synonymMaps": []
},
{
"name": "vector3",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"stored": true,
"sortable": false,
"facetable": false,
"key": false,
"dimensions": 5,
"vectorSearchProfile": "config3",
"synonymMaps": []
},
{
"name": "vector22",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"stored": true,
"sortable": false,
"facetable": false,
"key": false,
"dimensions": 10,
"vectorSearchProfile": "config2",
"synonymMaps": []
},
{
"name": "name",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"stored": true,
"sortable": true,
"facetable": true,
"key": false,
"analyzer": "en.lucene",
"synonymMaps": []
},
{
"name": "description",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"stored": true,
"sortable": true,
"facetable": true,
"key": false,
"analyzer": "standard.lucene",
"synonymMaps": []
},
{
"name": "category",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"stored": true,
"sortable": true,
"facetable": true,
"key": false,
"analyzer": "en.lucene",
"normalizer": "standard",
"synonymMaps": []
},
{
"name": "ownerId",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"stored": true,
"sortable": true,
"facetable": true,
"key": false,
"analyzer": "en.lucene",
"synonymMaps": []
}
],
"scoringProfiles": [
{
"name": "stringFieldBoost",
"functionAggregation": "sum",
"text": {
"weights": {
"name": 3,
"description": 1,
"category": 2,
"ownerId": 1
}
},
"functions": [
{
"fieldName": "category",
"interpolation": "linear",
"type": "tag",
"boost": 2,
"tag": {
"tagsParameter": "categoryTag"
}
}
]
}
],
"corsOptions": {
"allowedOrigins": [
"https://www.example.com/foo"
],
"maxAgeInSeconds": 10
},
"suggesters": [
{
"name": "sg",
"searchMode": "analyzingInfixMatching",
"sourceFields": [
"category",
"ownerId"
]
}
],
"analyzers": [
{
"@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
"name": "tagsAnalyzer",
"tokenizer": "standard_v2",
"tokenFilters": [
"common_grams"
],
"charFilters": [
"html_strip"
]
}
],
"normalizers": [
{
"@odata.type": "#Microsoft.Azure.Search.CustomNormalizer",
"name": "tagsNormalizer",
"tokenFilters": [
"asciifolding"
],
"charFilters": [
"my_mapping"
]
}
],
"tokenizers": [
{
"@odata.type": "#Microsoft.Azure.Search.StandardTokenizerV2",
"name": "my_tokenizer",
"maxTokenLength": 100
}
],
"tokenFilters": [
{
"@odata.type": "#Microsoft.Azure.Search.AsciiFoldingTokenFilter",
"name": "my_tokenFilter",
"preserveOriginal": false
}
],
"charFilters": [
{
"@odata.type": "#Microsoft.Azure.Search.MappingCharFilter",
"name": "my_mapping",
"mappings": [
".=>,",
"_=>-"
]
}
],
"similarity": {
"@odata.type": "#Microsoft.Azure.Search.BM25Similarity",
"k1": 10,
"b": 0.1
},
"semantic": {
"defaultConfiguration": "testconfig",
"configurations": [
{
"name": "testconfig",
"rankingOrder": "BoostedRerankerScore",
"prioritizedFields": {
"titleField": {
"fieldName": "category"
},
"prioritizedContentFields": [
{
"fieldName": "description"
}
],
"prioritizedKeywordsFields": [
{
"fieldName": "ownerId"
}
]
}
}
]
},
"vectorSearch": {
"algorithms": [
{
"name": "cosine",
"kind": "hnsw",
"hnswParameters": {
"metric": "cosine",
"m": 4,
"efConstruction": 400,
"efSearch": 500
}
},
{
"name": "euclidean",
"kind": "hnsw",
"hnswParameters": {
"metric": "euclidean",
"m": 4,
"efConstruction": 400,
"efSearch": 500
}
},
{
"name": "dotProduct",
"kind": "hnsw",
"hnswParameters": {
"metric": "dotProduct",
"m": 4,
"efConstruction": 400,
"efSearch": 500
}
}
],
"profiles": [
{
"name": "config1",
"algorithm": "cosine",
"vectorizer": "openai",
"compression": "mySQ8"
},
{
"name": "config2",
"algorithm": "euclidean",
"vectorizer": "custom-web-api",
"compression": "mySQ8"
},
{
"name": "config3",
"algorithm": "dotProduct",
"vectorizer": "custom-web-api",
"compression": "myBQC"
}
],
"vectorizers": [
{
"name": "openai",
"kind": "azureOpenAI",
"azureOpenAIParameters": {
"resourceUri": "https://test-sample.openai.azure.com",
"deploymentId": "model",
"apiKey": "api-key",
"modelName": "text-embedding-3-large"
}
},
{
"name": "custom-web-api",
"kind": "customWebApi",
"customWebApiParameters": {
"httpMethod": "POST",
"uri": "https://my-custom-endpoint.org/",
"timeout": "PT1M",
"authResourceId": "api://f89d1c93-58a7-4b07-9a5b-5f89048b927b",
"httpHeaders": {
"header1": "value1",
"header2": "value2"
},
"authIdentity": {
"@odata.type": "#Microsoft.Azure.Search.DataNoneIdentity"
}
}
}
],
"compressions": [
{
"name": "mySQ8",
"kind": "scalarQuantization",
"truncationDimension": 2,
"scalarQuantizationParameters": {
"quantizedDataType": "int8"
},
"rescoringOptions": {
"enableRescoring": true,
"defaultOversampling": 4,
"rescoreStorageMethod": "preserveOriginals"
}
},
{
"name": "myBQC",
"kind": "binaryQuantization",
"truncationDimension": 2,
"rescoringOptions": {
"enableRescoring": true,
"defaultOversampling": 4,
"rescoreStorageMethod": "preserveOriginals"
}
}
]
}
}
Definizioni
| Nome | Descrizione |
|---|---|
|
Ascii |
Converte i caratteri Unicode alfabetici, numerici e simbolici che non si trovano nei primi 127 caratteri ASCII (il blocco Unicode "Latino di base") nei loro equivalenti ASCII, se tali equivalenti esistono. Questo filtro token viene implementato utilizzando Apache Lucene. |
|
Azure |
Credenziali di un'applicazione registrata creata per il servizio di ricerca, usata per l'accesso autenticato alle chiavi di crittografia archiviate in Azure Key Vault. |
|
Azure |
Consente di generare un incorporamento vettoriale per un determinato input di testo usando la risorsa Azure OpenAI. |
|
Azure |
Nome del modello Azure Open AI che verrà chiamato. |
|
Azure |
Specifica i parametri per la connessione alla risorsa Azure OpenAI. |
|
Azure |
Specifica la risorsa Azure OpenAI usata per vettorializzare una stringa di query. |
|
Binary |
Contiene opzioni di configurazione specifiche per il metodo di compressione della quantizzazione binaria utilizzato durante l'indicizzazione e l'esecuzione di query. |
| BM25Similarity |
Funzione di ranking basata sull'algoritmo di similarità Okapi BM25. BM25 è un algoritmo simile a TF-IDF che include la normalizzazione della lunghezza (controllata dal parametro 'b') e la saturazione della frequenza dei termini (controllata dal parametro 'k1'). |
|
Char |
Definisce i nomi di tutti i filtri carattere supportati dal motore di ricerca. |
|
Cjk |
Forma bigrammi di termini CJK generati dal tokenizer standard. Questo filtro token viene implementato utilizzando Apache Lucene. |
|
Cjk |
Script che possono essere ignorati da CjkBigramTokenFilter. |
|
Classic |
Algoritmo di similarità legacy che utilizza l'implementazione Lucene TFIDFSimilarity di TF-IDF. Questa variante di TF-IDF introduce la normalizzazione statica della lunghezza dei documenti e fattori di coordinamento che penalizzano i documenti che corrispondono solo parzialmente alle query cercate. |
|
Classic |
Tokenizzatore basato sulla grammatica adatto per l'elaborazione della maggior parte dei documenti in lingua europea. Questo tokenizzatore è implementato utilizzando Apache Lucene. |
|
Common |
Costruisci bigrammi per i termini che ricorrono frequentemente durante l'indicizzazione. Anche i singoli termini sono ancora indicizzati, con i bigrammi sovrapposti. Questo filtro token viene implementato utilizzando Apache Lucene. |
|
Cors |
Definisce le opzioni per controllare la condivisione di risorse tra le origini (CORS) per un indice. |
|
Custom |
Consente di assumere il controllo del processo di conversione del testo in token indicizzabili/ricercabili. Si tratta di una configurazione definita dall'utente costituita da un singolo tokenizzatore predefinito e da uno o più filtri. Il tokenizer è responsabile della suddivisione del testo in token e dei filtri per la modifica dei token emessi dal tokenizer. |
|
Custom |
Consente di configurare la normalizzazione per i campi filtrabili, ordinabili e con facet, che per impostazione predefinita funzionano con una corrispondenza rigorosa. Si tratta di una configurazione definita dall'utente costituita da almeno uno o più filtri, che modificano il token memorizzato. |
|
Dictionary |
Decompone le parole composte che si trovano in molte lingue germaniche. Questo filtro token viene implementato utilizzando Apache Lucene. |
|
Distance |
Definisce una funzione che aumenta i punteggi in base alla distanza da una posizione geografica. |
|
Distance |
Fornisce i valori dei parametri a una funzione di assegnazione dei punteggi a distanza. |
|
Edge |
Genera n-grammi delle dimensioni specificate a partire dalla parte anteriore o posteriore di un token di input. Questo filtro token viene implementato utilizzando Apache Lucene. |
|
Edge |
Specifica da quale lato dell'input deve essere generato un n-gram. |
|
Edge |
Genera n-grammi delle dimensioni specificate a partire dalla parte anteriore o posteriore di un token di input. Questo filtro token viene implementato utilizzando Apache Lucene. |
|
Edge |
Tokenizza l'input da un bordo in n-grammi delle dimensioni specificate. Questo tokenizzatore è implementato utilizzando Apache Lucene. |
|
Elision |
Rimuove le elisioni. Ad esempio, "l'avion" (l'aereo) sarà convertito in "avion" (aereo). Questo filtro token viene implementato utilizzando Apache Lucene. |
|
Error |
Informazioni aggiuntive sull'errore di gestione delle risorse. |
|
Error |
Dettagli dell'errore. |
|
Error |
Risposta di errore |
|
Exhaustive |
Contiene i parametri specifici dell'algoritmo KNN esaustivo. |
|
Exhaustive |
Contiene opzioni di configurazione specifiche per l'algoritmo KNN esaustivo utilizzato durante l'interrogazione, che eseguirà una ricerca di forza bruta sull'intero indice vettoriale. |
|
Freshness |
Definisce una funzione che aumenta i punteggi in base al valore di un campo data-ora. |
|
Freshness |
Fornisce i valori dei parametri a una funzione di punteggio dell'aggiornamento. |
|
Hnsw |
Contiene i parametri specifici dell'algoritmo HNSW. |
|
Hnsw |
Contiene opzioni di configurazione specifiche per l'algoritmo dei vicini più vicini approssimativi HNSW utilizzato durante l'indicizzazione e l'esecuzione di query. L'algoritmo HNSW offre un compromesso regolabile tra velocità di ricerca e precisione. |
|
Input |
Mappatura dei campi di input per una competenza. |
|
Keep |
Filtro token che mantiene solo i token con testo contenuto in un elenco di parole specificato. Questo filtro token viene implementato utilizzando Apache Lucene. |
|
Keyword |
Contrassegna i termini come parole chiave. Questo filtro token viene implementato utilizzando Apache Lucene. |
|
Keyword |
Emette l'intero input come un singolo token. Questo tokenizzatore è implementato utilizzando Apache Lucene. |
|
Keyword |
Emette l'intero input come un singolo token. Questo tokenizzatore è implementato utilizzando Apache Lucene. |
|
Length |
Rimuove le parole troppo lunghe o troppo brevi. Questo filtro token viene implementato utilizzando Apache Lucene. |
|
Lexical |
Definisce i nomi di tutti gli analizzatori di testo supportati dal motore di ricerca. |
|
Lexical |
Definisce i nomi di tutti i normalizzatori di testo supportati dal motore di ricerca. |
|
Lexical |
Definisce i nomi di tutti i tokenizzatori supportati dal motore di ricerca. |
|
Limit |
Limita il numero di token durante l'indicizzazione. Questo filtro token viene implementato utilizzando Apache Lucene. |
|
Lucene |
Analizzatore Apache Lucene standard; Composto dal tokenizzatore standard, dal filtro minuscolo e dal filtro stop. |
|
Lucene |
Interrompe il testo seguendo le regole di segmentazione del testo Unicode. Questo tokenizzatore è implementato utilizzando Apache Lucene. |
|
Lucene |
Interrompe il testo seguendo le regole di segmentazione del testo Unicode. Questo tokenizzatore è implementato utilizzando Apache Lucene. |
|
Magnitude |
Definisce una funzione che aumenta i punteggi in base all'entità di un campo numerico. |
|
Magnitude |
Fornisce i valori dei parametri a una funzione di assegnazione dei punteggi di grandezza. |
|
Mapping |
Un filtro caratteri che applica le mappature definite con l'opzione mappature. L'abbinamento è avido (vince l'abbinamento del modello più lungo in un dato punto). La sostituzione può essere la stringa vuota. Questo filtro caratteri viene implementato utilizzando Apache Lucene. |
|
Microsoft |
Divide il testo utilizzando regole specifiche della lingua e riduce le parole alla loro forma di base. |
|
Microsoft |
Divide il testo utilizzando regole specifiche della lingua. |
|
Microsoft |
Elenca le lingue supportate dal tokenizer di derivazione del linguaggio Microsoft. |
|
Microsoft |
Elenca le lingue supportate dal tokenizer di lingua Microsoft. |
|
NGram |
Genera n-grammi della dimensione o delle dimensioni specificate. Questo filtro token viene implementato utilizzando Apache Lucene. |
|
NGram |
Genera n-grammi della dimensione o delle dimensioni specificate. Questo filtro token viene implementato utilizzando Apache Lucene. |
|
NGram |
Tokenizza l'input in n-grammi delle dimensioni specificate. Questo tokenizzatore è implementato utilizzando Apache Lucene. |
|
Output |
Mappatura dei campi di output per una competenza. |
|
Path |
Tokenizer per gerarchie simili a percorsi. Questo tokenizzatore è implementato utilizzando Apache Lucene. |
|
Pattern |
Separa in modo flessibile il testo in termini tramite un modello di espressione regolare. Questo analizzatore viene implementato utilizzando Apache Lucene. |
|
Pattern |
Utilizza le espressioni regolari Java per generare più token, uno per ogni gruppo di acquisizione in uno o più modelli. Questo filtro token viene implementato utilizzando Apache Lucene. |
|
Pattern |
Filtro caratteri che sostituisce i caratteri nella stringa di input. Utilizza un'espressione regolare per identificare le sequenze di caratteri da mantenere e un modello di sostituzione per identificare i caratteri da sostituire. Ad esempio, dato il testo di input "aa bb aa bb", il modello "(aa)\s+(bb)" e la sostituzione "$1#$2", il risultato sarebbe "aa#bb aa#bb". Questo filtro caratteri viene implementato utilizzando Apache Lucene. |
|
Pattern |
Filtro caratteri che sostituisce i caratteri nella stringa di input. Utilizza un'espressione regolare per identificare le sequenze di caratteri da mantenere e un modello di sostituzione per identificare i caratteri da sostituire. Ad esempio, dato il testo di input "aa bb aa bb", il modello "(aa)\s+(bb)" e la sostituzione "$1#$2", il risultato sarebbe "aa#bb aa#bb". Questo filtro token viene implementato utilizzando Apache Lucene. |
|
Pattern |
Tokenizer che utilizza la corrispondenza dei modelli regex per creare token distinti. Questo tokenizzatore è implementato utilizzando Apache Lucene. |
|
Phonetic |
Identifica il tipo di codificatore fonetico da utilizzare con un PhoneticTokenFilter. |
|
Phonetic |
Crea token per le corrispondenze fonetiche. Questo filtro token viene implementato utilizzando Apache Lucene. |
|
Prioritized |
Descrive i campi del titolo, del contenuto e delle parole chiave da utilizzare per la classificazione semantica, le didascalie, le evidenziazioni e le risposte. |
|
Ranking |
Rappresenta il punteggio da utilizzare per l'ordinamento dei documenti. |
|
Regex |
Definisce i flag che possono essere combinati per controllare il modo in cui le espressioni regolari vengono utilizzate nell'analizzatore di pattern e nel tokenizer di pattern. |
|
Rescoring |
Contiene le opzioni per la riassegnazione dei punteggi. |
|
Scalar |
Contiene i parametri specifici della quantizzazione scalare. |
|
Scalar |
Contiene opzioni di configurazione specifiche per il metodo di compressione della quantizzazione scalare utilizzato durante l'indicizzazione e l'esecuzione di query. |
|
Scoring |
Definisce la funzione di aggregazione utilizzata per combinare i risultati di tutte le funzioni di assegnazione dei punteggi in un profilo di punteggio. |
|
Scoring |
Definisce la funzione utilizzata per interpolare l'aumento del punteggio in un intervallo di documenti. |
|
Scoring |
Definisce i parametri per un indice di ricerca che influenzano l'assegnazione dei punteggi nelle query di ricerca. |
|
Search |
Rappresenta un campo in una definizione di indice, che descrive il nome, il tipo di dati e il comportamento di ricerca di un campo. |
|
Search |
Definisce il tipo di dati di un campo in un indice di ricerca. |
|
Search |
Rappresenta una definizione dell'indice di ricerca, che descrive i campi e il comportamento di ricerca di un indice. |
|
Search |
Cancella la proprietà identity di un'origine dati. |
|
Search |
Specifica l'identità da utilizzare per un'origine dati. |
|
Search |
Una chiave di crittografia gestita dal cliente in Azure Key Vault. Le chiavi create e gestite dall'utente possono essere utilizzate per crittografare o decrittografare i dati inattivi, ad esempio indici e mappe di sinonimi. |
|
Semantic |
Definisce una configurazione specifica da utilizzare nel contesto delle funzionalità semantiche. |
|
Semantic |
Campo utilizzato come parte della configurazione semantica. |
|
Semantic |
Definisce i parametri per un indice di ricerca che influenzano le funzionalità semantiche. |
|
Shingle |
Crea combinazioni di token come un singolo token. Questo filtro token viene implementato utilizzando Apache Lucene. |
|
Snowball |
Un filtro che suddivide le parole utilizzando uno stemmer generato da Snowball. Questo filtro token viene implementato utilizzando Apache Lucene. |
|
Snowball |
Lingua da utilizzare per un filtro token Snowball. |
|
Stemmer |
Offre la possibilità di eseguire l'override di altri filtri di stemming con lo stemming personalizzato basato su dizionario. Tutti i termini con radice del dizionario verranno contrassegnati come parole chiave in modo che non vengano contrassegnati con le radici lungo la catena. Deve essere posizionato prima di qualsiasi filtro di stesura. Questo filtro token viene implementato utilizzando Apache Lucene. |
|
Stemmer |
Filtro di derivazione specifico della lingua. Questo filtro token viene implementato utilizzando Apache Lucene. |
|
Stemmer |
Linguaggio da utilizzare per un filtro token stemmer. |
|
Stop |
Divide il testo in corrispondenza di non-lettere; Applica i filtri dei token per le lettere minuscole e le parole non significative. Questo analizzatore viene implementato utilizzando Apache Lucene. |
|
Stopwords |
Identifica un elenco predefinito di parole non significative specifiche della lingua. |
|
Stopwords |
Rimuove le parole non significative da un flusso di token. Questo filtro token viene implementato utilizzando Apache Lucene. |
| Suggester |
Definisce il modo in cui l'API Suggest deve essere applicata a un gruppo di campi nell'indice. |
|
Suggester |
Valore che indica le capacità del suggeritore. |
|
Synonym |
Corrisponde a sinonimi di una o più parole in un flusso di token. Questo filtro token viene implementato utilizzando Apache Lucene. |
|
Tag |
Definisce una funzione che aumenta i punteggi dei documenti con valori stringa corrispondenti a un determinato elenco di tag. |
|
Tag |
Fornisce i valori dei parametri a una funzione di assegnazione dei punteggi dei tag. |
|
Text |
Definisce i pesi nei campi indice per i quali le corrispondenze devono aumentare il punteggio nelle query di ricerca. |
|
Token |
Rappresenta le classi di caratteri su cui può operare un filtro token. |
|
Token |
Definisce i nomi di tutti i filtri token supportati dal motore di ricerca. |
|
Truncate |
Tronca i termini a una lunghezza specifica. Questo filtro token viene implementato utilizzando Apache Lucene. |
|
Uax |
Tokenizza URL ed e-mail come un unico token. Questo tokenizzatore è implementato utilizzando Apache Lucene. |
|
Unique |
Filtra i token con lo stesso testo del token precedente. Questo filtro token viene implementato utilizzando Apache Lucene. |
|
Vector |
Formato di codifica per l'interpretazione del contenuto del campo vettoriale. |
|
Vector |
Contiene opzioni di configurazione relative alla ricerca vettoriale. |
|
Vector |
Algoritmo utilizzato per l'indicizzazione e l'esecuzione di query. |
|
Vector |
La metrica di somiglianza da utilizzare per i confronti vettoriali. Si consiglia di scegliere la stessa metrica di somiglianza su cui è stato addestrato il modello di incorporamento. |
|
Vector |
Metodo di compressione utilizzato per l'indicizzazione e l'esecuzione di query. |
|
Vector |
Metodo di archiviazione per i vettori originali a precisione completa utilizzati per il rescoring e le operazioni di indicizzazione interna. |
|
Vector |
Tipo di dati quantizzati dei valori vettoriali compressi. |
|
Vector |
Definisce una combinazione di configurazioni da utilizzare con la ricerca vettoriale. |
|
Vector |
Metodo di vettorizzazione da utilizzare durante la fase di query. |
|
Web |
Specifica le proprietà per la connessione a un vettorizzatore definito dall'utente. |
|
Web |
Specifica un vettorizzatore definito dall'utente per la generazione dell'incorporamento vettoriale di una stringa di query. L'integrazione di un vettorizzatore esterno si ottiene utilizzando l'interfaccia API Web personalizzata di un set di competenze. |
|
Word |
Suddivide le parole in sottoparole ed esegue trasformazioni facoltative sui gruppi di sottoparole. Questo filtro token viene implementato utilizzando Apache Lucene. |
AsciiFoldingTokenFilter
Converte i caratteri Unicode alfabetici, numerici e simbolici che non si trovano nei primi 127 caratteri ASCII (il blocco Unicode "Latino di base") nei loro equivalenti ASCII, se tali equivalenti esistono. Questo filtro token viene implementato utilizzando Apache Lucene.
| Nome | Tipo | Valore predefinito | Descrizione |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Frammento URI che specifica il tipo di filtro token. |
|
| name |
string |
Nome del filtro token. Deve contenere solo lettere, cifre, spazi, trattini o trattini bassi, può iniziare e terminare solo con caratteri alfanumerici ed è limitato a 128 caratteri. |
|
| preserveOriginal |
boolean |
False |
Un valore che indica se il token originale verrà mantenuto. Il valore predefinito è false. |
AzureActiveDirectoryApplicationCredentials
Credenziali di un'applicazione registrata creata per il servizio di ricerca, usata per l'accesso autenticato alle chiavi di crittografia archiviate in Azure Key Vault.
| Nome | Tipo | Descrizione |
|---|---|---|
| applicationId |
string |
Un ID applicazione AAD a cui sono state concesse le autorizzazioni di accesso necessarie per Azure Key Vault che deve essere usato per crittografare i dati inattivi. L'ID applicazione non deve essere confuso con l'ID oggetto per l'applicazione AAD. |
| applicationSecret |
string |
Chiave di autenticazione dell'applicazione AAD specificata. |
AzureOpenAIEmbeddingSkill
Consente di generare un incorporamento vettoriale per un determinato input di testo usando la risorsa Azure OpenAI.
| Nome | Tipo | Descrizione |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
Frammento URI che specifica il tipo di competenza. |
| apiKey |
string |
Chiave API della risorsa Azure OpenAI designata. |
| authIdentity | SearchIndexerDataIdentity: |
Identità gestita assegnata dall'utente utilizzata per le connessioni in uscita. |
| context |
string |
Rappresenta il livello in cui vengono eseguite le operazioni, ad esempio la radice del documento o il contenuto del documento (ad esempio, /document o /document/content). Il valore predefinito è /document. |
| deploymentId |
string |
ID della distribuzione del modello Azure OpenAI nella risorsa designata. |
| description |
string |
La descrizione dell'abilità che descrive gli input, gli output e l'utilizzo dell'abilità. |
| dimensions |
integer (int32) |
Numero di dimensioni che devono essere presenti negli incorporamenti di output risultanti. Supportato solo nei modelli text-embedding-3 e successivi. |
| inputs |
Gli input delle competenze possono essere una colonna nel set di dati di origine o l'output di una competenza a monte. |
|
| modelName |
Nome del modello di incorporamento distribuito nel percorso deploymentId specificato. |
|
| name |
string |
Il nome della competenza che la identifica in modo univoco all'interno del set di competenze. A un'abilità senza nome definito verrà assegnato un nome predefinito del suo indice in base 1 nell'array di abilità, preceduto dal carattere '#'. |
| outputs |
L'output di una competenza è un campo in un indice di ricerca o un valore che può essere utilizzato come input da un'altra competenza. |
|
| resourceUri |
string (uri) |
URI della risorsa Azure OpenAI. |
AzureOpenAIModelName
Nome del modello Azure Open AI che verrà chiamato.
| Valore | Descrizione |
|---|---|
| text-embedding-ada-002 | |
| text-embedding-3-large | |
| text-embedding-3-small |
AzureOpenAIParameters
Specifica i parametri per la connessione alla risorsa Azure OpenAI.
| Nome | Tipo | Descrizione |
|---|---|---|
| apiKey |
string |
Chiave API della risorsa Azure OpenAI designata. |
| authIdentity | SearchIndexerDataIdentity: |
Identità gestita assegnata dall'utente utilizzata per le connessioni in uscita. |
| deploymentId |
string |
ID della distribuzione del modello Azure OpenAI nella risorsa designata. |
| modelName |
Nome del modello di incorporamento distribuito nel percorso deploymentId specificato. |
|
| resourceUri |
string (uri) |
URI della risorsa Azure OpenAI. |
AzureOpenAIVectorizer
Specifica la risorsa Azure OpenAI usata per vettorializzare una stringa di query.
| Nome | Tipo | Descrizione |
|---|---|---|
| azureOpenAIParameters | AzureOpenAIParameters: |
Contiene i parametri specifici della vettorizzazione di incorporamento di Azure OpenAI. |
| kind |
string:
azure |
Nome del tipo di metodo di vettorizzazione configurato per l'utilizzo con la ricerca vettoriale. |
| name |
string |
Nome da associare a questo particolare metodo di vettorializzazione. |
BinaryQuantizationVectorSearchCompressionConfiguration
Contiene opzioni di configurazione specifiche per il metodo di compressione della quantizzazione binaria utilizzato durante l'indicizzazione e l'esecuzione di query.
| Nome | Tipo | Descrizione |
|---|---|---|
| kind |
string:
binary |
Nome del tipo di metodo di compressione configurato per l'utilizzo con la ricerca vettoriale. |
| name |
string |
Nome da associare a questa particolare configurazione. |
| rescoringOptions |
Contiene le opzioni per la riassegnazione dei punteggi. |
|
| truncationDimension |
integer (int32) |
Il numero di dimensioni a cui troncare i vettori. Il troncamento dei vettori riduce le dimensioni dei vettori e la quantità di dati che devono essere trasferiti durante la ricerca. In questo modo è possibile risparmiare sui costi di archiviazione e migliorare le prestazioni di ricerca a scapito del richiamo. Dovrebbe essere utilizzato solo per gli embedding addestrati con Matryoshka Representation Learning (MRL) come OpenAI text-embedding-3-large (small). Il valore predefinito è null, il che significa che non c'è troncamento. |
BM25Similarity
Funzione di ranking basata sull'algoritmo di similarità Okapi BM25. BM25 è un algoritmo simile a TF-IDF che include la normalizzazione della lunghezza (controllata dal parametro 'b') e la saturazione della frequenza dei termini (controllata dal parametro 'k1').
| Nome | Tipo | Descrizione |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
|
| b |
number (double) |
Questa proprietà controlla il modo in cui la lunghezza di un documento influisce sul punteggio di pertinenza. Per impostazione predefinita, viene utilizzato un valore di 0,75. Un valore pari a 0,0 indica che non viene applicata alcuna normalizzazione della lunghezza, mentre un valore pari a 1,0 indica che il punteggio è completamente normalizzato in base alla lunghezza del documento. |
| k1 |
number (double) |
Questa proprietà controlla la funzione di ridimensionamento tra la frequenza dei termini di ogni termine corrispondente e il punteggio di pertinenza finale di una coppia documento-query. Per impostazione predefinita, viene utilizzato un valore di 1,2. Un valore pari a 0,0 indica che il punteggio non viene scalato con un aumento della frequenza dei termini. |
CharFilterName
Definisce i nomi di tutti i filtri carattere supportati dal motore di ricerca.
| Valore | Descrizione |
|---|---|
| html_strip |
Un filtro di caratteri che tenta di eliminare i costrutti HTML. Fare riferimento a https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html |
CjkBigramTokenFilter
Forma bigrammi di termini CJK generati dal tokenizer standard. Questo filtro token viene implementato utilizzando Apache Lucene.
| Nome | Tipo | Valore predefinito | Descrizione |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Frammento URI che specifica il tipo di filtro token. |
|
| ignoreScripts |
Gli script da ignorare. |
||
| name |
string |
Nome del filtro token. Deve contenere solo lettere, cifre, spazi, trattini o trattini bassi, può iniziare e terminare solo con caratteri alfanumerici ed è limitato a 128 caratteri. |
|
| outputUnigrams |
boolean |
False |
Un valore che indica se emettere sia unigrammi che bigrammi (se true) o solo bigrammi (se false). Il valore predefinito è false. |
CjkBigramTokenFilterScripts
Script che possono essere ignorati da CjkBigramTokenFilter.
| Valore | Descrizione |
|---|---|
| han |
Ignora la scrittura Han quando formi bigrammi di termini CJK. |
| hiragana |
Ignora la scrittura Hiragana quando formi bigrammi di termini CJK. |
| katakana |
Ignora la scrittura Katakana quando formi bigrammi di termini CJK. |
| hangul |
Ignora la scrittura Hangul quando formi bigrammi di termini CJK. |
ClassicSimilarity
Algoritmo di similarità legacy che utilizza l'implementazione Lucene TFIDFSimilarity di TF-IDF. Questa variante di TF-IDF introduce la normalizzazione statica della lunghezza dei documenti e fattori di coordinamento che penalizzano i documenti che corrispondono solo parzialmente alle query cercate.
| Nome | Tipo | Descrizione |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
ClassicTokenizer
Tokenizzatore basato sulla grammatica adatto per l'elaborazione della maggior parte dei documenti in lingua europea. Questo tokenizzatore è implementato utilizzando Apache Lucene.
| Nome | Tipo | Valore predefinito | Descrizione |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Frammento URI che specifica il tipo di tokenizer. |
|
| maxTokenLength |
integer (int32) maximum: 300 |
255 |
Lunghezza massima del token. Il valore predefinito è 255. I token più lunghi della lunghezza massima vengono divisi. La lunghezza massima del token che può essere utilizzata è di 300 caratteri. |
| name |
string |
Il nome del tokenizer. Deve contenere solo lettere, cifre, spazi, trattini o trattini bassi, può iniziare e terminare solo con caratteri alfanumerici ed è limitato a 128 caratteri. |
CommonGramTokenFilter
Costruisci bigrammi per i termini che ricorrono frequentemente durante l'indicizzazione. Anche i singoli termini sono ancora indicizzati, con i bigrammi sovrapposti. Questo filtro token viene implementato utilizzando Apache Lucene.
| Nome | Tipo | Valore predefinito | Descrizione |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Frammento URI che specifica il tipo di filtro token. |
|
| commonWords |
string[] |
L'insieme delle parole comuni. |
|
| ignoreCase |
boolean |
False |
Un valore che indica se la corrispondenza delle parole comuni non farà distinzione tra maiuscole e minuscole. Il valore predefinito è false. |
| name |
string |
Nome del filtro token. Deve contenere solo lettere, cifre, spazi, trattini o trattini bassi, può iniziare e terminare solo con caratteri alfanumerici ed è limitato a 128 caratteri. |
|
| queryMode |
boolean |
False |
Valore che indica se il filtro token è in modalità query. In modalità query, il filtro token genera bigrammi e quindi rimuove le parole comuni e i singoli termini seguiti da una parola comune. Il valore predefinito è false. |
CorsOptions
Definisce le opzioni per controllare la condivisione di risorse tra le origini (CORS) per un indice.
| Nome | Tipo | Descrizione |
|---|---|---|
| allowedOrigins |
string[] |
L'elenco delle origini da cui il codice JavaScript avrà accesso all'indice. Può contenere un elenco di host nel formato {protocol}://{nome-dominio-completo}[:{port#}], o un singolo '*' per consentire tutte le origini (non consigliato). |
| maxAgeInSeconds |
integer (int64) |
Durata per la quale i browser devono memorizzare nella cache le risposte preliminari CORS. Il valore predefinito è 5 minuti. |
CustomAnalyzer
Consente di assumere il controllo del processo di conversione del testo in token indicizzabili/ricercabili. Si tratta di una configurazione definita dall'utente costituita da un singolo tokenizzatore predefinito e da uno o più filtri. Il tokenizer è responsabile della suddivisione del testo in token e dei filtri per la modifica dei token emessi dal tokenizer.
| Nome | Tipo | Descrizione |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
Frammento di URI che specifica il tipo di analizzatore. |
| charFilters |
Elenco di filtri caratteri utilizzati per preparare il testo di input prima che venga elaborato dal tokenizer. Ad esempio, possono sostituire determinati caratteri o simboli. I filtri vengono eseguiti nell'ordine in cui sono elencati. |
|
| name |
string |
Nome dell'analizzatore. Deve contenere solo lettere, cifre, spazi, trattini o trattini bassi, può iniziare e terminare solo con caratteri alfanumerici ed è limitato a 128 caratteri. |
| tokenFilters |
Elenco di filtri token utilizzati per filtrare o modificare i token generati da un tokenizer. Ad esempio, è possibile specificare un filtro minuscolo che converte tutti i caratteri in minuscolo. I filtri vengono eseguiti nell'ordine in cui sono elencati. |
|
| tokenizer |
Il nome del tokenizer da utilizzare per dividere il testo continuo in una sequenza di token, ad esempio suddividendo una frase in parole. |
CustomNormalizer
Consente di configurare la normalizzazione per i campi filtrabili, ordinabili e con facet, che per impostazione predefinita funzionano con una corrispondenza rigorosa. Si tratta di una configurazione definita dall'utente costituita da almeno uno o più filtri, che modificano il token memorizzato.
| Nome | Tipo | Descrizione |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
Frammento URI che specifica il tipo di normalizzatore. |
| charFilters |
Elenco di filtri caratteri utilizzati per preparare il testo di input prima che venga elaborato. Ad esempio, possono sostituire determinati caratteri o simboli. I filtri vengono eseguiti nell'ordine in cui sono elencati. |
|
| name |
string |
Nome del normalizzatore. Deve contenere solo lettere, cifre, spazi, trattini o trattini bassi, può iniziare e terminare solo con caratteri alfanumerici ed è limitato a 128 caratteri. Non può terminare con '.microsoft' né '.lucene', né essere chiamato 'asciifolding', 'standard', 'minuscolo', 'maiuscolo' o 'elisione'. |
| tokenFilters |
Elenco di filtri token utilizzati per filtrare o modificare il token di input. Ad esempio, è possibile specificare un filtro minuscolo che converte tutti i caratteri in minuscolo. I filtri vengono eseguiti nell'ordine in cui sono elencati. |
DictionaryDecompounderTokenFilter
Decompone le parole composte che si trovano in molte lingue germaniche. Questo filtro token viene implementato utilizzando Apache Lucene.
| Nome | Tipo | Valore predefinito | Descrizione |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Frammento URI che specifica il tipo di filtro token. |
|
| maxSubwordSize |
integer (int32) maximum: 300 |
15 |
Dimensione massima della sottoparola. Vengono emesse solo le sottoparole più brevi di questa. L'impostazione predefinita è 15. Il massimo è 300. |
| minSubwordSize |
integer (int32) maximum: 300 |
2 |
La dimensione minima della sottoparola. Vengono emesse solo le sottoparole più lunghe di questa. Il valore predefinito è 2. Il massimo è 300. |
| minWordSize |
integer (int32) maximum: 300 |
5 |
La dimensione minima della parola. Vengono elaborate solo le parole più lunghe di questa. Il valore predefinito è 5. Il massimo è 300. |
| name |
string |
Nome del filtro token. Deve contenere solo lettere, cifre, spazi, trattini o trattini bassi, può iniziare e terminare solo con caratteri alfanumerici ed è limitato a 128 caratteri. |
|
| onlyLongestMatch |
boolean |
False |
Valore che indica se aggiungere all'output solo la sottoparola corrispondente più lunga. Il valore predefinito è false. |
| wordList |
string[] |
L'elenco delle parole con cui confrontare. |
DistanceScoringFunction
Definisce una funzione che aumenta i punteggi in base alla distanza da una posizione geografica.
| Nome | Tipo | Descrizione |
|---|---|---|
| boost |
number (double) |
Un moltiplicatore per il punteggio non elaborato. Deve essere un numero positivo diverso da 1,0. |
| distance |
Valori dei parametri per la funzione di punteggio della distanza. |
|
| fieldName |
string |
Nome del campo utilizzato come input per la funzione di punteggio. |
| interpolation |
Un valore che indica il modo in cui l'aumento verrà interpolato tra i punteggi dei documenti; il valore predefinito è "Lineare". |
|
| type |
string:
distance |
Indica il tipo di funzione da utilizzare. I valori validi includono magnitudine, freschezza, distanza e tag. Il tipo di funzione deve essere minuscolo. |
DistanceScoringParameters
Fornisce i valori dei parametri a una funzione di assegnazione dei punteggi a distanza.
| Nome | Tipo | Descrizione |
|---|---|---|
| boostingDistance |
number (double) |
La distanza in chilometri dalla posizione di riferimento in cui termina l'intervallo di potenziamento. |
| referencePointParameter |
string |
Nome del parametro passato nelle query di ricerca per specificare la posizione di riferimento. |
EdgeNGramTokenFilter
Genera n-grammi delle dimensioni specificate a partire dalla parte anteriore o posteriore di un token di input. Questo filtro token viene implementato utilizzando Apache Lucene.
| Nome | Tipo | Valore predefinito | Descrizione |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Frammento URI che specifica il tipo di filtro token. |
|
| maxGram |
integer (int32) |
2 |
La lunghezza massima di n-grammi. Il valore predefinito è 2. |
| minGram |
integer (int32) |
1 |
La lunghezza minima di n-grammi. Il valore predefinito è 1. Deve essere inferiore al valore di maxGram. |
| name |
string |
Nome del filtro token. Deve contenere solo lettere, cifre, spazi, trattini o trattini bassi, può iniziare e terminare solo con caratteri alfanumerici ed è limitato a 128 caratteri. |
|
| side | front |
Specifica da quale lato dell'input deve essere generato l'n-gram. Il valore predefinito è "front". |
EdgeNGramTokenFilterSide
Specifica da quale lato dell'input deve essere generato un n-gram.
| Valore | Descrizione |
|---|---|
| front |
Specifica che l'n-grammo deve essere generato dalla parte anteriore dell'input. |
| back |
Specifica che l'n-grammo deve essere generato dal retro dell'input. |
EdgeNGramTokenFilterV2
Genera n-grammi delle dimensioni specificate a partire dalla parte anteriore o posteriore di un token di input. Questo filtro token viene implementato utilizzando Apache Lucene.
| Nome | Tipo | Valore predefinito | Descrizione |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Frammento URI che specifica il tipo di filtro token. |
|
| maxGram |
integer (int32) maximum: 300 |
2 |
La lunghezza massima di n-grammi. Il valore predefinito è 2. Il massimo è 300. |
| minGram |
integer (int32) maximum: 300 |
1 |
La lunghezza minima di n-grammi. Il valore predefinito è 1. Il massimo è 300. Deve essere inferiore al valore di maxGram. |
| name |
string |
Nome del filtro token. Deve contenere solo lettere, cifre, spazi, trattini o trattini bassi, può iniziare e terminare solo con caratteri alfanumerici ed è limitato a 128 caratteri. |
|
| side | front |
Specifica da quale lato dell'input deve essere generato l'n-gram. Il valore predefinito è "front". |
EdgeNGramTokenizer
Tokenizza l'input da un bordo in n-grammi delle dimensioni specificate. Questo tokenizzatore è implementato utilizzando Apache Lucene.
| Nome | Tipo | Valore predefinito | Descrizione |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Frammento URI che specifica il tipo di tokenizer. |
|
| maxGram |
integer (int32) maximum: 300 |
2 |
La lunghezza massima di n-grammi. Il valore predefinito è 2. Il massimo è 300. |
| minGram |
integer (int32) maximum: 300 |
1 |
La lunghezza minima di n-grammi. Il valore predefinito è 1. Il massimo è 300. Deve essere inferiore al valore di maxGram. |
| name |
string |
Il nome del tokenizer. Deve contenere solo lettere, cifre, spazi, trattini o trattini bassi, può iniziare e terminare solo con caratteri alfanumerici ed è limitato a 128 caratteri. |
|
| tokenChars |
Classi di personaggi da mantenere nei gettoni. |
ElisionTokenFilter
Rimuove le elisioni. Ad esempio, "l'avion" (l'aereo) sarà convertito in "avion" (aereo). Questo filtro token viene implementato utilizzando Apache Lucene.
| Nome | Tipo | Descrizione |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
Frammento URI che specifica il tipo di filtro token. |
| articles |
string[] |
L'insieme di articoli da rimuovere. |
| name |
string |
Nome del filtro token. Deve contenere solo lettere, cifre, spazi, trattini o trattini bassi, può iniziare e terminare solo con caratteri alfanumerici ed è limitato a 128 caratteri. |
ErrorAdditionalInfo
Informazioni aggiuntive sull'errore di gestione delle risorse.
| Nome | Tipo | Descrizione |
|---|---|---|
| info |
object |
Informazioni aggiuntive. |
| type |
string |
Tipo di informazioni aggiuntive. |
ErrorDetail
Dettagli dell'errore.
| Nome | Tipo | Descrizione |
|---|---|---|
| additionalInfo |
Informazioni aggiuntive sull'errore. |
|
| code |
string |
Codice di errore. |
| details |
Dettagli dell'errore. |
|
| message |
string |
Messaggio di errore. |
| target |
string |
Destinazione dell'errore. |
ErrorResponse
Risposta di errore
| Nome | Tipo | Descrizione |
|---|---|---|
| error |
Oggetto error. |
ExhaustiveKnnParameters
Contiene i parametri specifici dell'algoritmo KNN esaustivo.
| Nome | Tipo | Descrizione |
|---|---|---|
| metric |
La metrica di somiglianza da utilizzare per i confronti vettoriali. |
ExhaustiveKnnVectorSearchAlgorithmConfiguration
Contiene opzioni di configurazione specifiche per l'algoritmo KNN esaustivo utilizzato durante l'interrogazione, che eseguirà una ricerca di forza bruta sull'intero indice vettoriale.
| Nome | Tipo | Descrizione |
|---|---|---|
| exhaustiveKnnParameters |
Contiene i parametri specifici dell'algoritmo KNN esaustivo. |
|
| kind |
string:
exhaustive |
Nome del tipo di algoritmo configurato per l'utilizzo con la ricerca vettoriale. |
| name |
string |
Nome da associare a questa particolare configurazione. |
FreshnessScoringFunction
Definisce una funzione che aumenta i punteggi in base al valore di un campo data-ora.
| Nome | Tipo | Descrizione |
|---|---|---|
| boost |
number (double) |
Un moltiplicatore per il punteggio non elaborato. Deve essere un numero positivo diverso da 1,0. |
| fieldName |
string |
Nome del campo utilizzato come input per la funzione di punteggio. |
| freshness |
Valori dei parametri per la funzione di punteggio dell'affidabilità. |
|
| interpolation |
Un valore che indica il modo in cui l'aumento verrà interpolato tra i punteggi dei documenti; il valore predefinito è "Lineare". |
|
| type |
string:
freshness |
Indica il tipo di funzione da utilizzare. I valori validi includono magnitudine, freschezza, distanza e tag. Il tipo di funzione deve essere minuscolo. |
FreshnessScoringParameters
Fornisce i valori dei parametri a una funzione di punteggio dell'aggiornamento.
| Nome | Tipo | Descrizione |
|---|---|---|
| boostingDuration |
string (duration) |
Periodo di scadenza dopo il quale il potenziamento verrà interrotto per un determinato documento. |
HnswParameters
Contiene i parametri specifici dell'algoritmo HNSW.
| Nome | Tipo | Valore predefinito | Descrizione |
|---|---|---|---|
| efConstruction |
integer (int32) minimum: 100maximum: 1000 |
400 |
La dimensione dell'elenco dinamico contenente i vicini più vicini, che viene utilizzato durante il tempo di indicizzazione. L'aumento di questo parametro può migliorare la qualità dell'indice, a scapito di un maggiore tempo di indicizzazione. Ad un certo punto, l'aumento di questo parametro porta a rendimenti decrescenti. |
| efSearch |
integer (int32) minimum: 100maximum: 1000 |
500 |
La dimensione dell'elenco dinamico contenente i vicini più vicini, che viene utilizzato durante il tempo di ricerca. L'aumento di questo parametro può migliorare i risultati della ricerca, a scapito di una ricerca più lenta. Ad un certo punto, l'aumento di questo parametro porta a rendimenti decrescenti. |
| m |
integer (int32) minimum: 4maximum: 10 |
4 |
Il numero di collegamenti bidirezionali creati per ogni nuovo elemento durante la costruzione. L'aumento del valore di questo parametro può migliorare il richiamo e ridurre i tempi di recupero per i set di dati con un'elevata dimensionalità intrinseca a scapito di un maggiore consumo di memoria e di un tempo di indicizzazione più lungo. |
| metric |
La metrica di somiglianza da utilizzare per i confronti vettoriali. |
HnswVectorSearchAlgorithmConfiguration
Contiene opzioni di configurazione specifiche per l'algoritmo dei vicini più vicini approssimativi HNSW utilizzato durante l'indicizzazione e l'esecuzione di query. L'algoritmo HNSW offre un compromesso regolabile tra velocità di ricerca e precisione.
| Nome | Tipo | Descrizione |
|---|---|---|
| hnswParameters |
Contiene i parametri specifici dell'algoritmo HNSW. |
|
| kind |
string:
hnsw |
Nome del tipo di algoritmo configurato per l'utilizzo con la ricerca vettoriale. |
| name |
string |
Nome da associare a questa particolare configurazione. |
InputFieldMappingEntry
Mappatura dei campi di input per una competenza.
| Nome | Tipo | Descrizione |
|---|---|---|
| inputs |
Input ricorsivi utilizzati durante la creazione di un tipo complesso. |
|
| name |
string |
Nome dell'input. |
| source |
string |
Origine dell'input. |
| sourceContext |
string |
Contesto di origine utilizzato per la selezione degli input ricorsivi. |
KeepTokenFilter
Filtro token che mantiene solo i token con testo contenuto in un elenco di parole specificato. Questo filtro token viene implementato utilizzando Apache Lucene.
| Nome | Tipo | Valore predefinito | Descrizione |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Frammento URI che specifica il tipo di filtro token. |
|
| keepWords |
string[] |
L'elenco delle parole da conservare. |
|
| keepWordsCase |
boolean |
False |
Un valore che indica se tutte le parole devono essere scritte in minuscolo. Il valore predefinito è false. |
| name |
string |
Nome del filtro token. Deve contenere solo lettere, cifre, spazi, trattini o trattini bassi, può iniziare e terminare solo con caratteri alfanumerici ed è limitato a 128 caratteri. |
KeywordMarkerTokenFilter
Contrassegna i termini come parole chiave. Questo filtro token viene implementato utilizzando Apache Lucene.
| Nome | Tipo | Valore predefinito | Descrizione |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Frammento URI che specifica il tipo di filtro token. |
|
| ignoreCase |
boolean |
False |
Un valore che indica se ignorare le maiuscole/minuscole. Se true, tutte le parole vengono convertite prima in minuscolo. Il valore predefinito è false. |
| keywords |
string[] |
Un elenco di parole da contrassegnare come parole chiave. |
|
| name |
string |
Nome del filtro token. Deve contenere solo lettere, cifre, spazi, trattini o trattini bassi, può iniziare e terminare solo con caratteri alfanumerici ed è limitato a 128 caratteri. |
KeywordTokenizer
Emette l'intero input come un singolo token. Questo tokenizzatore è implementato utilizzando Apache Lucene.
| Nome | Tipo | Valore predefinito | Descrizione |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Frammento URI che specifica il tipo di tokenizer. |
|
| bufferSize |
integer (int32) |
256 |
Dimensione del buffer di lettura in byte. Il valore predefinito è 256. |
| name |
string |
Il nome del tokenizer. Deve contenere solo lettere, cifre, spazi, trattini o trattini bassi, può iniziare e terminare solo con caratteri alfanumerici ed è limitato a 128 caratteri. |
KeywordTokenizerV2
Emette l'intero input come un singolo token. Questo tokenizzatore è implementato utilizzando Apache Lucene.
| Nome | Tipo | Valore predefinito | Descrizione |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Frammento URI che specifica il tipo di tokenizer. |
|
| maxTokenLength |
integer (int32) maximum: 300 |
256 |
Lunghezza massima del token. Il valore predefinito è 256. I token più lunghi della lunghezza massima vengono divisi. La lunghezza massima del token che può essere utilizzata è di 300 caratteri. |
| name |
string |
Il nome del tokenizer. Deve contenere solo lettere, cifre, spazi, trattini o trattini bassi, può iniziare e terminare solo con caratteri alfanumerici ed è limitato a 128 caratteri. |
LengthTokenFilter
Rimuove le parole troppo lunghe o troppo brevi. Questo filtro token viene implementato utilizzando Apache Lucene.
| Nome | Tipo | Valore predefinito | Descrizione |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Frammento URI che specifica il tipo di filtro token. |
|
| max |
integer (int32) maximum: 300 |
300 |
Lunghezza massima in caratteri. Il valore predefinito e massimo è 300. |
| min |
integer (int32) maximum: 300 |
0 |
Lunghezza minima in caratteri. Il valore predefinito è 0. Il massimo è 300. Deve essere inferiore al valore di max. |
| name |
string |
Nome del filtro token. Deve contenere solo lettere, cifre, spazi, trattini o trattini bassi, può iniziare e terminare solo con caratteri alfanumerici ed è limitato a 128 caratteri. |
LexicalAnalyzerName
Definisce i nomi di tutti gli analizzatori di testo supportati dal motore di ricerca.
| Valore | Descrizione |
|---|---|
| ar.microsoft |
Analizzatore Microsoft per l'arabo. |
| ar.lucene |
Analizzatore di lucene per l'arabo. |
| hy.lucene |
Analizzatore di lucene per l'armeno. |
| bn.microsoft |
Analizzatore Microsoft per il Bangla. |
| eu.lucene |
Analizzatore di lucene per basco. |
| bg.microsoft |
Analizzatore Microsoft per il bulgaro. |
| bg.lucene |
Analizzatore di lucene per bulgaro. |
| ca.microsoft |
Microsoft analyzer for Catalan. |
| ca.lucene |
Analizzatore di lucene per catalano. |
| zh-Hans.microsoft |
Analizzatore Microsoft per il cinese (semplificato). |
| zh-Hans.lucene |
Analizzatore di lucene per il cinese (semplificato). |
| zh-Hant.microsoft |
Analizzatore Microsoft per il cinese (tradizionale). |
| zh-Hant.lucene |
Analizzatore di lucene per cinese (tradizionale). |
| hr.microsoft |
Analizzatore Microsoft per il croato. |
| cs.microsoft |
Microsoft analyzer per il ceco. |
| cs.lucene |
Analizzatore di lucene per il ceco. |
| da.microsoft |
Microsoft analyzer per il danese. |
| da.lucene |
Analizzatore di lucene per danese. |
| nl.microsoft |
Microsoft analyzer per l'olandese. |
| nl.lucene |
Analizzatore di lucene per l'olandese. |
| en.microsoft |
Analizzatore Microsoft per l'inglese. |
| en.lucene |
Analizzatore di lucene per l'inglese. |
| et.microsoft |
Microsoft analyzer per l'estone. |
| fi.microsoft |
Analizzatore Microsoft per il finlandese. |
| fi.lucene |
Analizzatore di lucene per il finlandese. |
| fr.microsoft |
Microsoft analyzer per il francese. |
| fr.lucene |
Analizzatore di lucene per il francese. |
| gl.lucene |
Analizzatore di lucene per il galiziano. |
| de.microsoft |
Analizzatore Microsoft per il tedesco. |
| de.lucene |
Analizzatore di lucene per il tedesco. |
| el.microsoft |
Microsoft analyzer per il greco. |
| el.lucene |
Analizzatore di lucene per greco. |
| gu.microsoft |
Analizzatore Microsoft per il gujarati. |
| he.microsoft |
Analizzatore Microsoft per l'ebraico. |
| hi.microsoft |
Microsoft analyzer per l'hindi. |
| hi.lucene |
Analizzatore di lucene per hindi. |
| hu.microsoft |
Microsoft analyzer per l'ungherese. |
| hu.lucene |
Analizzatore di lucene per l'ungherese. |
| is.microsoft |
Analizzatore Microsoft per l'islandese. |
| id.microsoft |
Analizzatore Microsoft per l'indonesiano (Bahasa). |
| id.lucene |
Analizzatore di lucene per indonesiano. |
| ga.lucene |
Analizzatore di lucene per l'irlandese. |
| it.microsoft |
Analizzatore Microsoft per l'italiano. |
| it.lucene |
Analizzatore di lucene per l'italiano. |
| ja.microsoft |
Analizzatore Microsoft per il giapponese. |
| ja.lucene |
Analizzatore di lucene per il giapponese. |
| kn.microsoft |
Microsoft analyzer for Kannada. |
| ko.microsoft |
Analizzatore Microsoft per il coreano. |
| ko.lucene |
Analizzatore di lucene per coreano. |
| lv.microsoft |
Analizzatore Microsoft per il lettone. |
| lv.lucene |
Analizzatore di lucene per il lettone. |
| lt.microsoft |
Microsoft analyzer per il lituano. |
| ml.microsoft |
Microsoft analyzer for Malayalam. |
| ms.microsoft |
Microsoft analyzer per il malese (latino). |
| mr.microsoft |
Microsoft analyzer for Marathi. |
| nb.microsoft |
Microsoft analyzer for Norwegian (Bokmål). |
| no.lucene |
Analizzatore di lucene per norvegese. |
| fa.lucene |
Analizzatore di lucene per persiano. |
| pl.microsoft |
Analizzatore Microsoft per il polacco. |
| pl.lucene |
Analizzatore di lucene per polacco. |
| pt-BR.microsoft |
Analizzatore Microsoft per il portoghese (Brasile). |
| pt-BR.lucene |
Analizzatore di lucene per il portoghese (Brasile). |
| pt-PT.microsoft |
Analizzatore Microsoft per il portoghese (Portogallo). |
| pt-PT.lucene |
Analizzatore di lucene per il portoghese (Portogallo). |
| pa.microsoft |
Analizzatore Microsoft per il punjabi. |
| ro.microsoft |
Analizzatore Microsoft per il rumeno. |
| ro.lucene |
Analizzatore di lucene per rumeno. |
| ru.microsoft |
Analizzatore Microsoft per il russo. |
| ru.lucene |
Analizzatore di lucene per il russo. |
| sr-cyrillic.microsoft |
Analizzatore Microsoft per il serbo (cirillico). |
| sr-latin.microsoft |
Microsoft analyzer per il serbo (latino). |
| sk.microsoft |
Microsoft analyzer per lo slovacco. |
| sl.microsoft |
Analizzatore Microsoft per lo sloveno. |
| es.microsoft |
Analizzatore Microsoft per lo spagnolo. |
| es.lucene |
Analizzatore Lucene per lo spagnolo. |
| sv.microsoft |
Analizzatore Microsoft per lo svedese. |
| sv.lucene |
Analizzatore di lucene per lo svedese. |
| ta.microsoft |
Analizzatore Microsoft per il tamil. |
| te.microsoft |
Analizzatore Microsoft per il telugu. |
| th.microsoft |
Analizzatore Microsoft per il tailandese. |
| th.lucene |
Analizzatore di lucene per Thai. |
| tr.microsoft |
Microsoft analyzer per il turco. |
| tr.lucene |
Analizzatore di lucene per il turco. |
| uk.microsoft |
Analizzatore Microsoft per l'ucraino. |
| ur.microsoft |
Microsoft analyzer for Urdu. |
| vi.microsoft |
Analizzatore Microsoft per il vietnamita. |
| standard.lucene |
Analizzatore di lucene standard. |
| standardasciifolding.lucene |
Analizzatore ASCII Folding Lucene standard. Fare riferimento a https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers |
| keyword |
Considera l'intero contenuto di un campo come un singolo token. Ciò è utile per dati come codici postali, ID e alcuni nomi di prodotti. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html |
| pattern |
Separa in modo flessibile il testo in termini tramite un modello di espressione regolare. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html |
| simple |
Divide il testo in corrispondenza di elementi non alfabetici e li converte in minuscolo. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html |
| stop |
Divide il testo in corrispondenza di non-lettere; Applica i filtri dei token per le lettere minuscole e le parole non significative. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html |
| whitespace |
Un analizzatore che utilizza il tokenizer degli spazi vuoti. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html |
LexicalNormalizerName
Definisce i nomi di tutti i normalizzatori di testo supportati dal motore di ricerca.
| Valore | Descrizione |
|---|---|
| asciifolding |
Converte i caratteri Unicode alfabetici, numerici e simbolici che non si trovano nei primi 127 caratteri ASCII (il blocco Unicode "Latino di base") nei loro equivalenti ASCII, se tali equivalenti esistono. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html |
| elision |
Rimuove le elisioni. Ad esempio, "l'avion" (l'aereo) sarà convertito in "avion" (aereo). Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html |
| lowercase |
Normalizza il testo del token in minuscolo. Fare riferimento a https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html |
| standard |
Normalizzatore standard, costituito da lettere minuscole e asciifolding. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html |
| uppercase |
Normalizza il testo del token in maiuscolo. Fare riferimento a https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html |
LexicalTokenizerName
Definisce i nomi di tutti i tokenizzatori supportati dal motore di ricerca.
| Valore | Descrizione |
|---|---|
| classic |
Tokenizzatore basato sulla grammatica adatto per l'elaborazione della maggior parte dei documenti in lingua europea. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html |
| edgeNGram |
Tokenizza l'input da un bordo in n-grammi delle dimensioni specificate. Fare riferimento a https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html |
| keyword_v2 |
Emette l'intero input come un singolo token. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html |
| letter |
Divide il testo in corrispondenza di elementi non alfabetici. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html |
| lowercase |
Divide il testo in corrispondenza di elementi non alfabetici e li converte in minuscolo. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html |
| microsoft_language_tokenizer |
Divide il testo utilizzando regole specifiche della lingua. |
| microsoft_language_stemming_tokenizer |
Divide il testo utilizzando regole specifiche della lingua e riduce le parole alla loro forma di base. |
| nGram |
Tokenizza l'input in n-grammi delle dimensioni specificate. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html |
| path_hierarchy_v2 |
Tokenizer per gerarchie simili a percorsi. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html |
| pattern |
Tokenizer che utilizza la corrispondenza dei modelli regex per creare token distinti. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html |
| standard_v2 |
Analizzatore di Lucene standard; Composto dal tokenizzatore standard, dal filtro minuscolo e dal filtro stop. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html |
| uax_url_email |
Tokenizza URL ed e-mail come un unico token. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html |
| whitespace |
Divide il testo in corrispondenza di uno spazio vuoto. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html |
LimitTokenFilter
Limita il numero di token durante l'indicizzazione. Questo filtro token viene implementato utilizzando Apache Lucene.
| Nome | Tipo | Valore predefinito | Descrizione |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Frammento URI che specifica il tipo di filtro token. |
|
| consumeAllTokens |
boolean |
False |
Valore che indica se tutti i token dell'input devono essere utilizzati anche se viene raggiunto maxTokenCount. Il valore predefinito è false. |
| maxTokenCount |
integer (int32) |
1 |
Il numero massimo di token da produrre. Il valore predefinito è 1. |
| name |
string |
Nome del filtro token. Deve contenere solo lettere, cifre, spazi, trattini o trattini bassi, può iniziare e terminare solo con caratteri alfanumerici ed è limitato a 128 caratteri. |
LuceneStandardAnalyzer
Analizzatore Apache Lucene standard; Composto dal tokenizzatore standard, dal filtro minuscolo e dal filtro stop.
| Nome | Tipo | Valore predefinito | Descrizione |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Frammento di URI che specifica il tipo di analizzatore. |
|
| maxTokenLength |
integer (int32) maximum: 300 |
255 |
Lunghezza massima del token. Il valore predefinito è 255. I token più lunghi della lunghezza massima vengono divisi. La lunghezza massima del token che può essere utilizzata è di 300 caratteri. |
| name |
string |
Nome dell'analizzatore. Deve contenere solo lettere, cifre, spazi, trattini o trattini bassi, può iniziare e terminare solo con caratteri alfanumerici ed è limitato a 128 caratteri. |
|
| stopwords |
string[] |
Un elenco di parole non significative. |
LuceneStandardTokenizer
Interrompe il testo seguendo le regole di segmentazione del testo Unicode. Questo tokenizzatore è implementato utilizzando Apache Lucene.
| Nome | Tipo | Valore predefinito | Descrizione |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Frammento URI che specifica il tipo di tokenizer. |
|
| maxTokenLength |
integer (int32) |
255 |
Lunghezza massima del token. Il valore predefinito è 255. I token più lunghi della lunghezza massima vengono divisi. |
| name |
string |
Il nome del tokenizer. Deve contenere solo lettere, cifre, spazi, trattini o trattini bassi, può iniziare e terminare solo con caratteri alfanumerici ed è limitato a 128 caratteri. |
LuceneStandardTokenizerV2
Interrompe il testo seguendo le regole di segmentazione del testo Unicode. Questo tokenizzatore è implementato utilizzando Apache Lucene.
| Nome | Tipo | Valore predefinito | Descrizione |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Frammento URI che specifica il tipo di tokenizer. |
|
| maxTokenLength |
integer (int32) maximum: 300 |
255 |
Lunghezza massima del token. Il valore predefinito è 255. I token più lunghi della lunghezza massima vengono divisi. La lunghezza massima del token che può essere utilizzata è di 300 caratteri. |
| name |
string |
Il nome del tokenizer. Deve contenere solo lettere, cifre, spazi, trattini o trattini bassi, può iniziare e terminare solo con caratteri alfanumerici ed è limitato a 128 caratteri. |
MagnitudeScoringFunction
Definisce una funzione che aumenta i punteggi in base all'entità di un campo numerico.
| Nome | Tipo | Descrizione |
|---|---|---|
| boost |
number (double) |
Un moltiplicatore per il punteggio non elaborato. Deve essere un numero positivo diverso da 1,0. |
| fieldName |
string |
Nome del campo utilizzato come input per la funzione di punteggio. |
| interpolation |
Un valore che indica il modo in cui l'aumento verrà interpolato tra i punteggi dei documenti; il valore predefinito è "Lineare". |
|
| magnitude |
Valori dei parametri per la funzione di assegnazione dei punteggi di grandezza. |
|
| type |
string:
magnitude |
Indica il tipo di funzione da utilizzare. I valori validi includono magnitudine, freschezza, distanza e tag. Il tipo di funzione deve essere minuscolo. |
MagnitudeScoringParameters
Fornisce i valori dei parametri a una funzione di assegnazione dei punteggi di grandezza.
| Nome | Tipo | Descrizione |
|---|---|---|
| boostingRangeEnd |
number (double) |
Il valore del campo in corrispondenza del quale termina il boosting. |
| boostingRangeStart |
number (double) |
Il valore del campo in corrispondenza del quale inizia il boosting. |
| constantBoostBeyondRange |
boolean |
Un valore che indica se applicare un aumento costante per i valori dei campi oltre il valore finale dell'intervallo; Il valore predefinito è false. |
MappingCharFilter
Un filtro caratteri che applica le mappature definite con l'opzione mappature. L'abbinamento è avido (vince l'abbinamento del modello più lungo in un dato punto). La sostituzione può essere la stringa vuota. Questo filtro caratteri viene implementato utilizzando Apache Lucene.
| Nome | Tipo | Descrizione |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
Frammento URI che specifica il tipo di filtro char. |
| mappings |
string[] |
Un elenco di mappature del seguente formato: "a=>b" (tutte le occorrenze del carattere "a" verranno sostituite con il carattere "b"). |
| name |
string |
Nome del filtro char. Deve contenere solo lettere, cifre, spazi, trattini o trattini bassi, può iniziare e terminare solo con caratteri alfanumerici ed è limitato a 128 caratteri. |
MicrosoftLanguageStemmingTokenizer
Divide il testo utilizzando regole specifiche della lingua e riduce le parole alla loro forma di base.
| Nome | Tipo | Valore predefinito | Descrizione |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Frammento URI che specifica il tipo di tokenizer. |
|
| isSearchTokenizer |
boolean |
False |
Un valore che indica come viene utilizzato il tokenizzatore. Impostare su true se utilizzato come tokenizer di ricerca, impostare su false se utilizzato come tokenizer di indicizzazione. Il valore predefinito è false. |
| language |
La lingua da utilizzare. Il valore predefinito è l'inglese. |
||
| maxTokenLength |
integer (int32) maximum: 300 |
255 |
Lunghezza massima del token. I token più lunghi della lunghezza massima vengono divisi. La lunghezza massima del token che può essere utilizzata è di 300 caratteri. I token più lunghi di 300 caratteri vengono prima suddivisi in token di lunghezza 300 e quindi ciascuno di questi token viene suddiviso in base alla lunghezza massima del token impostata. Il valore predefinito è 255. |
| name |
string |
Il nome del tokenizer. Deve contenere solo lettere, cifre, spazi, trattini o trattini bassi, può iniziare e terminare solo con caratteri alfanumerici ed è limitato a 128 caratteri. |
MicrosoftLanguageTokenizer
Divide il testo utilizzando regole specifiche della lingua.
| Nome | Tipo | Valore predefinito | Descrizione |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Frammento URI che specifica il tipo di tokenizer. |
|
| isSearchTokenizer |
boolean |
False |
Un valore che indica come viene utilizzato il tokenizzatore. Impostare su true se utilizzato come tokenizer di ricerca, impostare su false se utilizzato come tokenizer di indicizzazione. Il valore predefinito è false. |
| language |
La lingua da utilizzare. Il valore predefinito è l'inglese. |
||
| maxTokenLength |
integer (int32) maximum: 300 |
255 |
Lunghezza massima del token. I token più lunghi della lunghezza massima vengono divisi. La lunghezza massima del token che può essere utilizzata è di 300 caratteri. I token più lunghi di 300 caratteri vengono prima suddivisi in token di lunghezza 300 e quindi ciascuno di questi token viene suddiviso in base alla lunghezza massima del token impostata. Il valore predefinito è 255. |
| name |
string |
Il nome del tokenizer. Deve contenere solo lettere, cifre, spazi, trattini o trattini bassi, può iniziare e terminare solo con caratteri alfanumerici ed è limitato a 128 caratteri. |
MicrosoftStemmingTokenizerLanguage
Elenca le lingue supportate dal tokenizer di derivazione del linguaggio Microsoft.
| Valore | Descrizione |
|---|---|
| arabic |
Seleziona il tokenizzatore di derivazione Microsoft per l'arabo. |
| bangla |
Seleziona il tokenizzatore di derivazione Microsoft per il bengalese. |
| bulgarian |
Seleziona il tokenizzatore di derivazione Microsoft per il bulgaro. |
| catalan |
Seleziona il tokenizzatore di derivazione Microsoft per il catalano. |
| croatian |
Seleziona il tokenizer di derivazione Microsoft per il croato. |
| czech |
Seleziona il tokenizer di derivazione Microsoft per il ceco. |
| danish |
Seleziona il tokenizzatore di derivazione Microsoft per il danese. |
| dutch |
Seleziona il tokenizzatore di derivazione Microsoft per l'olandese. |
| english |
Seleziona il tokenizer di derivazione Microsoft per l'inglese. |
| estonian |
Seleziona il tokenizzatore di derivazione Microsoft per l'estone. |
| finnish |
Seleziona il tokenizzatore di derivazione Microsoft per il finlandese. |
| french |
Seleziona il tokenizer di derivazione Microsoft per il francese. |
| german |
Seleziona il tokenizer di derivazione Microsoft per il tedesco. |
| greek |
Seleziona il tokenizzatore di derivazione Microsoft per il greco. |
| gujarati |
Seleziona il tokenizzatore di derivazione Microsoft per il gujarati. |
| hebrew |
Seleziona il tokenizzatore di derivazione Microsoft per l'ebraico. |
| hindi |
Seleziona il tokenizzatore di derivazione Microsoft per l'hindi. |
| hungarian |
Seleziona il tokenizzatore di derivazione Microsoft per l'ungherese. |
| icelandic |
Seleziona il tokenizzatore di derivazione Microsoft per Icelandic. |
| indonesian |
Seleziona il tokenizzatore di derivazione Microsoft per l'indonesiano. |
| italian |
Seleziona il tokenizer di derivazione Microsoft per l'italiano. |
| kannada |
Seleziona il tokenizzatore di derivazione Microsoft per Kannada. |
| latvian |
Seleziona il tokenizzatore di derivazione Microsoft per il lettone. |
| lithuanian |
Seleziona il tokenizer di derivazione Microsoft per il lituano. |
| malay |
Seleziona il tokenizzatore di derivazione Microsoft per il malese. |
| malayalam |
Seleziona il tokenizzatore di derivazione Microsoft per il malayalam. |
| marathi |
Seleziona il tokenizzatore di derivazione Microsoft per il marathi. |
| norwegianBokmaal |
Seleziona il tokenizzatore di stemming Microsoft per il norvegese (Bokmål). |
| polish |
Seleziona il tokenizzatore di derivazione Microsoft per il polacco. |
| portuguese |
Seleziona il tokenizzatore di derivazione Microsoft per il portoghese. |
| portugueseBrazilian |
Seleziona il tokenizer di derivazione Microsoft per il portoghese (Brasile). |
| punjabi |
Seleziona il tokenizer di derivazione Microsoft per il punjabi. |
| romanian |
Seleziona il tokenizzatore di derivazione Microsoft per il rumeno. |
| russian |
Seleziona il tokenizzatore di derivazione Microsoft per il russo. |
| serbianCyrillic |
Seleziona il tokenizzatore di derivazione Microsoft per il serbo (cirillico). |
| serbianLatin |
Seleziona il tokenizzatore di derivazione Microsoft per il serbo (alfabeto latino). |
| slovak |
Seleziona il tokenizzatore di derivazione Microsoft per lo slovacco. |
| slovenian |
Seleziona il tokenizzatore di derivazione Microsoft per lo sloveno. |
| spanish |
Seleziona il tokenizer di derivazione Microsoft per lo spagnolo. |
| swedish |
Seleziona il tokenizzatore di derivazione Microsoft per lo svedese. |
| tamil |
Seleziona il tokenizzatore di derivazione Microsoft per il tamil. |
| telugu |
Seleziona il tokenizzatore di derivazione Microsoft per il telugu. |
| turkish |
Seleziona il tokenizzatore di derivazione Microsoft per il turco. |
| ukrainian |
Seleziona il tokenizzatore di derivazione Microsoft per l'ucraino. |
| urdu |
Seleziona il tokenizzatore di derivazione Microsoft per l'urdu. |
MicrosoftTokenizerLanguage
Elenca le lingue supportate dal tokenizer di lingua Microsoft.
| Valore | Descrizione |
|---|---|
| bangla |
Seleziona il tokenizer Microsoft per il bengalese. |
| bulgarian |
Seleziona il tokenizer Microsoft per il bulgaro. |
| catalan |
Seleziona il tokenizer Microsoft per il catalano. |
| chineseSimplified |
Seleziona il tokenizer Microsoft per il cinese (semplificato). |
| chineseTraditional |
Seleziona il tokenizer Microsoft per il cinese (tradizionale). |
| croatian |
Seleziona il tokenizer Microsoft per il croato. |
| czech |
Seleziona il tokenizer Microsoft per il ceco. |
| danish |
Seleziona il tokenizer Microsoft per il danese. |
| dutch |
Seleziona il tokenizer Microsoft per l'olandese. |
| english |
Seleziona il tokenizer Microsoft per l'inglese. |
| french |
Seleziona il tokenizer Microsoft per il francese. |
| german |
Seleziona il tokenizer Microsoft per il tedesco. |
| greek |
Seleziona il tokenizer Microsoft per il greco. |
| gujarati |
Seleziona il tokenizer Microsoft per il gujarati. |
| hindi |
Seleziona il tokenizer Microsoft per l'hindi. |
| icelandic |
Seleziona il tokenizer Microsoft per l'islandese. |
| indonesian |
Seleziona il tokenizer Microsoft per l'indonesiano. |
| italian |
Seleziona il tokenizer Microsoft per l'italiano. |
| japanese |
Seleziona il tokenizer Microsoft per il giapponese. |
| kannada |
Seleziona il tokenizer Microsoft per Kannada. |
| korean |
Seleziona il tokenizer Microsoft per il coreano. |
| malay |
Seleziona il tokenizer Microsoft per il malese. |
| malayalam |
Seleziona il tokenizer Microsoft per il malayalam. |
| marathi |
Seleziona il tokenizer Microsoft per il marathi. |
| norwegianBokmaal |
Seleziona il tokenizer Microsoft per il norvegese (Bokmål). |
| polish |
Seleziona il tokenizer Microsoft per il polacco. |
| portuguese |
Seleziona il tokenizer Microsoft per il portoghese. |
| portugueseBrazilian |
Seleziona il tokenizer Microsoft per il portoghese (Brasile). |
| punjabi |
Seleziona il tokenizer Microsoft per il punjabi. |
| romanian |
Seleziona il tokenizer Microsoft per il rumeno. |
| russian |
Seleziona il tokenizer Microsoft per il russo. |
| serbianCyrillic |
Seleziona il tokenizer Microsoft per il serbo (cirillico). |
| serbianLatin |
Seleziona il tokenizer Microsoft per il serbo (alfabeto latino). |
| slovenian |
Seleziona il tokenizer Microsoft per lo sloveno. |
| spanish |
Seleziona il tokenizer Microsoft per lo spagnolo. |
| swedish |
Seleziona il tokenizer Microsoft per lo svedese. |
| tamil |
Seleziona il tokenizzatore Microsoft per il tamil. |
| telugu |
Seleziona il tokenizer Microsoft per il telugu. |
| thai |
Seleziona il tokenizer Microsoft per il tailandese. |
| ukrainian |
Seleziona il tokenizer Microsoft per l'ucraino. |
| urdu |
Seleziona il tokenizer Microsoft per l'urdu. |
| vietnamese |
Seleziona il tokenizer Microsoft per il vietnamita. |
NGramTokenFilter
Genera n-grammi della dimensione o delle dimensioni specificate. Questo filtro token viene implementato utilizzando Apache Lucene.
| Nome | Tipo | Valore predefinito | Descrizione |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Frammento URI che specifica il tipo di filtro token. |
|
| maxGram |
integer (int32) |
2 |
La lunghezza massima di n-grammi. Il valore predefinito è 2. |
| minGram |
integer (int32) |
1 |
La lunghezza minima di n-grammi. Il valore predefinito è 1. Deve essere inferiore al valore di maxGram. |
| name |
string |
Nome del filtro token. Deve contenere solo lettere, cifre, spazi, trattini o trattini bassi, può iniziare e terminare solo con caratteri alfanumerici ed è limitato a 128 caratteri. |
NGramTokenFilterV2
Genera n-grammi della dimensione o delle dimensioni specificate. Questo filtro token viene implementato utilizzando Apache Lucene.
| Nome | Tipo | Valore predefinito | Descrizione |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Frammento URI che specifica il tipo di filtro token. |
|
| maxGram |
integer (int32) maximum: 300 |
2 |
La lunghezza massima di n-grammi. Il valore predefinito è 2. Il massimo è 300. |
| minGram |
integer (int32) maximum: 300 |
1 |
La lunghezza minima di n-grammi. Il valore predefinito è 1. Il massimo è 300. Deve essere inferiore al valore di maxGram. |
| name |
string |
Nome del filtro token. Deve contenere solo lettere, cifre, spazi, trattini o trattini bassi, può iniziare e terminare solo con caratteri alfanumerici ed è limitato a 128 caratteri. |
NGramTokenizer
Tokenizza l'input in n-grammi delle dimensioni specificate. Questo tokenizzatore è implementato utilizzando Apache Lucene.
| Nome | Tipo | Valore predefinito | Descrizione |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Frammento URI che specifica il tipo di tokenizer. |
|
| maxGram |
integer (int32) maximum: 300 |
2 |
La lunghezza massima di n-grammi. Il valore predefinito è 2. Il massimo è 300. |
| minGram |
integer (int32) maximum: 300 |
1 |
La lunghezza minima di n-grammi. Il valore predefinito è 1. Il massimo è 300. Deve essere inferiore al valore di maxGram. |
| name |
string |
Il nome del tokenizer. Deve contenere solo lettere, cifre, spazi, trattini o trattini bassi, può iniziare e terminare solo con caratteri alfanumerici ed è limitato a 128 caratteri. |
|
| tokenChars |
Classi di personaggi da mantenere nei gettoni. |
OutputFieldMappingEntry
Mappatura dei campi di output per una competenza.
| Nome | Tipo | Descrizione |
|---|---|---|
| name |
string |
Nome dell'output definito dalla competenza. |
| targetName |
string |
Nome di destinazione dell'output. È facoltativo e predefinito per il nome. |
PathHierarchyTokenizerV2
Tokenizer per gerarchie simili a percorsi. Questo tokenizzatore è implementato utilizzando Apache Lucene.
| Nome | Tipo | Valore predefinito | Descrizione |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Frammento URI che specifica il tipo di tokenizer. |
|
| delimiter |
string (char) |
/ |
Il carattere delimitatore da utilizzare. Il valore predefinito è "/". |
| maxTokenLength |
integer (int32) maximum: 300 |
300 |
Lunghezza massima del token. Il valore predefinito e massimo è 300. |
| name |
string |
Il nome del tokenizer. Deve contenere solo lettere, cifre, spazi, trattini o trattini bassi, può iniziare e terminare solo con caratteri alfanumerici ed è limitato a 128 caratteri. |
|
| replacement |
string (char) |
/ |
Valore che, se impostato, sostituisce il carattere delimitatore. Il valore predefinito è "/". |
| reverse |
boolean |
False |
Valore che indica se generare i token in ordine inverso. Il valore predefinito è false. |
| skip |
integer (int32) |
0 |
Il numero di token iniziali da ignorare. Il valore predefinito è 0. |
PatternAnalyzer
Separa in modo flessibile il testo in termini tramite un modello di espressione regolare. Questo analizzatore viene implementato utilizzando Apache Lucene.
| Nome | Tipo | Valore predefinito | Descrizione |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Frammento di URI che specifica il tipo di analizzatore. |
|
| flags |
Flag di espressione regolare. |
||
| lowercase |
boolean |
True |
Valore che indica se i termini devono essere scritti in minuscolo. Il valore predefinito è vero. |
| name |
string |
Nome dell'analizzatore. Deve contenere solo lettere, cifre, spazi, trattini o trattini bassi, può iniziare e terminare solo con caratteri alfanumerici ed è limitato a 128 caratteri. |
|
| pattern |
string |
\W+ |
Modello di espressione regolare per la corrispondenza con i separatori di token. Il valore predefinito è un'espressione che corrisponde a uno o più caratteri non alfanumerici. |
| stopwords |
string[] |
Un elenco di parole non significative. |
PatternCaptureTokenFilter
Utilizza le espressioni regolari Java per generare più token, uno per ogni gruppo di acquisizione in uno o più modelli. Questo filtro token viene implementato utilizzando Apache Lucene.
| Nome | Tipo | Valore predefinito | Descrizione |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Frammento URI che specifica il tipo di filtro token. |
|
| name |
string |
Nome del filtro token. Deve contenere solo lettere, cifre, spazi, trattini o trattini bassi, può iniziare e terminare solo con caratteri alfanumerici ed è limitato a 128 caratteri. |
|
| patterns |
string[] |
Un elenco di modelli da confrontare con ogni token. |
|
| preserveOriginal |
boolean |
True |
Valore che indica se restituire il token originale anche se uno dei modelli corrisponde. Il valore predefinito è vero. |
PatternReplaceCharFilter
Filtro caratteri che sostituisce i caratteri nella stringa di input. Utilizza un'espressione regolare per identificare le sequenze di caratteri da mantenere e un modello di sostituzione per identificare i caratteri da sostituire. Ad esempio, dato il testo di input "aa bb aa bb", il modello "(aa)\s+(bb)" e la sostituzione "$1#$2", il risultato sarebbe "aa#bb aa#bb". Questo filtro caratteri viene implementato utilizzando Apache Lucene.
| Nome | Tipo | Descrizione |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
Frammento URI che specifica il tipo di filtro char. |
| name |
string |
Nome del filtro char. Deve contenere solo lettere, cifre, spazi, trattini o trattini bassi, può iniziare e terminare solo con caratteri alfanumerici ed è limitato a 128 caratteri. |
| pattern |
string |
Un modello di espressione regolare. |
| replacement |
string |
Il testo sostitutivo. |
PatternReplaceTokenFilter
Filtro caratteri che sostituisce i caratteri nella stringa di input. Utilizza un'espressione regolare per identificare le sequenze di caratteri da mantenere e un modello di sostituzione per identificare i caratteri da sostituire. Ad esempio, dato il testo di input "aa bb aa bb", il modello "(aa)\s+(bb)" e la sostituzione "$1#$2", il risultato sarebbe "aa#bb aa#bb". Questo filtro token viene implementato utilizzando Apache Lucene.
| Nome | Tipo | Descrizione |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
Frammento URI che specifica il tipo di filtro token. |
| name |
string |
Nome del filtro token. Deve contenere solo lettere, cifre, spazi, trattini o trattini bassi, può iniziare e terminare solo con caratteri alfanumerici ed è limitato a 128 caratteri. |
| pattern |
string |
Un modello di espressione regolare. |
| replacement |
string |
Il testo sostitutivo. |
PatternTokenizer
Tokenizer che utilizza la corrispondenza dei modelli regex per creare token distinti. Questo tokenizzatore è implementato utilizzando Apache Lucene.
| Nome | Tipo | Valore predefinito | Descrizione |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Frammento URI che specifica il tipo di tokenizer. |
|
| flags |
Flag di espressione regolare. |
||
| group |
integer (int32) |
-1 |
Ordinale in base zero del gruppo corrispondente nel modello di espressione regolare da estrarre in token. Utilizzare -1 se si desidera utilizzare l'intero modello per suddividere l'input in token, indipendentemente dai gruppi corrispondenti. Il valore predefinito è -1. |
| name |
string |
Il nome del tokenizer. Deve contenere solo lettere, cifre, spazi, trattini o trattini bassi, può iniziare e terminare solo con caratteri alfanumerici ed è limitato a 128 caratteri. |
|
| pattern |
string |
\W+ |
Modello di espressione regolare per la corrispondenza con i separatori di token. Il valore predefinito è un'espressione che corrisponde a uno o più caratteri non alfanumerici. |
PhoneticEncoder
Identifica il tipo di codificatore fonetico da utilizzare con un PhoneticTokenFilter.
| Valore | Descrizione |
|---|---|
| metaphone |
Codifica un token in un valore Metaphone. |
| doubleMetaphone |
Codifica un token in un doppio valore del metafono. |
| soundex |
Codifica un token in un valore Soundex. |
| refinedSoundex |
Codifica un token in un valore Soundex raffinato. |
| caverphone1 |
Codifica un token in un valore Caverphone 1.0. |
| caverphone2 |
Codifica un token in un valore Caverphone 2.0. |
| cologne |
Codifica un token in un valore fonetico di Colonia. |
| nysiis |
Codifica un token in un valore NYSIIS. |
| koelnerPhonetik |
Codifica un token utilizzando l'algoritmo Kölner Phonetik. |
| haasePhonetik |
Codifica un token utilizzando il perfezionamento Haase dell'algoritmo Kölner Phonetik. |
| beiderMorse |
Codifica un token in un valore Beider-Morse. |
PhoneticTokenFilter
Crea token per le corrispondenze fonetiche. Questo filtro token viene implementato utilizzando Apache Lucene.
| Nome | Tipo | Valore predefinito | Descrizione |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Frammento URI che specifica il tipo di filtro token. |
|
| encoder | metaphone |
Codificatore fonetico da utilizzare. Il valore predefinito è "metaphone". |
|
| name |
string |
Nome del filtro token. Deve contenere solo lettere, cifre, spazi, trattini o trattini bassi, può iniziare e terminare solo con caratteri alfanumerici ed è limitato a 128 caratteri. |
|
| replace |
boolean |
True |
Valore che indica se i token codificati devono sostituire i token originali. Se false, i token codificati vengono aggiunti come sinonimi. Il valore predefinito è vero. |
PrioritizedFields
Descrive i campi del titolo, del contenuto e delle parole chiave da utilizzare per la classificazione semantica, le didascalie, le evidenziazioni e le risposte.
| Nome | Tipo | Descrizione |
|---|---|---|
| prioritizedContentFields |
Definisce i campi di contenuto da utilizzare per la classificazione semantica, le didascalie, le evidenziazioni e le risposte. Per ottenere i migliori risultati, i campi selezionati devono contenere testo in linguaggio naturale. L'ordine dei campi nell'array rappresenta la loro priorità. I campi con priorità più bassa possono essere troncati se il contenuto è lungo. |
|
| prioritizedKeywordsFields |
Definisce i campi delle parole chiave da utilizzare per la classificazione semantica, le didascalie, le evidenziazioni e le risposte. Per ottenere il miglior risultato, i campi selezionati devono contenere un elenco di parole chiave. L'ordine dei campi nell'array rappresenta la loro priorità. I campi con priorità più bassa possono essere troncati se il contenuto è lungo. |
|
| titleField |
Definisce il campo del titolo da utilizzare per la classificazione semantica, le didascalie, le evidenziazioni e le risposte. Se non hai un campo titolo nell'indice, lascia vuoto questo campo. |
RankingOrder
Rappresenta il punteggio da utilizzare per l'ordinamento dei documenti.
| Valore | Descrizione |
|---|---|
| BoostedRerankerScore |
Imposta l'ordinamento come BoostedRerankerScore |
| RerankerScore |
Imposta l'ordinamento come ReRankerScore |
RegexFlags
Definisce i flag che possono essere combinati per controllare il modo in cui le espressioni regolari vengono utilizzate nell'analizzatore di pattern e nel tokenizer di pattern.
| Valore | Descrizione |
|---|---|
| CANON_EQ |
Abilita l'equivalenza canonica. |
| CASE_INSENSITIVE |
Abilita la corrispondenza senza distinzione tra maiuscole e minuscole. |
| COMMENTS |
Consente spazi vuoti e commenti nel modello. |
| DOTALL |
Abilita la modalità dotall. |
| LITERAL |
Abilita l'analisi letterale del modello. |
| MULTILINE |
Abilita la modalità multilinea. |
| UNICODE_CASE |
Abilita la piegatura delle maiuscole e minuscole compatibile con Unicode. |
| UNIX_LINES |
Abilita la modalità linee Unix. |
RescoringOptions
Contiene le opzioni per la riassegnazione dei punteggi.
| Nome | Tipo | Valore predefinito | Descrizione |
|---|---|---|---|
| defaultOversampling |
number (double) |
Fattore di sovracampionamento predefinito. Il sovracampionamento recupera un set più ampio di potenziali documenti per compensare la perdita di risoluzione dovuta alla quantizzazione. Ciò aumenta il set di risultati che verranno rivalutati sui vettori a precisione completa. Il valore minimo è 1, il che significa che non c'è sovracampionamento (1x). Questo parametro può essere impostato solo quando 'enableRescoring' è true. Valori più alti migliorano il richiamo a scapito della latenza. |
|
| enableRescoring |
boolean |
True |
Se impostato su true, dopo la ricerca iniziale sui vettori compressi, i punteggi di somiglianza vengono ricalcolati utilizzando i vettori a precisione completa. Ciò migliorerà il richiamo a scapito della latenza. |
| rescoreStorageMethod | preserveOriginals |
Controlla il metodo di memorizzazione dei vettori originali. Questa impostazione non è modificabile. |
ScalarQuantizationParameters
Contiene i parametri specifici della quantizzazione scalare.
| Nome | Tipo | Descrizione |
|---|---|---|
| quantizedDataType |
Tipo di dati quantizzati dei valori vettoriali compressi. |
ScalarQuantizationVectorSearchCompressionConfiguration
Contiene opzioni di configurazione specifiche per il metodo di compressione della quantizzazione scalare utilizzato durante l'indicizzazione e l'esecuzione di query.
| Nome | Tipo | Descrizione |
|---|---|---|
| kind |
string:
scalar |
Nome del tipo di metodo di compressione configurato per l'utilizzo con la ricerca vettoriale. |
| name |
string |
Nome da associare a questa particolare configurazione. |
| rescoringOptions |
Contiene le opzioni per la riassegnazione dei punteggi. |
|
| scalarQuantizationParameters |
Contiene i parametri specifici della quantizzazione scalare. |
|
| truncationDimension |
integer (int32) |
Il numero di dimensioni a cui troncare i vettori. Il troncamento dei vettori riduce le dimensioni dei vettori e la quantità di dati che devono essere trasferiti durante la ricerca. In questo modo è possibile risparmiare sui costi di archiviazione e migliorare le prestazioni di ricerca a scapito del richiamo. Dovrebbe essere utilizzato solo per gli embedding addestrati con Matryoshka Representation Learning (MRL) come OpenAI text-embedding-3-large (small). Il valore predefinito è null, il che significa che non c'è troncamento. |
ScoringFunctionAggregation
Definisce la funzione di aggregazione utilizzata per combinare i risultati di tutte le funzioni di assegnazione dei punteggi in un profilo di punteggio.
| Valore | Descrizione |
|---|---|
| sum |
Aumenta i punteggi in base alla somma di tutti i risultati della funzione di punteggio. |
| average |
Aumenta i punteggi in base alla media di tutti i risultati della funzione di punteggio. |
| minimum |
Aumenta i punteggi del minimo di tutti i risultati della funzione di punteggio. |
| maximum |
Aumenta i punteggi del massimo tra tutti i risultati della funzione di punteggio. |
| firstMatching |
Aumentare i punteggi utilizzando la prima funzione di punteggio applicabile nel profilo di punteggio. |
ScoringFunctionInterpolation
Definisce la funzione utilizzata per interpolare l'aumento del punteggio in un intervallo di documenti.
| Valore | Descrizione |
|---|---|
| linear |
Aumenta i punteggi in modo lineare decrescente. Questa è l'interpolazione predefinita per le funzioni di punteggio. |
| constant |
Aumenta i punteggi di un fattore costante. |
| quadratic |
Aumenta i punteggi di un valore che diminuisce quadraticamente. I potenziamenti diminuiscono lentamente per ottenere punteggi più alti e più rapidamente man mano che i punteggi diminuiscono. Questa opzione di interpolazione non è consentita nelle funzioni di assegnazione dei punteggi dei tag. |
| logarithmic |
Aumenta i punteggi di una quantità che diminuisce logaritmicamente. I potenziamenti diminuiscono rapidamente per ottenere punteggi più alti e più lentamente man mano che i punteggi diminuiscono. Questa opzione di interpolazione non è consentita nelle funzioni di assegnazione dei punteggi dei tag. |
ScoringProfile
Definisce i parametri per un indice di ricerca che influenzano l'assegnazione dei punteggi nelle query di ricerca.
| Nome | Tipo | Descrizione |
|---|---|---|
| functionAggregation |
Un valore che indica come devono essere combinati i risultati delle singole funzioni di punteggio. Il valore predefinito è "Somma". Ignorato se non sono presenti funzioni di punteggio. |
|
| functions | ScoringFunction[]: |
L'insieme delle funzioni che influenzano il punteggio dei documenti. |
| name |
string |
Nome del profilo di punteggio. |
| text |
Parametri che aumentano il punteggio in base alle corrispondenze di testo in determinati campi dell'indice. |
SearchField
Rappresenta un campo in una definizione di indice, che descrive il nome, il tipo di dati e il comportamento di ricerca di un campo.
| Nome | Tipo | Descrizione |
|---|---|---|
| analyzer |
Nome dell'analizzatore da utilizzare per il campo. Questa opzione può essere utilizzata solo con i campi ricercabili e non può essere impostata insieme a searchAnalyzer o indexAnalyzer. Una volta scelto l'analizzatore, non può essere modificato per il campo. Deve essere null per i campi complessi. |
|
| dimensions |
integer (int32) minimum: 2maximum: 4096 |
La dimensionalità del campo vettoriale. |
| facetable |
boolean |
Valore che indica se abilitare il riferimento al campo nelle query facet. Usato generalmente in una presentazione dei risultati di ricerca che include il numero di risultati per categoria (ad esempio, per cercare fotocamere digitali e visualizzare i risultati in base alla marca, ai megapixel, al prezzo e così via). Questa proprietà deve essere null per i campi complessi. I campi di tipo Edm.GeographyPoint o Collection(Edm.GeographyPoint) non possono essere facetable. Il valore predefinito è true per tutti gli altri campi semplici. |
| fields |
Elenco di sottocampi, se si tratta di un campo di tipo Edm.ComplexType o Collection(Edm.ComplexType). Deve essere null o vuoto per i campi semplici. |
|
| filterable |
boolean |
Valore che indica se abilitare il riferimento al campo nelle query $filter. Filterable differisce da searchable nel modo in cui vengono gestite le stringhe. I campi di tipo Edm.String o Collection(Edm.String) filtrabili non subiscono interruzioni di parole, pertanto i confronti sono solo per le corrispondenze esatte. Ad esempio, se si imposta un campo f su "giornata di sole", $filter=f eq 'sunny' non troverà corrispondenze, ma $filter=f eq 'sunny day' lo troverà. Questa proprietà deve essere null per i campi complessi. Il valore predefinito è true per i campi semplici e null per i campi complessi. |
| indexAnalyzer |
Nome dell'analizzatore utilizzato al momento dell'indicizzazione per il campo. Questa opzione può essere utilizzata solo con i campi in cui è possibile eseguire la ricerca. Deve essere impostato insieme a searchAnalyzer e non può essere impostato insieme all'opzione analyzer. Questa proprietà non può essere impostata sul nome di un analizzatore del linguaggio. Utilizzare invece la proprietà analyzer se è necessario un analizzatore di linguaggio. Una volta scelto l'analizzatore, non può essere modificato per il campo. Deve essere null per i campi complessi. |
|
| key |
boolean |
Valore che indica se il campo identifica in modo univoco i documenti nell'indice. Esattamente un campo di primo livello in ogni indice deve essere scelto come campo chiave e deve essere di tipo Edm.String. I campi chiave possono essere usati per cercare i documenti direttamente e aggiornare o eliminare documenti specifici. Il valore predefinito è false per i campi semplici e null per i campi complessi. |
| name |
string |
Il nome del campo, che deve essere univoco all'interno dell'insieme di campi dell'indice o del campo padre. |
| normalizer |
Nome del normalizzatore da utilizzare per il campo. Questa opzione può essere utilizzata solo con i campi con filtrabile, ordinabile o con facet abilitato. Una volta scelto, il normalizzatore non può essere modificato per il campo. Deve essere null per i campi complessi. |
|
| retrievable |
boolean |
Valore che indica se il campo può essere restituito in un risultato di ricerca. È possibile disabilitare questa opzione se si desidera utilizzare un campo (ad esempio, margine) come meccanismo di filtro, ordinamento o punteggio, ma non si desidera che il campo sia visibile all'utente finale. Questa proprietà deve essere true per i campi chiave e null per i campi complessi. Questa proprietà può essere modificata nei campi esistenti. L'abilitazione di questa proprietà non comporta un aumento dei requisiti di archiviazione dell'indice. Il valore predefinito è true per i campi semplici, false per i campi vettoriali e null per i campi complessi. |
| searchAnalyzer |
Nome dell'analizzatore utilizzato al momento della ricerca del campo. Questa opzione può essere utilizzata solo con i campi in cui è possibile eseguire la ricerca. Deve essere impostato insieme a indexAnalyzer e non può essere impostato insieme all'opzione analyzer. Questa proprietà non può essere impostata sul nome di un analizzatore del linguaggio. Utilizzare invece la proprietà analyzer se è necessario un analizzatore di linguaggio. Questo analizzatore può essere aggiornato su un campo esistente. Deve essere null per i campi complessi. |
|
| searchable |
boolean |
Valore che indica se il campo è ricercabile in full-text. Ciò significa che sarà sottoposto ad analisi come la rottura delle parole durante l'indicizzazione. Se imposti un campo ricercabile su un valore come "sunny day", internamente verrà suddiviso nei singoli token "sunny" e "day". È così possibile eseguire ricerche full-text di questi termini. Per impostazione predefinita, è possibile eseguire ricerche nei campi di tipo Edm.String o Collection(Edm.String). Questa proprietà deve essere false per i campi semplici di altri tipi di dati non stringa e deve essere null per i campi complessi. Nota: i campi ricercabili occupano spazio aggiuntivo nell'indice per ospitare ulteriori versioni tokenizzate del valore del campo per le ricerche full-text. Se si desidera risparmiare spazio nell'indice e non è necessario includere un campo nelle ricerche, impostare searchable su false. |
| sortable |
boolean |
Valore che indica se abilitare il riferimento al campo nelle espressioni $orderby. Per impostazione predefinita, il motore di ricerca ordina i risultati in base al punteggio, ma in molte esperienze gli utenti vorranno ordinare in base ai campi nei documenti. Un campo semplice può essere ordinabile solo se è a valore singolo (ha un singolo valore nell'ambito del documento padre). I campi di raccolta semplici non possono essere ordinabili, poiché sono multivalore. Anche i sottocampi semplici di collezioni complesse sono multivalore e quindi non possono essere ordinabili. Questo vale sia se si tratta di un campo padre immediato o di un campo predecessore, che è la raccolta complessa. I campi complessi non possono essere ordinabili e la proprietà sortable deve essere null per tali campi. Il valore predefinito per sortable è true per i campi semplici a valore singolo, false per i campi semplici multivalore e null per i campi complessi. |
| stored |
boolean |
Valore non modificabile che indica se il campo verrà mantenuto separatamente su disco per essere restituito in un risultato della ricerca. È possibile disabilitare questa opzione se non si prevede di restituire il contenuto del campo in una risposta di ricerca per risparmiare sul sovraccarico di archiviazione. Questo può essere impostato solo durante la creazione dell'indice e solo per i campi vettoriali. Questa proprietà non può essere modificata per i campi esistenti o impostata come false per i nuovi campi. Se questa proprietà è impostata su false, anche la proprietà 'retrievable' deve essere impostata su false. Questa proprietà deve essere true o unset per i campi chiave, per i nuovi campi e per i campi non vettoriali e deve essere null per i campi complessi. La disabilitazione di questa proprietà ridurrà i requisiti di archiviazione dell'indice. Il valore predefinito è true per i campi vettoriali. |
| synonymMaps |
string[] |
Elenco dei nomi delle mappe dei sinonimi da associare a questo campo. Questa opzione può essere utilizzata solo con i campi in cui è possibile eseguire la ricerca. Attualmente è supportata una sola mappa dei sinonimi per campo. L'assegnazione di una mappa dei sinonimi a un campo garantisce che i termini di query destinati a tale campo vengano espansi in fase di query usando le regole nella mappa dei sinonimi. Questo attributo può essere modificato nei campi esistenti. Deve essere null o una raccolta vuota per i campi complessi. |
| type |
Tipo di dati del campo. |
|
| vectorEncoding |
Il formato di codifica per interpretare il contenuto del campo. |
|
| vectorSearchProfile |
string |
Il nome del profilo di ricerca vettoriale che specifica l'algoritmo e il vettorizzatore da utilizzare durante la ricerca nel campo vettoriale. |
SearchFieldDataType
Definisce il tipo di dati di un campo in un indice di ricerca.
| Valore | Descrizione |
|---|---|
| Edm.String |
Indica che un campo contiene una stringa. |
| Edm.Int32 |
Indica che un campo contiene un numero intero con segno a 32 bit. |
| Edm.Int64 |
Indica che un campo contiene un numero intero con segno a 64 bit. |
| Edm.Double |
Indica che un campo contiene un numero a virgola mobile a precisione doppia IEEE. |
| Edm.Boolean |
Indica che un campo contiene un valore booleano (true o false). |
| Edm.DateTimeOffset |
Indica che un campo contiene un valore di data/ora, incluse le informazioni sul fuso orario. |
| Edm.GeographyPoint |
Indica che un campo contiene una geolocalizzazione in termini di longitudine e latitudine. |
| Edm.ComplexType |
Indica che un campo contiene uno o più oggetti complessi che a loro volta dispongono di sottocampi di altri tipi. |
| Edm.Single |
Indica che un campo contiene un numero a virgola mobile a precisione singola. Questa opzione è valida solo se utilizzata con Collection(Edm.Single). |
| Edm.Half |
Indica che un campo contiene un numero a virgola mobile a mezza precisione. Questa opzione è valida solo se utilizzata con Collection(Edm.Half). |
| Edm.Int16 |
Indica che un campo contiene un numero intero con segno a 16 bit. Questa opzione è valida solo se utilizzata con Collection(Edm.Int16). |
| Edm.SByte |
Indica che un campo contiene un numero intero con segno a 8 bit. Questa opzione è valida solo se utilizzata con Collection(Edm.SByte). |
| Edm.Byte |
Indica che un campo contiene un numero intero senza segno a 8 bit. Questa opzione è valida solo se utilizzata con Collection(Edm.Byte). |
SearchIndex
Rappresenta una definizione dell'indice di ricerca, che descrive i campi e il comportamento di ricerca di un indice.
| Nome | Tipo | Descrizione |
|---|---|---|
| @odata.etag |
string |
L'ETag dell'indice. |
| analyzers | LexicalAnalyzer[]: |
Analizzatori per l'indice. |
| charFilters | CharFilter[]: |
I filtri dei caratteri per l'indice. |
| corsOptions |
Opzioni per controllare la condivisione di risorse tra le origini (CORS) per l'indice. |
|
| defaultScoringProfile |
string |
Nome del profilo di punteggio da utilizzare se nella query non è specificato alcun profilo. Se questa proprietà non è impostata e nella query non viene specificato alcun profilo di punteggio, verrà utilizzato il punteggio predefinito (tf-idf). |
| description |
string |
Descrizione dell'indice. |
| encryptionKey |
Descrizione di una chiave di crittografia creata in Azure Key Vault. Questa chiave viene usata per fornire un ulteriore livello di crittografia dei dati inattivi quando si desidera la certezza completa che nessuno, nemmeno Microsoft, possa decrittografare i dati. Una volta crittografati i dati, questi rimarranno sempre crittografati. Il servizio di ricerca ignorerà i tentativi di impostare questa proprietà su null. È possibile modificare questa proprietà in base alle esigenze se si desidera ruotare la chiave di crittografia; I tuoi dati non saranno interessati. La crittografia con chiavi gestite dal cliente non è disponibile per i servizi di ricerca gratuiti ed è disponibile solo per i servizi a pagamento creati a partire dal 1° gennaio 2019. |
|
| fields |
I campi dell'indice. |
|
| name |
string |
Nome dell'indice. |
| normalizers | LexicalNormalizer[]: |
Normalizzatori per l'indice. |
| scoringProfiles |
Profili di punteggio per l'indice. |
|
| semantic |
Definisce i parametri per un indice di ricerca che influenzano le funzionalità semantiche. |
|
| similarity | Similarity: |
Il tipo di algoritmo di somiglianza da utilizzare per l'assegnazione del punteggio e la classificazione dei documenti corrispondenti a una query di ricerca. L'algoritmo di somiglianza può essere definito solo al momento della creazione dell'indice e non può essere modificato negli indici esistenti. Se null, viene utilizzato l'algoritmo ClassicSimilarity. |
| suggesters |
I suggerimenti per l'indice. |
|
| tokenFilters |
TokenFilter[]:
|
Il token filtra per l'indice. |
| tokenizers | LexicalTokenizer[]: |
I tokenizzatori per l'indice. |
| vectorSearch |
Contiene opzioni di configurazione relative alla ricerca vettoriale. |
SearchIndexerDataNoneIdentity
Cancella la proprietà identity di un'origine dati.
| Nome | Tipo | Descrizione |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
Frammento di URI che specifica il tipo di identità. |
SearchIndexerDataUserAssignedIdentity
Specifica l'identità da utilizzare per un'origine dati.
| Nome | Tipo | Descrizione |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
Frammento di URI che specifica il tipo di identità. |
| userAssignedIdentity |
string |
L'ID risorsa di Azure completo di un'identità gestita assegnata all'utente, in genere nel formato "/subscriptions/12345678-1234-1234-1234-1234567890ab/resourceGroups/rg/providers/Microsoft.ManagedIdentity/userAssignedIdentities/myId" che avrebbe dovuto essere assegnato al servizio di ricerca. |
SearchResourceEncryptionKey
Una chiave di crittografia gestita dal cliente in Azure Key Vault. Le chiavi create e gestite dall'utente possono essere utilizzate per crittografare o decrittografare i dati inattivi, ad esempio indici e mappe di sinonimi.
| Nome | Tipo | Descrizione |
|---|---|---|
| accessCredentials |
Credenziali facoltative di Azure Active Directory usate per l'accesso ad Azure Key Vault. Non necessario se si usa l'identità gestita. |
|
| keyVaultKeyName |
string |
Nome della chiave di Azure Key Vault da usare per crittografare i dati inattivi. |
| keyVaultKeyVersion |
string |
Versione della chiave di Azure Key Vault da usare per crittografare i dati inattivi. |
| keyVaultUri |
string |
URI dell'insieme di credenziali delle chiavi di Azure, noto anche come nome DNS, che contiene la chiave da usare per crittografare i dati inattivi. Un URI di esempio potrebbe essere |
SemanticConfiguration
Definisce una configurazione specifica da utilizzare nel contesto delle funzionalità semantiche.
| Nome | Tipo | Descrizione |
|---|---|---|
| name |
string |
Nome della configurazione semantica. |
| prioritizedFields |
Descrive i campi del titolo, del contenuto e delle parole chiave da utilizzare per la classificazione semantica, le didascalie, le evidenziazioni e le risposte. Almeno una delle tre proprietà secondarie (titleField, prioritizedKeywordsFields e prioritizedContentFields) deve essere impostata. |
|
| rankingOrder |
Specifica il tipo di punteggio da utilizzare per l'ordinamento dei risultati della ricerca. |
SemanticField
Campo utilizzato come parte della configurazione semantica.
| Nome | Tipo | Descrizione |
|---|---|---|
| fieldName |
string |
SemanticSettings
Definisce i parametri per un indice di ricerca che influenzano le funzionalità semantiche.
| Nome | Tipo | Descrizione |
|---|---|---|
| configurations |
Configurazioni semantiche per l'indice. |
|
| defaultConfiguration |
string |
Consente di impostare il nome di una configurazione semantica predefinita nell'indice, rendendo facoltativo il passaggio come parametro di query ogni volta. |
ShingleTokenFilter
Crea combinazioni di token come un singolo token. Questo filtro token viene implementato utilizzando Apache Lucene.
| Nome | Tipo | Valore predefinito | Descrizione |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Frammento URI che specifica il tipo di filtro token. |
|
| filterToken |
string |
_ |
La stringa da inserire per ogni posizione in cui non è presente alcun token. Il valore predefinito è un carattere di sottolineatura ("_"). |
| maxShingleSize |
integer (int32) minimum: 2 |
2 |
La dimensione massima della tegola. Il valore predefinito e minimo è 2. |
| minShingleSize |
integer (int32) minimum: 2 |
2 |
La dimensione minima della tegola. Il valore predefinito e minimo è 2. Deve essere inferiore al valore di maxShingleSize. |
| name |
string |
Nome del filtro token. Deve contenere solo lettere, cifre, spazi, trattini o trattini bassi, può iniziare e terminare solo con caratteri alfanumerici ed è limitato a 128 caratteri. |
|
| outputUnigrams |
boolean |
True |
Un valore che indica se il flusso di output conterrà i token di input (unigrammi) e le tegole. Il valore predefinito è vero. |
| outputUnigramsIfNoShingles |
boolean |
False |
Un valore che indica se produrre unigrammi per quei momenti in cui non sono disponibili tegole. Questa proprietà ha la precedenza quando outputUnigrams è impostato su false. Il valore predefinito è false. |
| tokenSeparator |
string |
La corda da utilizzare quando si uniscono i gettoni adiacenti per formare una tegola. Il valore predefinito è uno spazio singolo (" "). |
SnowballTokenFilter
Un filtro che suddivide le parole utilizzando uno stemmer generato da Snowball. Questo filtro token viene implementato utilizzando Apache Lucene.
| Nome | Tipo | Descrizione |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
Frammento URI che specifica il tipo di filtro token. |
| language |
La lingua da utilizzare. |
|
| name |
string |
Nome del filtro token. Deve contenere solo lettere, cifre, spazi, trattini o trattini bassi, può iniziare e terminare solo con caratteri alfanumerici ed è limitato a 128 caratteri. |
SnowballTokenFilterLanguage
Lingua da utilizzare per un filtro token Snowball.
| Valore | Descrizione |
|---|---|
| armenian |
Seleziona il tokenizzatore di stemming Lucene Snowball per l'armeno. |
| basque |
Seleziona il tokenizzatore di stemming Lucene Snowball per il basco. |
| catalan |
Seleziona il tokenizzatore di stemming Lucene Snowball per Catalan. |
| danish |
Seleziona il tokenizzatore di stemming Lucene Snowball per il danese. |
| dutch |
Seleziona il tokenizzatore di stemming Lucene Snowball per l'olandese. |
| english |
Seleziona il tokenizzatore di stemming Lucene Snowball per l'inglese. |
| finnish |
Seleziona il tokenizzatore di stemming Lucene Snowball per il finlandese. |
| french |
Seleziona il tokenizzatore di stemming Lucene Snowball per il francese. |
| german |
Seleziona il tokenizzatore di stemming Lucene Snowball per il tedesco. |
| german2 |
Seleziona il tokenizzatore di stemming Lucene Snowball che utilizza l'algoritmo della variante tedesca. |
| hungarian |
Seleziona il tokenizzatore di stemming Lucene Snowball per l'ungherese. |
| italian |
Seleziona il tokenizzatore di stemming Lucene Snowball per l'italiano. |
| kp |
Seleziona il tokenizzatore di stemming Lucene Snowball per l'olandese che utilizza l'algoritmo di stemming Kraaij-Pohlmann. |
| lovins |
Seleziona il tokenizzatore di stemming Lucene Snowball per l'inglese che utilizza l'algoritmo di stemming Lovins. |
| norwegian |
Seleziona il tokenizzatore di stemming Lucene Snowball per Norwegian. |
| porter |
Seleziona il tokenizzatore di stemming Lucene Snowball per l'inglese che utilizza l'algoritmo di stemming Porter. |
| portuguese |
Seleziona il tokenizzatore di stemming Lucene Snowball per il portoghese. |
| romanian |
Seleziona il tokenizzatore di stemming Lucene Snowball per il rumeno. |
| russian |
Seleziona il tokenizzatore di stemming Lucene Snowball per il russo. |
| spanish |
Seleziona il tokenizzatore di stemming Lucene Snowball per lo spagnolo. |
| swedish |
Seleziona il tokenizzatore di stemming Lucene Snowball per lo svedese. |
| turkish |
Seleziona il tokenizzatore di stemming Lucene Snowball per il turco. |
StemmerOverrideTokenFilter
Offre la possibilità di eseguire l'override di altri filtri di stemming con lo stemming personalizzato basato su dizionario. Tutti i termini con radice del dizionario verranno contrassegnati come parole chiave in modo che non vengano contrassegnati con le radici lungo la catena. Deve essere posizionato prima di qualsiasi filtro di stesura. Questo filtro token viene implementato utilizzando Apache Lucene.
| Nome | Tipo | Descrizione |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
Frammento URI che specifica il tipo di filtro token. |
| name |
string |
Nome del filtro token. Deve contenere solo lettere, cifre, spazi, trattini o trattini bassi, può iniziare e terminare solo con caratteri alfanumerici ed è limitato a 128 caratteri. |
| rules |
string[] |
Un elenco di regole di stemming nel seguente formato: "word => stem", ad esempio: "ran => run". |
StemmerTokenFilter
Filtro di derivazione specifico della lingua. Questo filtro token viene implementato utilizzando Apache Lucene.
| Nome | Tipo | Descrizione |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
Frammento URI che specifica il tipo di filtro token. |
| language |
La lingua da utilizzare. |
|
| name |
string |
Nome del filtro token. Deve contenere solo lettere, cifre, spazi, trattini o trattini bassi, può iniziare e terminare solo con caratteri alfanumerici ed è limitato a 128 caratteri. |
StemmerTokenFilterLanguage
Linguaggio da utilizzare per un filtro token stemmer.
| Valore | Descrizione |
|---|---|
| arabic |
Seleziona il tokenizzatore di derivazione Lucene per l'arabo. |
| armenian |
Seleziona il tokenizzatore di derivazione Lucene per l'armeno. |
| basque |
Seleziona il tokenizzatore di stemming Lucene per il basco. |
| brazilian |
Seleziona il tokenizzatore di derivazione Lucene per il portoghese (Brasile). |
| bulgarian |
Seleziona il tokenizzatore di derivazione Lucene per il bulgaro. |
| catalan |
Seleziona il tokenizzatore di derivazione Lucene per Catalan. |
| czech |
Seleziona il tokenizzatore di stemming Lucene per il ceco. |
| danish |
Seleziona il tokenizzatore di stemming Lucene per il danese. |
| dutch |
Seleziona il tokenizzatore di derivazione Lucene per l'olandese. |
| dutchKp |
Seleziona il tokenizzatore di stemming Lucene per l'olandese che utilizza l'algoritmo di stemming Kraaij-Pohlmann. |
| english |
Seleziona il tokenizzatore di derivazione Lucene per l'inglese. |
| lightEnglish |
Seleziona il tokenizzatore di stemming Lucene per l'inglese che esegue lo stemming leggero. |
| minimalEnglish |
Seleziona il tokenizzatore di stemming Lucene per l'inglese che esegue lo stemming minimo. |
| possessiveEnglish |
Seleziona il tokenizzatore di derivazione Lucene per l'inglese che rimuove i possessivi finali dalle parole. |
| porter2 |
Seleziona il tokenizzatore di stemming Lucene per l'inglese che utilizza l'algoritmo di stemming Porter2. |
| lovins |
Seleziona il tokenizzatore di stemming Lucene per l'inglese che utilizza l'algoritmo di stemming Lovins. |
| finnish |
Seleziona il tokenizzatore di stemming Lucene per il finlandese. |
| lightFinnish |
Seleziona il tokenizzatore di stemming Lucene per il finlandese che esegue lo stemming leggero. |
| french |
Seleziona il tokenizzatore di stemming Lucene per il francese. |
| lightFrench |
Seleziona il tokenizzatore di stemming Lucene per il francese che esegue lo stemming leggero. |
| minimalFrench |
Seleziona il tokenizzatore di stemming Lucene per il francese che esegue lo stemming minimo. |
| galician |
Seleziona il tokenizzatore di derivazione Lucene per il galiziano. |
| minimalGalician |
Seleziona il tokenizzatore di stemming Lucene per il galiziano che esegue lo stemming minimo. |
| german |
Seleziona il tokenizzatore di stemming Lucene per il tedesco. |
| german2 |
Seleziona il tokenizzatore di derivazione Lucene che utilizza l'algoritmo della variante tedesca. |
| lightGerman |
Seleziona il tokenizzatore di stemming Lucene per il tedesco che esegue lo stemming leggero. |
| minimalGerman |
Seleziona il tokenizzatore di stemming Lucene per il tedesco che esegue lo stemming minimo. |
| greek |
Seleziona il tokenizzatore di derivazione Lucene per il greco. |
| hindi |
Seleziona il tokenizzatore di derivazione Lucene per l'hindi. |
| hungarian |
Seleziona il tokenizzatore di derivazione Lucene per l'ungherese. |
| lightHungarian |
Seleziona il tokenizzatore di stemming Lucene per l'ungherese che esegue lo stemming leggero. |
| indonesian |
Seleziona il tokenizzatore di derivazione Lucene per l'indonesiano. |
| irish |
Seleziona il tokenizzatore di stemming Lucene per l'irlandese. |
| italian |
Seleziona il tokenizzatore di stemming Lucene per l'italiano. |
| lightItalian |
Seleziona il tokenizzatore di stemming Lucene per l'italiano che esegue lo stemming leggero. |
| sorani |
Seleziona il tokenizzatore di stemming Lucene per Sorani. |
| latvian |
Seleziona il tokenizzatore di derivazione Lucene per il lettone. |
| norwegian |
Seleziona il tokenizzatore di stemming Lucene per il norvegese (Bokmål). |
| lightNorwegian |
Seleziona il tokenizzatore di stemming Lucene per il norvegese (Bokmål) che esegue lo stemming leggero. |
| minimalNorwegian |
Seleziona il tokenizzatore di stemming Lucene per il norvegese (Bokmål) che esegue lo stemming minimo. |
| lightNynorsk |
Seleziona il tokenizzatore di stemming Lucene per il norvegese (Nynorsk) che esegue lo stemming leggero. |
| minimalNynorsk |
Seleziona il tokenizzatore di stemming Lucene per il norvegese (Nynorsk) che esegue lo stemming minimo. |
| portuguese |
Seleziona il tokenizzatore di stemming Lucene per il portoghese. |
| lightPortuguese |
Seleziona il tokenizzatore di stemming Lucene per il portoghese che esegue lo stemming leggero. |
| minimalPortuguese |
Seleziona il tokenizzatore di stemming Lucene per il portoghese che esegue lo stemming minimo. |
| portugueseRslp |
Seleziona il tokenizzatore di stemming Lucene per il portoghese che utilizza l'algoritmo di stemming RSLP. |
| romanian |
Seleziona il tokenizzatore di derivazione Lucene per il rumeno. |
| russian |
Seleziona il tokenizzatore di derivazione Lucene per il russo. |
| lightRussian |
Seleziona il tokenizzatore di stemming Lucene per il russo che esegue lo stemming leggero. |
| spanish |
Seleziona il tokenizzatore di derivazione Lucene per lo spagnolo. |
| lightSpanish |
Seleziona il tokenizzatore di stemming Lucene per lo spagnolo che esegue lo stemming leggero. |
| swedish |
Seleziona il tokenizzatore di stemming Lucene per lo svedese. |
| lightSwedish |
Seleziona il tokenizzatore di stemming Lucene per lo svedese che esegue lo stemming leggero. |
| turkish |
Seleziona il tokenizzatore di derivazione Lucene per il turco. |
StopAnalyzer
Divide il testo in corrispondenza di non-lettere; Applica i filtri dei token per le lettere minuscole e le parole non significative. Questo analizzatore viene implementato utilizzando Apache Lucene.
| Nome | Tipo | Descrizione |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
Frammento di URI che specifica il tipo di analizzatore. |
| name |
string |
Nome dell'analizzatore. Deve contenere solo lettere, cifre, spazi, trattini o trattini bassi, può iniziare e terminare solo con caratteri alfanumerici ed è limitato a 128 caratteri. |
| stopwords |
string[] |
Un elenco di parole non significative. |
StopwordsList
Identifica un elenco predefinito di parole non significative specifiche della lingua.
| Valore | Descrizione |
|---|---|
| arabic |
Seleziona l'elenco di parole non significative per l'arabo. |
| armenian |
Seleziona l'elenco delle parole non significative per l'armeno. |
| basque |
Seleziona l'elenco delle parole non significative per il basco. |
| brazilian |
Seleziona l'elenco delle parole non significative per il portoghese (Brasile). |
| bulgarian |
Seleziona l'elenco delle parole non significative per il bulgaro. |
| catalan |
Seleziona l'elenco di parole non significative per il catalano. |
| czech |
Seleziona l'elenco di parole non significative per il ceco. |
| danish |
Seleziona l'elenco di parole non significative per il danese. |
| dutch |
Seleziona l'elenco delle parole non significative per l'olandese. |
| english |
Seleziona l'elenco di parole non significative per l'inglese. |
| finnish |
Seleziona l'elenco delle parole non significative per il finlandese. |
| french |
Seleziona l'elenco delle parole non significative per il francese. |
| galician |
Seleziona l'elenco di parole non significative per il galiziano. |
| german |
Seleziona l'elenco delle parole non significative per il tedesco. |
| greek |
Seleziona l'elenco delle parole non significative per il greco. |
| hindi |
Seleziona l'elenco delle parole non significative per l'hindi. |
| hungarian |
Seleziona l'elenco delle parole non significative per l'ungherese. |
| indonesian |
Seleziona l'elenco delle parole non significative per l'indonesiano. |
| irish |
Seleziona l'elenco delle parole non significative per l'irlandese. |
| italian |
Seleziona l'elenco delle parole non significative per l'italiano. |
| latvian |
Seleziona l'elenco di parole non significative per il lettone. |
| norwegian |
Seleziona l'elenco delle parole non significative per il norvegese. |
| persian |
Seleziona l'elenco di parole non significative per il persiano. |
| portuguese |
Seleziona l'elenco delle parole non significative per il portoghese. |
| romanian |
Seleziona l'elenco delle parole non significative per il rumeno. |
| russian |
Seleziona l'elenco delle parole non significative per il russo. |
| sorani |
Seleziona l'elenco delle parole non significative per Sorani. |
| spanish |
Seleziona l'elenco delle parole non significative per lo spagnolo. |
| swedish |
Seleziona l'elenco delle parole non significative per lo svedese. |
| thai |
Seleziona l'elenco di parole non significative per il tailandese. |
| turkish |
Seleziona l'elenco di parole non significative per il turco. |
StopwordsTokenFilter
Rimuove le parole non significative da un flusso di token. Questo filtro token viene implementato utilizzando Apache Lucene.
| Nome | Tipo | Valore predefinito | Descrizione |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Frammento URI che specifica il tipo di filtro token. |
|
| ignoreCase |
boolean |
False |
Un valore che indica se ignorare le maiuscole/minuscole. Se true, tutte le parole vengono convertite prima in minuscolo. Il valore predefinito è false. |
| name |
string |
Nome del filtro token. Deve contenere solo lettere, cifre, spazi, trattini o trattini bassi, può iniziare e terminare solo con caratteri alfanumerici ed è limitato a 128 caratteri. |
|
| removeTrailing |
boolean |
True |
Un valore che indica se ignorare l'ultimo termine di ricerca se si tratta di una parola non significativa. Il valore predefinito è vero. |
| stopwords |
string[] |
L'elenco delle parole non significative. Non è possibile impostare questa proprietà e la proprietà dell'elenco di parole non significative. |
|
| stopwordsList | english |
Un elenco predefinito di parole non significative da utilizzare. Non è possibile impostare questa proprietà e la proprietà delle parole non significative. L'impostazione predefinita è l'inglese. |
Suggester
Definisce il modo in cui l'API Suggest deve essere applicata a un gruppo di campi nell'indice.
| Nome | Tipo | Descrizione |
|---|---|---|
| name |
string |
Il nome del suggeritore. |
| searchMode |
Valore che indica le capacità del suggeritore. |
|
| sourceFields |
string[] |
L'elenco dei nomi dei campi a cui si applica il suggeritore. Ogni campo deve poter essere ricercato. |
SuggesterSearchMode
Valore che indica le capacità del suggeritore.
| Valore | Descrizione |
|---|---|
| analyzingInfixMatching |
Corrisponde a termini interi e prefissi consecutivi in un campo. Ad esempio, per il campo "La volpe marrone più veloce", le query "veloce" e "fronte più veloce" corrisponderebbero entrambe. |
SynonymTokenFilter
Corrisponde a sinonimi di una o più parole in un flusso di token. Questo filtro token viene implementato utilizzando Apache Lucene.
| Nome | Tipo | Valore predefinito | Descrizione |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Frammento URI che specifica il tipo di filtro token. |
|
| expand |
boolean |
True |
Un valore che indica se tutte le parole nell'elenco di sinonimi (se la notazione => non viene utilizzata) verranno mappate l'una all'altra. Se true, tutte le parole nell'elenco dei sinonimi (se => la notazione non viene utilizzata) verranno mappate l'una all'altra. La seguente lista: incredibile, incredibile, favoloso, sorprendente equivale a: incredibile, incredibile, favoloso, sorprendente => incredibile, incredibile, favoloso, sorprendente. Se falso, il seguente elenco: incredibile, incredibile, favoloso, sorprendente sarà equivalente a: incredibile, incredibile, favoloso, sorprendente => incredibile. Il valore predefinito è vero. |
| ignoreCase |
boolean |
False |
Valore che indica se piegare l'input per la corrispondenza. Il valore predefinito è false. |
| name |
string |
Nome del filtro token. Deve contenere solo lettere, cifre, spazi, trattini o trattini bassi, può iniziare e terminare solo con caratteri alfanumerici ed è limitato a 128 caratteri. |
|
| synonyms |
string[] |
Un elenco di sinonimi nei seguenti due formati: 1. incredibile, incredibile, favoloso => sorprendente - tutti i termini sul lato sinistro del simbolo => saranno sostituiti con tutti i termini sul lato destro; 2. Incredibile, incredibile, favoloso, sorprendente - elenco separato da virgole di parole equivalenti. Impostare l'opzione di espansione per modificare l'interpretazione dell'elenco. |
TagScoringFunction
Definisce una funzione che aumenta i punteggi dei documenti con valori stringa corrispondenti a un determinato elenco di tag.
| Nome | Tipo | Descrizione |
|---|---|---|
| boost |
number (double) |
Un moltiplicatore per il punteggio non elaborato. Deve essere un numero positivo diverso da 1,0. |
| fieldName |
string |
Nome del campo utilizzato come input per la funzione di punteggio. |
| interpolation |
Un valore che indica il modo in cui l'aumento verrà interpolato tra i punteggi dei documenti; il valore predefinito è "Lineare". |
|
| tag |
Valori dei parametri per la funzione di assegnazione dei punteggi dei tag. |
|
| type |
string:
tag |
Indica il tipo di funzione da utilizzare. I valori validi includono magnitudine, freschezza, distanza e tag. Il tipo di funzione deve essere minuscolo. |
TagScoringParameters
Fornisce i valori dei parametri a una funzione di assegnazione dei punteggi dei tag.
| Nome | Tipo | Descrizione |
|---|---|---|
| tagsParameter |
string |
Il nome del parametro passato nelle query di ricerca per specificare l'elenco di tag da confrontare con il campo di destinazione. |
TextWeights
Definisce i pesi nei campi indice per i quali le corrispondenze devono aumentare il punteggio nelle query di ricerca.
| Nome | Tipo | Descrizione |
|---|---|---|
| weights |
object |
Il dizionario dei pesi per campo per aumentare il punteggio dei documenti. Le chiavi sono i nomi dei campi e i valori sono i pesi per ogni campo. |
TokenCharacterKind
Rappresenta le classi di caratteri su cui può operare un filtro token.
| Valore | Descrizione |
|---|---|
| letter |
Conserva le lettere in gettoni. |
| digit |
Mantiene le cifre nei token. |
| whitespace |
Mantiene gli spazi vuoti nei token. |
| punctuation |
Mantiene la punteggiatura nei token. |
| symbol |
Mantiene i simboli in pedine. |
TokenFilterName
Definisce i nomi di tutti i filtri token supportati dal motore di ricerca.
| Valore | Descrizione |
|---|---|
| arabic_normalization |
Un filtro token che applica il normalizzatore arabo per normalizzare l'ortografia. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ar/ArabicNormalizationFilter.html |
| apostrophe |
Rimuove tutti i caratteri dopo un apostrofo (incluso l'apostrofo stesso). Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/tr/ApostropheFilter.html |
| asciifolding |
Converte i caratteri Unicode alfabetici, numerici e simbolici che non si trovano nei primi 127 caratteri ASCII (il blocco Unicode "Latino di base") nei loro equivalenti ASCII, se tali equivalenti esistono. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html |
| cjk_bigram |
Forma bigrammi di termini CJK generati dal tokenizer standard. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKBigramFilter.html |
| cjk_width |
Normalizza le differenze di larghezza CJK. Piega le varianti ASCII a larghezza intera nell'equivalente latino di base e le varianti Katakana a mezza larghezza nell'equivalente Kana. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKWidthFilter.html |
| classic |
Rimuove i possessivi inglesi e i punti dagli acronimi. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicFilter.html |
| common_grams |
Costruisci bigrammi per i termini che ricorrono frequentemente durante l'indicizzazione. Anche i singoli termini sono ancora indicizzati, con i bigrammi sovrapposti. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/commongrams/CommonGramsFilter.html |
| edgeNGram_v2 |
Genera n-grammi delle dimensioni specificate a partire dalla parte anteriore o posteriore di un token di input. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenFilter.html |
| elision |
Rimuove le elisioni. Ad esempio, "l'avion" (l'aereo) sarà convertito in "avion" (aereo). Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html |
| german_normalization |
Normalizza i caratteri tedeschi in base all'euristica dell'algoritmo German2 snowball. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/de/GermanNormalizationFilter.html |
| hindi_normalization |
Normalizza il testo in hindi per rimuovere alcune differenze nelle variazioni ortografiche. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/hi/HindiNormalizationFilter.html |
| indic_normalization |
Normalizza la rappresentazione Unicode del testo nelle lingue indiane. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/in/IndicNormalizationFilter.html |
| keyword_repeat |
Emette ogni token in ingresso due volte, una volta come parola chiave e una volta come non parola chiave. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/KeywordRepeatFilter.html |
| kstem |
Un filtro kstem ad alte prestazioni per l'inglese. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/en/KStemFilter.html |
| length |
Rimuove le parole troppo lunghe o troppo brevi. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LengthFilter.html |
| limit |
Limita il numero di token durante l'indicizzazione. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LimitTokenCountFilter.html |
| lowercase |
Normalizza il testo del token in minuscolo. Fare riferimento a https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html |
| nGram_v2 |
Genera n-grammi della dimensione o delle dimensioni specificate. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenFilter.html |
| persian_normalization |
Applica la normalizzazione per il persiano. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/fa/PersianNormalizationFilter.html |
| phonetic |
Crea token per le corrispondenze fonetiche. Fare riferimento a https://lucene.apache.org/core/4_10_3/analyzers-phonetic/org/apache/lucene/analysis/phonetic/package-tree.html |
| porter_stem |
Utilizza l'algoritmo di stemming Porter per trasformare il flusso di token. Fare riferimento a http://tartarus.org/~martin/PorterStemmer |
| reverse |
Inverte la stringa del token. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html |
| scandinavian_normalization |
Normalizza l'uso dei caratteri scandinavi intercambiabili. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianNormalizationFilter.html |
| scandinavian_folding |
Piega i caratteri scandinavi åÅäæÄÆ-a> e öÖøØ-o>. Discrimina anche l'uso delle vocali doppie aa, ae, ao, oe e oo, lasciando solo la prima. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianFoldingFilter.html |
| shingle |
Crea combinazioni di token come un singolo token. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/shingle/ShingleFilter.html |
| snowball |
Un filtro che suddivide le parole utilizzando uno stemmer generato da Snowball. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/snowball/SnowballFilter.html |
| sorani_normalization |
Normalizza la rappresentazione Unicode del testo Sorani. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ckb/SoraniNormalizationFilter.html |
| stemmer |
Filtro di derivazione specifico della lingua. Fare riferimento a https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#TokenFilters |
| stopwords |
Rimuove le parole non significative da un flusso di token. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html |
| trim |
Taglia gli spazi vuoti iniziali e finali dai token. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TrimFilter.html |
| truncate |
Tronca i termini a una lunghezza specifica. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TruncateTokenFilter.html |
| unique |
Filtra i token con lo stesso testo del token precedente. Fare riferimento a http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/RemoveDuplicatesTokenFilter.html |
| uppercase |
Normalizza il testo del token in maiuscolo. Fare riferimento a https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html |
| word_delimiter |
Suddivide le parole in sottoparole ed esegue trasformazioni facoltative sui gruppi di sottoparole. |
TruncateTokenFilter
Tronca i termini a una lunghezza specifica. Questo filtro token viene implementato utilizzando Apache Lucene.
| Nome | Tipo | Valore predefinito | Descrizione |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Frammento URI che specifica il tipo di filtro token. |
|
| length |
integer (int32) maximum: 300 |
300 |
La lunghezza alla quale i termini verranno troncati. Il valore predefinito e massimo è 300. |
| name |
string |
Nome del filtro token. Deve contenere solo lettere, cifre, spazi, trattini o trattini bassi, può iniziare e terminare solo con caratteri alfanumerici ed è limitato a 128 caratteri. |
UaxUrlEmailTokenizer
Tokenizza URL ed e-mail come un unico token. Questo tokenizzatore è implementato utilizzando Apache Lucene.
| Nome | Tipo | Valore predefinito | Descrizione |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Frammento URI che specifica il tipo di tokenizer. |
|
| maxTokenLength |
integer (int32) maximum: 300 |
255 |
Lunghezza massima del token. Il valore predefinito è 255. I token più lunghi della lunghezza massima vengono divisi. La lunghezza massima del token che può essere utilizzata è di 300 caratteri. |
| name |
string |
Il nome del tokenizer. Deve contenere solo lettere, cifre, spazi, trattini o trattini bassi, può iniziare e terminare solo con caratteri alfanumerici ed è limitato a 128 caratteri. |
UniqueTokenFilter
Filtra i token con lo stesso testo del token precedente. Questo filtro token viene implementato utilizzando Apache Lucene.
| Nome | Tipo | Valore predefinito | Descrizione |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Frammento URI che specifica il tipo di filtro token. |
|
| name |
string |
Nome del filtro token. Deve contenere solo lettere, cifre, spazi, trattini o trattini bassi, può iniziare e terminare solo con caratteri alfanumerici ed è limitato a 128 caratteri. |
|
| onlyOnSamePosition |
boolean |
False |
Un valore che indica se rimuovere i duplicati solo nella stessa posizione. Il valore predefinito è false. |
VectorEncodingFormat
Formato di codifica per l'interpretazione del contenuto del campo vettoriale.
| Valore | Descrizione |
|---|---|
| packedBit |
Formato di codifica che rappresenta i bit compressi in un tipo di dati più ampio. |
VectorSearch
Contiene opzioni di configurazione relative alla ricerca vettoriale.
| Nome | Tipo | Descrizione |
|---|---|---|
| algorithms | VectorSearchAlgorithmConfiguration[]: |
Contiene opzioni di configurazione specifiche per l'algoritmo utilizzato durante l'indicizzazione o l'esecuzione di query. |
| compressions | VectorSearchCompressionConfiguration[]: |
Contiene opzioni di configurazione specifiche per il metodo di compressione utilizzato durante l'indicizzazione o l'esecuzione di query. |
| profiles |
Definisce le combinazioni di configurazioni da utilizzare con la ricerca vettoriale. |
|
| vectorizers | VectorSearchVectorizer[]: |
Contiene opzioni di configurazione su come vettorializzare le query vettoriali di testo. |
VectorSearchAlgorithmKind
Algoritmo utilizzato per l'indicizzazione e l'esecuzione di query.
| Valore | Descrizione |
|---|---|
| hnsw |
HNSW (Hierarchical Navigable Small World), un tipo di algoritmo approssimativo dei vicini più vicini. |
| exhaustiveKnn |
Algoritmo KNN esaustivo che eseguirà la ricerca di forza bruta. |
VectorSearchAlgorithmMetric
La metrica di somiglianza da utilizzare per i confronti vettoriali. Si consiglia di scegliere la stessa metrica di somiglianza su cui è stato addestrato il modello di incorporamento.
| Valore | Descrizione |
|---|---|
| cosine |
Misura l'angolo tra i vettori per quantificarne la somiglianza, ignorando la magnitudine. Più piccolo è l'angolo, più stretta è la somiglianza. |
| euclidean |
Calcola la distanza in linea retta tra i vettori in uno spazio multidimensionale. Minore è la distanza, più stretta è la somiglianza. |
| dotProduct |
Calcola la somma dei prodotti elementari per misurare l'allineamento e la somiglianza di grandezza. Più grande e più positivo, più stretta è la somiglianza. |
| hamming |
Applicabile solo ai tipi di dati binari con compressione di bit. Determina la dissomiglianza contando le diverse posizioni nei vettori binari. Minori sono le differenze, più stretta è la somiglianza. |
VectorSearchCompressionKind
Metodo di compressione utilizzato per l'indicizzazione e l'esecuzione di query.
| Valore | Descrizione |
|---|---|
| scalarQuantization |
Quantizzazione scalare, un tipo di metodo di compressione. Nella quantizzazione scalare, i valori dei vettori originali vengono compressi in un tipo più ristretto discretizzando e rappresentando ogni componente di un vettore utilizzando un insieme ridotto di valori quantizzati, riducendo così la dimensione complessiva dei dati. |
| binaryQuantization |
Quantizzazione binaria, un tipo di metodo di compressione. Nella quantizzazione binaria, i valori dei vettori originali vengono compressi nel tipo binario più stretto discretizzando e rappresentando ogni componente di un vettore utilizzando valori binari, riducendo così la dimensione complessiva dei dati. |
VectorSearchCompressionRescoreStorageMethod
Metodo di archiviazione per i vettori originali a precisione completa utilizzati per il rescoring e le operazioni di indicizzazione interna.
| Valore | Descrizione |
|---|---|
| preserveOriginals |
Questa opzione mantiene i vettori originali a precisione completa. Scegli questa opzione per ottenere la massima flessibilità e la massima qualità dei risultati di ricerca compressi. In questo modo si utilizza più spazio di archiviazione, ma si consente il rescoring e l'oversampling. |
| discardOriginals |
Questa opzione elimina i vettori originali a precisione completa. Scegliere questa opzione per ottenere il massimo risparmio di spazio di archiviazione. Poiché questa opzione non consente il rescoring e il sovracampionamento, spesso causa riduzioni di qualità da lievi a moderate. |
VectorSearchCompressionTargetDataType
Tipo di dati quantizzati dei valori vettoriali compressi.
| Valore | Descrizione |
|---|---|
| int8 |
VectorSearchProfile
Definisce una combinazione di configurazioni da utilizzare con la ricerca vettoriale.
| Nome | Tipo | Descrizione |
|---|---|---|
| algorithm |
string |
Nome della configurazione dell'algoritmo di ricerca vettoriale che specifica l'algoritmo e i parametri facoltativi. |
| compression |
string |
Nome della configurazione del metodo di compressione che specifica il metodo di compressione e i parametri facoltativi. |
| name |
string |
Nome da associare a questo particolare profilo di ricerca vettoriale. |
| vectorizer |
string |
Il nome della vettorializzazione da configurare per l'uso con la ricerca vettoriale. |
VectorSearchVectorizerKind
Metodo di vettorizzazione da utilizzare durante la fase di query.
| Valore | Descrizione |
|---|---|
| azureOpenAI |
Generare incorporamenti usando una risorsa Azure OpenAI in fase di query. |
| customWebApi |
Genera incorporamenti utilizzando un endpoint Web personalizzato in fase di query. |
WebApiParameters
Specifica le proprietà per la connessione a un vettorizzatore definito dall'utente.
| Nome | Tipo | Descrizione |
|---|---|---|
| authIdentity | SearchIndexerDataIdentity: |
Identità gestita assegnata dall'utente utilizzata per le connessioni in uscita. Se viene fornito un authResourceId che non viene specificato, viene usata l'identità gestita assegnata dal sistema. Quando si aggiorna l'indicizzatore, se l'identità non è specificata, il valore rimane invariato. Se impostato su "none", il valore di questa proprietà viene cancellato. |
| authResourceId |
string |
Si applica agli endpoint personalizzati che si connettono al codice esterno in una funzione di Azure o in un'altra applicazione che fornisce le trasformazioni. Questo valore deve essere l'ID applicazione creato per la funzione o l'app quando è stata registrata con Azure Active Directory. Se specificata, la vettorizzazione si connette alla funzione o all'app usando un ID gestito (assegnato dal sistema o dall'utente) del servizio di ricerca e il token di accesso della funzione o dell'app, usando questo valore come ID risorsa per la creazione dell'ambito del token di accesso. |
| httpHeaders |
object |
Le intestazioni necessarie per effettuare la richiesta HTTP. |
| httpMethod |
string |
Metodo per la richiesta HTTP. |
| timeout |
string (duration) |
Il timeout desiderato per la richiesta. Il valore predefinito è 30 secondi. |
| uri |
string (uri) |
URI dell'API Web che fornisce il vettorizzatore. |
WebApiVectorizer
Specifica un vettorizzatore definito dall'utente per la generazione dell'incorporamento vettoriale di una stringa di query. L'integrazione di un vettorizzatore esterno si ottiene utilizzando l'interfaccia API Web personalizzata di un set di competenze.
| Nome | Tipo | Descrizione |
|---|---|---|
| customWebApiParameters |
Specifica le proprietà del vettorizzatore definito dall'utente. |
|
| kind |
string:
custom |
Nome del tipo di metodo di vettorizzazione configurato per l'utilizzo con la ricerca vettoriale. |
| name |
string |
Nome da associare a questo particolare metodo di vettorializzazione. |
WordDelimiterTokenFilter
Suddivide le parole in sottoparole ed esegue trasformazioni facoltative sui gruppi di sottoparole. Questo filtro token viene implementato utilizzando Apache Lucene.
| Nome | Tipo | Valore predefinito | Descrizione |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Frammento URI che specifica il tipo di filtro token. |
|
| catenateAll |
boolean |
False |
Valore che indica se tutte le parti della sottoparola verranno concatenate. Ad esempio, se è impostato su true, "Azure-Search-1" diventa "AzureSearch1". Il valore predefinito è false. |
| catenateNumbers |
boolean |
False |
Valore che indica se verrà concatenato il numero massimo di parti numerose. Ad esempio, se è impostato su true, "1-2" diventa "12". Il valore predefinito è false. |
| catenateWords |
boolean |
False |
Valore che indica se verrà concatenato il numero massimo di esecuzioni di parti word. Ad esempio, se è impostato su true, "Azure-Search" diventa "AzureSearch". Il valore predefinito è false. |
| generateNumberParts |
boolean |
True |
Valore che indica se generare sottoparole numeriche. Il valore predefinito è vero. |
| generateWordParts |
boolean |
True |
Valore che indica se generare parole parte. Se impostato, provoca la generazione di parti di parole; ad esempio, "AzureSearch" diventa "Azure", "Search". Il valore predefinito è vero. |
| name |
string |
Nome del filtro token. Deve contenere solo lettere, cifre, spazi, trattini o trattini bassi, può iniziare e terminare solo con caratteri alfanumerici ed è limitato a 128 caratteri. |
|
| preserveOriginal |
boolean |
False |
Un valore che indica se le parole originali verranno conservate e aggiunte all'elenco di sottoparole. Il valore predefinito è false. |
| protectedWords |
string[] |
Un elenco di token da proteggere dall'essere delimitati. |
|
| splitOnCaseChange |
boolean |
True |
Un valore che indica se dividere le parole in caseChange. Ad esempio, se è impostato su true, "AzureSearch" diventa "Azure" "Search". Il valore predefinito è vero. |
| splitOnNumerics |
boolean |
True |
Un valore che indica se dividere in base ai numeri. Ad esempio, se è impostato su true, "Azure1Search" diventa "Azure" "1" "Search". Il valore predefinito è vero. |
| stemEnglishPossessive |
boolean |
True |
Valore che indica se rimuovere le "s" finali per ogni sottoparola. Il valore predefinito è vero. |