Indexes - Create Or Update
Hiermee maakt u een nieuwe zoekindex of werkt u een index bij als deze al bestaat.
PUT {endpoint}/indexes('{indexName}')?api-version=2023-11-01
PUT {endpoint}/indexes('{indexName}')?allowIndexDowntime={allowIndexDowntime}&api-version=2023-11-01
URI-parameters
Name | In | Vereist | Type | Description |
---|---|---|---|---|
endpoint
|
path | True |
string |
De eindpunt-URL van de zoekservice. |
index
|
path | True |
string |
De definitie van de index die moet worden gemaakt of bijgewerkt. |
api-version
|
query | True |
string |
Client-API-versie. |
allow
|
query |
boolean |
Hiermee kunnen nieuwe analysefuncties, tokenizers, tokenfilters of char-filters worden toegevoegd aan een index door de index minstens een paar seconden offline te halen. Dit zorgt er tijdelijk voor dat indexerings- en queryaanvragen mislukken. De prestaties en schrijfmogelijkheden van de index kunnen enkele minuten nadat de index is bijgewerkt, of langer voor zeer grote indexen worden beperkt. |
Aanvraagkoptekst
Name | Vereist | Type | Description |
---|---|---|---|
x-ms-client-request-id |
string uuid |
De tracerings-id die met de aanvraag is verzonden om te helpen bij foutopsporing. |
|
If-Match |
string |
Definieert de If-Match voorwaarde. De bewerking wordt alleen uitgevoerd als de ETag op de server overeenkomt met deze waarde. |
|
If-None-Match |
string |
Definieert de voorwaarde If-None-Match. De bewerking wordt alleen uitgevoerd als de ETag op de server niet overeenkomt met deze waarde. |
|
Prefer | True |
string |
Voor HTTP PUT-aanvragen geeft de service de opdracht om de gemaakte/bijgewerkte resource te retourneren wanneer deze is geslaagd. |
Aanvraagbody
Name | Vereist | Type | Description |
---|---|---|---|
fields | True |
De velden van de index. |
|
name | True |
string |
De naam van de index. |
@odata.etag |
string |
De ETag van de index. |
|
analyzers | LexicalAnalyzer[]: |
De analysefuncties voor de index. |
|
charFilters | CharFilter[]: |
De tekenfilters voor de index. |
|
corsOptions |
Opties voor het beheren van CORS (Cross-Origin Resource Sharing) voor de index. |
||
defaultScoringProfile |
string |
De naam van het scoreprofiel dat moet worden gebruikt als er geen is opgegeven in de query. Als deze eigenschap niet is ingesteld en er geen scoreprofiel is opgegeven in de query, wordt de standaardscore (tf-idf) gebruikt. |
|
encryptionKey |
Een beschrijving van een versleutelingssleutel die u maakt in Azure Key Vault. Deze sleutel wordt gebruikt om een extra niveau van versleuteling-at-rest voor uw gegevens te bieden als u volledige zekerheid wilt dat niemand, zelfs Microsoft, uw gegevens kan ontsleutelen. Zodra u uw gegevens hebt versleuteld, blijven deze altijd versleuteld. De zoekservice negeert pogingen om deze eigenschap in te stellen op null. U kunt deze eigenschap indien nodig wijzigen als u uw versleutelingssleutel wilt roteren; Uw gegevens worden niet beïnvloed. Versleuteling met door de klant beheerde sleutels is niet beschikbaar voor gratis zoekservices en is alleen beschikbaar voor betaalde services die zijn gemaakt op of na 1 januari 2019. |
||
scoringProfiles |
De scoreprofielen voor de index. |
||
semantic |
Hiermee definieert u parameters voor een zoekindex die semantische mogelijkheden beïnvloeden. |
||
similarity | Similarity: |
Het type gelijkenis-algoritme dat moet worden gebruikt bij het scoren en rangschikken van documenten die overeenkomen met een zoekopdracht. Het gelijkenis-algoritme kan alleen worden gedefinieerd tijdens het maken van de index en kan niet worden gewijzigd voor bestaande indexen. Indien null, wordt het algoritme ClassicSimilarity gebruikt. |
|
suggesters |
De suggesties voor de index. |
||
tokenFilters |
TokenFilter[]:
|
De tokenfilters voor de index. |
|
tokenizers | LexicalTokenizer[]: |
De tokenizers voor de index. |
|
vectorSearch |
Bevat configuratieopties met betrekking tot vectorzoekopdrachten. |
Antwoorden
Name | Type | Description |
---|---|---|
200 OK | ||
201 Created | ||
Other Status Codes |
Foutreactie. |
Voorbeelden
SearchServiceCreateOrUpdateIndex
Voorbeeldaanvraag
PUT https://myservice.search.windows.net/indexes('hotels')?allowIndexDowntime=False&api-version=2023-11-01
{
"name": "hotels",
"fields": [
{
"name": "hotelId",
"type": "Edm.String",
"key": true,
"searchable": false
},
{
"name": "baseRate",
"type": "Edm.Double"
},
{
"name": "description",
"type": "Edm.String",
"filterable": false,
"sortable": false,
"facetable": false
},
{
"name": "descriptionEmbedding",
"type": "Collection(Edm.Single)",
"dimensions": 1536,
"vectorSearchProfile": "myHnswProfile",
"searchable": true,
"retrievable": true
},
{
"name": "description_fr",
"type": "Edm.String",
"filterable": false,
"sortable": false,
"facetable": false,
"analyzer": "fr.lucene"
},
{
"name": "hotelName",
"type": "Edm.String"
},
{
"name": "category",
"type": "Edm.String"
},
{
"name": "tags",
"type": "Collection(Edm.String)",
"analyzer": "tagsAnalyzer"
},
{
"name": "parkingIncluded",
"type": "Edm.Boolean"
},
{
"name": "smokingAllowed",
"type": "Edm.Boolean"
},
{
"name": "lastRenovationDate",
"type": "Edm.DateTimeOffset"
},
{
"name": "rating",
"type": "Edm.Int32"
},
{
"name": "location",
"type": "Edm.GeographyPoint"
}
],
"scoringProfiles": [
{
"name": "geo",
"text": {
"weights": {
"hotelName": 5
}
},
"functions": [
{
"type": "distance",
"boost": 5,
"fieldName": "location",
"interpolation": "logarithmic",
"distance": {
"referencePointParameter": "currentLocation",
"boostingDistance": 10
}
}
]
}
],
"defaultScoringProfile": "geo",
"suggesters": [
{
"name": "sg",
"searchMode": "analyzingInfixMatching",
"sourceFields": [
"hotelName"
]
}
],
"analyzers": [
{
"name": "tagsAnalyzer",
"@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
"charFilters": [
"html_strip"
],
"tokenizer": "standard_v2"
}
],
"corsOptions": {
"allowedOrigins": [
"tempuri.org"
],
"maxAgeInSeconds": 60
},
"encryptionKey": {
"keyVaultKeyName": "myUserManagedEncryptionKey-createdinAzureKeyVault",
"keyVaultKeyVersion": "myKeyVersion-32charAlphaNumericString",
"keyVaultUri": "https://myKeyVault.vault.azure.net",
"accessCredentials": null
},
"similarity": {
"@odata.type": "#Microsoft.Azure.Search.ClassicSimilarity"
},
"semantic": {
"configurations": [
{
"name": "semanticHotels",
"prioritizedFields": {
"titleField": {
"fieldName": "hotelName"
},
"prioritizedContentFields": [
{
"fieldName": "description"
},
{
"fieldName": "description_fr"
}
],
"prioritizedKeywordsFields": [
{
"fieldName": "tags"
},
{
"fieldName": "category"
}
]
}
}
]
},
"vectorSearch": {
"profiles": [
{
"name": "myHnswProfile",
"algorithm": "myHnsw"
},
{
"name": "myAlgorithm",
"algorithm": "myExhaustive"
}
],
"algorithms": [
{
"name": "myHnsw",
"kind": "hnsw",
"hnswParameters": {
"m": 4,
"metric": "cosine"
}
},
{
"name": "myExhaustive",
"kind": "exhaustiveKnn",
"exhaustiveKnnParameters": {
"metric": "cosine"
}
}
]
}
}
Voorbeeldrespons
{
"name": "hotels",
"fields": [
{
"name": "hotelId",
"type": "Edm.String",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": true,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "baseRate",
"type": "Edm.Double",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "description",
"type": "Edm.String",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "descriptionEmbedding",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": 1536,
"vectorSearchProfile": "myHnswProfile",
"synonymMaps": []
},
{
"name": "description_fr",
"type": "Edm.String",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": "fr.lucene",
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "hotelName",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "category",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "tags",
"type": "Collection(Edm.String)",
"searchable": true,
"filterable": true,
"retrievable": true,
"sortable": false,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": "tagsAnalyzer",
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "parkingIncluded",
"type": "Edm.Boolean",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "smokingAllowed",
"type": "Edm.Boolean",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "lastRenovationDate",
"type": "Edm.DateTimeOffset",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "rating",
"type": "Edm.Int32",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "location",
"type": "Edm.GeographyPoint",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
}
],
"scoringProfiles": [
{
"name": "geo",
"functionAggregation": "sum",
"text": {
"weights": {
"hotelName": 5
}
},
"functions": [
{
"type": "distance",
"boost": 5,
"fieldName": "location",
"interpolation": "logarithmic",
"distance": {
"referencePointParameter": "currentLocation",
"boostingDistance": 10
}
}
]
}
],
"defaultScoringProfile": "geo",
"suggesters": [
{
"name": "sg",
"searchMode": "analyzingInfixMatching",
"sourceFields": [
"hotelName"
]
}
],
"analyzers": [
{
"name": "tagsAnalyzer",
"@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
"charFilters": [
"html_strip"
],
"tokenizer": "standard_v2"
}
],
"tokenizers": [],
"tokenFilters": [],
"charFilters": [],
"corsOptions": {
"allowedOrigins": [
"tempuri.org"
],
"maxAgeInSeconds": 60
},
"encryptionKey": {
"keyVaultKeyName": "myUserManagedEncryptionKey-createdinAzureKeyVault",
"keyVaultKeyVersion": "myKeyVersion-32charAlphaNumericString",
"keyVaultUri": "https://myKeyVault.vault.azure.net",
"accessCredentials": null
},
"similarity": {
"@odata.type": "#Microsoft.Azure.Search.ClassicSimilarity"
},
"semantic": {
"configurations": [
{
"name": "semanticHotels",
"prioritizedFields": {
"titleField": {
"fieldName": "hotelName"
},
"prioritizedContentFields": [
{
"fieldName": "description"
},
{
"fieldName": "description_fr"
}
],
"prioritizedKeywordsFields": [
{
"fieldName": "tags"
},
{
"fieldName": "category"
}
]
}
}
]
},
"vectorSearch": {
"algorithms": [
{
"name": "myHnsw",
"kind": "hnsw",
"hnswParameters": {
"metric": "cosine",
"m": 4,
"efConstruction": 400,
"efSearch": 500
}
},
{
"name": "myExhaustive",
"kind": "exhaustiveKnn",
"exhaustiveKnnParameters": {
"metric": "cosine"
}
}
],
"profiles": [
{
"name": "myHnswProfile",
"algorithm": "myHnsw"
},
{
"name": "myAlgorithm",
"algorithm": "myExhaustive"
}
]
}
}
{
"name": "hotels",
"fields": [
{
"name": "hotelId",
"type": "Edm.String",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": true,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "baseRate",
"type": "Edm.Double",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "description",
"type": "Edm.String",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "descriptionEmbedding",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": 1536,
"vectorSearchProfile": "myHnswProfile",
"synonymMaps": []
},
{
"name": "description_fr",
"type": "Edm.String",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": "fr.lucene",
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "hotelName",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "category",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "tags",
"type": "Collection(Edm.String)",
"searchable": true,
"filterable": true,
"retrievable": true,
"sortable": false,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": "tagsAnalyzer",
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "parkingIncluded",
"type": "Edm.Boolean",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "smokingAllowed",
"type": "Edm.Boolean",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "lastRenovationDate",
"type": "Edm.DateTimeOffset",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "rating",
"type": "Edm.Int32",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "location",
"type": "Edm.GeographyPoint",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
}
],
"scoringProfiles": [
{
"name": "geo",
"functionAggregation": "sum",
"text": {
"weights": {
"hotelName": 5
}
},
"functions": [
{
"type": "distance",
"boost": 5,
"fieldName": "location",
"interpolation": "logarithmic",
"distance": {
"referencePointParameter": "currentLocation",
"boostingDistance": 10
}
}
]
}
],
"defaultScoringProfile": "geo",
"suggesters": [
{
"name": "sg",
"searchMode": "analyzingInfixMatching",
"sourceFields": [
"hotelName"
]
}
],
"analyzers": [
{
"name": "tagsAnalyzer",
"@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
"charFilters": [
"html_strip"
],
"tokenizer": "standard_v2"
}
],
"tokenizers": [],
"tokenFilters": [],
"charFilters": [],
"corsOptions": {
"allowedOrigins": [
"tempuri.org"
],
"maxAgeInSeconds": 60
},
"encryptionKey": {
"keyVaultKeyName": "myUserManagedEncryptionKey-createdinAzureKeyVault",
"keyVaultKeyVersion": "myKeyVersion-32charAlphaNumericString",
"keyVaultUri": "https://myKeyVault.vault.azure.net",
"accessCredentials": null
},
"semantic": {
"configurations": [
{
"name": "semanticHotels",
"prioritizedFields": {
"titleField": {
"fieldName": "hotelName"
},
"prioritizedContentFields": [
{
"fieldName": "description"
},
{
"fieldName": "description_fr"
}
],
"prioritizedKeywordsFields": [
{
"fieldName": "tags"
},
{
"fieldName": "category"
}
]
}
}
]
},
"vectorSearch": {
"algorithms": [
{
"name": "myHnsw",
"kind": "hnsw",
"hnswParameters": {
"metric": "cosine",
"m": 4,
"efConstruction": 400,
"efSearch": 500
}
},
{
"name": "myExhaustive",
"kind": "exhaustiveKnn",
"exhaustiveKnnParameters": {
"metric": "cosine"
}
}
],
"profiles": [
{
"name": "myHnswProfile",
"algorithm": "myHnsw"
},
{
"name": "myAlgorithm",
"algorithm": "myExhaustive"
}
]
}
}
Definities
Name | Description |
---|---|
Ascii |
Converteert alfabetische, numerieke en symbolische Unicode-tekens die niet voorkomen in de eerste 127 ASCII-tekens (het Unicode-blok 'Latijns basis') naar hun ASCII-equivalenten, als dergelijke equivalenten bestaan. Dit tokenfilter wordt geïmplementeerd met behulp van Apache Lucene. |
Azure |
Referenties van een geregistreerde toepassing die is gemaakt voor uw zoekservice, die wordt gebruikt voor geverifieerde toegang tot de versleutelingssleutels die zijn opgeslagen in Azure Key Vault. |
BM25Similarity |
Rangschikkingsfunctie op basis van het okapi BM25-gelijkenis-algoritme. BM25 is een TF-IDF-achtig algoritme dat lengtenormalisatie (gecontroleerd door de parameter b) en termfrequentieverzadiging (beheerd door de parameter 'k1') omvat. |
Char |
Hiermee definieert u de namen van alle tekenfilters die worden ondersteund door de zoekmachine. |
Cjk |
Bigrams van CJK-termen die worden gegenereerd op basis van de standaardtokenizer. Dit tokenfilter wordt geïmplementeerd met behulp van Apache Lucene. |
Cjk |
Scripts die kunnen worden genegeerd door CjkBigramTokenFilter. |
Classic |
Verouderd gelijkenis-algoritme dat gebruikmaakt van de Lucene TFIDFSimilarity-implementatie van TF-IDF. Deze variant van TF-IDF introduceert statische documentlengtenormalisatie en coördinatiefactoren die documenten bestraffen die slechts gedeeltelijk overeenkomen met de gezochte query's. |
Classic |
Tokenizer op basis van grammatica die geschikt is voor het verwerken van de meeste Europese documenten. Deze tokenizer wordt geïmplementeerd met behulp van Apache Lucene. |
Common |
Maak bigrams voor veelgebruikte termen tijdens het indexeren. Enkele termen worden ook nog steeds geïndexeerd, met bigrams eroverheen. Dit tokenfilter wordt geïmplementeerd met behulp van Apache Lucene. |
Cors |
Definieert opties voor het beheren van CORS (Cross-Origin Resource Sharing) voor een index. |
Custom |
Hiermee kunt u de controle overnemen over het proces van het converteren van tekst naar indexeerbare/doorzoekbare tokens. Het is een door de gebruiker gedefinieerde configuratie die bestaat uit één vooraf gedefinieerde tokenizer en een of meer filters. De tokenizer is verantwoordelijk voor het opsplitsen van tekst in tokens en de filters voor het wijzigen van tokens die door de tokenizer worden verzonden. |
Dictionary |
Breek samengestelde woorden op die in veel Germaanse talen te vinden zijn. Dit tokenfilter wordt geïmplementeerd met behulp van Apache Lucene. |
Distance |
Hiermee definieert u een functie die scores verhoogt op basis van de afstand tot een geografische locatie. |
Distance |
Biedt parameterwaarden voor een scorefunctie voor afstand. |
Edge |
Genereert n-grammen van de opgegeven grootte(n) vanaf de voor- of achterkant van een invoertoken. Dit tokenfilter wordt geïmplementeerd met behulp van Apache Lucene. |
Edge |
Hiermee geeft u aan op welke kant van de invoer een n-gram moet worden gegenereerd. |
Edge |
Genereert n-grammen van de opgegeven grootte(n) vanaf de voor- of achterkant van een invoertoken. Dit tokenfilter wordt geïmplementeerd met behulp van Apache Lucene. |
Edge |
Hiermee wordt de invoer van een rand omgezet in n-grammen van de opgegeven grootte(n). Deze tokenizer wordt geïmplementeerd met behulp van Apache Lucene. |
Elision |
Verwijdert elisies. 'l'avion' (het vliegtuig) wordt bijvoorbeeld geconverteerd naar 'avion' (vliegtuig). Dit tokenfilter wordt geïmplementeerd met behulp van Apache Lucene. |
Exhaustive |
Bevat de parameters die specifiek zijn voor het volledige KNN-algoritme. |
Exhaustive |
Bevat configuratieopties die specifiek zijn voor het uitgebreide KNN-algoritme dat wordt gebruikt tijdens het uitvoeren van query's, waarmee brute-force-zoekopdrachten worden uitgevoerd in de hele vectorindex. |
Freshness |
Hiermee definieert u een functie die scores verhoogt op basis van de waarde van een datum/tijd-veld. |
Freshness |
Biedt parameterwaarden voor een functie voor het scoren van nieuwheid. |
Hnsw |
Bevat de parameters die specifiek zijn voor het HNSW-algoritme. |
Hnsw |
Bevat configuratieopties die specifiek zijn voor het HNSW-algoritme voor dichtstbijzijnde buren dat wordt gebruikt tijdens het indexeren en uitvoeren van query's. Het HNSW-algoritme biedt een afstelbare balans tussen de zoeksnelheid en nauwkeurigheid. |
Keep |
Een tokenfilter dat alleen tokens met tekst in een opgegeven lijst met woorden bewaart. Dit tokenfilter wordt geïmplementeerd met apache Lucene. |
Keyword |
Hiermee worden termen gemarkeerd als trefwoorden. Dit tokenfilter wordt geïmplementeerd met apache Lucene. |
Keyword |
Verzendt de volledige invoer als één token. Deze tokenizer wordt geïmplementeerd met apache Lucene. |
Keyword |
Verzendt de volledige invoer als één token. Deze tokenizer wordt geïmplementeerd met apache Lucene. |
Length |
Hiermee verwijdert u woorden die te lang of te kort zijn. Dit tokenfilter wordt geïmplementeerd met apache Lucene. |
Lexical |
Definieert de namen van alle tekstanalyses die worden ondersteund door de zoekmachine. |
Lexical |
Definieert de namen van alle tokenizers die worden ondersteund door de zoekmachine. |
Limit |
Beperkt het aantal tokens tijdens het indexeren. Dit tokenfilter wordt geïmplementeerd met apache Lucene. |
Lucene |
Standaard Apache Lucene Analyzer; Bestaat uit de standaardtokenizer, een filter in kleine letters en een stopfilter. |
Lucene |
Hiermee breekt u de tekst volgens de unicode-tekstsegmentatieregels. Deze tokenizer wordt geïmplementeerd met apache Lucene. |
Lucene |
Hiermee wordt de tekst volgens de Unicode-tekstsegmentatieregels verbroken. Deze tokenizer wordt geïmplementeerd met behulp van Apache Lucene. |
Magnitude |
Hiermee definieert u een functie die scores verhoogt op basis van de grootte van een numeriek veld. |
Magnitude |
Biedt parameterwaarden voor een scorefunctie voor de grootte. |
Mapping |
Een tekenfilter waarmee toewijzingen worden toegepast die zijn gedefinieerd met de optie toewijzingen. Vergelijken is greedy (langste patroonmatching op een bepaald punt wint). Vervanging mag de lege tekenreeks zijn. Dit tekenfilter wordt geïmplementeerd met behulp van Apache Lucene. |
Microsoft |
Verdeelt tekst met behulp van taalspecifieke regels en reduceert woorden tot de basisvormen. |
Microsoft |
Verdeelt tekst met behulp van taalspecifieke regels. |
Microsoft |
Lijsten de talen die worden ondersteund door de Tokenizer voor taalschatten van Microsoft. |
Microsoft |
Lijsten de talen die worden ondersteund door de Taaltokenizer van Microsoft. |
NGram |
Genereert n-gram van de opgegeven grootte(n). Dit tokenfilter wordt geïmplementeerd met apache Lucene. |
NGram |
Genereert n-gram van de opgegeven grootte(n). Dit tokenfilter wordt geïmplementeerd met apache Lucene. |
NGram |
Hiermee wordt de invoer omgezet in n-grammen van de opgegeven grootte(n). Deze tokenizer wordt geïmplementeerd met apache Lucene. |
Path |
Tokenizer voor padachtige hiërarchieën. Deze tokenizer wordt geïmplementeerd met apache Lucene. |
Pattern |
Op flexibele wijze scheidt u tekst in termen via een patroon voor reguliere expressies. Deze analyse wordt geïmplementeerd met behulp van Apache Lucene. |
Pattern |
Maakt gebruik van Java-regexes om meerdere tokens te verzenden: één voor elke opnamegroep in een of meer patronen. Dit tokenfilter wordt geïmplementeerd met apache Lucene. |
Pattern |
Een tekenfilter dat tekens in de invoertekenreeks vervangt. Er wordt een reguliere expressie gebruikt om tekenreeksen te identificeren die moeten worden behouden en een vervangend patroon om tekens te identificeren die moeten worden vervangen. Op basis van bijvoorbeeld de invoertekst 'aa bb aa bb', patroon '(aa)\s+(bb)' en vervangende '$1#$2', zou het resultaat 'aa#bb aa#bb' zijn. Dit tekenfilter wordt geïmplementeerd met behulp van Apache Lucene. |
Pattern |
Een tekenfilter dat tekens in de invoertekenreeks vervangt. Er wordt een reguliere expressie gebruikt om tekenreeksen te identificeren die moeten worden behouden en een vervangend patroon om tekens te identificeren die moeten worden vervangen. Bijvoorbeeld, gezien de invoertekst 'aa bb aa bb', patroon '(aa)\s+(bb)' en vervangende '$1#$2', zou het resultaat 'aa#bb aa#bb' zijn. Dit tokenfilter wordt geïmplementeerd met apache Lucene. |
Pattern |
Tokenizer die gebruikmaakt van regex-patroonkoppeling om afzonderlijke tokens te maken. Deze tokenizer wordt geïmplementeerd met apache Lucene. |
Phonetic |
Identificeert het type fonetische encoder dat moet worden gebruikt met een FonetischTokenFilter. |
Phonetic |
Tokens maken voor fonetische overeenkomsten. Dit tokenfilter wordt geïmplementeerd met apache Lucene. |
Prioritized |
Beschrijft de velden titel, inhoud en trefwoorden die moeten worden gebruikt voor semantische rangschikking, bijschriften, markeringen en antwoorden. |
Regex |
Definieert vlaggen die kunnen worden gecombineerd om te bepalen hoe reguliere expressies worden gebruikt in de patroonanalyse en patroontokenizer. |
Scoring |
Definieert de aggregatiefunctie die wordt gebruikt om de resultaten van alle scorefuncties in een scoreprofiel te combineren. |
Scoring |
Definieert de functie die wordt gebruikt voor het interpoleren van scoreverhogingen in een reeks documenten. |
Scoring |
Hiermee definieert u parameters voor een zoekindex die van invloed zijn op het scoren in zoekquery's. |
Search |
Beschrijft een foutvoorwaarde voor de API. |
Search |
Vertegenwoordigt een veld in een indexdefinitie, waarin de naam, het gegevenstype en het zoekgedrag van een veld worden beschreven. |
Search |
Hiermee definieert u het gegevenstype van een veld in een zoekindex. |
Search |
Vertegenwoordigt een zoekindexdefinitie, waarmee de velden en het zoekgedrag van een index worden beschreven. |
Search |
Een door de klant beheerde versleutelingssleutel in Azure Key Vault. Sleutels die u maakt en beheert, kunnen worden gebruikt voor het versleutelen of ontsleutelen van data-at-rest in uw zoekservice, zoals indexen en synoniemenkaarten. |
Semantic |
Definieert een specifieke configuratie die moet worden gebruikt in de context van semantische mogelijkheden. |
Semantic |
Een veld dat wordt gebruikt als onderdeel van de semantische configuratie. |
Semantic |
Hiermee definieert u parameters voor een zoekindex die semantische mogelijkheden beïnvloeden. |
Shingle |
Hiermee maakt u combinaties van tokens als één token. Dit tokenfilter wordt geïmplementeerd met apache Lucene. |
Snowball |
Een filter dat woorden afstelt met behulp van een door sneeuwbal gegenereerde stemmer. Dit tokenfilter wordt geïmplementeerd met apache Lucene. |
Snowball |
De taal die moet worden gebruikt voor een Snowball-tokenfilter. |
Stemmer |
Biedt de mogelijkheid om andere stemmingsfilters te overschrijven met aangepaste stemming op basis van woordenlijsten. Woordenlijst-stamtermen worden gemarkeerd als trefwoorden, zodat ze niet worden afgestamd met stemmers in de keten. Moet vóór eventuele stamfilters worden geplaatst. Dit tokenfilter wordt geïmplementeerd met apache Lucene. |
Stemmer |
Taalspecifiek stemfilter. Dit tokenfilter wordt geïmplementeerd met apache Lucene. |
Stemmer |
De taal die moet worden gebruikt voor een stemmertokenfilter. |
Stop |
Verdeelt tekst op niet-letters; Hiermee past u de tokenfilters kleine letters en stopwoorden toe. Deze analyse wordt geïmplementeerd met behulp van Apache Lucene. |
Stopwords |
Hiermee wordt een vooraf gedefinieerde lijst met taalspecifieke stopwoorden geïdentificeerd. |
Stopwords |
Hiermee verwijdert u stopwoorden uit een tokenstroom. Dit tokenfilter wordt geïmplementeerd met apache Lucene. |
Suggester |
Definieert hoe de Suggest-API moet worden toegepast op een groep velden in de index. |
Suggester |
Een waarde die de mogelijkheden van de suggestie aangeeft. |
Synonym |
Komt overeen met synoniemen van één of meerdere woorden in een tokenstroom. Dit tokenfilter wordt geïmplementeerd met apache Lucene. |
Tag |
Definieert een functie die scores van documenten verhoogt met tekenreekswaarden die overeenkomen met een bepaalde lijst met tags. |
Tag |
Biedt parameterwaarden voor een tagscorefunctie. |
Text |
Definieert gewichten voor indexvelden waarvoor overeenkomsten de score in zoekquery's moeten verhogen. |
Token |
Vertegenwoordigt klassen van tekens waarop een tokenfilter kan worden uitgevoerd. |
Token |
Definieert de namen van alle tokenfilters die worden ondersteund door de zoekmachine. |
Truncate |
Hiermee worden de voorwaarden afgekapt tot een specifieke lengte. Dit tokenfilter wordt geïmplementeerd met apache Lucene. |
Uax |
Tokeniseert URL's en e-mailberichten als één token. Deze tokenizer wordt geïmplementeerd met behulp van Apache Lucene. |
Unique |
Hiermee filtert u tokens met dezelfde tekst als het vorige token. Dit tokenfilter wordt geïmplementeerd met apache Lucene. |
Vector |
Bevat configuratieopties met betrekking tot vectorzoekopdrachten. |
Vector |
Het algoritme dat wordt gebruikt voor het indexeren en uitvoeren van query's. |
Vector |
De metrische gegevens over overeenkomsten die moeten worden gebruikt voor vectorvergelijkingen. |
Vector |
Definieert een combinatie van configuraties voor gebruik met vectorzoekopdrachten. |
Word |
Hiermee splitst u woorden in subwoorden en voert u optionele transformaties uit op subwoordgroepen. Dit tokenfilter wordt geïmplementeerd met apache Lucene. |
AsciiFoldingTokenFilter
Converteert alfabetische, numerieke en symbolische Unicode-tekens die niet voorkomen in de eerste 127 ASCII-tekens (het Unicode-blok 'Latijns basis') naar hun ASCII-equivalenten, als dergelijke equivalenten bestaan. Dit tokenfilter wordt geïmplementeerd met behulp van Apache Lucene.
Name | Type | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Een URI-fragment dat het type tokenfilter aangeeft. |
|
name |
string |
De naam van het tokenfilter. Het mag alleen letters, cijfers, spaties, streepjes of onderstrepingstekens bevatten, mag alleen beginnen en eindigen met alfanumerieke tekens en is beperkt tot 128 tekens. |
|
preserveOriginal |
boolean |
False |
Een waarde die aangeeft of het oorspronkelijke token wordt bewaard. De standaardinstelling is onwaar. |
AzureActiveDirectoryApplicationCredentials
Referenties van een geregistreerde toepassing die is gemaakt voor uw zoekservice, die wordt gebruikt voor geverifieerde toegang tot de versleutelingssleutels die zijn opgeslagen in Azure Key Vault.
Name | Type | Description |
---|---|---|
applicationId |
string |
Een AAD-toepassings-id waaraan de vereiste toegangsmachtigingen zijn verleend voor de Azure Key Vault die moet worden gebruikt bij het versleutelen van uw data-at-rest. De toepassings-id moet niet worden verward met de object-id voor uw AAD-toepassing. |
applicationSecret |
string |
De verificatiesleutel van de opgegeven AAD-toepassing. |
BM25Similarity
Rangschikkingsfunctie op basis van het okapi BM25-gelijkenis-algoritme. BM25 is een TF-IDF-achtig algoritme dat lengtenormalisatie (gecontroleerd door de parameter b) en termfrequentieverzadiging (beheerd door de parameter 'k1') omvat.
Name | Type | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
|
b |
number |
Deze eigenschap bepaalt hoe de lengte van een document van invloed is op de relevantiescore. Standaard wordt een waarde van 0,75 gebruikt. Een waarde van 0,0 betekent dat er geen lengtenormalisatie wordt toegepast, terwijl een waarde van 1,0 betekent dat de score volledig wordt genormaliseerd op basis van de lengte van het document. |
k1 |
number |
Deze eigenschap bepaalt de schaalfunctie tussen de termfrequentie van elke overeenkomende termen en de uiteindelijke relevantiescore van een document-querypaar. Standaard wordt de waarde 1,2 gebruikt. Een waarde van 0,0 betekent dat de score niet wordt geschaald met een toename van de termfrequentie. |
CharFilterName
Hiermee definieert u de namen van alle tekenfilters die worden ondersteund door de zoekmachine.
Name | Type | Description |
---|---|---|
html_strip |
string |
Een tekenfilter waarmee HTML-constructies worden verwijderd. Zie https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html |
CjkBigramTokenFilter
Bigrams van CJK-termen die worden gegenereerd op basis van de standaardtokenizer. Dit tokenfilter wordt geïmplementeerd met behulp van Apache Lucene.
Name | Type | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Een URI-fragment dat het type tokenfilter aangeeft. |
|
ignoreScripts |
De scripts die moeten worden genegeerd. |
||
name |
string |
De naam van het tokenfilter. Het mag alleen letters, cijfers, spaties, streepjes of onderstrepingstekens bevatten, mag alleen beginnen en eindigen met alfanumerieke tekens en is beperkt tot 128 tekens. |
|
outputUnigrams |
boolean |
False |
Een waarde die aangeeft of zowel unigrammen als bigrams (indien waar) of alleen bigrams (indien onwaar) moeten worden uitgevoerd. De standaardinstelling is onwaar. |
CjkBigramTokenFilterScripts
Scripts die kunnen worden genegeerd door CjkBigramTokenFilter.
Name | Type | Description |
---|---|---|
han |
string |
Negeer Han-script bij het vormen van bigrams van CJK-termen. |
hangul |
string |
Hangulscript negeren bij het vormen van bigrams van CJK-termen. |
hiragana |
string |
Negeer Hiragana-script bij het vormen van bigrams van CJK-termen. |
katakana |
string |
Negeer Katakana-script bij het vormen van bigrams van CJK-termen. |
ClassicSimilarity
Verouderd gelijkenis-algoritme dat gebruikmaakt van de Lucene TFIDFSimilarity-implementatie van TF-IDF. Deze variant van TF-IDF introduceert statische documentlengtenormalisatie en coördinatiefactoren die documenten bestraffen die slechts gedeeltelijk overeenkomen met de gezochte query's.
Name | Type | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
ClassicTokenizer
Tokenizer op basis van grammatica die geschikt is voor het verwerken van de meeste Europese documenten. Deze tokenizer wordt geïmplementeerd met behulp van Apache Lucene.
Name | Type | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Een URI-fragment dat het type tokenizer aangeeft. |
|
maxTokenLength |
integer |
255 |
De maximale tokenlengte. De standaardwaarde is 255. Tokens die langer zijn dan de maximale lengte, worden gesplitst. De maximale tokenlengte die kan worden gebruikt, is 300 tekens. |
name |
string |
De naam van de tokenizer. Het mag alleen letters, cijfers, spaties, streepjes of onderstrepingstekens bevatten, mag alleen beginnen en eindigen met alfanumerieke tekens en is beperkt tot 128 tekens. |
CommonGramTokenFilter
Maak bigrams voor veelgebruikte termen tijdens het indexeren. Enkele termen worden ook nog steeds geïndexeerd, met bigrams eroverheen. Dit tokenfilter wordt geïmplementeerd met behulp van Apache Lucene.
Name | Type | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Een URI-fragment dat het type tokenfilter aangeeft. |
|
commonWords |
string[] |
De set veelgebruikte woorden. |
|
ignoreCase |
boolean |
False |
Een waarde die aangeeft of overeenkomende woorden hoofdlettergevoelig zijn. De standaardinstelling is onwaar. |
name |
string |
De naam van het tokenfilter. Het mag alleen letters, cijfers, spaties, streepjes of onderstrepingstekens bevatten, mag alleen beginnen en eindigen met alfanumerieke tekens en is beperkt tot 128 tekens. |
|
queryMode |
boolean |
False |
Een waarde die aangeeft of het tokenfilter zich in de querymodus bevindt. In de querymodus genereert het tokenfilter bigrams en verwijdert het vervolgens algemene woorden en enkele termen gevolgd door een algemeen woord. De standaardinstelling is onwaar. |
CorsOptions
Definieert opties voor het beheren van CORS (Cross-Origin Resource Sharing) voor een index.
Name | Type | Description |
---|---|---|
allowedOrigins |
string[] |
De lijst met oorsprongen van waaruit JavaScript-code toegang tot uw index wordt verleend. Kan een lijst met hosts bevatten met de vorm {protocol}://{fully-qualified-domain-name}[:{port#}], of één host |
maxAgeInSeconds |
integer |
De duur waarvoor browsers CORS-voorbereidende antwoorden in de cache moeten opslaan. De standaardwaarde is 5 minuten. |
CustomAnalyzer
Hiermee kunt u de controle overnemen over het proces van het converteren van tekst naar indexeerbare/doorzoekbare tokens. Het is een door de gebruiker gedefinieerde configuratie die bestaat uit één vooraf gedefinieerde tokenizer en een of meer filters. De tokenizer is verantwoordelijk voor het opsplitsen van tekst in tokens en de filters voor het wijzigen van tokens die door de tokenizer worden verzonden.
Name | Type | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
Een URI-fragment dat het type analyse aangeeft. |
charFilters |
Een lijst met tekenfilters die worden gebruikt om invoertekst voor te bereiden voordat deze door de tokenizer wordt verwerkt. Ze kunnen bijvoorbeeld bepaalde tekens of symbolen vervangen. De filters worden uitgevoerd in de volgorde waarin ze worden weergegeven. |
|
name |
string |
De naam van de analyse. Het mag alleen letters, cijfers, spaties, streepjes of onderstrepingstekens bevatten, mag alleen beginnen en eindigen met alfanumerieke tekens en is beperkt tot 128 tekens. |
tokenFilters |
Een lijst met tokenfilters die worden gebruikt om de tokens te filteren of te wijzigen die door een tokenizer worden gegenereerd. U kunt bijvoorbeeld een filter voor kleine letters opgeven waarmee alle tekens worden geconverteerd naar kleine letters. De filters worden uitgevoerd in de volgorde waarin ze worden weergegeven. |
|
tokenizer |
De naam van de tokenizer die moet worden gebruikt om doorlopende tekst te verdelen in een reeks tokens, zoals het opsplitsen van een zin in woorden. |
DictionaryDecompounderTokenFilter
Breek samengestelde woorden op die in veel Germaanse talen te vinden zijn. Dit tokenfilter wordt geïmplementeerd met behulp van Apache Lucene.
Name | Type | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Een URI-fragment dat het type tokenfilter aangeeft. |
|
maxSubwordSize |
integer |
15 |
De maximale grootte van het subwoord. Alleen subwoorden die korter zijn dan dit worden uitgevoerd. De standaardwaarde is 15. Het maximum is 300. |
minSubwordSize |
integer |
2 |
De minimale grootte van het subwoord. Alleen subwoorden die langer zijn dan dit worden uitgevoerd. De standaardwaarde is 2. Het maximum is 300. |
minWordSize |
integer |
5 |
De minimale woordgrootte. Alleen woorden die langer zijn dan dit worden verwerkt. De standaardwaarde is 5. Het maximum is 300. |
name |
string |
De naam van het tokenfilter. Het mag alleen letters, cijfers, spaties, streepjes of onderstrepingstekens bevatten, mag alleen beginnen en eindigen met alfanumerieke tekens en is beperkt tot 128 tekens. |
|
onlyLongestMatch |
boolean |
False |
Een waarde die aangeeft of alleen het langste overeenkomende subwoord aan de uitvoer moet worden toegevoegd. De standaardinstelling is onwaar. |
wordList |
string[] |
De lijst met woorden die moeten worden vergeleken. |
DistanceScoringFunction
Hiermee definieert u een functie die scores verhoogt op basis van de afstand tot een geografische locatie.
Name | Type | Description |
---|---|---|
boost |
number |
Een vermenigvuldiger voor de onbewerkte score. Moet een positief getal zijn dat niet gelijk is aan 1,0. |
distance |
Parameterwaarden voor de functie afstandsscore. |
|
fieldName |
string |
De naam van het veld dat wordt gebruikt als invoer voor de scorefunctie. |
interpolation |
Een waarde die aangeeft hoe stimuleren wordt geïnterpoleerd tussen documentscores; is standaard ingesteld op 'Lineair'. |
|
type |
string:
distance |
Geeft het type functie aan dat moet worden gebruikt. Geldige waarden zijn onder andere grootte, versheid, afstand en tag. Het functietype moet van kleine letters zijn. |
DistanceScoringParameters
Biedt parameterwaarden voor een scorefunctie voor afstand.
Name | Type | Description |
---|---|---|
boostingDistance |
number |
De afstand in kilometers vanaf de referentielocatie waar het stimulerende bereik eindigt. |
referencePointParameter |
string |
De naam van de parameter die in zoekquery's wordt doorgegeven om de referentielocatie op te geven. |
EdgeNGramTokenFilter
Genereert n-grammen van de opgegeven grootte(n) vanaf de voor- of achterkant van een invoertoken. Dit tokenfilter wordt geïmplementeerd met behulp van Apache Lucene.
Name | Type | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Een URI-fragment dat het type tokenfilter aangeeft. |
|
maxGram |
integer |
2 |
De maximale n-gram lengte. De standaardwaarde is 2. |
minGram |
integer |
1 |
De minimumlengte n-gram. Standaard is 1. Moet kleiner zijn dan de waarde van maxGram. |
name |
string |
De naam van het tokenfilter. Het mag alleen letters, cijfers, spaties, streepjes of onderstrepingstekens bevatten, mag alleen beginnen en eindigen met alfanumerieke tekens en is beperkt tot 128 tekens. |
|
side | front |
Hiermee geeft u op aan welke kant van de invoer de n-gram moet worden gegenereerd. De standaardwaarde is 'front'. |
EdgeNGramTokenFilterSide
Hiermee geeft u aan op welke kant van de invoer een n-gram moet worden gegenereerd.
Name | Type | Description |
---|---|---|
back |
string |
Hiermee geeft u op dat de n-gram moet worden gegenereerd vanaf de achterkant van de invoer. |
front |
string |
Hiermee geeft u op dat de n-gram moet worden gegenereerd vanaf de voorkant van de invoer. |
EdgeNGramTokenFilterV2
Genereert n-grammen van de opgegeven grootte(n) vanaf de voor- of achterkant van een invoertoken. Dit tokenfilter wordt geïmplementeerd met behulp van Apache Lucene.
Name | Type | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Een URI-fragment dat het type tokenfilter aangeeft. |
|
maxGram |
integer |
2 |
De maximale n-gram lengte. De standaardwaarde is 2. Het maximum is 300. |
minGram |
integer |
1 |
De minimumlengte n-gram. Standaard is 1. Het maximum is 300. Moet kleiner zijn dan de waarde van maxGram. |
name |
string |
De naam van het tokenfilter. Het mag alleen letters, cijfers, spaties, streepjes of onderstrepingstekens bevatten, mag alleen beginnen en eindigen met alfanumerieke tekens en is beperkt tot 128 tekens. |
|
side | front |
Hiermee geeft u op aan welke kant van de invoer de n-gram moet worden gegenereerd. De standaardwaarde is 'front'. |
EdgeNGramTokenizer
Hiermee wordt de invoer van een rand omgezet in n-grammen van de opgegeven grootte(n). Deze tokenizer wordt geïmplementeerd met behulp van Apache Lucene.
Name | Type | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Een URI-fragment dat het type tokenizer aangeeft. |
|
maxGram |
integer |
2 |
De maximale n-gram lengte. De standaardwaarde is 2. Het maximum is 300. |
minGram |
integer |
1 |
De minimale n-gram lengte. Standaard is 1. Het maximum is 300. Moet kleiner zijn dan de waarde van maxGram. |
name |
string |
De naam van de tokenizer. Het mag alleen letters, cijfers, spaties, streepjes of onderstrepingstekens bevatten, mag alleen beginnen en eindigen met alfanumerieke tekens en is beperkt tot 128 tekens. |
|
tokenChars |
Tekenklassen die in de tokens moeten worden bewaard. |
ElisionTokenFilter
Verwijdert elisies. 'l'avion' (het vliegtuig) wordt bijvoorbeeld geconverteerd naar 'avion' (vliegtuig). Dit tokenfilter wordt geïmplementeerd met behulp van Apache Lucene.
Name | Type | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
Een URI-fragment dat het type tokenfilter aangeeft. |
articles |
string[] |
De set artikelen die moeten worden verwijderd. |
name |
string |
De naam van het tokenfilter. Het mag alleen letters, cijfers, spaties, streepjes of onderstrepingstekens bevatten, mag alleen beginnen en eindigen met alfanumerieke tekens en is beperkt tot 128 tekens. |
ExhaustiveKnnParameters
Bevat de parameters die specifiek zijn voor het volledige KNN-algoritme.
Name | Type | Description |
---|---|---|
metric |
De metrische gegevens over overeenkomsten die moeten worden gebruikt voor vectorvergelijkingen. |
ExhaustiveKnnVectorSearchAlgorithmConfiguration
Bevat configuratieopties die specifiek zijn voor het uitgebreide KNN-algoritme dat wordt gebruikt tijdens het uitvoeren van query's, waarmee brute-force-zoekopdrachten worden uitgevoerd in de hele vectorindex.
Name | Type | Description |
---|---|---|
exhaustiveKnnParameters |
Bevat de parameters die specifiek zijn voor het volledige KNN-algoritme. |
|
kind |
string:
exhaustive |
De naam van het type algoritme dat wordt geconfigureerd voor gebruik met vectorzoekopdrachten. |
name |
string |
De naam die aan deze specifieke configuratie moet worden gekoppeld. |
FreshnessScoringFunction
Hiermee definieert u een functie die scores verhoogt op basis van de waarde van een datum/tijd-veld.
Name | Type | Description |
---|---|---|
boost |
number |
Een vermenigvuldiger voor de onbewerkte score. Moet een positief getal zijn dat niet gelijk is aan 1,0. |
fieldName |
string |
De naam van het veld dat wordt gebruikt als invoer voor de scorefunctie. |
freshness |
Parameterwaarden voor de functie voor het scoren van nieuwheid. |
|
interpolation |
Een waarde die aangeeft hoe stimuleren wordt geïnterpoleerd tussen documentscores; is standaard ingesteld op 'Lineair'. |
|
type |
string:
freshness |
Geeft het type functie aan dat moet worden gebruikt. Geldige waarden zijn onder andere grootte, versheid, afstand en tag. Het functietype moet van kleine letters zijn. |
FreshnessScoringParameters
Biedt parameterwaarden voor een functie voor het scoren van nieuwheid.
Name | Type | Description |
---|---|---|
boostingDuration |
string |
De verloopperiode waarna het stimuleren voor een bepaald document stopt. |
HnswParameters
Bevat de parameters die specifiek zijn voor het HNSW-algoritme.
Name | Type | Default value | Description |
---|---|---|---|
efConstruction |
integer |
400 |
De grootte van de dynamische lijst met de dichtstbijzijnde buren, die wordt gebruikt tijdens de indextijd. Het verhogen van deze parameter kan de kwaliteit van de index verbeteren, wat ten koste gaat van een langere indexeringstijd. Op een bepaald moment leidt het verhogen van deze parameter tot afnemende retouren. |
efSearch |
integer |
500 |
De grootte van de dynamische lijst met de dichtstbijzijnde buren, die wordt gebruikt tijdens de zoektijd. Het verhogen van deze parameter kan de zoekresultaten verbeteren, ten koste van tragere zoekopdrachten. Op een bepaald moment leidt het verhogen van deze parameter tot afnemende retouren. |
m |
integer |
4 |
Het aantal bidirectionele koppelingen dat wordt gemaakt voor elk nieuw element tijdens de bouw. Het verhogen van deze parameterwaarde kan de terugroeptijd verbeteren en het ophalen van gegevenssets met een hoge intrinsieke dimensionaliteit verkorten ten koste van een verhoogd geheugenverbruik en een langere indexeringstijd. |
metric |
De metrische gegevens over overeenkomsten die moeten worden gebruikt voor vectorvergelijkingen. |
HnswVectorSearchAlgorithmConfiguration
Bevat configuratieopties die specifiek zijn voor het HNSW-algoritme voor dichtstbijzijnde buren dat wordt gebruikt tijdens het indexeren en uitvoeren van query's. Het HNSW-algoritme biedt een afstelbare balans tussen de zoeksnelheid en nauwkeurigheid.
Name | Type | Description |
---|---|---|
hnswParameters |
Bevat de parameters die specifiek zijn voor het HNSW-algoritme. |
|
kind |
string:
hnsw |
De naam van het type algoritme dat wordt geconfigureerd voor gebruik met vectorzoekopdrachten. |
name |
string |
De naam die aan deze specifieke configuratie moet worden gekoppeld. |
KeepTokenFilter
Een tokenfilter dat alleen tokens met tekst in een opgegeven lijst met woorden bewaart. Dit tokenfilter wordt geïmplementeerd met apache Lucene.
Name | Type | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Een URI-fragment dat het type tokenfilter aangeeft. |
|
keepWords |
string[] |
De lijst met woorden die moeten worden bewaard. |
|
keepWordsCase |
boolean |
False |
Een waarde die aangeeft of alle woorden eerst moeten worden kleine letters gebruikt. De standaardinstelling is onwaar. |
name |
string |
De naam van het tokenfilter. Het mag alleen letters, cijfers, spaties, streepjes of onderstrepingstekens bevatten, mag alleen beginnen en eindigen met alfanumerieke tekens en is beperkt tot 128 tekens. |
KeywordMarkerTokenFilter
Hiermee worden termen gemarkeerd als trefwoorden. Dit tokenfilter wordt geïmplementeerd met apache Lucene.
Name | Type | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Een URI-fragment dat het type tokenfilter aangeeft. |
|
ignoreCase |
boolean |
False |
Een waarde die aangeeft of case moet worden genegeerd. Als dit waar is, worden alle woorden eerst geconverteerd naar kleine letters. De standaardinstelling is onwaar. |
keywords |
string[] |
Een lijst met woorden die als trefwoorden moeten worden gemarkeerd. |
|
name |
string |
De naam van het tokenfilter. Het mag alleen letters, cijfers, spaties, streepjes of onderstrepingstekens bevatten, mag alleen beginnen en eindigen met alfanumerieke tekens en is beperkt tot 128 tekens. |
KeywordTokenizer
Verzendt de volledige invoer als één token. Deze tokenizer wordt geïmplementeerd met apache Lucene.
Name | Type | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Een URI-fragment dat het type tokenizer aangeeft. |
|
bufferSize |
integer |
256 |
De grootte van de leesbuffer in bytes. De standaardwaarde is 256. |
name |
string |
De naam van de tokenizer. Het mag alleen letters, cijfers, spaties, streepjes of onderstrepingstekens bevatten, mag alleen beginnen en eindigen met alfanumerieke tekens en is beperkt tot 128 tekens. |
KeywordTokenizerV2
Verzendt de volledige invoer als één token. Deze tokenizer wordt geïmplementeerd met apache Lucene.
Name | Type | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Een URI-fragment dat het type tokenizer aangeeft. |
|
maxTokenLength |
integer |
256 |
De maximale tokenlengte. De standaardwaarde is 256. Tokens die langer zijn dan de maximale lengte, worden gesplitst. De maximale tokenlengte die kan worden gebruikt, is 300 tekens. |
name |
string |
De naam van de tokenizer. Het mag alleen letters, cijfers, spaties, streepjes of onderstrepingstekens bevatten, mag alleen beginnen en eindigen met alfanumerieke tekens en is beperkt tot 128 tekens. |
LengthTokenFilter
Hiermee verwijdert u woorden die te lang of te kort zijn. Dit tokenfilter wordt geïmplementeerd met apache Lucene.
Name | Type | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Een URI-fragment dat het type tokenfilter aangeeft. |
|
max |
integer |
300 |
De maximale lengte in tekens. De standaardwaarde en het maximum is 300. |
min |
integer |
0 |
De minimale lengte in tekens. De standaardwaarde is 0. Het maximum is 300. Moet kleiner zijn dan de waarde van max. |
name |
string |
De naam van het tokenfilter. Het mag alleen letters, cijfers, spaties, streepjes of onderstrepingstekens bevatten, mag alleen beginnen en eindigen met alfanumerieke tekens en is beperkt tot 128 tekens. |
LexicalAnalyzerName
Definieert de namen van alle tekstanalyses die worden ondersteund door de zoekmachine.
Name | Type | Description |
---|---|---|
ar.lucene |
string |
Lucene analyzer voor Arabisch. |
ar.microsoft |
string |
Microsoft Analyzer voor Arabisch. |
bg.lucene |
string |
Lucene analyzer voor Bulgaars. |
bg.microsoft |
string |
Microsoft analyzer voor Bulgaars. |
bn.microsoft |
string |
Microsoft Analyzer voor Bangla. |
ca.lucene |
string |
Lucene analyzer voor Catalaans. |
ca.microsoft |
string |
Microsoft Analyzer voor Catalaans. |
cs.lucene |
string |
Lucene analyzer voor Tsjechisch. |
cs.microsoft |
string |
Microsoft Analyzer voor Tsjechisch. |
da.lucene |
string |
Lucene analyzer voor Deens. |
da.microsoft |
string |
Microsoft Analyzer voor Deens. |
de.lucene |
string |
Lucene analyzer voor Duits. |
de.microsoft |
string |
Microsoft Analyzer voor Duits. |
el.lucene |
string |
Lucene analyzer voor Grieks. |
el.microsoft |
string |
Microsoft Analyzer voor Grieks. |
en.lucene |
string |
Lucene analyzer voor Engels. |
en.microsoft |
string |
Microsoft Analyzer voor Engels. |
es.lucene |
string |
Lucene analyzer voor Spaans. |
es.microsoft |
string |
Microsoft Analyzer voor Spaans. |
et.microsoft |
string |
Microsoft Analyzer voor Estlands. |
eu.lucene |
string |
Lucene analyzer voor Baskisch. |
fa.lucene |
string |
Lucene analyzer voor Perzisch. |
fi.lucene |
string |
Lucene analyzer voor Fins. |
fi.microsoft |
string |
Microsoft Analyzer voor Fins. |
fr.lucene |
string |
Lucene analyzer voor Frans. |
fr.microsoft |
string |
Microsoft Analyzer voor Frans. |
ga.lucene |
string |
Lucene analyzer voor Iers. |
gl.lucene |
string |
Lucene analyzer voor Galicisch. |
gu.microsoft |
string |
Microsoft Analyzer voor Gujarati. |
he.microsoft |
string |
Microsoft analyzer voor Hebreeuws. |
hi.lucene |
string |
Lucene analyzer voor Hindi. |
hi.microsoft |
string |
Microsoft Analyzer voor Hindi. |
hr.microsoft |
string |
Microsoft Analyzer voor Kroatisch. |
hu.lucene |
string |
Lucene analyzer voor Hongaars. |
hu.microsoft |
string |
Microsoft Analyzer voor Hongaars. |
hy.lucene |
string |
Lucene analyzer voor Armeens. |
id.lucene |
string |
Lucene analyzer voor Indonesisch. |
id.microsoft |
string |
Microsoft Analyzer voor Indonesisch (Bahasa). |
is.microsoft |
string |
Microsoft Analyzer voor IJslands. |
it.lucene |
string |
Lucene analyzer voor Italiaans. |
it.microsoft |
string |
Microsoft Analyzer voor Italiaans. |
ja.lucene |
string |
Lucene analyzer voor Japans. |
ja.microsoft |
string |
Microsoft Analyzer voor Japans. |
keyword |
string |
Behandelt de volledige inhoud van een veld als één token. Dit is handig voor gegevens zoals postcodes, id's en sommige productnamen. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html |
kn.microsoft |
string |
Microsoft Analyzer voor Kannada. |
ko.lucene |
string |
Lucene analyzer voor Koreaans. |
ko.microsoft |
string |
Microsoft Analyzer voor Koreaans. |
lt.microsoft |
string |
Microsoft Analyzer voor Litouws. |
lv.lucene |
string |
Lucene analyzer voor Lets. |
lv.microsoft |
string |
Microsoft analyzer voor Lets. |
ml.microsoft |
string |
Microsoft Analyzer voor Malayalam. |
mr.microsoft |
string |
Microsoft Analyzer voor Marathi. |
ms.microsoft |
string |
Microsoft Analyzer voor Maleis (Latijns). |
nb.microsoft |
string |
Microsoft Analyzer voor Noors (Bokmål). |
nl.lucene |
string |
Lucene analyzer voor Nederlands. |
nl.microsoft |
string |
Microsoft analyzer voor Nederlands. |
no.lucene |
string |
Lucene analyzer voor Noors. |
pa.microsoft |
string |
Microsoft Analyzer voor Punjabi. |
pattern |
string |
Op flexibele wijze scheidt u tekst in termen via een patroon voor reguliere expressies. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html |
pl.lucene |
string |
Lucene analyzer voor Pools. |
pl.microsoft |
string |
Microsoft Analyzer voor Pools. |
pt-BR.lucene |
string |
Lucene Analyzer voor Portugees (Brazilië). |
pt-BR.microsoft |
string |
Microsoft Analyzer voor Portugees (Brazilië). |
pt-PT.lucene |
string |
Lucene analyzer voor Portugees (Portugal). |
pt-PT.microsoft |
string |
Microsoft Analyzer voor Portugees (Portugal). |
ro.lucene |
string |
Lucene analyzer voor Roemeens. |
ro.microsoft |
string |
Microsoft Analyzer voor Roemeens. |
ru.lucene |
string |
Lucene analyzer voor Russisch. |
ru.microsoft |
string |
Microsoft Analyzer voor Russisch. |
simple |
string |
Hiermee verdeelt u tekst op niet-letters en converteert u deze naar kleine letters. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html |
sk.microsoft |
string |
Microsoft Analyzer voor Slowaaks. |
sl.microsoft |
string |
Microsoft Analyzer voor Sloveens. |
sr-cyrillic.microsoft |
string |
Microsoft analyzer voor Servisch (Cyrillisch). |
sr-latin.microsoft |
string |
Microsoft analyzer voor Servisch (Latijns). |
standard.lucene |
string |
Standard Lucene Analyzer. |
standardasciifolding.lucene |
string |
Standaard ASCII Folding Lucene analyzer. Zie https://docs.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers |
stop |
string |
Verdeelt tekst op niet-letters; Hiermee past u de tokenfilters kleine letters en stopwoorden toe. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html |
sv.lucene |
string |
Lucene analyzer voor Zweeds. |
sv.microsoft |
string |
Microsoft Analyzer voor Zweeds. |
ta.microsoft |
string |
Microsoft Analyzer voor Tamil. |
te.microsoft |
string |
Microsoft Analyzer voor Telugu. |
th.lucene |
string |
Lucene analyzer voor Thai. |
th.microsoft |
string |
Microsoft Analyzer voor Thais. |
tr.lucene |
string |
Lucene analyzer voor Turks. |
tr.microsoft |
string |
Microsoft Analyzer voor Turks. |
uk.microsoft |
string |
Microsoft Analyzer voor Oekraïens. |
ur.microsoft |
string |
Microsoft Analyzer voor Urdu. |
vi.microsoft |
string |
Microsoft Analyzer voor Vietnamees. |
whitespace |
string |
Een analyse die gebruikmaakt van de witruimtetokenizer. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html |
zh-Hans.lucene |
string |
Lucene analyzer voor Chinees (vereenvoudigd). |
zh-Hans.microsoft |
string |
Microsoft Analyzer voor Chinees (vereenvoudigd). |
zh-Hant.lucene |
string |
Lucene analyzer voor Chinees (traditioneel). |
zh-Hant.microsoft |
string |
Microsoft Analyzer voor Chinees (traditioneel). |
LexicalTokenizerName
Definieert de namen van alle tokenizers die worden ondersteund door de zoekmachine.
Name | Type | Description |
---|---|---|
classic |
string |
Tokenizer op basis van grammatica die geschikt is voor het verwerken van de meeste Europese documenten. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html |
edgeNGram |
string |
Hiermee wordt de invoer van een rand omgezet in n-grammen van de opgegeven grootte(n). Zie https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html |
keyword_v2 |
string |
Verzendt de volledige invoer als één token. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html |
letter |
string |
Verdeelt tekst op niet-letters. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html |
lowercase |
string |
Hiermee verdeelt u tekst op niet-letters en converteert u deze naar kleine letters. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html |
microsoft_language_stemming_tokenizer |
string |
Verdeelt tekst met behulp van taalspecifieke regels en vermindert woorden tot hun basisvormen. |
microsoft_language_tokenizer |
string |
Verdeelt tekst met behulp van taalspecifieke regels. |
nGram |
string |
Tokeniseert de invoer in n-gram van de opgegeven grootte(n). Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html |
path_hierarchy_v2 |
string |
Tokenizer voor padachtige hiërarchieën. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html |
pattern |
string |
Tokenizer die gebruikmaakt van regex-patroonkoppeling om afzonderlijke tokens te maken. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html |
standard_v2 |
string |
Standard Lucene analyzer; Bestaat uit de standaardtokenizer, een filter in kleine letters en een stopfilter. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html |
uax_url_email |
string |
Tokeniseert URL's en e-mailberichten als één token. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html |
whitespace |
string |
Hiermee verdeelt u tekst op witruimte. Zie http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html |
LimitTokenFilter
Beperkt het aantal tokens tijdens het indexeren. Dit tokenfilter wordt geïmplementeerd met apache Lucene.
Name | Type | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Een URI-fragment dat het type tokenfilter aangeeft. |
|
consumeAllTokens |
boolean |
False |
Een waarde die aangeeft of alle tokens van de invoer moeten worden verbruikt, zelfs als maxTokenCount is bereikt. De standaardinstelling is onwaar. |
maxTokenCount |
integer |
1 |
Het maximum aantal tokens dat moet worden geproduceerd. Standaard is 1. |
name |
string |
De naam van het tokenfilter. Het mag alleen letters, cijfers, spaties, streepjes of onderstrepingstekens bevatten, mag alleen beginnen en eindigen met alfanumerieke tekens en is beperkt tot 128 tekens. |
LuceneStandardAnalyzer
Standaard Apache Lucene Analyzer; Bestaat uit de standaardtokenizer, een filter in kleine letters en een stopfilter.
Name | Type | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Een URI-fragment dat het type analyse aangeeft. |
|
maxTokenLength |
integer |
255 |
De maximale tokenlengte. De standaardwaarde is 255. Tokens die langer zijn dan de maximale lengte, worden gesplitst. De maximale tokenlengte die kan worden gebruikt, is 300 tekens. |
name |
string |
De naam van de analyse. Het mag alleen letters, cijfers, spaties, streepjes of onderstrepingstekens bevatten, mag alleen beginnen en eindigen met alfanumerieke tekens en is beperkt tot 128 tekens. |
|
stopwords |
string[] |
Een lijst met stopwoorden. |
LuceneStandardTokenizer
Hiermee breekt u de tekst volgens de unicode-tekstsegmentatieregels. Deze tokenizer wordt geïmplementeerd met apache Lucene.
Name | Type | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Een URI-fragment dat het type tokenizer aangeeft. |
|
maxTokenLength |
integer |
255 |
De maximale tokenlengte. De standaardwaarde is 255. Tokens die langer zijn dan de maximale lengte, worden gesplitst. |
name |
string |
De naam van de tokenizer. Het mag alleen letters, cijfers, spaties, streepjes of onderstrepingstekens bevatten, mag alleen beginnen en eindigen met alfanumerieke tekens en is beperkt tot 128 tekens. |
LuceneStandardTokenizerV2
Hiermee wordt de tekst volgens de Unicode-tekstsegmentatieregels verbroken. Deze tokenizer wordt geïmplementeerd met behulp van Apache Lucene.
Name | Type | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Een URI-fragment dat het type tokenizer aangeeft. |
|
maxTokenLength |
integer |
255 |
De maximale tokenlengte. De standaardwaarde is 255. Tokens die langer zijn dan de maximale lengte, worden gesplitst. De maximale tokenlengte die kan worden gebruikt, is 300 tekens. |
name |
string |
De naam van de tokenizer. Het mag alleen letters, cijfers, spaties, streepjes of onderstrepingstekens bevatten, mag alleen beginnen en eindigen met alfanumerieke tekens en is beperkt tot 128 tekens. |
MagnitudeScoringFunction
Hiermee definieert u een functie die scores verhoogt op basis van de grootte van een numeriek veld.
Name | Type | Description |
---|---|---|
boost |
number |
Een vermenigvuldiger voor de onbewerkte score. Moet een positief getal zijn dat niet gelijk is aan 1,0. |
fieldName |
string |
De naam van het veld dat wordt gebruikt als invoer voor de scorefunctie. |
interpolation |
Een waarde die aangeeft hoe stimuleren wordt geïnterpoleerd tussen documentscores; is standaard ingesteld op 'Lineair'. |
|
magnitude |
Parameterwaarden voor de scorefunctie van de grootte. |
|
type |
string:
magnitude |
Geeft het type functie aan dat moet worden gebruikt. Geldige waarden zijn onder andere grootte, versheid, afstand en tag. Het functietype moet van kleine letters zijn. |
MagnitudeScoringParameters
Biedt parameterwaarden voor een scorefunctie voor de grootte.
Name | Type | Description |
---|---|---|
boostingRangeEnd |
number |
De veldwaarde waarop het stimuleren eindigt. |
boostingRangeStart |
number |
De veldwaarde waarop het stimuleren begint. |
constantBoostBeyondRange |
boolean |
Een waarde die aangeeft of een constante boost moet worden toegepast voor veldwaarden buiten de eindwaarde van het bereik; standaard is onwaar. |
MappingCharFilter
Een tekenfilter waarmee toewijzingen worden toegepast die zijn gedefinieerd met de optie toewijzingen. Vergelijken is greedy (langste patroonmatching op een bepaald punt wint). Vervanging mag de lege tekenreeks zijn. Dit tekenfilter wordt geïmplementeerd met behulp van Apache Lucene.
Name | Type | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
Een URI-fragment dat het type tekenfilter aangeeft. |
mappings |
string[] |
Een lijst met toewijzingen met de volgende indeling: 'a=>b' (alle exemplaren van het teken 'a' worden vervangen door het teken 'b'). |
name |
string |
De naam van het tekenfilter. Het mag alleen letters, cijfers, spaties, streepjes of onderstrepingstekens bevatten, mag alleen beginnen en eindigen met alfanumerieke tekens en is beperkt tot 128 tekens. |
MicrosoftLanguageStemmingTokenizer
Verdeelt tekst met behulp van taalspecifieke regels en reduceert woorden tot de basisvormen.
Name | Type | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Een URI-fragment dat het type tokenizer aangeeft. |
|
isSearchTokenizer |
boolean |
False |
Een waarde die aangeeft hoe de tokenizer wordt gebruikt. Stel in op true als deze wordt gebruikt als de zoektokenizer, stel in op false als deze wordt gebruikt als de indexeringstokenizer. De standaardinstelling is onwaar. |
language |
De taal die moet worden gebruikt. De standaardwaarde is Engels. |
||
maxTokenLength |
integer |
255 |
De maximale tokenlengte. Tokens die langer zijn dan de maximale lengte, worden gesplitst. De maximale tokenlengte die kan worden gebruikt, is 300 tekens. Tokens die langer zijn dan 300 tekens worden eerst gesplitst in tokens met een lengte van 300 en vervolgens wordt elk van deze tokens gesplitst op basis van de ingestelde maximale tokenlengte. De standaardwaarde is 255. |
name |
string |
De naam van de tokenizer. Het mag alleen letters, cijfers, spaties, streepjes of onderstrepingstekens bevatten, mag alleen beginnen en eindigen met alfanumerieke tekens en is beperkt tot 128 tekens. |
MicrosoftLanguageTokenizer
Verdeelt tekst met behulp van taalspecifieke regels.
Name | Type | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Een URI-fragment dat het type tokenizer aangeeft. |
|
isSearchTokenizer |
boolean |
False |
Een waarde die aangeeft hoe de tokenizer wordt gebruikt. Stel in op true als deze wordt gebruikt als de zoektokenizer, stel in op false als deze wordt gebruikt als de indexeringstokenizer. De standaardinstelling is onwaar. |
language |
De taal die moet worden gebruikt. De standaardwaarde is Engels. |
||
maxTokenLength |
integer |
255 |
De maximale tokenlengte. Tokens die langer zijn dan de maximale lengte, worden gesplitst. De maximale tokenlengte die kan worden gebruikt, is 300 tekens. Tokens die langer zijn dan 300 tekens worden eerst gesplitst in tokens met een lengte van 300 en vervolgens wordt elk van deze tokens gesplitst op basis van de ingestelde maximale tokenlengte. De standaardwaarde is 255. |
name |
string |
De naam van de tokenizer. Het mag alleen letters, cijfers, spaties, streepjes of onderstrepingstekens bevatten, mag alleen beginnen en eindigen met alfanumerieke tekens en is beperkt tot 128 tekens. |
MicrosoftStemmingTokenizerLanguage
Lijsten de talen die worden ondersteund door de Tokenizer voor taalschatten van Microsoft.
Name | Type | Description |
---|---|---|
arabic |
string |
Selecteert de Microsoft-stemtokenizer voor Arabisch. |
bangla |
string |
Selecteert de Microsoft-stemtokenizer voor Bangla. |
bulgarian |
string |
Selecteert de Microsoft-stemtokenizer voor Bulgaars. |
catalan |
string |
Selecteert de Microsoft-stemtokenizer voor Catalaans. |
croatian |
string |
Selecteert de Microsoft-stemtokenizer voor Kroatisch. |
czech |
string |
Selecteert de Microsoft-stemtokenizer voor Tsjechisch. |
danish |
string |
Selecteert de Microsoft-stemtokenizer voor Deens. |
dutch |
string |
Selecteert de Microsoft-stemtokenizer voor Nederlands. |
english |
string |
Selecteert de Microsoft-stemtokenizer voor Engels. |
estonian |
string |
Selecteert de Microsoft-stemtokenizer voor Ests. |
finnish |
string |
Selecteert de Microsoft-stemtokenizer voor Fins. |
french |
string |
Selecteert de Microsoft-stemtokenizer voor Frans. |
german |
string |
Selecteert de Microsoft-stemtokenizer voor Duits. |
greek |
string |
Selecteert de Microsoft-stemtokenizer voor Grieks. |
gujarati |
string |
Selecteert de Microsoft-stemtokenizer voor Gujarati. |
hebrew |
string |
Selecteert de Microsoft-stemtokenizer voor Hebreeuws. |
hindi |
string |
Selecteert de Microsoft-stemtokenizer voor Hindi. |
hungarian |
string |
Selecteert de Microsoft-stemtokenizer voor Hongaars. |
icelandic |
string |
Selecteert de Microsoft-stemtokenizer voor IJslands. |
indonesian |
string |
Selecteert de Microsoft-stemtokenizer voor Indonesisch. |
italian |
string |
Selecteert de Microsoft-stemtokenizer voor Italiaans. |
kannada |
string |
Selecteert de Microsoft-stemtokenizer voor Kannada. |
latvian |
string |
Selecteert de Microsoft-stemtokenizer voor Lets. |
lithuanian |
string |
Selecteert de Microsoft-stemtokenizer voor Litouws. |
malay |
string |
Selecteert de Microsoft-stemtokenizer voor Maleis. |
malayalam |
string |
Selecteert de Microsoft-stemtokenizer voor Malayalam. |
marathi |
string |
Selecteert de Microsoft-stemtokenizer voor Marathi. |
norwegianBokmaal |
string |
Selecteert de Microsoft-stemtokenizer voor Noors (Bokmål). |
polish |
string |
Selecteert de Microsoft-stemtokenizer voor Pools. |
portuguese |
string |
Selecteert de Microsoft-stemtokenizer voor Portugees. |
portugueseBrazilian |
string |
Selecteert de Microsoft-stemtokenizer voor Portugees (Brazilië). |
punjabi |
string |
Selecteert de Microsoft-stemtokenizer voor Punjabi. |
romanian |
string |
Selecteert de Microsoft-stemtokenizer voor Roemeens. |
russian |
string |
Selecteert de Microsoft-stemtokenizer voor Russisch. |
serbianCyrillic |
string |
Selecteert de Microsoft-stemtokenizer voor Servisch (Cyrillisch). |
serbianLatin |
string |
Selecteert de Microsoft-stemtokenizer voor Servisch (Latijns). |
slovak |
string |
Selecteert de Microsoft-stemtokenizer voor Slowaaks. |
slovenian |
string |
Selecteert de Microsoft-stemtokenizer voor Sloveens. |
spanish |
string |
Selecteert de Microsoft-stemtokenizer voor Spaans. |
swedish |
string |
Selecteert de Microsoft-stemtokenizer voor Zweeds. |
tamil |
string |
Selecteert de Microsoft-stemtokenizer voor Tamil. |
telugu |
string |
Selecteert de Microsoft-stemtokenizer voor Telugu. |
turkish |
string |
Selecteert de Microsoft-stemtokenizer voor Turks. |
ukrainian |
string |
Selecteert de Microsoft-stemtokenizer voor Oekraïens. |
urdu |
string |
Selecteert de Microsoft-stemtokenizer voor Urdu. |
MicrosoftTokenizerLanguage
Lijsten de talen die worden ondersteund door de Taaltokenizer van Microsoft.
Name | Type | Description |
---|---|---|
bangla |
string |
Selecteert de Microsoft-tokenizer voor Bangla. |
bulgarian |
string |
Selecteert de Microsoft-tokenizer voor Bulgaars. |
catalan |
string |
Selecteert de Microsoft-tokenizer voor Catalaans. |
chineseSimplified |
string |
Selecteert de Microsoft-tokenizer voor Chinees (vereenvoudigd). |
chineseTraditional |
string |
Selecteert de Microsoft-tokenizer voor Chinees (traditioneel). |
croatian |
string |
Selecteert de Microsoft-tokenizer voor Kroatisch. |
czech |
string |
Selecteert de Microsoft-tokenizer voor Tsjechisch. |
danish |
string |
Selecteert de Microsoft-tokenizer voor Deens. |
dutch |
string |
Selecteert de Microsoft-tokenizer voor Nederlands. |
english |
string |
Selecteert de Microsoft-tokenizer voor Engels. |
french |
string |
Selecteert de Microsoft-tokenizer voor Frans. |
german |
string |
Selecteert de Microsoft-tokenizer voor Duits. |
greek |
string |
Selecteert de Microsoft-tokenizer voor Grieks. |
gujarati |
string |
Selecteert de Microsoft-tokenizer voor Gujarati. |
hindi |
string |
Selecteert de Microsoft-tokenizer voor Hindi. |
icelandic |
string |
Selecteert de Microsoft-tokenizer voor IJslands. |
indonesian |
string |
Selecteert de Microsoft-tokenizer voor Indonesisch. |
italian |
string |
Selecteert de Microsoft-tokenizer voor Italiaans. |
japanese |
string |
Selecteert de Microsoft-tokenizer voor Japans. |
kannada |
string |
Selecteert de Microsoft-tokenizer voor Kannada. |
korean |
string |
Selecteert de Microsoft-tokenizer voor Koreaans. |
malay |
string |
Selecteert de Microsoft-tokenizer voor Maleis. |
malayalam |
string |
Selecteert de Microsoft-tokenizer voor Malayalam. |
marathi |
string |
Selecteert de Microsoft-tokenizer voor Marathi. |
norwegianBokmaal |
string |
Selecteert de Microsoft-tokenizer voor Noors (Bokmål). |
polish |
string |
Selecteert de Microsoft-tokenizer voor Pools. |
portuguese |
string |
Selecteert de Microsoft-tokenizer voor Portugees. |
portugueseBrazilian |
string |
Selecteert de Microsoft-tokenizer voor Portugees (Brazilië). |
punjabi |
string |
Selecteert de Microsoft-tokenizer voor Punjabi. |
romanian |
string |
Selecteert de Microsoft-tokenizer voor Roemeens. |
russian |
string |
Selecteert de Microsoft-tokenizer voor Russisch. |
serbianCyrillic |
string |
Selecteert de Microsoft-tokenizer voor Servisch (Cyrillisch). |
serbianLatin |
string |
Selecteert de Microsoft-tokenizer voor Servisch (Latijns). |
slovenian |
string |
Selecteert de Microsoft-tokenizer voor Sloveens. |
spanish |
string |
Selecteert de Microsoft-tokenizer voor Spaans. |
swedish |
string |
Selecteert de Microsoft-tokenizer voor Zweeds. |
tamil |
string |
Selecteert de Microsoft-tokenizer voor Tamil. |
telugu |
string |
Selecteert de Microsoft-tokenizer voor Telugu. |
thai |
string |
Selecteert de Microsoft-tokenizer voor Thais. |
ukrainian |
string |
Selecteert de Microsoft-tokenizer voor Oekraïens. |
urdu |
string |
Selecteert de Microsoft-tokenizer voor Urdu. |
vietnamese |
string |
Selecteert de Microsoft-tokenizer voor Vietnamees. |
NGramTokenFilter
Genereert n-gram van de opgegeven grootte(n). Dit tokenfilter wordt geïmplementeerd met apache Lucene.
Name | Type | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Een URI-fragment dat het type tokenfilter aangeeft. |
|
maxGram |
integer |
2 |
De maximale n-gram lengte. De standaardwaarde is 2. |
minGram |
integer |
1 |
De minimale n-gram lengte. Standaard is 1. Moet kleiner zijn dan de waarde van maxGram. |
name |
string |
De naam van het tokenfilter. Het mag alleen letters, cijfers, spaties, streepjes of onderstrepingstekens bevatten, mag alleen beginnen en eindigen met alfanumerieke tekens en is beperkt tot 128 tekens. |
NGramTokenFilterV2
Genereert n-gram van de opgegeven grootte(n). Dit tokenfilter wordt geïmplementeerd met apache Lucene.
Name | Type | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Een URI-fragment dat het type tokenfilter aangeeft. |
|
maxGram |
integer |
2 |
De maximale n-gram lengte. De standaardwaarde is 2. Het maximum is 300. |
minGram |
integer |
1 |
De minimale n-gram lengte. Standaard is 1. Het maximum is 300. Moet kleiner zijn dan de waarde van maxGram. |
name |
string |
De naam van het tokenfilter. Het mag alleen letters, cijfers, spaties, streepjes of onderstrepingstekens bevatten, mag alleen beginnen en eindigen met alfanumerieke tekens en is beperkt tot 128 tekens. |
NGramTokenizer
Hiermee wordt de invoer omgezet in n-grammen van de opgegeven grootte(n). Deze tokenizer wordt geïmplementeerd met apache Lucene.
Name | Type | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Een URI-fragment dat het type tokenizer aangeeft. |
|
maxGram |
integer |
2 |
De maximale n-gram lengte. De standaardwaarde is 2. Het maximum is 300. |
minGram |
integer |
1 |
De minimale n-gram lengte. Standaard is 1. Het maximum is 300. Moet kleiner zijn dan de waarde van maxGram. |
name |
string |
De naam van de tokenizer. Het mag alleen letters, cijfers, spaties, streepjes of onderstrepingstekens bevatten, mag alleen beginnen en eindigen met alfanumerieke tekens en is beperkt tot 128 tekens. |
|
tokenChars |
Tekenklassen die in de tokens moeten worden bewaard. |
PathHierarchyTokenizerV2
Tokenizer voor padachtige hiërarchieën. Deze tokenizer wordt geïmplementeerd met apache Lucene.
Name | Type | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Een URI-fragment dat het type tokenizer aangeeft. |
|
delimiter |
string |
/ |
Het te gebruiken scheidingsteken. De standaardwaarde is '/'. |
maxTokenLength |
integer |
300 |
De maximale tokenlengte. De standaardwaarde en het maximum is 300. |
name |
string |
De naam van de tokenizer. Het mag alleen letters, cijfers, spaties, streepjes of onderstrepingstekens bevatten, mag alleen beginnen en eindigen met alfanumerieke tekens en is beperkt tot 128 tekens. |
|
replacement |
string |
/ |
Een waarde die, indien ingesteld, het scheidingsteken vervangt. De standaardwaarde is '/'. |
reverse |
boolean |
False |
Een waarde die aangeeft of tokens in omgekeerde volgorde moeten worden gegenereerd. De standaardinstelling is onwaar. |
skip |
integer |
0 |
Het aantal initiële tokens dat moet worden overgeslagen. De standaardwaarde is 0. |
PatternAnalyzer
Op flexibele wijze scheidt u tekst in termen via een patroon voor reguliere expressies. Deze analyse wordt geïmplementeerd met behulp van Apache Lucene.
Name | Type | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Een URI-fragment dat het type analyse aangeeft. |
|
flags |
Markeringen voor reguliere expressies. |
||
lowercase |
boolean |
True |
Een waarde die aangeeft of termen in kleine letters moeten zijn. De standaardwaarde is true. |
name |
string |
De naam van de analyse. Het mag alleen letters, cijfers, spaties, streepjes of onderstrepingstekens bevatten, mag alleen beginnen en eindigen met alfanumerieke tekens en is beperkt tot 128 tekens. |
|
pattern |
string |
\W+ |
Een patroon voor reguliere expressies dat overeenkomt met tokenscheidingstekens. Standaard is een expressie die overeenkomt met een of meer niet-woordtekens. |
stopwords |
string[] |
Een lijst met stopwoorden. |
PatternCaptureTokenFilter
Maakt gebruik van Java-regexes om meerdere tokens te verzenden: één voor elke opnamegroep in een of meer patronen. Dit tokenfilter wordt geïmplementeerd met apache Lucene.
Name | Type | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Een URI-fragment dat het type tokenfilter aangeeft. |
|
name |
string |
De naam van het tokenfilter. Het mag alleen letters, cijfers, spaties, streepjes of onderstrepingstekens bevatten, mag alleen beginnen en eindigen met alfanumerieke tekens en is beperkt tot 128 tekens. |
|
patterns |
string[] |
Een lijst met patronen die overeenkomen met elk token. |
|
preserveOriginal |
boolean |
True |
Een waarde die aangeeft of het oorspronkelijke token moet worden geretourneerd, zelfs als een van de patronen overeenkomt. De standaardwaarde is true. |
PatternReplaceCharFilter
Een tekenfilter dat tekens in de invoertekenreeks vervangt. Er wordt een reguliere expressie gebruikt om tekenreeksen te identificeren die moeten worden behouden en een vervangend patroon om tekens te identificeren die moeten worden vervangen. Op basis van bijvoorbeeld de invoertekst 'aa bb aa bb', patroon '(aa)\s+(bb)' en vervangende '$1#$2', zou het resultaat 'aa#bb aa#bb' zijn. Dit tekenfilter wordt geïmplementeerd met behulp van Apache Lucene.
Name | Type | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
Een URI-fragment dat het type tekenfilter aangeeft. |
name |
string |
De naam van het tekenfilter. Het mag alleen letters, cijfers, spaties, streepjes of onderstrepingstekens bevatten, mag alleen beginnen en eindigen met alfanumerieke tekens en is beperkt tot 128 tekens. |
pattern |
string |
Een patroon voor reguliere expressies. |
replacement |
string |
De vervangende tekst. |
PatternReplaceTokenFilter
Een tekenfilter dat tekens in de invoertekenreeks vervangt. Er wordt een reguliere expressie gebruikt om tekenreeksen te identificeren die moeten worden behouden en een vervangend patroon om tekens te identificeren die moeten worden vervangen. Bijvoorbeeld, gezien de invoertekst 'aa bb aa bb', patroon '(aa)\s+(bb)' en vervangende '$1#$2', zou het resultaat 'aa#bb aa#bb' zijn. Dit tokenfilter wordt geïmplementeerd met apache Lucene.
Name | Type | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
Een URI-fragment dat het type tokenfilter aangeeft. |
name |
string |
De naam van het tokenfilter. Het mag alleen letters, cijfers, spaties, streepjes of onderstrepingstekens bevatten, mag alleen beginnen en eindigen met alfanumerieke tekens en is beperkt tot 128 tekens. |
pattern |
string |
Een patroon voor reguliere expressies. |
replacement |
string |
De vervangende tekst. |
PatternTokenizer
Tokenizer die gebruikmaakt van regex-patroonkoppeling om afzonderlijke tokens te maken. Deze tokenizer wordt geïmplementeerd met apache Lucene.
Name | Type | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Een URI-fragment dat het type tokenizer aangeeft. |
|
flags |
Markeringen voor reguliere expressies. |
||
group |
integer |
-1 |
Het op nul gebaseerde ordinaal van de overeenkomende groep in het reguliere expressiepatroon dat moet worden geëxtraheerd in tokens. Gebruik -1 als u het hele patroon wilt gebruiken om de invoer te splitsen in tokens, ongeacht de overeenkomende groepen. De standaardwaarde is -1. |
name |
string |
De naam van de tokenizer. Het mag alleen letters, cijfers, spaties, streepjes of onderstrepingstekens bevatten, mag alleen beginnen en eindigen met alfanumerieke tekens en is beperkt tot 128 tekens. |
|
pattern |
string |
\W+ |
Een patroon voor reguliere expressies dat overeenkomt met tokenscheidingstekens. Standaard is een expressie die overeenkomt met een of meer niet-woordtekens. |
PhoneticEncoder
Identificeert het type fonetische encoder dat moet worden gebruikt met een FonetischTokenFilter.
Name | Type | Description |
---|---|---|
beiderMorse |
string |
Codeert een token in een Beider-Morse waarde. |
caverphone1 |
string |
Codeert een token in een Caverphone 1.0-waarde. |
caverphone2 |
string |
Codeert een token in een Caverphone 2.0-waarde. |
cologne |
string |
Een token codeert in een fonetische waarde van Keulen. |
doubleMetaphone |
string |
Codeert een token in een dubbele metaphonewaarde. |
haasePhonetik |
string |
Codeert een token met behulp van de Haase-verfijning van het Kölner Phonetik-algoritme. |
koelnerPhonetik |
string |
Codeert een token met behulp van het kölner Phonetik-algoritme. |
metaphone |
string |
Codeert een token in een Metaphone-waarde. |
nysiis |
string |
Codeert een token in een NYSIIS-waarde. |
refinedSoundex |
string |
Codeert een token in een Refined Soundex-waarde. |
soundex |
string |
Codeert een token in een Soundex-waarde. |
PhoneticTokenFilter
Tokens maken voor fonetische overeenkomsten. Dit tokenfilter wordt geïmplementeerd met apache Lucene.
Name | Type | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Een URI-fragment dat het type tokenfilter aangeeft. |
|
encoder | metaphone |
De fonetische encoder die moet worden gebruikt. De standaardwaarde is 'metaphone'. |
|
name |
string |
De naam van het tokenfilter. Het mag alleen letters, cijfers, spaties, streepjes of onderstrepingstekens bevatten, mag alleen beginnen en eindigen met alfanumerieke tekens en is beperkt tot 128 tekens. |
|
replace |
boolean |
True |
Een waarde die aangeeft of gecodeerde tokens de oorspronkelijke tokens moeten vervangen. Als dit onwaar is, worden gecodeerde tokens toegevoegd als synoniemen. De standaardwaarde is true. |
PrioritizedFields
Beschrijft de velden titel, inhoud en trefwoorden die moeten worden gebruikt voor semantische rangschikking, bijschriften, markeringen en antwoorden.
Name | Type | Description |
---|---|---|
prioritizedContentFields |
Definieert de inhoudsvelden die moeten worden gebruikt voor semantische rangschikking, bijschriften, markeringen en antwoorden. Voor het beste resultaat moeten de geselecteerde velden tekst in natuurlijke taal bevatten. De volgorde van de velden in de matrix geeft hun prioriteit aan. Velden met een lagere prioriteit kunnen worden afgekapt als de inhoud lang is. |
|
prioritizedKeywordsFields |
Definieert de trefwoordvelden die moeten worden gebruikt voor semantische rangschikking, bijschriften, markeringen en antwoorden. Voor het beste resultaat moeten de geselecteerde velden een lijst met trefwoorden bevatten. De volgorde van de velden in de matrix geeft hun prioriteit aan. Velden met een lagere prioriteit kunnen worden afgekapt als de inhoud lang is. |
|
titleField |
Hiermee definieert u het titelveld dat moet worden gebruikt voor semantische rangschikking, bijschriften, markeringen en antwoorden. Als u geen titelveld in de index hebt, laat u dit veld leeg. |
RegexFlags
Definieert vlaggen die kunnen worden gecombineerd om te bepalen hoe reguliere expressies worden gebruikt in de patroonanalyse en patroontokenizer.
Name | Type | Description |
---|---|---|
CANON_EQ |
string |
Maakt canonieke equivalentie mogelijk. |
CASE_INSENSITIVE |
string |
Hiermee schakelt u niet-hoofdlettergevoelige overeenkomsten in. |
COMMENTS |
string |
Hiermee staat u witruimte en opmerkingen in het patroon toe. |
DOTALL |
string |
Hiermee schakelt u de dotall-modus in. |
LITERAL |
string |
Hiermee schakelt u letterlijk parseren van het patroon in. |
MULTILINE |
string |
Hiermee schakelt u de modus voor meerdere regels in. |
UNICODE_CASE |
string |
Hiermee schakelt u Unicode-compatibele hoofdletters in. |
UNIX_LINES |
string |
Hiermee schakelt u de unix-regelmodus in. |
ScoringFunctionAggregation
Definieert de aggregatiefunctie die wordt gebruikt om de resultaten van alle scorefuncties in een scoreprofiel te combineren.
Name | Type | Description |
---|---|---|
average |
string |
Verhoog de scores met het gemiddelde van alle scorefunctieresultaten. |
firstMatching |
string |
Verhoog scores met behulp van de eerste toepasselijke scorefunctie in het scoreprofiel. |
maximum |
string |
Verhoog de scores met het maximum van alle scorefunctieresultaten. |
minimum |
string |
Verhoog de scores met het minimum van alle scorefunctieresultaten. |
sum |
string |
Verhoog de scores met de som van alle scorefunctieresultaten. |
ScoringFunctionInterpolation
Definieert de functie die wordt gebruikt voor het interpoleren van scoreverhogingen in een reeks documenten.
Name | Type | Description |
---|---|---|
constant |
string |
Verhoogt scores met een constante factor. |
linear |
string |
Verhoogt de scores met een lineair afnemende hoeveelheid. Dit is de standaardinterpolatie voor scorefuncties. |
logarithmic |
string |
Verhoogt scores met een hoeveelheid die logaritmisch afneemt. Boosts nemen snel af voor hogere scores en langzamer naarmate de scores afnemen. Deze interpolatieoptie is niet toegestaan in functies voor tagscores. |
quadratic |
string |
Verhoogt scores met een bedrag dat kwadratisch afneemt. Boosts nemen langzaam af voor hogere scores en sneller naarmate de scores afnemen. Deze interpolatieoptie is niet toegestaan in functies voor tagscores. |
ScoringProfile
Hiermee definieert u parameters voor een zoekindex die van invloed zijn op het scoren in zoekquery's.
Name | Type | Description |
---|---|---|
functionAggregation |
Een waarde die aangeeft hoe de resultaten van afzonderlijke scorefuncties moeten worden gecombineerd. De standaardwaarde is 'Som'. Genegeerd als er geen scorefuncties zijn. |
|
functions | ScoringFunction[]: |
De verzameling functies die van invloed zijn op het scoren van documenten. |
name |
string |
De naam van het scoreprofiel. |
text |
Parameters die het scoren verbeteren op basis van tekstovereenkomsten in bepaalde indexvelden. |
SearchError
Beschrijft een foutvoorwaarde voor de API.
Name | Type | Description |
---|---|---|
code |
string |
Een van een door de server gedefinieerde set foutcodes. |
details |
Een matrix met details over specifieke fouten die tot deze gerapporteerde fout hebben geleid. |
|
message |
string |
Een door mensen leesbare weergave van de fout. |
SearchField
Vertegenwoordigt een veld in een indexdefinitie, waarin de naam, het gegevenstype en het zoekgedrag van een veld worden beschreven.
Name | Type | Description |
---|---|---|
analyzer |
De naam van de analyse die voor het veld moet worden gebruikt. Deze optie kan alleen worden gebruikt met doorzoekbare velden en kan niet samen met searchAnalyzer of indexAnalyzer worden ingesteld. Zodra de analyse is gekozen, kan deze niet meer worden gewijzigd voor het veld. Moet null zijn voor complexe velden. |
|
dimensions |
integer |
De dimensionaliteit van het vectorveld. |
facetable |
boolean |
Een waarde die aangeeft of er in facetquery's naar het veld moet worden verwezen. Wordt meestal gebruikt in een presentatie van zoekresultaten met het aantal treffers per categorie (bijvoorbeeld zoeken naar digitale camera's en hits bekijken op merk, megapixels, prijs, enzovoort). Deze eigenschap moet null zijn voor complexe velden. Velden van het type Edm.GeographyPoint of Collection(Edm.GeographyPoint) kunnen niet facetable zijn. De standaardwaarde is waar voor alle andere eenvoudige velden. |
fields |
Een lijst met subvelden als dit een veld is van het type Edm.ComplexType of Collection(Edm.ComplexType). Moet null of leeg zijn voor eenvoudige velden. |
|
filterable |
boolean |
Een waarde die aangeeft of in $filter query's naar het veld moet worden verwezen. filterbaar verschilt van doorzoekbaar in de manier waarop tekenreeksen worden verwerkt. Velden van het type Edm.String of Collection(Edm.String) die kunnen worden gefilterd, ondergaan geen woordbreking, dus vergelijkingen zijn alleen voor exacte overeenkomsten. Als u bijvoorbeeld een dergelijk veld f instelt op 'zonnige dag', vindt $filter=f eq 'sunny' geen overeenkomsten, maar $filter=f eq 'zonnige dag' wel. Deze eigenschap moet null zijn voor complexe velden. De standaardwaarde is waar voor eenvoudige velden en null voor complexe velden. |
indexAnalyzer |
De naam van de analyse die wordt gebruikt tijdens het indexeren van het veld. Deze optie kan alleen worden gebruikt met doorzoekbare velden. Deze moet samen met searchAnalyzer worden ingesteld en kan niet samen met de analyseoptie worden ingesteld. Deze eigenschap kan niet worden ingesteld op de naam van een taalanalyse. gebruik in plaats daarvan de eigenschap analyzer als u een taalanalyse nodig hebt. Zodra de analyse is gekozen, kan deze niet meer worden gewijzigd voor het veld. Moet null zijn voor complexe velden. |
|
key |
boolean |
Een waarde die aangeeft of het veld documenten in de index uniek identificeert. Er moet precies één veld op het hoogste niveau in elke index als sleutelveld worden gekozen en het veld moet van het type Edm.String zijn. Sleutelvelden kunnen worden gebruikt om documenten rechtstreeks op te zoeken en specifieke documenten bij te werken of te verwijderen. De standaardwaarde is false voor eenvoudige velden en null voor complexe velden. |
name |
string |
De naam van het veld, die uniek moet zijn binnen de verzameling velden van de index of het bovenliggende veld. |
retrievable |
boolean |
Een waarde die aangeeft of het veld kan worden geretourneerd in een zoekresultaat. U kunt deze optie uitschakelen als u een veld (bijvoorbeeld marge) wilt gebruiken als filter-, sorteer- of scoremechanisme, maar niet wilt dat het veld zichtbaar is voor de eindgebruiker. Deze eigenschap moet waar zijn voor sleutelvelden en moet null zijn voor complexe velden. Deze eigenschap kan worden gewijzigd in bestaande velden. Het inschakelen van deze eigenschap leidt niet tot een toename van de vereisten voor indexopslag. De standaardwaarde is waar voor eenvoudige velden en null voor complexe velden. |
searchAnalyzer |
De naam van de analyse die tijdens het zoeken voor het veld wordt gebruikt. Deze optie kan alleen worden gebruikt met doorzoekbare velden. Deze moet samen met indexAnalyzer worden ingesteld en kan niet samen met de analyseoptie worden ingesteld. Deze eigenschap kan niet worden ingesteld op de naam van een taalanalyse. gebruik in plaats daarvan de eigenschap analyzer als u een taalanalyse nodig hebt. Deze analyse kan worden bijgewerkt voor een bestaand veld. Moet null zijn voor complexe velden. |
|
searchable |
boolean |
Een waarde die aangeeft of het veld doorzoekbaar is in volledige tekst. Dit betekent dat deze tijdens het indexeren wordt geanalyseerd, zoals woordbreking. Als u een doorzoekbaar veld instelt op een waarde als 'zonnige dag', wordt de waarde intern gesplitst in de afzonderlijke tokens 'zonnige' en 'dag'. Hiermee kunt u zoeken in volledige tekst naar deze termen. Velden van het type Edm.String of Collection(Edm.String) kunnen standaard worden doorzocht. Deze eigenschap moet onwaar zijn voor eenvoudige velden van andere niet-tekenreeksgegevenstypen en moet null zijn voor complexe velden. Opmerking: doorzoekbare velden nemen extra ruimte in uw index in beslag voor extra tokenized versies van de veldwaarde voor zoekopdrachten in volledige tekst. Als u ruimte wilt besparen in uw index en u geen veld wilt opnemen in zoekopdrachten, stelt u doorzoekbaar in op onwaar. |
sortable |
boolean |
Een waarde die aangeeft of in $orderby-expressies moet worden verwezen naar het veld. Standaard sorteert de zoekmachine resultaten op score, maar in veel ervaringen willen gebruikers sorteren op velden in de documenten. Een eenvoudig veld kan alleen worden gesorteerd als het één waarde heeft (het heeft één waarde in het bereik van het bovenliggende document). Eenvoudige verzamelingsvelden kunnen niet worden gesorteerd, omdat ze meerdere waarden hebben. Eenvoudige subvelden van complexe verzamelingen hebben ook meerdere waarden en kunnen daarom niet worden gesorteerd. Dit geldt voor de complexe verzameling, ongeacht of het een direct bovenliggend veld of een bovenliggend veld is. Complexe velden kunnen niet worden gesorteerd en de sorteerbare eigenschap moet null zijn voor dergelijke velden. De standaardwaarde voor sorteren is waar voor eenvoudige velden met één waarde, onwaar voor velden met meerdere waarden en null voor complexe velden. |
synonymMaps |
string[] |
Een lijst met de namen van synoniemen die aan dit veld moeten worden gekoppeld. Deze optie kan alleen worden gebruikt met doorzoekbare velden. Momenteel wordt slechts één synoniemtoewijzing per veld ondersteund. Als u een synoniemtoewijzing aan een veld toewijst, zorgt u ervoor dat querytermen die op dat veld zijn gericht, tijdens de query worden uitgebreid met behulp van de regels in de synoniementoewijzing. Dit kenmerk kan worden gewijzigd in bestaande velden. Moet null zijn of een lege verzameling voor complexe velden. |
type |
Het gegevenstype van het veld. |
|
vectorSearchProfile |
string |
De naam van het vectorzoekprofiel dat het algoritme aangeeft dat moet worden gebruikt bij het zoeken in het vectorveld. |
SearchFieldDataType
Hiermee definieert u het gegevenstype van een veld in een zoekindex.
Name | Type | Description |
---|---|---|
Edm.Boolean |
string |
Geeft aan dat een veld een Booleaanse waarde bevat (waar of onwaar). |
Edm.ComplexType |
string |
Geeft aan dat een veld een of meer complexe objecten bevat die op hun beurt subvelden van andere typen bevatten. |
Edm.DateTimeOffset |
string |
Geeft aan dat een veld een datum/tijd-waarde bevat, inclusief tijdzone-informatie. |
Edm.Double |
string |
Geeft aan dat een veld een IEEE-getal met dubbele precisie met drijvende komma bevat. |
Edm.GeographyPoint |
string |
Geeft aan dat een veld een geografische locatie bevat in termen van lengtegraad en breedtegraad. |
Edm.Int32 |
string |
Geeft aan dat een veld een 32-bits geheel getal met teken bevat. |
Edm.Int64 |
string |
Geeft aan dat een veld een 64-bits geheel getal met teken bevat. |
Edm.Single |
string |
Geeft aan dat een veld een drijvendekommagetal met één precisie bevat. Dit is alleen geldig wanneer deze wordt gebruikt met Collection(Edm.Single). |
Edm.String |
string |
Geeft aan dat een veld een tekenreeks bevat. |
SearchIndex
Vertegenwoordigt een zoekindexdefinitie, waarmee de velden en het zoekgedrag van een index worden beschreven.
Name | Type | Description |
---|---|---|
@odata.etag |
string |
De ETag van de index. |
analyzers | LexicalAnalyzer[]: |
De analysefuncties voor de index. |
charFilters | CharFilter[]: |
De tekenfilters voor de index. |
corsOptions |
Opties voor het beheren van CORS (Cross-Origin Resource Sharing) voor de index. |
|
defaultScoringProfile |
string |
De naam van het scoreprofiel dat moet worden gebruikt als er geen is opgegeven in de query. Als deze eigenschap niet is ingesteld en er geen scoreprofiel is opgegeven in de query, wordt de standaardscore (tf-idf) gebruikt. |
encryptionKey |
Een beschrijving van een versleutelingssleutel die u maakt in Azure Key Vault. Deze sleutel wordt gebruikt om een extra niveau van versleuteling-at-rest voor uw gegevens te bieden als u volledige zekerheid wilt dat niemand, zelfs Microsoft, uw gegevens kan ontsleutelen. Zodra u uw gegevens hebt versleuteld, blijven deze altijd versleuteld. De zoekservice negeert pogingen om deze eigenschap in te stellen op null. U kunt deze eigenschap indien nodig wijzigen als u uw versleutelingssleutel wilt roteren; Uw gegevens worden niet beïnvloed. Versleuteling met door de klant beheerde sleutels is niet beschikbaar voor gratis zoekservices en is alleen beschikbaar voor betaalde services die zijn gemaakt op of na 1 januari 2019. |
|
fields |
De velden van de index. |
|
name |
string |
De naam van de index. |
scoringProfiles |
De scoreprofielen voor de index. |
|
semantic |
Hiermee definieert u parameters voor een zoekindex die semantische mogelijkheden beïnvloeden. |
|
similarity | Similarity: |
Het type gelijkenis-algoritme dat moet worden gebruikt bij het scoren en rangschikken van documenten die overeenkomen met een zoekopdracht. Het gelijkenis-algoritme kan alleen worden gedefinieerd tijdens het maken van de index en kan niet worden gewijzigd voor bestaande indexen. Indien null, wordt het algoritme ClassicSimilarity gebruikt. |
suggesters |
De suggesties voor de index. |
|
tokenFilters |
TokenFilter[]:
|
De tokenfilters voor de index. |
tokenizers | LexicalTokenizer[]: |
De tokenizers voor de index. |
vectorSearch |
Bevat configuratieopties met betrekking tot vectorzoekopdrachten. |
SearchResourceEncryptionKey
Een door de klant beheerde versleutelingssleutel in Azure Key Vault. Sleutels die u maakt en beheert, kunnen worden gebruikt voor het versleutelen of ontsleutelen van data-at-rest in uw zoekservice, zoals indexen en synoniemenkaarten.
Name | Type | Description |
---|---|---|
accessCredentials |
Optionele Azure Active Directory-referenties die worden gebruikt voor toegang tot uw Azure Key Vault. Niet vereist als u in plaats daarvan een beheerde identiteit gebruikt. |
|
keyVaultKeyName |
string |
De naam van uw Azure Key Vault sleutel die moet worden gebruikt om uw data-at-rest te versleutelen. |
keyVaultKeyVersion |
string |
De versie van uw Azure Key Vault sleutel die moet worden gebruikt voor het versleutelen van uw data-at-rest. |
keyVaultUri |
string |
De URI van uw Azure Key Vault, ook wel DNS-naam genoemd, die de sleutel bevat die moet worden gebruikt om uw data-at-rest te versleutelen. Een voorbeeld van een URI kan zijn |
SemanticConfiguration
Definieert een specifieke configuratie die moet worden gebruikt in de context van semantische mogelijkheden.
Name | Type | Description |
---|---|---|
name |
string |
De naam van de semantische configuratie. |
prioritizedFields |
Hierin worden de titel-, inhouds- en trefwoordvelden beschreven die moeten worden gebruikt voor semantische rangschikking, bijschriften, markeringen en antwoorden. Er moet ten minste een van de drie subeigenschappen (titleField, prioritairKeywordsFields en prioriteerdeContentFields) worden ingesteld. |
SemanticField
Een veld dat wordt gebruikt als onderdeel van de semantische configuratie.
Name | Type | Description |
---|---|---|
fieldName |
string |
SemanticSettings
Hiermee definieert u parameters voor een zoekindex die semantische mogelijkheden beïnvloeden.
Name | Type | Description |
---|---|---|
configurations |
De semantische configuraties voor de index. |
|
defaultConfiguration |
string |
Hiermee kunt u de naam van een standaard semantische configuratie in uw index instellen, waardoor het optioneel is om deze elke keer als een queryparameter door te geven. |
ShingleTokenFilter
Hiermee maakt u combinaties van tokens als één token. Dit tokenfilter wordt geïmplementeerd met apache Lucene.
Name | Type | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Een URI-fragment dat het type tokenfilter aangeeft. |
|
filterToken |
string |
_ |
De tekenreeks die moet worden ingevoegd voor elke positie waarop er geen token is. De standaardwaarde is een onderstrepingsteken ("_"). |
maxShingleSize |
integer |
2 |
De maximale shingle-grootte. De standaardwaarde en de minimumwaarde is 2. |
minShingleSize |
integer |
2 |
De minimale grootte van de gordelroos. De standaardwaarde en de minimumwaarde is 2. Moet kleiner zijn dan de waarde van maxShingleSize. |
name |
string |
De naam van het tokenfilter. Het mag alleen letters, cijfers, spaties, streepjes of onderstrepingstekens bevatten, mag alleen beginnen en eindigen met alfanumerieke tekens en is beperkt tot 128 tekens. |
|
outputUnigrams |
boolean |
True |
Een waarde die aangeeft of de uitvoerstroom de invoertokens (unigrammen) en shingles bevat. De standaardwaarde is true. |
outputUnigramsIfNoShingles |
boolean |
False |
Een waarde die aangeeft of unigrammen moeten worden uitgevoerd wanneer er geen gordelroos beschikbaar is. Deze eigenschap heeft voorrang wanneer outputUnigrams is ingesteld op false. De standaardinstelling is onwaar. |
tokenSeparator |
string |
De tekenreeks die moet worden gebruikt bij het samenvoegen van aangrenzende tokens om een shingle te vormen. De standaardwaarde is één spatie (" "). |
SnowballTokenFilter
Een filter dat woorden afstelt met behulp van een door sneeuwbal gegenereerde stemmer. Dit tokenfilter wordt geïmplementeerd met apache Lucene.
Name | Type | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
Een URI-fragment dat het type tokenfilter aangeeft. |
language |
De taal die moet worden gebruikt. |
|
name |
string |
De naam van het tokenfilter. Het mag alleen letters, cijfers, spaties, streepjes of onderstrepingstekens bevatten, mag alleen beginnen en eindigen met alfanumerieke tekens en is beperkt tot 128 tekens. |
SnowballTokenFilterLanguage
De taal die moet worden gebruikt voor een Snowball-tokenfilter.
Name | Type | Description |
---|---|---|
armenian |
string |
Selecteert de Lucene Snowball-stemtokenizer voor Armeens. |
basque |
string |
Selecteert de Lucene Snowball stemming tokenizer voor Baskisch. |
catalan |
string |
Selecteert de Lucene Snowball stemming tokenizer voor Catalaans. |
danish |
string |
Selecteert de Lucene Snowball stemming tokenizer voor Deens. |
dutch |
string |
Selecteert de Lucene Snowball stemming tokenizer voor Nederlands. |
english |
string |
Selecteert de Lucene Snowball stemming tokenizer voor Engels. |
finnish |
string |
Selecteert de Lucene Snowball stemming tokenizer voor Fins. |
french |
string |
Selecteert de Lucene Snowball stemming tokenizer voor Frans. |
german |
string |
Selecteert de Lucene Snowball stemming tokenizer voor Duits. |
german2 |
string |
Selecteert de Lucene Snowball-stemtokenizer die gebruikmaakt van het Duitse variantalgoritme. |
hungarian |
string |
Selecteert de Lucene Snowball stemming tokenizer voor Hongaars. |
italian |
string |
Selecteert de Lucene Snowball stemming tokenizer voor Italiaans. |
kp |
string |
Selecteert de Lucene Snowball stemming tokenizer voor Nederlands die gebruikmaakt van het algoritme Kraaij-Pohlmann stemming. |
lovins |
string |
Selecteert de Lucene Snowball-stemtokenizer voor Engels die gebruikmaakt van het Lovins-stemmingsalgoritme. |
norwegian |
string |
Selecteert de Lucene Snowball stemming tokenizer voor Noors. |
porter |
string |
Selecteert de Lucene Snowball-stemtokenizer voor Engels die gebruikmaakt van het portier-stemalgoritme. |
portuguese |
string |
Selecteert de Lucene Snowball stemming tokenizer voor Portugees. |
romanian |
string |
Selecteert de Lucene Snowball stemming tokenizer voor Roemeens. |
russian |
string |
Selecteert de Lucene Snowball stemming tokenizer voor Russisch. |
spanish |
string |
Selecteert de Lucene Snowball stemming tokenizer voor Spaans. |
swedish |
string |
Selecteert de Lucene Snowball stemming tokenizer voor Zweeds. |
turkish |
string |
Selecteert de Lucene Snowball stemming tokenizer voor Turks. |
StemmerOverrideTokenFilter
Biedt de mogelijkheid om andere stemmingsfilters te overschrijven met aangepaste stemming op basis van woordenlijsten. Woordenlijst-stamtermen worden gemarkeerd als trefwoorden, zodat ze niet worden afgestamd met stemmers in de keten. Moet vóór eventuele stamfilters worden geplaatst. Dit tokenfilter wordt geïmplementeerd met apache Lucene.
Name | Type | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
Een URI-fragment dat het type tokenfilter aangeeft. |
name |
string |
De naam van het tokenfilter. Het mag alleen letters, cijfers, spaties, streepjes of onderstrepingstekens bevatten, mag alleen beginnen en eindigen met alfanumerieke tekens en is beperkt tot 128 tekens. |
rules |
string[] |
Een lijst met stemmingsregels in de volgende indeling: 'word => stem', bijvoorbeeld: 'ran => run'. |
StemmerTokenFilter
Taalspecifiek stemfilter. Dit tokenfilter wordt geïmplementeerd met apache Lucene.
Name | Type | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
Een URI-fragment dat het type tokenfilter aangeeft. |
language |
De taal die moet worden gebruikt. |
|
name |
string |
De naam van het tokenfilter. Het mag alleen letters, cijfers, spaties, streepjes of onderstrepingstekens bevatten, mag alleen beginnen en eindigen met alfanumerieke tekens en is beperkt tot 128 tekens. |
StemmerTokenFilterLanguage
De taal die moet worden gebruikt voor een stemmertokenfilter.
Name | Type | Description |
---|---|---|
arabic |
string |
Selecteert de Lucene-stemtokenizer voor Arabisch. |
armenian |
string |
Selecteert de Lucene-stemtokenizer voor Armeens. |
basque |
string |
Selecteert de Lucene-stemtokenizer voor Baskisch. |
brazilian |
string |
Selecteert de Lucene-stemtokenizer voor Portugees (Brazilië). |
bulgarian |
string |
Selecteert de Lucene-stemtokenizer voor Bulgaars. |
catalan |
string |
Selecteert de Lucene-stemtokenizer voor Catalaans. |
czech |
string |
Selecteert de Lucene-stemtokenizer voor Tsjechisch. |
danish |
string |
Selecteert de Lucene-stemtokenizer voor Deens. |
dutch |
string |
Selecteert de Lucene stemtokenizer voor Nederlands. |
dutchKp |
string |
Selecteert de Lucene-stemtokenizer voor Nederlands die gebruikmaakt van het algoritme Kraaij-Pohlmann stemming. |
english |
string |
Selecteert de Lucene-stemtokenizer voor Engels. |
finnish |
string |
Selecteert de Lucene-stemtokenizer voor Fins. |
french |
string |
Selecteert de Lucene stemtokenizer voor Frans. |
galician |
string |
Selecteert de Lucene-stemtokenizer voor Galicisch. |
german |
string |
Selecteert de Lucene-stemtokenizer voor Duits. |
german2 |
string |
Selecteert de Lucene-stemtokenizer die gebruikmaakt van het Duitse variant-algoritme. |
greek |
string |
Selecteert de Lucene-stemtokenizer voor Grieks. |
hindi |
string |
Selecteert de Lucene-stemtokenizer voor Hindi. |
hungarian |
string |
Selecteert de Lucene-stemtokenizer voor Hongaars. |
indonesian |
string |
Selecteert de Lucene stemtokenizer voor Indonesisch. |
irish |
string |
Selecteert de Lucene-stemtokenizer voor Iers. |
italian |
string |
Selecteert de Lucene-stemtokenizer voor Italiaans. |
latvian |
string |
Selecteert de Lucene-stemtokenizer voor Lets. |
lightEnglish |
string |
Selecteert de Lucene-stemtokenizer voor Engels die lichte stemming doet. |
lightFinnish |
string |
Selecteert de Lucene-stemtokenizer voor Fins die lichte stemming doet. |
lightFrench |
string |
Selecteert de Lucene-stemtokenizer voor Frans die lichte stemming doet. |
lightGerman |
string |
Selecteert de Lucene-stemtokenizer voor Duits die lichte stemming doet. |
lightHungarian |
string |
Selecteert de Lucene-stemtokenizer voor Hongaars die lichte stemming doet. |
lightItalian |
string |
Selecteert de Lucene-stemtokenizer voor Italiaans die lichte stemming doet. |
lightNorwegian |
string |
Selecteert de Lucene-stemtokenizer voor Noors (Bokmål) die lichte stamt. |
lightNynorsk |
string |
Selecteert de Lucene-stemtokenizer voor Noors (Nynorsk) die lichte stemming aanhoudt. |
lightPortuguese |
string |
Selecteert de Lucene-stemtokenizer voor Portugees die lichte stemming doet. |
lightRussian |
string |
Selecteert de Lucene-stemtokenizer voor Russisch die lichte stemming doet. |
lightSpanish |
string |
Selecteert de Lucene-stemtokenizer voor Spaans die lichte stemming doet. |
lightSwedish |
string |
Selecteert de Lucene-stemtokenizer voor Zweeds die lichte stemming doet. |
lovins |
string |
Selecteert de Lucene-stemtokenizer voor Engels die gebruikmaakt van het Lovins-stemalgoritme. |
minimalEnglish |
string |
Selecteert de Lucene-stemtokenizer voor Engels die minimale stam gebruikt. |
minimalFrench |
string |
Selecteert de Lucene-stemtokenizer voor Frans die minimaal stamt. |
minimalGalician |
string |
Selecteert de Lucene-stemtokenizer voor Galicisch die minimaal stamt. |
minimalGerman |
string |
Selecteert de Lucene-stemtokenizer voor Duits die minimale stam gebruikt. |
minimalNorwegian |
string |
Selecteert de Lucene-stemtokenizer voor Noors (Bokmål) die minimaal stamt. |
minimalNynorsk |
string |
Selecteert de Lucene-stemtokenizer voor Noors (Nynorsk) die minimaal stamt. |
minimalPortuguese |
string |
Selecteert de Lucene-stemtokenizer voor Portugees die minimale vering gebruikt. |
norwegian |
string |
Selecteert de Lucene-stemtokenizer voor Noors (Bokmål). |
porter2 |
string |
Selecteert de Lucene-stemtokenizer voor Engels die gebruikmaakt van het portier2-stem-algoritme. |
portuguese |
string |
Selecteert de Lucene-stemtokenizer voor Portugees. |
portugueseRslp |
string |
Selecteert de Lucene-stemtokenizer voor Portugees die gebruikmaakt van het RSLP-stem-algoritme. |
possessiveEnglish |
string |
Hiermee selecteert u de Lucene-stemtokenizer voor Engels die afsluitende bezitterige woorden uit woorden verwijdert. |
romanian |
string |
Selecteert de Lucene-stemtokenizer voor Roemeens. |
russian |
string |
Selecteert de Lucene-stemtokenizer voor Russisch. |
sorani |
string |
Selecteert de Lucene-stemtokenizer voor Sorani. |
spanish |
string |
Selecteert de Lucene-stemtokenizer voor Spaans. |
swedish |
string |
Selecteert de Lucene-stemtokenizer voor Zweeds. |
turkish |
string |
Selecteert de Lucene-stemtokenizer voor Turks. |
StopAnalyzer
Verdeelt tekst op niet-letters; Hiermee past u de tokenfilters kleine letters en stopwoorden toe. Deze analyse wordt geïmplementeerd met behulp van Apache Lucene.
Name | Type | Description |
---|---|---|
@odata.type |
string:
#Microsoft. |
Een URI-fragment dat het type analyse aangeeft. |
name |
string |
De naam van de analyse. Het mag alleen letters, cijfers, spaties, streepjes of onderstrepingstekens bevatten, mag alleen beginnen en eindigen met alfanumerieke tekens en is beperkt tot 128 tekens. |
stopwords |
string[] |
Een lijst met stopwoorden. |
StopwordsList
Hiermee wordt een vooraf gedefinieerde lijst met taalspecifieke stopwoorden geïdentificeerd.
Name | Type | Description |
---|---|---|
arabic |
string |
Selecteert de lijst met stopwoorden voor Arabisch. |
armenian |
string |
Selecteert de lijst met stopwoorden voor Armeens. |
basque |
string |
Selecteert de lijst met stopwoorden voor Baskisch. |
brazilian |
string |
Selecteert de lijst met stopwoorden voor Portugees (Brazilië). |
bulgarian |
string |
Selecteert de lijst met stopwoorden voor Bulgaars. |
catalan |
string |
Selecteert de lijst met stopwoorden voor Catalaans. |
czech |
string |
Selecteert de lijst met stopwoorden voor Tsjechisch. |
danish |
string |
Selecteert de lijst met stopwoorden voor Deens. |
dutch |
string |
Hiermee selecteert u de stopwoordlijst voor Nederlands. |
english |
string |
Selecteert de lijst met stopwoorden voor Engels. |
finnish |
string |
Selecteert de lijst met stopwoorden voor Fins. |
french |
string |
Selecteert de lijst met stopwoorden voor Frans. |
galician |
string |
Selecteert de lijst met stopwoorden voor Galicisch. |
german |
string |
Selecteert de lijst met stopwoorden voor Duits. |
greek |
string |
Selecteert de lijst met stopwoorden voor Grieks. |
hindi |
string |
Selecteert de lijst met stopwoorden voor Hindi. |
hungarian |
string |
Selecteert de lijst met stopwoorden voor Hongaars. |
indonesian |
string |
Selecteert de lijst met stopwoorden voor Indonesisch. |
irish |
string |
Selecteert de lijst met stopwoorden voor Iers. |
italian |
string |
Selecteert de lijst met stopwoorden voor Italiaans. |
latvian |
string |
Selecteert de lijst met stopwoorden voor Lets. |
norwegian |
string |
Selecteert de lijst met stopwoorden voor Noors. |
persian |
string |
Selecteert de lijst met stopwoorden voor Perzisch. |
portuguese |
string |
Selecteert de lijst met stopwoorden voor Portugees. |
romanian |
string |
Selecteert de lijst met stopwoorden voor Roemeens. |
russian |
string |
Selecteert de lijst met stopwoorden voor Russisch. |
sorani |
string |
Selecteert de lijst met stopwoorden voor Sorani. |
spanish |
string |
Selecteert de lijst met stopwoorden voor Spaans. |
swedish |
string |
Selecteert de lijst met stopwoorden voor Zweeds. |
thai |
string |
Selecteert de lijst met stopwoorden voor Thais. |
turkish |
string |
Selecteert de lijst met stopwoorden voor Turks. |
StopwordsTokenFilter
Hiermee verwijdert u stopwoorden uit een tokenstroom. Dit tokenfilter wordt geïmplementeerd met apache Lucene.
Name | Type | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Een URI-fragment dat het type tokenfilter aangeeft. |
|
ignoreCase |
boolean |
False |
Een waarde die aangeeft of case moet worden genegeerd. Als dit waar is, worden alle woorden eerst geconverteerd naar kleine letters. De standaardinstelling is onwaar. |
name |
string |
De naam van het tokenfilter. Het mag alleen letters, cijfers, spaties, streepjes of onderstrepingstekens bevatten, mag alleen beginnen en eindigen met alfanumerieke tekens en is beperkt tot 128 tekens. |
|
removeTrailing |
boolean |
True |
Een waarde die aangeeft of de laatste zoekterm moet worden genegeerd als het een stopwoord is. De standaardwaarde is true. |
stopwords |
string[] |
De lijst met stopwoorden. Deze eigenschap en de eigenschap stopwords list kunnen niet beide worden ingesteld. |
|
stopwordsList | english |
Een vooraf gedefinieerde lijst met stopwoorden die moeten worden gebruikt. Deze eigenschap en de eigenschap stopwords kunnen niet beide worden ingesteld. De standaardwaarde is Engels. |
Suggester
Definieert hoe de Suggest-API moet worden toegepast op een groep velden in de index.
Name | Type | Description |
---|---|---|
name |
string |
De naam van de suggestieaar. |
searchMode |
Een waarde die de mogelijkheden van de suggestie aangeeft. |
|
sourceFields |
string[] |
De lijst met veldnamen waarop de suggestier van toepassing is. Elk veld moet doorzoekbaar zijn. |
SuggesterSearchMode
Een waarde die de mogelijkheden van de suggestie aangeeft.
Name | Type | Description |
---|---|---|
analyzingInfixMatching |
string |
Komt overeen met opeenvolgende hele termen en voorvoegsels in een veld. Voor het veld 'De snelste bruine vos' komen de query's 'snel' en 'snelste wenkbrauw' beide overeen. |
SynonymTokenFilter
Komt overeen met synoniemen van één of meerdere woorden in een tokenstroom. Dit tokenfilter wordt geïmplementeerd met apache Lucene.
Name | Type | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Een URI-fragment dat het type tokenfilter aangeeft. |
|
expand |
boolean |
True |
Een waarde die aangeeft of alle woorden in de lijst met synoniemen (als => notatie niet wordt gebruikt) aan elkaar worden toegewezen. Indien waar, worden alle woorden in de lijst met synoniemen (als => notatie niet wordt gebruikt) aan elkaar toegewezen. De volgende lijst: incredible, incrediblee, fabulous, amazing is gelijk aan: incredible, incrediblee, fabulous, amazing => incredible, incrediblee, fabulous, amazing. Indien onwaar, dan is de volgende lijst: incredible, incrediblee, fabulous, amazing gelijk aan: incredible, incrediblee, fabulous, amazing => incredible. De standaardwaarde is true. |
ignoreCase |
boolean |
False |
Een waarde die aangeeft of er hoofdlettersgevouwen invoer moet worden gebruikt voor overeenkomsten. De standaardinstelling is onwaar. |
name |
string |
De naam van het tokenfilter. Het mag alleen letters, cijfers, spaties, streepjes of onderstrepingstekens bevatten, mag alleen beginnen en eindigen met alfanumerieke tekens en is beperkt tot 128 tekens. |
|
synonyms |
string[] |
Een lijst met synoniemen in de volgende twee indelingen: 1. ongelooflijk, ongelooflijk, fantastisch => geweldig - alle termen aan de linkerkant van => symbool worden vervangen door alle termen aan de rechterkant; 2. ongelooflijk, ongelooflijk, fantastisch, geweldig - door komma's gescheiden lijst met equivalente woorden. Stel de uitvouwoptie in om te wijzigen hoe deze lijst wordt geïnterpreteerd. |
TagScoringFunction
Definieert een functie die scores van documenten verhoogt met tekenreekswaarden die overeenkomen met een bepaalde lijst met tags.
Name | Type | Description |
---|---|---|
boost |
number |
Een vermenigvuldiger voor de onbewerkte score. Moet een positief getal zijn dat niet gelijk is aan 1,0. |
fieldName |
string |
De naam van het veld dat wordt gebruikt als invoer voor de scorefunctie. |
interpolation |
Een waarde die aangeeft hoe stimuleren wordt geïnterpoleerd tussen documentscores; is standaard ingesteld op 'Lineair'. |
|
tag |
Parameterwaarden voor de tagscorefunctie. |
|
type |
string:
tag |
Geeft het type functie aan dat moet worden gebruikt. Geldige waarden zijn onder andere grootte, versheid, afstand en tag. Het functietype moet van kleine letters zijn. |
TagScoringParameters
Biedt parameterwaarden voor een tagscorefunctie.
Name | Type | Description |
---|---|---|
tagsParameter |
string |
De naam van de parameter die wordt doorgegeven in zoekquery's om de lijst met tags op te geven die moeten worden vergeleken met het doelveld. |
TextWeights
Definieert gewichten voor indexvelden waarvoor overeenkomsten de score in zoekquery's moeten verhogen.
Name | Type | Description |
---|---|---|
weights |
object |
De woordenlijst met gewichten per veld om het scoren van documenten te verbeteren. De sleutels zijn veldnamen en de waarden zijn de gewichten voor elk veld. |
TokenCharacterKind
Vertegenwoordigt klassen van tekens waarop een tokenfilter kan worden uitgevoerd.
Name | Type | Description |
---|---|---|
digit |
string |
Hiermee worden cijfers in tokens bijgehouden. |
letter |
string |
Bewaart letters in tokens. |
punctuation |
string |
Houdt interpunctie bij in tokens. |
symbol |
string |
Hiermee worden symbolen in tokens behouden. |
whitespace |
string |
Behoudt witruimte in tokens. |
TokenFilterName
Definieert de namen van alle tokenfilters die worden ondersteund door de zoekmachine.
TruncateTokenFilter
Hiermee worden de voorwaarden afgekapt tot een specifieke lengte. Dit tokenfilter wordt geïmplementeerd met apache Lucene.
Name | Type | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Een URI-fragment dat het type tokenfilter aangeeft. |
|
length |
integer |
300 |
De lengte waarmee termen worden afgekapt. De standaardwaarde en het maximum is 300. |
name |
string |
De naam van het tokenfilter. Het mag alleen letters, cijfers, spaties, streepjes of onderstrepingstekens bevatten, mag alleen beginnen en eindigen met alfanumerieke tekens en is beperkt tot 128 tekens. |
UaxUrlEmailTokenizer
Tokeniseert URL's en e-mailberichten als één token. Deze tokenizer wordt geïmplementeerd met behulp van Apache Lucene.
Name | Type | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Een URI-fragment dat het type tokenizer aangeeft. |
|
maxTokenLength |
integer |
255 |
De maximale tokenlengte. De standaardwaarde is 255. Tokens die langer zijn dan de maximale lengte, worden gesplitst. De maximale tokenlengte die kan worden gebruikt, is 300 tekens. |
name |
string |
De naam van de tokenizer. Het mag alleen letters, cijfers, spaties, streepjes of onderstrepingstekens bevatten, mag alleen beginnen en eindigen met alfanumerieke tekens en is beperkt tot 128 tekens. |
UniqueTokenFilter
Hiermee filtert u tokens met dezelfde tekst als het vorige token. Dit tokenfilter wordt geïmplementeerd met apache Lucene.
Name | Type | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Een URI-fragment dat het type tokenfilter aangeeft. |
|
name |
string |
De naam van het tokenfilter. Het mag alleen letters, cijfers, spaties, streepjes of onderstrepingstekens bevatten, mag alleen beginnen en eindigen met alfanumerieke tekens en is beperkt tot 128 tekens. |
|
onlyOnSamePosition |
boolean |
False |
Een waarde die aangeeft of duplicaten alleen op dezelfde positie moeten worden verwijderd. De standaardinstelling is onwaar. |
VectorSearch
Bevat configuratieopties met betrekking tot vectorzoekopdrachten.
Name | Type | Description |
---|---|---|
algorithms | VectorSearchAlgorithmConfiguration[]: |
Bevat configuratieopties die specifiek zijn voor het algoritme dat wordt gebruikt tijdens het indexeren of uitvoeren van query's. |
profiles |
Definieert combinaties van configuraties die moeten worden gebruikt met vectorzoekopdrachten. |
VectorSearchAlgorithmKind
Het algoritme dat wordt gebruikt voor het indexeren en uitvoeren van query's.
Name | Type | Description |
---|---|---|
exhaustiveKnn |
string |
Volledig KNN-algoritme waarmee brute-force search wordt uitgevoerd. |
hnsw |
string |
HNSW (Hierarchical Navigable Small World), een type algoritme voor dichtstbijzijnde buren. |
VectorSearchAlgorithmMetric
De metrische gegevens over overeenkomsten die moeten worden gebruikt voor vectorvergelijkingen.
Name | Type | Description |
---|---|---|
cosine |
string |
|
dotProduct |
string |
|
euclidean |
string |
VectorSearchProfile
Definieert een combinatie van configuraties voor gebruik met vectorzoekopdrachten.
Name | Type | Description |
---|---|---|
algorithm |
string |
De naam van de configuratie van het vectorzoekalgoritmen waarmee het algoritme en optionele parameters worden opgegeven. |
name |
string |
De naam die moet worden gekoppeld aan dit specifieke vectorzoekprofiel. |
WordDelimiterTokenFilter
Hiermee splitst u woorden in subwoorden en voert u optionele transformaties uit op subwoordgroepen. Dit tokenfilter wordt geïmplementeerd met apache Lucene.
Name | Type | Default value | Description |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Een URI-fragment dat het type tokenfilter aangeeft. |
|
catenateAll |
boolean |
False |
Een waarde die aangeeft of alle subwoordonderdelen worden gemarkeerd. Als dit bijvoorbeeld is ingesteld op true, wordt 'Azure-Search-1' 'AzureSearch1'. De standaardinstelling is onwaar. |
catenateNumbers |
boolean |
False |
Een waarde die aangeeft of de maximale uitvoeringen van het aantal delen worden gekaariseerd. Als dit bijvoorbeeld is ingesteld op true, wordt '1-2' '12'. De standaardinstelling is onwaar. |
catenateWords |
boolean |
False |
Een waarde die aangeeft of het maximum aantal woordsoorten wordt gekadverteerd. Als dit bijvoorbeeld is ingesteld op true, wordt 'Azure-Search' 'AzureSearch'. De standaardinstelling is onwaar. |
generateNumberParts |
boolean |
True |
Een waarde die aangeeft of numerieke subwoorden moeten worden gegenereerd. De standaardwaarde is true. |
generateWordParts |
boolean |
True |
Een waarde die aangeeft of onderdeelwoorden moeten worden gegenereerd. Indien ingesteld, zorgt ervoor dat delen van woorden worden gegenereerd; 'AzureSearch' wordt bijvoorbeeld 'Azure' 'Search'. De standaardwaarde is true. |
name |
string |
De naam van het tokenfilter. Het mag alleen letters, cijfers, spaties, streepjes of onderstrepingstekens bevatten, mag alleen beginnen en eindigen met alfanumerieke tekens en is beperkt tot 128 tekens. |
|
preserveOriginal |
boolean |
False |
Een waarde die aangeeft of de oorspronkelijke woorden behouden blijven en worden toegevoegd aan de lijst met subwoorden. De standaardinstelling is onwaar. |
protectedWords |
string[] |
Een lijst met tokens die moeten worden beveiligd tegen scheidingstekens. |
|
splitOnCaseChange |
boolean |
True |
Een waarde die aangeeft of woorden moeten worden gesplitst in caseChange. Als dit bijvoorbeeld is ingesteld op true, wordt 'AzureSearch' 'Azure' 'Search'. De standaardwaarde is true. |
splitOnNumerics |
boolean |
True |
Een waarde die aangeeft of u wilt splitsen op getallen. Als dit bijvoorbeeld is ingesteld op true, wordt 'Azure1Search' 'Azure' '1' 'Search'. De standaardwaarde is true. |
stemEnglishPossessive |
boolean |
True |
Een waarde die aangeeft of de afsluitende 'en' voor elk subwoord moeten worden verwijderd. De standaardwaarde is true. |