Indexes - Get
Ruft eine Indexdefinition ab.
GET {endpoint}/indexes('{indexName}')?api-version=2024-07-01
URI-Parameter
Name | In | Erforderlich | Typ | Beschreibung |
---|---|---|---|---|
endpoint
|
path | True |
string |
Die Endpunkt-URL des Suchdiensts. |
index
|
path | True |
string |
Der Name des abzurufenden Indexes. |
api-version
|
query | True |
string |
Client-API-Version. |
Anforderungsheader
Name | Erforderlich | Typ | Beschreibung |
---|---|---|---|
x-ms-client-request-id |
string uuid |
Die Tracking-ID, die mit der Anforderung gesendet wurde, um beim Debuggen zu helfen. |
Antworten
Name | Typ | Beschreibung |
---|---|---|
200 OK | ||
Other Status Codes |
Fehlerantwort. |
Beispiele
SearchServiceGetIndex
Beispielanforderung
GET https://myservice.search.windows.net/indexes('hotels')?api-version=2024-07-01
Beispiel für eine Antwort
{
"name": "hotels",
"fields": [
{
"name": "hotelId",
"type": "Edm.String",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": true,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "baseRate",
"type": "Edm.Double",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "description",
"type": "Edm.String",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "descriptionEmbedding",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": 1536,
"vectorSearchProfile": "myHnswProfile",
"synonymMaps": []
},
{
"name": "description_fr",
"type": "Edm.String",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": "fr.lucene",
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "hotelName",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "category",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "tags",
"type": "Collection(Edm.String)",
"searchable": true,
"filterable": true,
"retrievable": true,
"sortable": false,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": "tagsAnalyzer",
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "parkingIncluded",
"type": "Edm.Boolean",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "smokingAllowed",
"type": "Edm.Boolean",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "lastRenovationDate",
"type": "Edm.DateTimeOffset",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "rating",
"type": "Edm.Int32",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "location",
"type": "Edm.GeographyPoint",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
}
],
"scoringProfiles": [
{
"name": "geo",
"functionAggregation": "sum",
"text": {
"weights": {
"hotelName": 5
}
},
"functions": [
{
"type": "distance",
"boost": 5,
"fieldName": "location",
"interpolation": "logarithmic",
"distance": {
"referencePointParameter": "currentLocation",
"boostingDistance": 10
}
}
]
}
],
"defaultScoringProfile": "geo",
"suggesters": [
{
"name": "sg",
"searchMode": "analyzingInfixMatching",
"sourceFields": [
"hotelName"
]
}
],
"analyzers": [
{
"name": "tagsAnalyzer",
"@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
"charFilters": [
"html_strip"
],
"tokenizer": "standard_v2"
}
],
"tokenizers": [],
"tokenFilters": [],
"charFilters": [],
"corsOptions": {
"allowedOrigins": [
"tempuri.org"
],
"maxAgeInSeconds": 60
},
"encryptionKey": {
"keyVaultKeyName": "myKeyName",
"keyVaultKeyVersion": "myKeyVersion",
"keyVaultUri": "https://myKeyVault.vault.azure.net",
"accessCredentials": {
"applicationId": "00000000-0000-0000-0000-000000000000",
"applicationSecret": null
}
},
"semantic": {
"configurations": [
{
"name": "semanticHotels",
"prioritizedFields": {
"titleField": {
"fieldName": "hotelName"
},
"prioritizedContentFields": [
{
"fieldName": "description"
},
{
"fieldName": "description_fr"
}
],
"prioritizedKeywordsFields": [
{
"fieldName": "tags"
},
{
"fieldName": "category"
}
]
}
}
]
},
"vectorSearch": {
"algorithms": [
{
"name": "myHnsw",
"kind": "hnsw",
"hnswParameters": {
"metric": "cosine",
"m": 4,
"efConstruction": 400,
"efSearch": 500
}
},
{
"name": "myExhaustive",
"kind": "exhaustiveKnn",
"exhaustiveKnnParameters": {
"metric": "cosine"
}
}
],
"profiles": [
{
"name": "myHnswProfile",
"algorithm": "myHnsw"
},
{
"name": "myAlgorithm",
"algorithm": "myExhaustive"
}
]
}
}
Definitionen
Name | Beschreibung |
---|---|
Ascii |
Konvertiert alphabetische, numerische und symbolische Unicode-Zeichen, die sich nicht in den ersten 127 ASCII-Zeichen (dem Unicode-Block "Basic Latin") befinden, in ihre ASCII-Entsprechungen, wenn solche Entsprechungen vorhanden sind. Dieser Tokenfilter wird mit Apache Lucene implementiert. |
Azure |
Anmeldeinformationen einer registrierten Anwendung, die für Ihren Suchdienst erstellt wurde und für authentifizierten Zugriff auf die im Azure Key Vault gespeicherten Verschlüsselungsschlüssel verwendet wird. |
Azure |
Ermöglicht es Ihnen, einen Vektoreinbettung für eine bestimmte Texteingabe mithilfe der Azure OpenAI-Ressource zu generieren. |
Azure |
Der Name des Azure Open AI-Modells, der aufgerufen wird. |
Azure |
Gibt die Parameter für die Verbindung mit der Azure OpenAI-Ressource an. |
Azure |
Gibt die Azure OpenAI-Ressource an, die zum Vektorisieren einer Abfragezeichenfolge verwendet wird. |
Binary |
Enthält konfigurationsspezifische Konfigurationsoptionen für die Komprimierungsmethode der binären Quantisierung, die während der Indizierung und Abfrage verwendet wird. |
BM25Similarity |
Bewertungsfunktion basierend auf dem Okapi BM25 Ähnlichkeitsalgorithmus. BM25 ist ein TF-IDF-like-Algorithmus, der die Längennormalisierung (gesteuert durch den Parameter "b") sowie die Begriffsfrequenzsättigung (gesteuert durch den Parameter "k1") enthält. |
Char |
Definiert die Namen aller Zeichenfilter, die von der Suchmaschine unterstützt werden. |
Cjk |
Bildet Bigrams von CJK-Ausdrücken, die aus dem Standardtokenizer generiert werden. Dieser Tokenfilter wird mit Apache Lucene implementiert. |
Cjk |
Skripts, die von CjkBigramTokenFilter ignoriert werden können. |
Classic |
Legacy-Ähnlichkeitsalgorithmus, der die Lucene TFIDFSimilarity-Implementierung von TF-IDF verwendet. Diese Variation von TF-IDF führt die Normalisierung statischer Dokumente sowie die Koordinierung von Faktoren ein, die Dokumente benachteiligen, die nur teilweise mit den durchsuchten Abfragen übereinstimmen. |
Classic |
Grammatikbasierter Tokenizer, der für die Verarbeitung der meisten dokumente mit europäischer Sprache geeignet ist. Dieser Tokenizer wird mit Apache Lucene implementiert. |
Common |
Erstellen Sie Bigrams für häufig vorkommende Ausdrücke während der Indizierung. Einzelne Begriffe sind auch weiterhin indiziert, wobei Bigrams überlagert sind. Dieser Tokenfilter wird mit Apache Lucene implementiert. |
Cors |
Definiert Optionen zum Steuern der cross-Origin Resource Sharing (CORS) für einen Index. |
Custom |
Ermöglicht es Ihnen, den Prozess der Konvertierung von Text in in indizierbare/durchsuchbare Token zu übernehmen. Es ist eine benutzerdefinierte Konfiguration, die aus einem einzelnen vordefinierten Tokenizer und einem oder mehreren Filtern besteht. Der Tokenizer ist für das Aufteilen von Text in Token verantwortlich, und die Filter zum Ändern von Token, die vom Tokenizer ausgegeben werden. |
Dictionary |
Dekompiliert zusammengesetzte Wörter in vielen germanischen Sprachen. Dieser Tokenfilter wird mit Apache Lucene implementiert. |
Distance |
Definiert eine Funktion, die Bewertungen basierend auf der Entfernung von einem geografischen Standort erhöht. |
Distance |
Stellt Parameterwerte für eine Entfernungsbewertungsfunktion bereit. |
Edge |
Generiert n Gramm der angegebenen Größe(n) beginnend von vorne oder hinten eines Eingabetokens. Dieser Tokenfilter wird mit Apache Lucene implementiert. |
Edge |
Gibt an, aus welcher Seite der Eingabe ein n-Gramm generiert werden soll. |
Edge |
Generiert n Gramm der angegebenen Größe(n) beginnend von vorne oder hinten eines Eingabetokens. Dieser Tokenfilter wird mit Apache Lucene implementiert. |
Edge |
Tokenisiert die Eingabe von einem Rand in n Gramm der angegebenen Größe(n). Dieser Tokenizer wird mit Apache Lucene implementiert. |
Elision |
Entfernt Elisionen. Beispielsweise wird "l'avion" (die Ebene) in "avion" (Ebene) konvertiert. Dieser Tokenfilter wird mit Apache Lucene implementiert. |
Error |
Der Ressourcenverwaltungsfehler zusätzliche Informationen. |
Error |
Das Fehlerdetails. |
Error |
Fehlerantwort |
Exhaustive |
Enthält die für den vollständigen KNN-Algorithmus spezifischen Parameter. |
Exhaustive |
Enthält Konfigurationsoptionen, die spezifisch für den vollständigen KNN-Algorithmus sind, der während der Abfrage verwendet wird, wodurch die Brute-Force-Suche im gesamten Vektorindex ausgeführt wird. |
Freshness |
Definiert eine Funktion, die Bewertungen basierend auf dem Wert eines Datum-Uhrzeit-Felds erhöht. |
Freshness |
Stellt Parameterwerte für eine Aktualitätsbewertungsfunktion bereit. |
Hnsw |
Enthält die für den HNSW-Algorithmus spezifischen Parameter. |
Hnsw |
Enthält Konfigurationsoptionen, die spezifisch für den HNSW nähersten Nachbaralgorithmus sind, der während der Indizierung und Abfrage verwendet wird. Der HNSW-Algorithmus bietet einen tunbaren Kompromiss zwischen Suchgeschwindigkeit und Genauigkeit. |
Input |
Eingabefeldzuordnung für eine Fähigkeit. |
Keep |
Ein Tokenfilter, der Token nur mit Text in einer angegebenen Liste von Wörtern speichert. Dieser Tokenfilter wird mit Apache Lucene implementiert. |
Keyword |
Markiert Ausdrücke als Schlüsselwörter. Dieser Tokenfilter wird mit Apache Lucene implementiert. |
Keyword |
Gibt die gesamte Eingabe als einzelnes Token aus. Dieser Tokenizer wird mit Apache Lucene implementiert. |
Keyword |
Gibt die gesamte Eingabe als einzelnes Token aus. Dieser Tokenizer wird mit Apache Lucene implementiert. |
Length |
Entfernt Wörter, die zu lang oder zu kurz sind. Dieser Tokenfilter wird mit Apache Lucene implementiert. |
Lexical |
Definiert die Namen aller textanalysatoren, die von der Suchmaschine unterstützt werden. |
Lexical |
Definiert die Namen aller Tokenizer, die von der Suchmaschine unterstützt werden. |
Limit |
Beschränkt die Anzahl der Token während der Indizierung. Dieser Tokenfilter wird mit Apache Lucene implementiert. |
Lucene |
Standard Apache Lucene Analyzer; Zusammengesetzt aus dem Standardmäßigen Tokenizer, Kleinbuchstabenfilter und Stoppfilter. |
Lucene |
Umbricht Text nach den Unicode-Textsegmentierungsregeln. Dieser Tokenizer wird mit Apache Lucene implementiert. |
Lucene |
Umbricht Text nach den Unicode-Textsegmentierungsregeln. Dieser Tokenizer wird mit Apache Lucene implementiert. |
Magnitude |
Definiert eine Funktion, die Bewertungen basierend auf der Größe eines numerischen Felds erhöht. |
Magnitude |
Stellt Parameterwerte für eine Bewertungsfunktion der Größe bereit. |
Mapping |
Ein Zeichenfilter, der Zuordnungen anwendet, die mit der Zuordnungsoption definiert sind. Der Abgleich ist gierig (längster Musterabgleich bei einem bestimmten Punkt gewinnt). Ersetzung darf die leere Zeichenfolge sein. Dieser Zeichenfilter wird mit Apache Lucene implementiert. |
Microsoft |
Dividiert Text mithilfe von sprachspezifischen Regeln und reduziert Wörter auf ihre Basisformulare. |
Microsoft |
Dividiert Text mithilfe sprachspezifischer Regeln. |
Microsoft |
Listet die Sprachen auf, die vom Microsoft-Sprachstammerkennungstokenizer unterstützt werden. |
Microsoft |
Listet die sprachen auf, die vom Microsoft-Sprachtokenizer unterstützt werden. |
NGram |
Generiert n Gramm der angegebenen Größe(n). Dieser Tokenfilter wird mit Apache Lucene implementiert. |
NGram |
Generiert n Gramm der angegebenen Größe(n). Dieser Tokenfilter wird mit Apache Lucene implementiert. |
NGram |
Tokenisiert die Eingabe in n Gramm der angegebenen Größe(n). Dieser Tokenizer wird mit Apache Lucene implementiert. |
Output |
Ausgabefeldzuordnung für eine Fähigkeit. |
Path |
Tokenizer für pfadähnliche Hierarchien. Dieser Tokenizer wird mit Apache Lucene implementiert. |
Pattern |
Trennt Text flexibel in Ausdrücke über ein Muster mit regulären Ausdrücken. Dieser Analyzer wird mit Apache Lucene implementiert. |
Pattern |
Verwendet Java regexes, um mehrere Token auszugeben – eine für jede Aufnahmegruppe in einem oder mehreren Mustern. Dieser Tokenfilter wird mit Apache Lucene implementiert. |
Pattern |
Ein Zeichenfilter, der Zeichen in der Eingabezeichenfolge ersetzt. Es verwendet einen regulären Ausdruck, um Zeichenabfolgen zu identifizieren, die beibehalten werden sollen, und ein Ersetzungsmuster, um zu ersetzende Zeichen zu identifizieren. Wenn Sie beispielsweise den Eingabetext "aa bb aa bb", das Muster "(aa)\s+(bb)" und den Ersatz "$1#$2" erhalten haben, lautet das Ergebnis "aa#bb aa#bb aa#bb". Dieser Zeichenfilter wird mit Apache Lucene implementiert. |
Pattern |
Ein Zeichenfilter, der Zeichen in der Eingabezeichenfolge ersetzt. Es verwendet einen regulären Ausdruck, um Zeichenabfolgen zu identifizieren, die beibehalten werden sollen, und ein Ersetzungsmuster, um zu ersetzende Zeichen zu identifizieren. Wenn Sie beispielsweise den Eingabetext "aa bb aa bb", das Muster "(aa)\s+(bb)" und den Ersatz "$1#$2" erhalten haben, lautet das Ergebnis "aa#bb aa#bb aa#bb". Dieser Tokenfilter wird mit Apache Lucene implementiert. |
Pattern |
Tokenizer, der regex-Musterabgleich verwendet, um unterschiedliche Token zu erstellen. Dieser Tokenizer wird mit Apache Lucene implementiert. |
Phonetic |
Gibt den Typ des phonetischen Encoders an, der mit einem PhoneticTokenFilter verwendet werden soll. |
Phonetic |
Erstellen Sie Token für phonetische Übereinstimmungen. Dieser Tokenfilter wird mit Apache Lucene implementiert. |
Prioritized |
Beschreibt die Felder "Titel", "Inhalt" und "Schlüsselwörter", die für semantische Rangfolge, Beschriftungen, Hervorhebungen und Antworten verwendet werden sollen. |
Regex |
Definiert Flags, die kombiniert werden können, um zu steuern, wie reguläre Ausdrücke im Musteranalyse- und Mustertokenizer verwendet werden. |
Scalar |
Enthält die parameter, die für die Skalar quantization spezifisch sind. |
Scalar |
Enthält Konfigurationsoptionen, die spezifisch für die skalare Quantisierungskomprimierungsmethode sind, die während der Indizierung und Abfrage verwendet wird. |
Scoring |
Definiert die Aggregationsfunktion, die verwendet wird, um die Ergebnisse aller Bewertungsfunktionen in einem Bewertungsprofil zu kombinieren. |
Scoring |
Definiert die Funktion, die zum Interpolieren der Bewertungsverhebung in einem Bereich von Dokumenten verwendet wird. |
Scoring |
Definiert Parameter für einen Suchindex, der die Bewertung in Suchabfragen beeinflusst. |
Search |
Stellt ein Feld in einer Indexdefinition dar, das den Namen, den Datentyp und das Suchverhalten eines Felds beschreibt. |
Search |
Definiert den Datentyp eines Felds in einem Suchindex. |
Search |
Stellt eine Suchindexdefinition dar, die die Felder und das Suchverhalten eines Indexes beschreibt. |
Search |
Löscht die Identitätseigenschaft einer Datenquelle. |
Search |
Gibt die Identität für eine zu verwendende Datenquelle an. |
Search |
Ein vom Kunden verwalteter Verschlüsselungsschlüssel im Azure Key Vault. Schlüssel, die Sie erstellen und verwalten, können zum Verschlüsseln oder Entschlüsseln ruhender Daten verwendet werden, z. B. Indizes und Synonymzuordnungen. |
Semantic |
Definiert eine bestimmte Konfiguration, die im Kontext der semantischen Funktionen verwendet werden soll. |
Semantic |
Ein Feld, das als Teil der semantischen Konfiguration verwendet wird. |
Semantic |
Definiert Parameter für einen Suchindex, der die semantischen Funktionen beeinflusst. |
Shingle |
Erstellt Kombinationen von Token als einzelnes Token. Dieser Tokenfilter wird mit Apache Lucene implementiert. |
Snowball |
Ein Filter, der Wörter mit einem snowball-generierten Stammer abstammt. Dieser Tokenfilter wird mit Apache Lucene implementiert. |
Snowball |
Die Sprache, die für einen Snowball-Tokenfilter verwendet werden soll. |
Stemmer |
Bietet die Möglichkeit, andere Wortstammfilter mit benutzerwörterbuchbasierter Wortstammerkennung außer Kraft zu setzen. Alle wörterbuchstammigen Begriffe werden als Schlüsselwörter markiert, sodass sie nicht mit Stemmern in der Kette gestammt werden. Muss vor allen Stemmingfiltern platziert werden. Dieser Tokenfilter wird mit Apache Lucene implementiert. |
Stemmer |
Sprachspezifischer Wortstammfilter. Dieser Tokenfilter wird mit Apache Lucene implementiert. |
Stemmer |
Die Sprache, die für einen Stammtokenfilter verwendet werden soll. |
Stop |
Dividiert Text in Nichtbuchstaben; Wendet die Tokenfilter in Kleinbuchstaben und Stoppwörtern an. Dieser Analyzer wird mit Apache Lucene implementiert. |
Stopwords |
Identifiziert eine vordefinierte Liste sprachspezifischer Wörter. |
Stopwords |
Entfernt Stoppwörter aus einem Tokendatenstrom. Dieser Tokenfilter wird mit Apache Lucene implementiert. |
Suggester |
Definiert, wie die Vorschlags-API auf eine Gruppe von Feldern im Index angewendet werden soll. |
Suggester |
Ein Wert, der die Funktionen des Suggesters angibt. |
Synonym |
Gleicht ein- oder mehrere Wort-Synonyme in einem Tokendatenstrom ab. Dieser Tokenfilter wird mit Apache Lucene implementiert. |
Tag |
Definiert eine Funktion, die Die Bewertungen von Dokumenten mit Zeichenfolgenwerten erhöht, die einer bestimmten Liste von Tags entsprechen. |
Tag |
Stellt Parameterwerte für eine Tagbewertungsfunktion bereit. |
Text |
Definiert Gewichtungen für Indexfelder, für die Übereinstimmungen die Bewertung in Suchabfragen erhöhen sollen. |
Token |
Stellt Zeichenklassen dar, für die ein Tokenfilter ausgeführt werden kann. |
Token |
Definiert die Namen aller Tokenfilter, die von der Suchmaschine unterstützt werden. |
Truncate |
Schneidet die Begriffe auf eine bestimmte Länge ab. Dieser Tokenfilter wird mit Apache Lucene implementiert. |
Uax |
Tokenisiert URLs und E-Mails als ein Token. Dieser Tokenizer wird mit Apache Lucene implementiert. |
Unique |
Filtert Token mit demselben Text wie das vorherige Token aus. Dieser Tokenfilter wird mit Apache Lucene implementiert. |
Vector |
Das Codierungsformat für die Interpretation von Vektorfeldinhalten. |
Vector |
Enthält Konfigurationsoptionen im Zusammenhang mit der Vektorsuche. |
Vector |
Der Algorithmus, der für die Indizierung und Abfrage verwendet wird. |
Vector |
Die Ähnlichkeitsmetrik, die für Vektorvergleiche verwendet werden soll. Es wird empfohlen, die gleiche Ähnlichkeitsmetrik auszuwählen, auf der das Einbettungsmodell trainiert wurde. |
Vector |
Die Komprimierungsmethode, die für die Indizierung und Abfrage verwendet wird. |
Vector |
Der quantisierte Datentyp komprimierter Vektorwerte. |
Vector |
Definiert eine Kombination von Konfigurationen, die mit der Vektorsuche verwendet werden sollen. |
Vector |
Die Vektorisierungsmethode, die während der Abfragezeit verwendet werden soll. |
Web |
Gibt die Eigenschaften für die Verbindung mit einem benutzerdefinierten Vektorizer an. |
Web |
Gibt einen benutzerdefinierten Vektorizer zum Generieren des Vektoreinbettungs einer Abfragezeichenfolge an. Die Integration eines externen Vektorizers erfolgt mithilfe der benutzerdefinierten Web-API-Schnittstelle eines Skillsets. |
Word |
Teilt Wörter in Unterwörter auf und führt optionale Transformationen für Unterwortgruppen aus. Dieser Tokenfilter wird mit Apache Lucene implementiert. |
AsciiFoldingTokenFilter
Konvertiert alphabetische, numerische und symbolische Unicode-Zeichen, die sich nicht in den ersten 127 ASCII-Zeichen (dem Unicode-Block "Basic Latin") befinden, in ihre ASCII-Entsprechungen, wenn solche Entsprechungen vorhanden sind. Dieser Tokenfilter wird mit Apache Lucene implementiert.
Name | Typ | Standardwert | Beschreibung |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Typ des Tokenfilters angibt. |
|
name |
string |
Der Name des Tokenfilters. Sie darf nur Buchstaben, Ziffern, Leerzeichen, Gedankenstriche oder Unterstriche enthalten, kann nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen beschränkt. |
|
preserveOriginal |
boolean |
False |
Ein Wert, der angibt, ob das ursprüngliche Token beibehalten wird. Der Standardwert ist "false". |
AzureActiveDirectoryApplicationCredentials
Anmeldeinformationen einer registrierten Anwendung, die für Ihren Suchdienst erstellt wurde und für authentifizierten Zugriff auf die im Azure Key Vault gespeicherten Verschlüsselungsschlüssel verwendet wird.
Name | Typ | Beschreibung |
---|---|---|
applicationId |
string |
Eine AAD-Anwendungs-ID, die die erforderlichen Zugriffsberechtigungen für den Azure Key Vault erteilt hat, die beim Verschlüsseln Ihrer ruhenden Daten verwendet werden sollen. Die Anwendungs-ID sollte nicht mit der Objekt-ID für Ihre AAD-Anwendung verwechselt werden. |
applicationSecret |
string |
Der Authentifizierungsschlüssel der angegebenen AAD-Anwendung. |
AzureOpenAIEmbeddingSkill
Ermöglicht es Ihnen, einen Vektoreinbettung für eine bestimmte Texteingabe mithilfe der Azure OpenAI-Ressource zu generieren.
Name | Typ | Beschreibung |
---|---|---|
@odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das die Art der Fähigkeit angibt. |
apiKey |
string |
API-Schlüssel der angegebenen Azure OpenAI-Ressource. |
authIdentity | SearchIndexerDataIdentity: |
Die vom Benutzer zugewiesene verwaltete Identität, die für ausgehende Verbindungen verwendet wird. |
context |
string |
Stellt die Ebene dar, auf der Vorgänge ausgeführt werden, z. B. der Dokumentstamm- oder Dokumentinhalt (z. B. /document oder /document/content). Der Standardwert ist /document. |
deploymentId |
string |
ID der Azure OpenAI-Modellbereitstellung für die angegebene Ressource. |
description |
string |
Die Beschreibung der Fähigkeiten, die die Eingaben, Ausgaben und die Nutzung der Fähigkeiten beschreibt. |
dimensions |
integer |
Die Anzahl der Dimensionen, die die resultierenden Ausgabeeinbettungen aufweisen sollen. Wird nur in Text-Einbettungs-3- und höher-Modellen unterstützt. |
inputs |
Eingaben der Fähigkeiten können eine Spalte im Quelldatensatz oder die Ausgabe einer upstream-Fähigkeit sein. |
|
modelName |
Der Name des Einbettungsmodells, das im bereitgestellten deploymentId-Pfad bereitgestellt wird. |
|
name |
string |
Der Name der Fähigkeit, die sie innerhalb des Skillsets eindeutig identifiziert. Eine Fähigkeit ohne definierten Namen erhält einen Standardnamen des 1-basierten Indexes im Kompetenzarray, dem das Zeichen "#" vorangestellt ist. |
outputs |
Die Ausgabe einer Fähigkeit ist entweder ein Feld in einem Suchindex oder ein Wert, der als Eingabe durch eine andere Fähigkeit genutzt werden kann. |
|
resourceUri |
string |
Der Ressourcen-URI der Azure OpenAI-Ressource. |
AzureOpenAIModelName
Der Name des Azure Open AI-Modells, der aufgerufen wird.
Name | Typ | Beschreibung |
---|---|---|
text-embedding-3-large |
string |
|
text-embedding-3-small |
string |
|
text-embedding-ada-002 |
string |
AzureOpenAIParameters
Gibt die Parameter für die Verbindung mit der Azure OpenAI-Ressource an.
Name | Typ | Beschreibung |
---|---|---|
apiKey |
string |
API-Schlüssel der angegebenen Azure OpenAI-Ressource. |
authIdentity | SearchIndexerDataIdentity: |
Die vom Benutzer zugewiesene verwaltete Identität, die für ausgehende Verbindungen verwendet wird. |
deploymentId |
string |
ID der Azure OpenAI-Modellbereitstellung für die angegebene Ressource. |
modelName |
Der Name des Einbettungsmodells, das im bereitgestellten deploymentId-Pfad bereitgestellt wird. |
|
resourceUri |
string |
Der Ressourcen-URI der Azure OpenAI-Ressource. |
AzureOpenAIVectorizer
Gibt die Azure OpenAI-Ressource an, die zum Vektorisieren einer Abfragezeichenfolge verwendet wird.
Name | Typ | Beschreibung |
---|---|---|
azureOpenAIParameters | AzureOpenAIParameters: |
Enthält die spezifischen Parameter für die Azure OpenAI-Einbettungsvektorisierung. |
kind |
string:
azure |
Der Name der Art der Vektorisierungsmethode, die für die Verwendung mit der Vektorsuche konfiguriert wird. |
name |
string |
Der Name, der dieser bestimmten Vektorisierungsmethode zugeordnet werden soll. |
BinaryQuantizationVectorSearchCompressionConfiguration
Enthält konfigurationsspezifische Konfigurationsoptionen für die Komprimierungsmethode der binären Quantisierung, die während der Indizierung und Abfrage verwendet wird.
Name | Typ | Standardwert | Beschreibung |
---|---|---|---|
defaultOversampling |
number |
Standardüberstempelungsfaktor. Oversampling fordert intern weitere Dokumente (angegeben durch diesen Multiplizierer) in der anfänglichen Suche an. Dadurch wird der Satz von Ergebnissen erhöht, die mit neu kompilierten Ähnlichkeitsergebnissen aus Vollpräzisionsvektoren neu bewertet werden. Der Mindestwert ist 1, d. h. kein Übersampling (1x). Dieser Parameter kann nur festgelegt werden, wenn rerankWithOriginalVectors true ist. Höhere Werte verbessern den Rückruf auf Kosten der Latenz. |
|
kind |
string:
binary |
Der Name der Art der Komprimierungsmethode, die für die Verwendung mit der Vektorsuche konfiguriert wird. |
|
name |
string |
Der Name, der dieser bestimmten Konfiguration zugeordnet werden soll. |
|
rerankWithOriginalVectors |
boolean |
True |
Wenn dieser Wert auf "true" festgelegt ist, wird der sortierte Satz von Ergebnissen, die mithilfe komprimierter Vektoren berechnet werden, erneut bewertet, indem die Genauigkeitsbewertungen mit voller Genauigkeit neu berechnet werden. Dadurch wird der Rückruf auf Kosten der Latenz verbessert. |
BM25Similarity
Bewertungsfunktion basierend auf dem Okapi BM25 Ähnlichkeitsalgorithmus. BM25 ist ein TF-IDF-like-Algorithmus, der die Längennormalisierung (gesteuert durch den Parameter "b") sowie die Begriffsfrequenzsättigung (gesteuert durch den Parameter "k1") enthält.
Name | Typ | Beschreibung |
---|---|---|
@odata.type |
string:
#Microsoft. |
|
b |
number |
Diese Eigenschaft steuert, wie sich die Länge eines Dokuments auf die Relevanzbewertung auswirkt. Standardmäßig wird ein Wert von 0,75 verwendet. Ein Wert von 0,0 bedeutet, dass keine Längennormalisierung angewendet wird, während ein Wert von 1,0 bedeutet, dass die Bewertung durch die Länge des Dokuments vollständig normalisiert wird. |
k1 |
number |
Diese Eigenschaft steuert die Skalierungsfunktion zwischen der Begriffshäufigkeit der einzelnen übereinstimmenden Ausdrücke und der endgültigen Relevanzbewertung eines Dokumentabfragepaars. Standardmäßig wird ein Wert von 1,2 verwendet. Ein Wert von 0,0 bedeutet, dass die Bewertung nicht mit einer Erhöhung der Begriffshäufigkeit skaliert wird. |
CharFilterName
Definiert die Namen aller Zeichenfilter, die von der Suchmaschine unterstützt werden.
Name | Typ | Beschreibung |
---|---|---|
html_strip |
string |
Ein Zeichenfilter, der versucht, HTML-Konstrukte zu entfernen. Siehe https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html |
CjkBigramTokenFilter
Bildet Bigrams von CJK-Ausdrücken, die aus dem Standardtokenizer generiert werden. Dieser Tokenfilter wird mit Apache Lucene implementiert.
Name | Typ | Standardwert | Beschreibung |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Typ des Tokenfilters angibt. |
|
ignoreScripts |
Die zu ignorierenden Skripts. |
||
name |
string |
Der Name des Tokenfilters. Sie darf nur Buchstaben, Ziffern, Leerzeichen, Gedankenstriche oder Unterstriche enthalten, kann nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen beschränkt. |
|
outputUnigrams |
boolean |
False |
Ein Wert, der angibt, ob sowohl Unigramme als auch Bigrams (wenn wahr) oder nur Bigrams (wenn falsch) ausgegeben werden sollen. Der Standardwert ist "false". |
CjkBigramTokenFilterScripts
Skripts, die von CjkBigramTokenFilter ignoriert werden können.
Name | Typ | Beschreibung |
---|---|---|
han |
string |
Ignorieren Sie das Han-Skript, wenn Sie Bigrams von CJK-Ausdrücken bilden. |
hangul |
string |
Hangul-Skript ignorieren, wenn Bigrams von CJK-Ausdrücken gebildet werden. |
hiragana |
string |
Hiragana-Skript ignorieren, wenn Bigrams von CJK-Ausdrücken gebildet werden. |
katakana |
string |
Katakana-Skript ignorieren, wenn Bigrams von CJK-Ausdrücken gebildet werden. |
ClassicSimilarity
Legacy-Ähnlichkeitsalgorithmus, der die Lucene TFIDFSimilarity-Implementierung von TF-IDF verwendet. Diese Variation von TF-IDF führt die Normalisierung statischer Dokumente sowie die Koordinierung von Faktoren ein, die Dokumente benachteiligen, die nur teilweise mit den durchsuchten Abfragen übereinstimmen.
Name | Typ | Beschreibung |
---|---|---|
@odata.type |
string:
#Microsoft. |
ClassicTokenizer
Grammatikbasierter Tokenizer, der für die Verarbeitung der meisten dokumente mit europäischer Sprache geeignet ist. Dieser Tokenizer wird mit Apache Lucene implementiert.
Name | Typ | Standardwert | Beschreibung |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Tokenizertyp angibt. |
|
maxTokenLength |
integer |
255 |
Die maximale Tokenlänge. Der Standardwert ist 255. Token, die länger als die maximale Länge sind, werden geteilt. Die maximale Tokenlänge, die verwendet werden kann, beträgt 300 Zeichen. |
name |
string |
Der Name des Tokenizers. Sie darf nur Buchstaben, Ziffern, Leerzeichen, Gedankenstriche oder Unterstriche enthalten, kann nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen beschränkt. |
CommonGramTokenFilter
Erstellen Sie Bigrams für häufig vorkommende Ausdrücke während der Indizierung. Einzelne Begriffe sind auch weiterhin indiziert, wobei Bigrams überlagert sind. Dieser Tokenfilter wird mit Apache Lucene implementiert.
Name | Typ | Standardwert | Beschreibung |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Typ des Tokenfilters angibt. |
|
commonWords |
string[] |
Die Gruppe allgemeiner Wörter. |
|
ignoreCase |
boolean |
False |
Ein Wert, der angibt, ob bei übereinstimmungen mit allgemeinen Wörtern die Groß-/Kleinschreibung nicht beachtet wird. Der Standardwert ist "false". |
name |
string |
Der Name des Tokenfilters. Sie darf nur Buchstaben, Ziffern, Leerzeichen, Gedankenstriche oder Unterstriche enthalten, kann nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen beschränkt. |
|
queryMode |
boolean |
False |
Ein Wert, der angibt, ob sich der Tokenfilter im Abfragemodus befindet. Im Abfragemodus generiert der Tokenfilter Bigrams und entfernt dann allgemeine Wörter und einzelne Ausdrücke, gefolgt von einem gemeinsamen Wort. Der Standardwert ist "false". |
CorsOptions
Definiert Optionen zum Steuern der cross-Origin Resource Sharing (CORS) für einen Index.
Name | Typ | Beschreibung |
---|---|---|
allowedOrigins |
string[] |
Die Liste der Ursprünge, aus denen JavaScript-Code Zugriff auf Ihren Index erhält. Kann eine Liste der Hosts des Formulars {protocol}://{fully-qualified-domain-name}[:{port#}] oder ein einzelnes '*' enthalten, um alle Ursprünge zuzulassen (nicht empfohlen). |
maxAgeInSeconds |
integer |
Die Dauer, für die Browser CORS Preflight-Antworten zwischenspeichern sollen. Der Standardwert ist 5 Minuten. |
CustomAnalyzer
Ermöglicht es Ihnen, den Prozess der Konvertierung von Text in in indizierbare/durchsuchbare Token zu übernehmen. Es ist eine benutzerdefinierte Konfiguration, die aus einem einzelnen vordefinierten Tokenizer und einem oder mehreren Filtern besteht. Der Tokenizer ist für das Aufteilen von Text in Token verantwortlich, und die Filter zum Ändern von Token, die vom Tokenizer ausgegeben werden.
Name | Typ | Beschreibung |
---|---|---|
@odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Analysetyp angibt. |
charFilters |
Eine Liste der Zeichenfilter, die zum Vorbereiten von Eingabetext verwendet werden, bevor sie vom Tokenizer verarbeitet wird. Beispielsweise können sie bestimmte Zeichen oder Symbole ersetzen. Die Filter werden in der Reihenfolge ausgeführt, in der sie aufgelistet werden. |
|
name |
string |
Der Name des Analyzers. Sie darf nur Buchstaben, Ziffern, Leerzeichen, Gedankenstriche oder Unterstriche enthalten, kann nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen beschränkt. |
tokenFilters |
Eine Liste der Tokenfilter, die zum Filtern oder Ändern der von einem Tokenizer generierten Token verwendet werden. Sie können z. B. einen Kleinbuchstabenfilter angeben, der alle Zeichen in Kleinbuchstaben konvertiert. Die Filter werden in der Reihenfolge ausgeführt, in der sie aufgelistet werden. |
|
tokenizer |
Der Name des Tokenizers, der verwendet werden soll, um fortlaufenden Text in eine Abfolge von Token aufzuteilen, z. B. das Aufteilen eines Satzes in Wörter. |
DictionaryDecompounderTokenFilter
Dekompiliert zusammengesetzte Wörter in vielen germanischen Sprachen. Dieser Tokenfilter wird mit Apache Lucene implementiert.
Name | Typ | Standardwert | Beschreibung |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Typ des Tokenfilters angibt. |
|
maxSubwordSize |
integer |
15 |
Die maximale Größe des Unterworts. Nur Unterwörter, die kürzer als dies sind, werden ausgegeben. Der Standardwert ist 15. Maximal 300. |
minSubwordSize |
integer |
2 |
Die minimale Unterwortgröße. Nur Unterwörter, die länger als dies sind, werden ausgegeben. Der Standardwert ist 2. Maximal 300. |
minWordSize |
integer |
5 |
Die Minimale Wortgröße. Nur Wörter, die länger als diese verarbeitet werden. Der Standardwert ist 5. Maximal 300. |
name |
string |
Der Name des Tokenfilters. Sie darf nur Buchstaben, Ziffern, Leerzeichen, Gedankenstriche oder Unterstriche enthalten, kann nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen beschränkt. |
|
onlyLongestMatch |
boolean |
False |
Ein Wert, der angibt, ob nur das längste übereinstimmende Unterwort zur Ausgabe hinzugefügt werden soll. Der Standardwert ist "false". |
wordList |
string[] |
Die Liste der Wörter, mit der abgeglichen werden soll. |
DistanceScoringFunction
Definiert eine Funktion, die Bewertungen basierend auf der Entfernung von einem geografischen Standort erhöht.
Name | Typ | Beschreibung |
---|---|---|
boost |
number |
Ein Multiplikator für die unformatierte Bewertung. Muss eine positive Zahl sein, die nicht gleich 1,0 ist. |
distance |
Parameterwerte für die Entfernungsbewertungsfunktion. |
|
fieldName |
string |
Der Name des Felds, das als Eingabe für die Bewertungsfunktion verwendet wird. |
interpolation |
Ein Wert, der angibt, wie die Verstärkung in Dokumentergebnisse interpoliert wird; Ist standardmäßig auf "Linear" festgelegt. |
|
type |
string:
distance |
Gibt den Typ der zu verwendenden Funktion an. Gültige Werte sind Größe, Aktualität, Abstand und Tag. Der Funktionstyp muss Kleinbuchstaben sein. |
DistanceScoringParameters
Stellt Parameterwerte für eine Entfernungsbewertungsfunktion bereit.
Name | Typ | Beschreibung |
---|---|---|
boostingDistance |
number |
Die Entfernung in Kilometern von der Referenzposition, an der der Verstärkungsbereich endet. |
referencePointParameter |
string |
Der Name des Parameters, der in Suchabfragen übergeben wird, um den Referenzspeicherort anzugeben. |
EdgeNGramTokenFilter
Generiert n Gramm der angegebenen Größe(n) beginnend von vorne oder hinten eines Eingabetokens. Dieser Tokenfilter wird mit Apache Lucene implementiert.
Name | Typ | Standardwert | Beschreibung |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Typ des Tokenfilters angibt. |
|
maxGram |
integer |
2 |
Die maximale n-Gramm-Länge. Der Standardwert ist 2. |
minGram |
integer |
1 |
Die minimale n-Gramm-Länge. Der Standardwert ist 1. Muss kleiner als der Wert von maxGram sein. |
name |
string |
Der Name des Tokenfilters. Sie darf nur Buchstaben, Ziffern, Leerzeichen, Gedankenstriche oder Unterstriche enthalten, kann nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen beschränkt. |
|
side | front |
Gibt an, aus welcher Seite der Eingabe das n-Gramm generiert werden soll. Der Standardwert ist "front". |
EdgeNGramTokenFilterSide
Gibt an, aus welcher Seite der Eingabe ein n-Gramm generiert werden soll.
Name | Typ | Beschreibung |
---|---|---|
back |
string |
Gibt an, dass das n-Gramm aus der Rückseite der Eingabe generiert werden soll. |
front |
string |
Gibt an, dass das n-Gramm aus der Vorderseite der Eingabe generiert werden soll. |
EdgeNGramTokenFilterV2
Generiert n Gramm der angegebenen Größe(n) beginnend von vorne oder hinten eines Eingabetokens. Dieser Tokenfilter wird mit Apache Lucene implementiert.
Name | Typ | Standardwert | Beschreibung |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Typ des Tokenfilters angibt. |
|
maxGram |
integer |
2 |
Die maximale n-Gramm-Länge. Der Standardwert ist 2. Maximal 300. |
minGram |
integer |
1 |
Die minimale n-Gramm-Länge. Der Standardwert ist 1. Maximal 300. Muss kleiner als der Wert von maxGram sein. |
name |
string |
Der Name des Tokenfilters. Sie darf nur Buchstaben, Ziffern, Leerzeichen, Gedankenstriche oder Unterstriche enthalten, kann nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen beschränkt. |
|
side | front |
Gibt an, aus welcher Seite der Eingabe das n-Gramm generiert werden soll. Der Standardwert ist "front". |
EdgeNGramTokenizer
Tokenisiert die Eingabe von einem Rand in n Gramm der angegebenen Größe(n). Dieser Tokenizer wird mit Apache Lucene implementiert.
Name | Typ | Standardwert | Beschreibung |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Tokenizertyp angibt. |
|
maxGram |
integer |
2 |
Die maximale n-Gramm-Länge. Der Standardwert ist 2. Maximal 300. |
minGram |
integer |
1 |
Die minimale n-Gramm-Länge. Der Standardwert ist 1. Maximal 300. Muss kleiner als der Wert von maxGram sein. |
name |
string |
Der Name des Tokenizers. Sie darf nur Buchstaben, Ziffern, Leerzeichen, Gedankenstriche oder Unterstriche enthalten, kann nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen beschränkt. |
|
tokenChars |
Zeichenklassen, die in den Token beibehalten werden sollen. |
ElisionTokenFilter
Entfernt Elisionen. Beispielsweise wird "l'avion" (die Ebene) in "avion" (Ebene) konvertiert. Dieser Tokenfilter wird mit Apache Lucene implementiert.
Name | Typ | Beschreibung |
---|---|---|
@odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Typ des Tokenfilters angibt. |
articles |
string[] |
Die Gruppe der zu entfernenden Artikel. |
name |
string |
Der Name des Tokenfilters. Sie darf nur Buchstaben, Ziffern, Leerzeichen, Gedankenstriche oder Unterstriche enthalten, kann nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen beschränkt. |
ErrorAdditionalInfo
Der Ressourcenverwaltungsfehler zusätzliche Informationen.
Name | Typ | Beschreibung |
---|---|---|
info |
object |
Die zusätzlichen Informationen. |
type |
string |
Der zusätzliche Informationstyp. |
ErrorDetail
Das Fehlerdetails.
Name | Typ | Beschreibung |
---|---|---|
additionalInfo |
Die zusätzlichen Informationen des Fehlers. |
|
code |
string |
Der Fehlercode. |
details |
Die Fehlerdetails. |
|
message |
string |
Die Fehlermeldung. |
target |
string |
Das Fehlerziel. |
ErrorResponse
Fehlerantwort
Name | Typ | Beschreibung |
---|---|---|
error |
Das Fehlerobjekt. |
ExhaustiveKnnParameters
Enthält die für den vollständigen KNN-Algorithmus spezifischen Parameter.
Name | Typ | Beschreibung |
---|---|---|
metric |
Die Ähnlichkeitsmetrik, die für Vektorvergleiche verwendet werden soll. |
ExhaustiveKnnVectorSearchAlgorithmConfiguration
Enthält Konfigurationsoptionen, die spezifisch für den vollständigen KNN-Algorithmus sind, der während der Abfrage verwendet wird, wodurch die Brute-Force-Suche im gesamten Vektorindex ausgeführt wird.
Name | Typ | Beschreibung |
---|---|---|
exhaustiveKnnParameters |
Enthält die für den vollständigen KNN-Algorithmus spezifischen Parameter. |
|
kind |
string:
exhaustive |
Der Name der Art des Algorithmus, der für die Verwendung mit der Vektorsuche konfiguriert wird. |
name |
string |
Der Name, der dieser bestimmten Konfiguration zugeordnet werden soll. |
FreshnessScoringFunction
Definiert eine Funktion, die Bewertungen basierend auf dem Wert eines Datum-Uhrzeit-Felds erhöht.
Name | Typ | Beschreibung |
---|---|---|
boost |
number |
Ein Multiplikator für die unformatierte Bewertung. Muss eine positive Zahl sein, die nicht gleich 1,0 ist. |
fieldName |
string |
Der Name des Felds, das als Eingabe für die Bewertungsfunktion verwendet wird. |
freshness |
Parameterwerte für die Aktualitätsbewertungsfunktion. |
|
interpolation |
Ein Wert, der angibt, wie die Verstärkung in Dokumentergebnisse interpoliert wird; Ist standardmäßig auf "Linear" festgelegt. |
|
type |
string:
freshness |
Gibt den Typ der zu verwendenden Funktion an. Gültige Werte sind Größe, Aktualität, Abstand und Tag. Der Funktionstyp muss Kleinbuchstaben sein. |
FreshnessScoringParameters
Stellt Parameterwerte für eine Aktualitätsbewertungsfunktion bereit.
Name | Typ | Beschreibung |
---|---|---|
boostingDuration |
string |
Der Ablaufzeitraum, nach dem die Verstärkung für ein bestimmtes Dokument beendet wird. |
HnswParameters
Enthält die für den HNSW-Algorithmus spezifischen Parameter.
Name | Typ | Standardwert | Beschreibung |
---|---|---|---|
efConstruction |
integer |
400 |
Die Größe der dynamischen Liste, die die nächsten Nachbarn enthält, die während der Indexzeit verwendet wird. Wenn Sie diesen Parameter erhöhen, kann die Indexqualität auf Kosten einer erhöhten Indizierungszeit verbessert werden. Zu einem bestimmten Zeitpunkt führt die Erhöhung dieses Parameters zu einer abnehmenden Rückgabe. |
efSearch |
integer |
500 |
Die Größe der dynamischen Liste, die die nächsten Nachbarn enthält, die während der Suchzeit verwendet wird. Wenn Sie diesen Parameter erhöhen, können Suchergebnisse auf Kosten einer langsameren Suche verbessert werden. Zu einem bestimmten Zeitpunkt führt die Erhöhung dieses Parameters zu einer abnehmenden Rückgabe. |
m |
integer |
4 |
Die Anzahl der bidirektionalen Verknüpfungen, die für jedes neue Element während der Konstruktion erstellt wurden. Das Erhöhen dieses Parameterwerts kann den Rückruf verbessern und die Abrufzeiten für Datasets mit hoher systeminterner Dimensionalität auf Kosten erhöhter Speicherauslastung und längerer Indizierungszeit reduzieren. |
metric |
Die Ähnlichkeitsmetrik, die für Vektorvergleiche verwendet werden soll. |
HnswVectorSearchAlgorithmConfiguration
Enthält Konfigurationsoptionen, die spezifisch für den HNSW nähersten Nachbaralgorithmus sind, der während der Indizierung und Abfrage verwendet wird. Der HNSW-Algorithmus bietet einen tunbaren Kompromiss zwischen Suchgeschwindigkeit und Genauigkeit.
Name | Typ | Beschreibung |
---|---|---|
hnswParameters |
Enthält die für den HNSW-Algorithmus spezifischen Parameter. |
|
kind |
string:
hnsw |
Der Name der Art des Algorithmus, der für die Verwendung mit der Vektorsuche konfiguriert wird. |
name |
string |
Der Name, der dieser bestimmten Konfiguration zugeordnet werden soll. |
InputFieldMappingEntry
Eingabefeldzuordnung für eine Fähigkeit.
Name | Typ | Beschreibung |
---|---|---|
inputs |
Die rekursiven Eingaben, die beim Erstellen eines komplexen Typs verwendet werden. |
|
name |
string |
Der Name der Eingabe. |
source |
string |
Die Quelle der Eingabe. |
sourceContext |
string |
Der Quellkontext, der zum Auswählen rekursiver Eingaben verwendet wird. |
KeepTokenFilter
Ein Tokenfilter, der Token nur mit Text in einer angegebenen Liste von Wörtern speichert. Dieser Tokenfilter wird mit Apache Lucene implementiert.
Name | Typ | Standardwert | Beschreibung |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Typ des Tokenfilters angibt. |
|
keepWords |
string[] |
Die Liste der zu behaltenden Wörter. |
|
keepWordsCase |
boolean |
False |
Ein Wert, der angibt, ob alle Wörter zuerst klein geschrieben werden sollen. Der Standardwert ist "false". |
name |
string |
Der Name des Tokenfilters. Sie darf nur Buchstaben, Ziffern, Leerzeichen, Gedankenstriche oder Unterstriche enthalten, kann nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen beschränkt. |
KeywordMarkerTokenFilter
Markiert Ausdrücke als Schlüsselwörter. Dieser Tokenfilter wird mit Apache Lucene implementiert.
Name | Typ | Standardwert | Beschreibung |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Typ des Tokenfilters angibt. |
|
ignoreCase |
boolean |
False |
Ein Wert, der angibt, ob die Groß-/Kleinschreibung ignoriert werden soll. Wenn wahr, werden alle Wörter zuerst in Kleinbuchstaben konvertiert. Der Standardwert ist "false". |
keywords |
string[] |
Eine Liste von Wörtern, die als Schlüsselwörter markiert werden sollen. |
|
name |
string |
Der Name des Tokenfilters. Sie darf nur Buchstaben, Ziffern, Leerzeichen, Gedankenstriche oder Unterstriche enthalten, kann nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen beschränkt. |
KeywordTokenizer
Gibt die gesamte Eingabe als einzelnes Token aus. Dieser Tokenizer wird mit Apache Lucene implementiert.
Name | Typ | Standardwert | Beschreibung |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Tokenizertyp angibt. |
|
bufferSize |
integer |
256 |
Die Größe des Lesepuffers in Byte. Der Standardwert ist 256. |
name |
string |
Der Name des Tokenizers. Sie darf nur Buchstaben, Ziffern, Leerzeichen, Gedankenstriche oder Unterstriche enthalten, kann nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen beschränkt. |
KeywordTokenizerV2
Gibt die gesamte Eingabe als einzelnes Token aus. Dieser Tokenizer wird mit Apache Lucene implementiert.
Name | Typ | Standardwert | Beschreibung |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Tokenizertyp angibt. |
|
maxTokenLength |
integer |
256 |
Die maximale Tokenlänge. Der Standardwert ist 256. Token, die länger als die maximale Länge sind, werden geteilt. Die maximale Tokenlänge, die verwendet werden kann, beträgt 300 Zeichen. |
name |
string |
Der Name des Tokenizers. Sie darf nur Buchstaben, Ziffern, Leerzeichen, Gedankenstriche oder Unterstriche enthalten, kann nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen beschränkt. |
LengthTokenFilter
Entfernt Wörter, die zu lang oder zu kurz sind. Dieser Tokenfilter wird mit Apache Lucene implementiert.
Name | Typ | Standardwert | Beschreibung |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Typ des Tokenfilters angibt. |
|
max |
integer |
300 |
Die maximale Länge in Zeichen. Der Standardwert und maximal 300. |
min |
integer |
0 |
Die Mindestlänge in Zeichen. Der Standardwert ist 0. Maximal 300. Muss kleiner als der Wert von "max" sein. |
name |
string |
Der Name des Tokenfilters. Sie darf nur Buchstaben, Ziffern, Leerzeichen, Gedankenstriche oder Unterstriche enthalten, kann nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen beschränkt. |
LexicalAnalyzerName
Definiert die Namen aller textanalysatoren, die von der Suchmaschine unterstützt werden.
Name | Typ | Beschreibung |
---|---|---|
ar.lucene |
string |
Lucene Analyzer für Arabisch. |
ar.microsoft |
string |
Microsoft Analyzer für Arabisch. |
bg.lucene |
string |
Lucene Analyzer für Bulgarisch. |
bg.microsoft |
string |
Microsoft Analyzer für Bulgarisch. |
bn.microsoft |
string |
Microsoft Analyzer für Bangla. |
ca.lucene |
string |
Lucene Analyzer für Katalanisch. |
ca.microsoft |
string |
Microsoft Analyzer für Katalanisch. |
cs.lucene |
string |
Lucene Analyzer für Tschechisch. |
cs.microsoft |
string |
Microsoft Analyzer für Tschechisch. |
da.lucene |
string |
Lucene Analyzer für Dänisch. |
da.microsoft |
string |
Microsoft Analyzer für Dänisch. |
de.lucene |
string |
Lucene Analyzer für Deutsch. |
de.microsoft |
string |
Microsoft Analyzer für Deutsch. |
el.lucene |
string |
Lucene Analyzer für Griechisch. |
el.microsoft |
string |
Microsoft Analyzer für Griechisch. |
en.lucene |
string |
Lucene Analyzer für Englisch. |
en.microsoft |
string |
Microsoft Analyzer für Englisch. |
es.lucene |
string |
Lucene Analyzer für Spanisch. |
es.microsoft |
string |
Microsoft Analyzer für Spanisch. |
et.microsoft |
string |
Microsoft Analyzer für Estland. |
eu.lucene |
string |
Lucene Analyzer für Baskisch. |
fa.lucene |
string |
Lucene Analyzer für Persisch. |
fi.lucene |
string |
Lucene Analyzer für Finnisch. |
fi.microsoft |
string |
Microsoft Analyzer für Finnisch. |
fr.lucene |
string |
Lucene Analyzer für Französisch. |
fr.microsoft |
string |
Microsoft Analyzer für Französisch. |
ga.lucene |
string |
Lucene Analyzer für Irisch. |
gl.lucene |
string |
Lucene Analyzer für Galizien. |
gu.microsoft |
string |
Microsoft Analyzer für Gujarati. |
he.microsoft |
string |
Microsoft Analyzer für Hebräisch. |
hi.lucene |
string |
Lucene Analyzer für Hindi. |
hi.microsoft |
string |
Microsoft Analyzer für Hindi. |
hr.microsoft |
string |
Microsoft Analyzer für Kroatisch. |
hu.lucene |
string |
Lucene Analyzer für Ungarisch. |
hu.microsoft |
string |
Microsoft Analyzer für Ungarisch. |
hy.lucene |
string |
Lucene Analyzer für Armenier. |
id.lucene |
string |
Lucene Analyzer für Indonesisch. |
id.microsoft |
string |
Microsoft Analyzer für Indonesien (Bahasa). |
is.microsoft |
string |
Microsoft Analyzer für Island. |
it.lucene |
string |
Lucene Analyzer für Italienisch. |
it.microsoft |
string |
Microsoft Analyzer für Italienisch. |
ja.lucene |
string |
Lucene Analyzer für Japanisch. |
ja.microsoft |
string |
Microsoft Analyzer für Japanisch. |
keyword |
string |
Behandelt den gesamten Inhalt eines Felds als einzelnes Token. Dies ist nützlich für Daten wie Postleitzahlen, IDs und einige Produktnamen. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html |
kn.microsoft |
string |
Microsoft Analyzer für Kannada. |
ko.lucene |
string |
Lucene Analyzer für Koreanisch. |
ko.microsoft |
string |
Microsoft Analyzer für Koreanisch. |
lt.microsoft |
string |
Microsoft Analyzer für Litauisch. |
lv.lucene |
string |
Lucene Analyzer für Lettisch. |
lv.microsoft |
string |
Microsoft Analyzer für Lettisch. |
ml.microsoft |
string |
Microsoft Analyzer für Malayalam. |
mr.microsoft |
string |
Microsoft Analyzer für Marathi. |
ms.microsoft |
string |
Microsoft Analyzer für Malaiisch (Lateinisch). |
nb.microsoft |
string |
Microsoft Analyzer für Norwegisch (Bokmål). |
nl.lucene |
string |
Lucene Analyzer für Niederländisch. |
nl.microsoft |
string |
Microsoft Analyzer für Niederländisch. |
no.lucene |
string |
Lucene Analyzer für Norwegisch. |
pa.microsoft |
string |
Microsoft Analyzer für Punjabi. |
pattern |
string |
Trennt Text flexibel in Ausdrücke über ein Muster mit regulären Ausdrücken. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html |
pl.lucene |
string |
Lucene Analyzer für Polnisch. |
pl.microsoft |
string |
Microsoft Analyzer für Polnisch. |
pt-BR.lucene |
string |
Lucene Analyzer für Portugiesisch (Brasilien). |
pt-BR.microsoft |
string |
Microsoft Analyzer für Portugiesisch (Brasilien). |
pt-PT.lucene |
string |
Lucene Analyzer für Portugiesisch (Portugal). |
pt-PT.microsoft |
string |
Microsoft Analyzer für Portugiesisch (Portugal). |
ro.lucene |
string |
Lucene Analyzer für Rumänisch. |
ro.microsoft |
string |
Microsoft Analyzer für Rumänisch. |
ru.lucene |
string |
Lucene Analyzer für Russisch. |
ru.microsoft |
string |
Microsoft Analyzer für Russisch. |
simple |
string |
Dividiert Text in Nichtbuchstaben und wandelt sie in Kleinbuchstaben um. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html |
sk.microsoft |
string |
Microsoft Analyzer für Slowakisch. |
sl.microsoft |
string |
Microsoft Analyzer für Slowenisch. |
sr-cyrillic.microsoft |
string |
Microsoft Analyzer für Serbisch (Kyrillisch). |
sr-latin.microsoft |
string |
Microsoft Analyzer für Serbisch (Lateinisch). |
standard.lucene |
string |
Standard Lucene Analyzer. |
standardasciifolding.lucene |
string |
Standard ASCII Folding Lucene Analyzer. Siehe https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers |
stop |
string |
Dividiert Text in Nichtbuchstaben; Wendet die Tokenfilter in Kleinbuchstaben und Stoppwörtern an. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html |
sv.lucene |
string |
Lucene Analyzer für Schwedisch. |
sv.microsoft |
string |
Microsoft Analyzer für Schwedisch. |
ta.microsoft |
string |
Microsoft Analyzer für Tamil. |
te.microsoft |
string |
Microsoft Analyzer für Telugu. |
th.lucene |
string |
Lucene Analyzer für Thai. |
th.microsoft |
string |
Microsoft Analyzer für Thailändisch. |
tr.lucene |
string |
Lucene Analyzer für Türkisch. |
tr.microsoft |
string |
Microsoft Analyzer für Türkisch. |
uk.microsoft |
string |
Microsoft Analyzer für Ukrainisch. |
ur.microsoft |
string |
Microsoft Analyzer für Urdu. |
vi.microsoft |
string |
Microsoft Analyzer für Vietnamesisch. |
whitespace |
string |
Ein Analyzer, der den Leerraumtokenizer verwendet. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html |
zh-Hans.lucene |
string |
Lucene Analyzer für Chinesisch (vereinfacht). |
zh-Hans.microsoft |
string |
Microsoft Analyzer für Chinesisch (vereinfacht). |
zh-Hant.lucene |
string |
Lucene Analyzer für Chinesisch (traditionell). |
zh-Hant.microsoft |
string |
Microsoft Analyzer für Chinesisch (traditionell). |
LexicalTokenizerName
Definiert die Namen aller Tokenizer, die von der Suchmaschine unterstützt werden.
Name | Typ | Beschreibung |
---|---|---|
classic |
string |
Grammatikbasierter Tokenizer, der für die Verarbeitung der meisten dokumente mit europäischer Sprache geeignet ist. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html |
edgeNGram |
string |
Tokenisiert die Eingabe von einem Rand in n Gramm der angegebenen Größe(n). Siehe https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html |
keyword_v2 |
string |
Gibt die gesamte Eingabe als einzelnes Token aus. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html |
letter |
string |
Dividiert Text in Nichtbuchstaben. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html |
lowercase |
string |
Dividiert Text in Nichtbuchstaben und wandelt sie in Kleinbuchstaben um. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html |
microsoft_language_stemming_tokenizer |
string |
Dividiert Text mithilfe von sprachspezifischen Regeln und reduziert Wörter auf ihre Basisformulare. |
microsoft_language_tokenizer |
string |
Dividiert Text mithilfe sprachspezifischer Regeln. |
nGram |
string |
Tokenisiert die Eingabe in n Gramm der angegebenen Größe(n). Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html |
path_hierarchy_v2 |
string |
Tokenizer für pfadähnliche Hierarchien. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html |
pattern |
string |
Tokenizer, der regex-Musterabgleich verwendet, um unterschiedliche Token zu erstellen. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html |
standard_v2 |
string |
Standard Lucene Analyzer; Zusammengesetzt aus dem Standardmäßigen Tokenizer, Kleinbuchstabenfilter und Stoppfilter. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html |
uax_url_email |
string |
Tokenisiert URLs und E-Mails als ein Token. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html |
whitespace |
string |
Dividiert Text in Leerzeichen. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html |
LimitTokenFilter
Beschränkt die Anzahl der Token während der Indizierung. Dieser Tokenfilter wird mit Apache Lucene implementiert.
Name | Typ | Standardwert | Beschreibung |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Typ des Tokenfilters angibt. |
|
consumeAllTokens |
boolean |
False |
Ein Wert, der angibt, ob alle Token aus der Eingabe verwendet werden müssen, auch wenn maxTokenCount erreicht ist. Der Standardwert ist "false". |
maxTokenCount |
integer |
1 |
Die maximale Anzahl von Token, die erzeugt werden sollen. Der Standardwert ist 1. |
name |
string |
Der Name des Tokenfilters. Sie darf nur Buchstaben, Ziffern, Leerzeichen, Gedankenstriche oder Unterstriche enthalten, kann nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen beschränkt. |
LuceneStandardAnalyzer
Standard Apache Lucene Analyzer; Zusammengesetzt aus dem Standardmäßigen Tokenizer, Kleinbuchstabenfilter und Stoppfilter.
Name | Typ | Standardwert | Beschreibung |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Analysetyp angibt. |
|
maxTokenLength |
integer |
255 |
Die maximale Tokenlänge. Der Standardwert ist 255. Token, die länger als die maximale Länge sind, werden geteilt. Die maximale Tokenlänge, die verwendet werden kann, beträgt 300 Zeichen. |
name |
string |
Der Name des Analyzers. Sie darf nur Buchstaben, Ziffern, Leerzeichen, Gedankenstriche oder Unterstriche enthalten, kann nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen beschränkt. |
|
stopwords |
string[] |
Eine Liste der Stichworte. |
LuceneStandardTokenizer
Umbricht Text nach den Unicode-Textsegmentierungsregeln. Dieser Tokenizer wird mit Apache Lucene implementiert.
Name | Typ | Standardwert | Beschreibung |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Tokenizertyp angibt. |
|
maxTokenLength |
integer |
255 |
Die maximale Tokenlänge. Der Standardwert ist 255. Token, die länger als die maximale Länge sind, werden geteilt. |
name |
string |
Der Name des Tokenizers. Sie darf nur Buchstaben, Ziffern, Leerzeichen, Gedankenstriche oder Unterstriche enthalten, kann nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen beschränkt. |
LuceneStandardTokenizerV2
Umbricht Text nach den Unicode-Textsegmentierungsregeln. Dieser Tokenizer wird mit Apache Lucene implementiert.
Name | Typ | Standardwert | Beschreibung |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Tokenizertyp angibt. |
|
maxTokenLength |
integer |
255 |
Die maximale Tokenlänge. Der Standardwert ist 255. Token, die länger als die maximale Länge sind, werden geteilt. Die maximale Tokenlänge, die verwendet werden kann, beträgt 300 Zeichen. |
name |
string |
Der Name des Tokenizers. Sie darf nur Buchstaben, Ziffern, Leerzeichen, Gedankenstriche oder Unterstriche enthalten, kann nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen beschränkt. |
MagnitudeScoringFunction
Definiert eine Funktion, die Bewertungen basierend auf der Größe eines numerischen Felds erhöht.
Name | Typ | Beschreibung |
---|---|---|
boost |
number |
Ein Multiplikator für die unformatierte Bewertung. Muss eine positive Zahl sein, die nicht gleich 1,0 ist. |
fieldName |
string |
Der Name des Felds, das als Eingabe für die Bewertungsfunktion verwendet wird. |
interpolation |
Ein Wert, der angibt, wie die Verstärkung in Dokumentergebnisse interpoliert wird; Ist standardmäßig auf "Linear" festgelegt. |
|
magnitude |
Parameterwerte für die Bewertungsfunktion der Größe. |
|
type |
string:
magnitude |
Gibt den Typ der zu verwendenden Funktion an. Gültige Werte sind Größe, Aktualität, Abstand und Tag. Der Funktionstyp muss Kleinbuchstaben sein. |
MagnitudeScoringParameters
Stellt Parameterwerte für eine Bewertungsfunktion der Größe bereit.
Name | Typ | Beschreibung |
---|---|---|
boostingRangeEnd |
number |
Der Feldwert, an dem die Verstärkung endet. |
boostingRangeStart |
number |
Der Feldwert, bei dem die Verstärkung beginnt. |
constantBoostBeyondRange |
boolean |
Ein Wert, der angibt, ob eine konstante Verstärkung für Feldwerte über den Bereichsendwert hinaus angewendet werden soll; Standardwert ist "false". |
MappingCharFilter
Ein Zeichenfilter, der Zuordnungen anwendet, die mit der Zuordnungsoption definiert sind. Der Abgleich ist gierig (längster Musterabgleich bei einem bestimmten Punkt gewinnt). Ersetzung darf die leere Zeichenfolge sein. Dieser Zeichenfilter wird mit Apache Lucene implementiert.
Name | Typ | Beschreibung |
---|---|---|
@odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Typ des Zeichenfilters angibt. |
mappings |
string[] |
Eine Liste der Zuordnungen des folgenden Formats: "a=>b" (alle Vorkommen des Zeichens "a" werden durch das Zeichen "b") ersetzt. |
name |
string |
Der Name des Zeichenfilters. Sie darf nur Buchstaben, Ziffern, Leerzeichen, Gedankenstriche oder Unterstriche enthalten, kann nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen beschränkt. |
MicrosoftLanguageStemmingTokenizer
Dividiert Text mithilfe von sprachspezifischen Regeln und reduziert Wörter auf ihre Basisformulare.
Name | Typ | Standardwert | Beschreibung |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Tokenizertyp angibt. |
|
isSearchTokenizer |
boolean |
False |
Ein Wert, der angibt, wie der Tokenizer verwendet wird. Bei Verwendung als Suchtokenizer auf "true" festgelegt, wird "false" festgelegt, wenn er als Indizierungstokenizer verwendet wird. Der Standardwert ist "false". |
language |
Die zu verwendende Sprache. Der Standardwert ist Englisch. |
||
maxTokenLength |
integer |
255 |
Die maximale Tokenlänge. Token, die länger als die maximale Länge sind, werden geteilt. Die maximale Tokenlänge, die verwendet werden kann, beträgt 300 Zeichen. Token, die länger als 300 Zeichen sind, werden zuerst in Token der Länge 300 aufgeteilt, und dann wird jedes dieser Token basierend auf dem maximalen Tokenlängensatz geteilt. Der Standardwert ist 255. |
name |
string |
Der Name des Tokenizers. Sie darf nur Buchstaben, Ziffern, Leerzeichen, Gedankenstriche oder Unterstriche enthalten, kann nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen beschränkt. |
MicrosoftLanguageTokenizer
Dividiert Text mithilfe sprachspezifischer Regeln.
Name | Typ | Standardwert | Beschreibung |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Tokenizertyp angibt. |
|
isSearchTokenizer |
boolean |
False |
Ein Wert, der angibt, wie der Tokenizer verwendet wird. Bei Verwendung als Suchtokenizer auf "true" festgelegt, wird "false" festgelegt, wenn er als Indizierungstokenizer verwendet wird. Der Standardwert ist "false". |
language |
Die zu verwendende Sprache. Der Standardwert ist Englisch. |
||
maxTokenLength |
integer |
255 |
Die maximale Tokenlänge. Token, die länger als die maximale Länge sind, werden geteilt. Die maximale Tokenlänge, die verwendet werden kann, beträgt 300 Zeichen. Token, die länger als 300 Zeichen sind, werden zuerst in Token der Länge 300 aufgeteilt, und dann wird jedes dieser Token basierend auf dem maximalen Tokenlängensatz geteilt. Der Standardwert ist 255. |
name |
string |
Der Name des Tokenizers. Sie darf nur Buchstaben, Ziffern, Leerzeichen, Gedankenstriche oder Unterstriche enthalten, kann nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen beschränkt. |
MicrosoftStemmingTokenizerLanguage
Listet die Sprachen auf, die vom Microsoft-Sprachstammerkennungstokenizer unterstützt werden.
Name | Typ | Beschreibung |
---|---|---|
arabic |
string |
Wählt den Microsoft-Wortstammtokenizer für Arabisch aus. |
bangla |
string |
Wählt den Microsoft Stemming-Tokenizer für Bangla aus. |
bulgarian |
string |
Wählt den Microsoft Stemming-Tokenizer für Bulgarisch aus. |
catalan |
string |
Wählt den Microsoft Stemming-Tokenizer für Katalanisch aus. |
croatian |
string |
Wählt den Microsoft Stemming-Tokenizer für Kroatisch aus. |
czech |
string |
Wählt den Microsoft Stemming-Tokenizer für Tschechisch aus. |
danish |
string |
Wählt den Microsoft Stemming-Tokenizer für Dänisch aus. |
dutch |
string |
Wählt den Microsoft Stemming-Tokenizer für Niederländisch aus. |
english |
string |
Wählt den Microsoft Stemming-Tokenizer für Englisch aus. |
estonian |
string |
Wählt den Microsoft Stemming-Tokenizer für Estnisch aus. |
finnish |
string |
Wählt den Microsoft Stemming-Tokenizer für Finnisch aus. |
french |
string |
Wählt den Microsoft Stemming-Tokenizer für Französisch aus. |
german |
string |
Wählt den Microsoft Stemming-Tokenizer für Deutsch aus. |
greek |
string |
Wählt den Microsoft Stemming-Tokenizer für Griechisch aus. |
gujarati |
string |
Wählt den Microsoft Stemming Tokenizer für Gujarati aus. |
hebrew |
string |
Wählt den Microsoft Stemming-Tokenizer für Hebräisch aus. |
hindi |
string |
Wählt den Microsoft Stemming-Tokenizer für Hindi aus. |
hungarian |
string |
Wählt den Microsoft Stemming-Tokenizer für Ungarisch aus. |
icelandic |
string |
Wählt den Microsoft Stemming Tokenizer für Island aus. |
indonesian |
string |
Wählt den Microsoft Stemming-Tokenizer für Indonesisch aus. |
italian |
string |
Wählt den Microsoft Stemming-Tokenizer für Italienisch aus. |
kannada |
string |
Wählt den Microsoft Stemming-Tokenizer für Kannada aus. |
latvian |
string |
Wählt den Microsoft Stemming-Tokenizer für Lettisch aus. |
lithuanian |
string |
Wählt den Microsoft Stemming-Tokenizer für Litauisch aus. |
malay |
string |
Wählt den Microsoft Stemming-Tokenizer für Malaiisch aus. |
malayalam |
string |
Wählt den Microsoft Stemming-Tokenizer für Malayalam aus. |
marathi |
string |
Wählt den Microsoft Stemming-Tokenizer für Marathi aus. |
norwegianBokmaal |
string |
Wählt den Microsoft Stemming Tokenizer für Norwegisch (Bokmål) aus. |
polish |
string |
Wählt den Microsoft Stemming-Tokenizer für Polnisch aus. |
portuguese |
string |
Wählt den Microsoft Stemming-Tokenizer für Portugiesisch aus. |
portugueseBrazilian |
string |
Wählt den Microsoft Stemming-Tokenizer für Portugiesisch (Brasilien) aus. |
punjabi |
string |
Wählt den Microsoft Stemming-Tokenizer für Punjabi aus. |
romanian |
string |
Wählt den Microsoft Stemming-Tokenizer für Rumänisch aus. |
russian |
string |
Wählt den Microsoft Stemming-Tokenizer für Russisch aus. |
serbianCyrillic |
string |
Wählt den Microsoft Stemming-Tokenizer für Serbisch (Kyrillisch) aus. |
serbianLatin |
string |
Wählt den Microsoft Stemming-Tokenizer für Serbisch (Lateinisch) aus. |
slovak |
string |
Wählt den Microsoft Stemming-Tokenizer für Slowakisch aus. |
slovenian |
string |
Wählt den Microsoft Stemming-Tokenizer für Slowenisch aus. |
spanish |
string |
Wählt den Microsoft Stemming-Tokenizer für Spanisch aus. |
swedish |
string |
Wählt den Microsoft Stemming-Tokenizer für Schwedisch aus. |
tamil |
string |
Wählt den Microsoft Stemming-Tokenizer für Tamil aus. |
telugu |
string |
Wählt den Microsoft Stemming-Tokenizer für Telugu aus. |
turkish |
string |
Wählt den Microsoft Stemming-Tokenizer für Türkisch aus. |
ukrainian |
string |
Wählt den Microsoft Stemming-Tokenizer für Ukrainisch aus. |
urdu |
string |
Wählt den Microsoft Stemming-Tokenizer für Urdu aus. |
MicrosoftTokenizerLanguage
Listet die sprachen auf, die vom Microsoft-Sprachtokenizer unterstützt werden.
Name | Typ | Beschreibung |
---|---|---|
bangla |
string |
Wählt den Microsoft-Tokenizer für Bangla aus. |
bulgarian |
string |
Wählt den Microsoft-Tokenizer für Bulgarisch aus. |
catalan |
string |
Wählt den Microsoft-Tokenizer für Katalanisch aus. |
chineseSimplified |
string |
Wählt den Microsoft-Tokenizer für Chinesisch (vereinfacht) aus. |
chineseTraditional |
string |
Wählt den Microsoft-Tokenizer für Chinesisch (traditionell) aus. |
croatian |
string |
Wählt den Microsoft-Tokenizer für Kroatisch aus. |
czech |
string |
Wählt den Microsoft-Tokenizer für Tschechisch aus. |
danish |
string |
Wählt den Microsoft-Tokenizer für Dänisch aus. |
dutch |
string |
Wählt den Microsoft-Tokenizer für Niederländisch aus. |
english |
string |
Wählt den Microsoft-Tokenizer für Englisch aus. |
french |
string |
Wählt den Microsoft-Tokenizer für Französisch aus. |
german |
string |
Wählt den Microsoft-Tokenizer für Deutsch aus. |
greek |
string |
Wählt den Microsoft-Tokenizer für Griechisch aus. |
gujarati |
string |
Wählt den Microsoft-Tokenizer für Gujarati aus. |
hindi |
string |
Wählt den Microsoft-Tokenizer für Hindi aus. |
icelandic |
string |
Wählt den Microsoft-Tokenizer für Island aus. |
indonesian |
string |
Wählt den Microsoft-Tokenizer für Indonesisch aus. |
italian |
string |
Wählt den Microsoft-Tokenizer für Italienisch aus. |
japanese |
string |
Wählt den Microsoft-Tokenizer für Japanisch aus. |
kannada |
string |
Wählt den Microsoft-Tokenizer für Kannada aus. |
korean |
string |
Wählt den Microsoft-Tokenizer für Koreanisch aus. |
malay |
string |
Wählt den Microsoft-Tokenizer für Malaiisch aus. |
malayalam |
string |
Wählt den Microsoft-Tokenizer für Malayalam aus. |
marathi |
string |
Wählt den Microsoft-Tokenizer für Marathi aus. |
norwegianBokmaal |
string |
Wählt den Microsoft-Tokenizer für Norwegisch (Bokmål) aus. |
polish |
string |
Wählt den Microsoft-Tokenizer für Polnisch aus. |
portuguese |
string |
Wählt den Microsoft-Tokenizer für Portugiesisch aus. |
portugueseBrazilian |
string |
Wählt den Microsoft-Tokenizer für Portugiesisch (Brasilien) aus. |
punjabi |
string |
Wählt den Microsoft-Tokenizer für Punjabi aus. |
romanian |
string |
Wählt den Microsoft-Tokenizer für Rumänisch aus. |
russian |
string |
Wählt den Microsoft-Tokenizer für Russisch aus. |
serbianCyrillic |
string |
Wählt den Microsoft-Tokenizer für Serbisch (Kyrillisch) aus. |
serbianLatin |
string |
Wählt den Microsoft-Tokenizer für Serbisch (Lateinisch) aus. |
slovenian |
string |
Wählt den Microsoft-Tokenizer für Slowenisch aus. |
spanish |
string |
Wählt den Microsoft-Tokenizer für Spanisch aus. |
swedish |
string |
Wählt den Microsoft-Tokenizer für Schwedisch aus. |
tamil |
string |
Wählt den Microsoft-Tokenizer für Tamil aus. |
telugu |
string |
Wählt den Microsoft-Tokenizer für Telugu aus. |
thai |
string |
Wählt den Microsoft-Tokenizer für Thai aus. |
ukrainian |
string |
Wählt den Microsoft-Tokenizer für Ukrainisch aus. |
urdu |
string |
Wählt den Microsoft-Tokenizer für Urdu aus. |
vietnamese |
string |
Wählt den Microsoft-Tokenizer für Vietnamesisch aus. |
NGramTokenFilter
Generiert n Gramm der angegebenen Größe(n). Dieser Tokenfilter wird mit Apache Lucene implementiert.
Name | Typ | Standardwert | Beschreibung |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Typ des Tokenfilters angibt. |
|
maxGram |
integer |
2 |
Die maximale n-Gramm-Länge. Der Standardwert ist 2. |
minGram |
integer |
1 |
Die minimale n-Gramm-Länge. Der Standardwert ist 1. Muss kleiner als der Wert von maxGram sein. |
name |
string |
Der Name des Tokenfilters. Sie darf nur Buchstaben, Ziffern, Leerzeichen, Gedankenstriche oder Unterstriche enthalten, kann nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen beschränkt. |
NGramTokenFilterV2
Generiert n Gramm der angegebenen Größe(n). Dieser Tokenfilter wird mit Apache Lucene implementiert.
Name | Typ | Standardwert | Beschreibung |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Typ des Tokenfilters angibt. |
|
maxGram |
integer |
2 |
Die maximale n-Gramm-Länge. Der Standardwert ist 2. Maximal 300. |
minGram |
integer |
1 |
Die minimale n-Gramm-Länge. Der Standardwert ist 1. Maximal 300. Muss kleiner als der Wert von maxGram sein. |
name |
string |
Der Name des Tokenfilters. Sie darf nur Buchstaben, Ziffern, Leerzeichen, Gedankenstriche oder Unterstriche enthalten, kann nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen beschränkt. |
NGramTokenizer
Tokenisiert die Eingabe in n Gramm der angegebenen Größe(n). Dieser Tokenizer wird mit Apache Lucene implementiert.
Name | Typ | Standardwert | Beschreibung |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Tokenizertyp angibt. |
|
maxGram |
integer |
2 |
Die maximale n-Gramm-Länge. Der Standardwert ist 2. Maximal 300. |
minGram |
integer |
1 |
Die minimale n-Gramm-Länge. Der Standardwert ist 1. Maximal 300. Muss kleiner als der Wert von maxGram sein. |
name |
string |
Der Name des Tokenizers. Sie darf nur Buchstaben, Ziffern, Leerzeichen, Gedankenstriche oder Unterstriche enthalten, kann nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen beschränkt. |
|
tokenChars |
Zeichenklassen, die in den Token beibehalten werden sollen. |
OutputFieldMappingEntry
Ausgabefeldzuordnung für eine Fähigkeit.
Name | Typ | Beschreibung |
---|---|---|
name |
string |
Der Name der Ausgabe, die durch die Fähigkeit definiert wird. |
targetName |
string |
Der Zielname der Ausgabe. Sie ist optional und standardmäßig name. |
PathHierarchyTokenizerV2
Tokenizer für pfadähnliche Hierarchien. Dieser Tokenizer wird mit Apache Lucene implementiert.
Name | Typ | Standardwert | Beschreibung |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Tokenizertyp angibt. |
|
delimiter |
string |
/ |
Das zu verwendende Trennzeichen. Der Standardwert ist "/". |
maxTokenLength |
integer |
300 |
Die maximale Tokenlänge. Der Standardwert und maximal 300. |
name |
string |
Der Name des Tokenizers. Sie darf nur Buchstaben, Ziffern, Leerzeichen, Gedankenstriche oder Unterstriche enthalten, kann nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen beschränkt. |
|
replacement |
string |
/ |
Ein Wert, der bei Festlegung das Trennzeichen ersetzt. Der Standardwert ist "/". |
reverse |
boolean |
False |
Ein Wert, der angibt, ob Token in umgekehrter Reihenfolge generiert werden sollen. Der Standardwert ist "false". |
skip |
integer |
0 |
Die Anzahl der anfänglichen Token, die übersprungen werden sollen. Der Standardwert ist 0. |
PatternAnalyzer
Trennt Text flexibel in Ausdrücke über ein Muster mit regulären Ausdrücken. Dieser Analyzer wird mit Apache Lucene implementiert.
Name | Typ | Standardwert | Beschreibung |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Analysetyp angibt. |
|
flags |
Kennzeichnungen für reguläre Ausdrücke. |
||
lowercase |
boolean |
True |
Ein Wert, der angibt, ob Ausdrücke klein geschrieben werden sollen. Der Standardwert ist true. |
name |
string |
Der Name des Analyzers. Sie darf nur Buchstaben, Ziffern, Leerzeichen, Gedankenstriche oder Unterstriche enthalten, kann nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen beschränkt. |
|
pattern |
string |
\W+ |
Ein Muster für reguläre Ausdrücke zum Abgleichen von Tokentrennzeichen. Der Standardwert ist ein Ausdruck, der einem oder mehreren Nicht-Wort-Zeichen entspricht. |
stopwords |
string[] |
Eine Liste der Stichworte. |
PatternCaptureTokenFilter
Verwendet Java regexes, um mehrere Token auszugeben – eine für jede Aufnahmegruppe in einem oder mehreren Mustern. Dieser Tokenfilter wird mit Apache Lucene implementiert.
Name | Typ | Standardwert | Beschreibung |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Typ des Tokenfilters angibt. |
|
name |
string |
Der Name des Tokenfilters. Sie darf nur Buchstaben, Ziffern, Leerzeichen, Gedankenstriche oder Unterstriche enthalten, kann nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen beschränkt. |
|
patterns |
string[] |
Eine Liste der Muster, die mit den einzelnen Token übereinstimmen sollen. |
|
preserveOriginal |
boolean |
True |
Ein Wert, der angibt, ob das ursprüngliche Token zurückgegeben werden soll, auch wenn eines der Muster übereinstimmt. Der Standardwert ist true. |
PatternReplaceCharFilter
Ein Zeichenfilter, der Zeichen in der Eingabezeichenfolge ersetzt. Es verwendet einen regulären Ausdruck, um Zeichenabfolgen zu identifizieren, die beibehalten werden sollen, und ein Ersetzungsmuster, um zu ersetzende Zeichen zu identifizieren. Wenn Sie beispielsweise den Eingabetext "aa bb aa bb", das Muster "(aa)\s+(bb)" und den Ersatz "$1#$2" erhalten haben, lautet das Ergebnis "aa#bb aa#bb aa#bb". Dieser Zeichenfilter wird mit Apache Lucene implementiert.
Name | Typ | Beschreibung |
---|---|---|
@odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Typ des Zeichenfilters angibt. |
name |
string |
Der Name des Zeichenfilters. Sie darf nur Buchstaben, Ziffern, Leerzeichen, Gedankenstriche oder Unterstriche enthalten, kann nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen beschränkt. |
pattern |
string |
Ein Muster für reguläre Ausdrücke. |
replacement |
string |
Der Ersetzungstext. |
PatternReplaceTokenFilter
Ein Zeichenfilter, der Zeichen in der Eingabezeichenfolge ersetzt. Es verwendet einen regulären Ausdruck, um Zeichenabfolgen zu identifizieren, die beibehalten werden sollen, und ein Ersetzungsmuster, um zu ersetzende Zeichen zu identifizieren. Wenn Sie beispielsweise den Eingabetext "aa bb aa bb", das Muster "(aa)\s+(bb)" und den Ersatz "$1#$2" erhalten haben, lautet das Ergebnis "aa#bb aa#bb aa#bb". Dieser Tokenfilter wird mit Apache Lucene implementiert.
Name | Typ | Beschreibung |
---|---|---|
@odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Typ des Tokenfilters angibt. |
name |
string |
Der Name des Tokenfilters. Sie darf nur Buchstaben, Ziffern, Leerzeichen, Gedankenstriche oder Unterstriche enthalten, kann nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen beschränkt. |
pattern |
string |
Ein Muster für reguläre Ausdrücke. |
replacement |
string |
Der Ersetzungstext. |
PatternTokenizer
Tokenizer, der regex-Musterabgleich verwendet, um unterschiedliche Token zu erstellen. Dieser Tokenizer wird mit Apache Lucene implementiert.
Name | Typ | Standardwert | Beschreibung |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Tokenizertyp angibt. |
|
flags |
Kennzeichnungen für reguläre Ausdrücke. |
||
group |
integer |
-1 |
Die nullbasierte Ordnungszahl der übereinstimmenden Gruppe im Muster des regulären Ausdrucks zum Extrahieren in Token. Verwenden Sie -1, wenn Sie das gesamte Muster verwenden möchten, um die Eingabe unabhängig von übereinstimmenden Gruppen in Token aufzuteilen. Der Standardwert ist -1. |
name |
string |
Der Name des Tokenizers. Sie darf nur Buchstaben, Ziffern, Leerzeichen, Gedankenstriche oder Unterstriche enthalten, kann nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen beschränkt. |
|
pattern |
string |
\W+ |
Ein Muster für reguläre Ausdrücke zum Abgleichen von Tokentrennzeichen. Der Standardwert ist ein Ausdruck, der einem oder mehreren Nicht-Wort-Zeichen entspricht. |
PhoneticEncoder
Gibt den Typ des phonetischen Encoders an, der mit einem PhoneticTokenFilter verwendet werden soll.
Name | Typ | Beschreibung |
---|---|---|
beiderMorse |
string |
Codiert ein Token in einen Beider-Morse Wert. |
caverphone1 |
string |
Codiert ein Token in einen Caverphone 1.0-Wert. |
caverphone2 |
string |
Codiert ein Token in einen Caverphone 2.0-Wert. |
cologne |
string |
Codiert ein Token in einen Kölner Phonetischen Wert. |
doubleMetaphone |
string |
Codiert ein Token in einen doppelten Metaphonewert. |
haasePhonetik |
string |
Codiert ein Token mithilfe der Haase-Verfeinerung des Kölner Phonetik-Algorithmus. |
koelnerPhonetik |
string |
Codiert ein Token mit dem Kölner Phonetik-Algorithmus. |
metaphone |
string |
Codiert ein Token in einen Metaphone-Wert. |
nysiis |
string |
Codiert ein Token in einen NYSIIS-Wert. |
refinedSoundex |
string |
Codiert ein Token in einen Refined Soundex-Wert. |
soundex |
string |
Codiert ein Token in einen Soundex-Wert. |
PhoneticTokenFilter
Erstellen Sie Token für phonetische Übereinstimmungen. Dieser Tokenfilter wird mit Apache Lucene implementiert.
Name | Typ | Standardwert | Beschreibung |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Typ des Tokenfilters angibt. |
|
encoder | metaphone |
Der zu verwendende phonetische Encoder. Der Standardwert ist "metaphone". |
|
name |
string |
Der Name des Tokenfilters. Sie darf nur Buchstaben, Ziffern, Leerzeichen, Gedankenstriche oder Unterstriche enthalten, kann nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen beschränkt. |
|
replace |
boolean |
True |
Ein Wert, der angibt, ob codierte Token ursprüngliche Token ersetzen sollen. Wenn false, werden codierte Token als Synonyme hinzugefügt. Der Standardwert ist true. |
PrioritizedFields
Beschreibt die Felder "Titel", "Inhalt" und "Schlüsselwörter", die für semantische Rangfolge, Beschriftungen, Hervorhebungen und Antworten verwendet werden sollen.
Name | Typ | Beschreibung |
---|---|---|
prioritizedContentFields |
Definiert die Inhaltsfelder, die für semantische Rangfolge, Beschriftungen, Hervorhebungen und Antworten verwendet werden sollen. Um das beste Ergebnis zu erzielen, sollten die ausgewählten Felder Text in natürlicher Sprache enthalten. Die Reihenfolge der Felder im Array stellt ihre Priorität dar. Felder mit niedrigerer Priorität werden möglicherweise abgeschnitten, wenn der Inhalt lang ist. |
|
prioritizedKeywordsFields |
Definiert die Schlüsselwortfelder, die für semantische Rangfolge, Beschriftungen, Hervorhebungen und Antworten verwendet werden sollen. Um das beste Ergebnis zu erzielen, sollten die ausgewählten Felder eine Liste von Schlüsselwörtern enthalten. Die Reihenfolge der Felder im Array stellt ihre Priorität dar. Felder mit niedrigerer Priorität werden möglicherweise abgeschnitten, wenn der Inhalt lang ist. |
|
titleField |
Definiert das Titelfeld, das für semantische Rangfolge, Beschriftungen, Hervorhebungen und Antworten verwendet werden soll. Wenn Sie kein Titelfeld in Ihrem Index haben, lassen Sie dieses Feld leer. |
RegexFlags
Definiert Flags, die kombiniert werden können, um zu steuern, wie reguläre Ausdrücke im Musteranalyse- und Mustertokenizer verwendet werden.
Name | Typ | Beschreibung |
---|---|---|
CANON_EQ |
string |
Aktiviert kanonische Äquivalenz. |
CASE_INSENSITIVE |
string |
Aktiviert den Abgleich zwischen Groß- und Kleinschreibung. |
COMMENTS |
string |
Erlaubt Leerzeichen und Kommentare im Muster. |
DOTALL |
string |
Aktiviert den Dotall-Modus. |
LITERAL |
string |
Aktiviert die Literalanalyse des Musters. |
MULTILINE |
string |
Aktiviert den mehrstufigen Modus. |
UNICODE_CASE |
string |
Aktiviert Unicode-fähige Groß-/Kleinschreibungsfaltung. |
UNIX_LINES |
string |
Aktiviert den Unix-Linienmodus. |
ScalarQuantizationParameters
Enthält die parameter, die für die Skalar quantization spezifisch sind.
Name | Typ | Beschreibung |
---|---|---|
quantizedDataType |
Der quantisierte Datentyp komprimierter Vektorwerte. |
ScalarQuantizationVectorSearchCompressionConfiguration
Enthält Konfigurationsoptionen, die spezifisch für die skalare Quantisierungskomprimierungsmethode sind, die während der Indizierung und Abfrage verwendet wird.
Name | Typ | Standardwert | Beschreibung |
---|---|---|---|
defaultOversampling |
number |
Standardüberstempelungsfaktor. Oversampling fordert intern weitere Dokumente (angegeben durch diesen Multiplizierer) in der anfänglichen Suche an. Dadurch wird der Satz von Ergebnissen erhöht, die mit neu kompilierten Ähnlichkeitsergebnissen aus Vollpräzisionsvektoren neu bewertet werden. Der Mindestwert ist 1, d. h. kein Übersampling (1x). Dieser Parameter kann nur festgelegt werden, wenn rerankWithOriginalVectors true ist. Höhere Werte verbessern den Rückruf auf Kosten der Latenz. |
|
kind |
string:
scalar |
Der Name der Art der Komprimierungsmethode, die für die Verwendung mit der Vektorsuche konfiguriert wird. |
|
name |
string |
Der Name, der dieser bestimmten Konfiguration zugeordnet werden soll. |
|
rerankWithOriginalVectors |
boolean |
True |
Wenn dieser Wert auf "true" festgelegt ist, wird der sortierte Satz von Ergebnissen, die mithilfe komprimierter Vektoren berechnet werden, erneut bewertet, indem die Genauigkeitsbewertungen mit voller Genauigkeit neu berechnet werden. Dadurch wird der Rückruf auf Kosten der Latenz verbessert. |
scalarQuantizationParameters |
Enthält die parameter, die für die Skalar quantization spezifisch sind. |
ScoringFunctionAggregation
Definiert die Aggregationsfunktion, die verwendet wird, um die Ergebnisse aller Bewertungsfunktionen in einem Bewertungsprofil zu kombinieren.
Name | Typ | Beschreibung |
---|---|---|
average |
string |
Erhöhen Sie die Bewertungsergebnisse um den Durchschnitt aller Ergebnisse der Bewertungsfunktion. |
firstMatching |
string |
Erhöhen Sie Die Bewertungen mithilfe der ersten anwendbaren Bewertungsfunktion im Bewertungsprofil. |
maximum |
string |
Erhöhen Sie die Bewertungsergebnisse um das Maximum aller Ergebnisse der Bewertungsfunktion. |
minimum |
string |
Erhöhen Sie die Ergebnisse um das Minimum aller Bewertungsfunktionsergebnisse. |
sum |
string |
Erhöhen Sie die Bewertungsergebnisse durch die Summe aller Ergebnisse der Bewertungsfunktion. |
ScoringFunctionInterpolation
Definiert die Funktion, die zum Interpolieren der Bewertungsverhebung in einem Bereich von Dokumenten verwendet wird.
Name | Typ | Beschreibung |
---|---|---|
constant |
string |
Erhöht die Bewertungen um einen konstanten Faktor. |
linear |
string |
Erhöht die Bewertungen um einen linear abnehmenden Betrag. Dies ist die Standardinterpolation für Bewertungsfunktionen. |
logarithmic |
string |
Erhöht die Bewertungen um einen Betrag, der logarithmusisch verringert wird. Verstärkungen verringern sich schnell für höhere Punkte und langsamer, wenn die Ergebnisse sinken. Diese Interpolationsoption ist in Kategorienbewertungsfunktionen nicht zulässig. |
quadratic |
string |
Erhöht die Punkte um einen Betrag, der quadratisch verringert wird. Verstärkungen verringern sich langsam für höhere Punkte und schneller, wenn die Ergebnisse sinken. Diese Interpolationsoption ist in Kategorienbewertungsfunktionen nicht zulässig. |
ScoringProfile
Definiert Parameter für einen Suchindex, der die Bewertung in Suchabfragen beeinflusst.
Name | Typ | Beschreibung |
---|---|---|
functionAggregation |
Ein Wert, der angibt, wie die Ergebnisse einzelner Bewertungsfunktionen kombiniert werden sollen. Der Standardwert ist "Summe". Wird ignoriert, wenn keine Bewertungsfunktionen vorhanden sind. |
|
functions | ScoringFunction[]: |
Die Sammlung von Funktionen, die die Bewertung von Dokumenten beeinflussen. |
name |
string |
Der Name des Bewertungsprofils. |
text |
Parameter, die die Bewertung basierend auf Text-Übereinstimmungen in bestimmten Indexfeldern erhöhen. |
SearchField
Stellt ein Feld in einer Indexdefinition dar, das den Namen, den Datentyp und das Suchverhalten eines Felds beschreibt.
Name | Typ | Beschreibung |
---|---|---|
analyzer |
Der Name des Analyzers, der für das Feld verwendet werden soll. Diese Option kann nur mit durchsuchbaren Feldern verwendet werden und kann nicht zusammen mit searchAnalyzer oder indexAnalyzer festgelegt werden. Nachdem der Analyzer ausgewählt wurde, kann er für das Feld nicht mehr geändert werden. Muss null für komplexe Felder sein. |
|
dimensions |
integer |
Die Dimensionalität des Vektorfelds. |
facetable |
boolean |
Ein Wert, der angibt, ob das Feld in Facetabfragen referenziert werden soll. Wird in der Regel in einer Präsentation von Suchergebnissen verwendet, die trefferanzahl nach Kategorie enthalten (z. B. nach Digitalkameras suchen und Treffer nach Marke, Nach Megapixeln, nach Preis usw.) anzeigen. Diese Eigenschaft muss null für komplexe Felder sein. Felder vom Typ Edm.GeographyPoint oder Collection(Edm.GeographyPoint) können nicht facetable sein. Der Standardwert ist für alle anderen einfachen Felder wahr. |
fields |
Eine Liste von Unterfeldern, wenn dies ein Feld vom Typ Edm.ComplexType oder Collection(Edm.ComplexType) ist. Muss null oder leer für einfache Felder sein. |
|
filterable |
boolean |
Ein Wert, der angibt, ob das Feld in $filter Abfragen referenziert werden soll. Filterbar unterscheidet sich von der Durchsuchung, in der Zeichenfolgen behandelt werden. Felder vom Typ Edm.String oder Collection(Edm.String), die gefiltert werden können, unterliegen keine Worttrennung, sodass Vergleiche nur für genaue Übereinstimmungen gelten. Wenn Sie z. B. ein solches Feld f auf "sonnigen Tag" festlegen, findet $filter=f eq 'sunny' keine Übereinstimmungen, aber $filter=f eq 'sonniger Tag' wird. Diese Eigenschaft muss null für komplexe Felder sein. Der Standardwert ist für einfache Felder und NULL für komplexe Felder wahr. |
indexAnalyzer |
Der Name des Analyzers, der zur Indizierungszeit für das Feld verwendet wird. Diese Option kann nur mit durchsuchbaren Feldern verwendet werden. Sie muss zusammen mit searchAnalyzer festgelegt werden und kann nicht zusammen mit der Analyseoption festgelegt werden. Diese Eigenschaft kann nicht auf den Namen einer Sprachanalyse festgelegt werden. verwenden Sie stattdessen die Analyzer-Eigenschaft, wenn Sie einen Sprachanalysator benötigen. Nachdem der Analyzer ausgewählt wurde, kann er für das Feld nicht mehr geändert werden. Muss null für komplexe Felder sein. |
|
key |
boolean |
Ein Wert, der angibt, ob das Feld Dokumente im Index eindeutig identifiziert. Genau ein Feld auf oberster Ebene in jedem Index muss als Schlüsselfeld ausgewählt werden und muss vom Typ "Edm.String" sein. Schlüsselfelder können verwendet werden, um Dokumente direkt nachzuschlagen und bestimmte Dokumente zu aktualisieren oder zu löschen. Der Standardwert ist "false" für einfache Felder und NULL für komplexe Felder. |
name |
string |
Der Name des Felds, das innerhalb der Feldauflistung des Index- oder übergeordneten Felds eindeutig sein muss. |
retrievable |
boolean |
Ein Wert, der angibt, ob das Feld in einem Suchergebnis zurückgegeben werden kann. Sie können diese Option deaktivieren, wenn Sie ein Feld (z. B. Rand) als Filter-, Sortier- oder Bewertungsmechanismus verwenden möchten, das Feld aber nicht für den Endbenutzer sichtbar sein soll. Diese Eigenschaft muss für Schlüsselfelder wahr sein, und sie muss null für komplexe Felder sein. Diese Eigenschaft kann in vorhandenen Feldern geändert werden. Das Aktivieren dieser Eigenschaft führt nicht zu einer Erhöhung der Indexspeicheranforderungen. Der Standardwert ist true für einfache Felder, false für Vektorfelder und NULL für komplexe Felder. |
searchAnalyzer |
Der Name des Analyzers, der zur Suchzeit für das Feld verwendet wird. Diese Option kann nur mit durchsuchbaren Feldern verwendet werden. Sie muss zusammen mit indexAnalyzer festgelegt werden und kann nicht zusammen mit der Analyseoption festgelegt werden. Diese Eigenschaft kann nicht auf den Namen einer Sprachanalyse festgelegt werden. verwenden Sie stattdessen die Analyzer-Eigenschaft, wenn Sie einen Sprachanalysator benötigen. Dieser Analyzer kann in einem vorhandenen Feld aktualisiert werden. Muss null für komplexe Felder sein. |
|
searchable |
boolean |
Ein Wert, der angibt, ob das Feld durchsuchbar ist. Dies bedeutet, dass sie sich während der Indizierung einer Analyse unterziehen wird, z. B. Wortbruch. Wenn Sie ein durchsuchbares Feld auf einen Wert wie "sonniger Tag" festlegen, wird es intern in die einzelnen Token "sonnig" und "Tag" aufgeteilt. Dadurch werden Volltextsuchen nach diesen Begriffen ermöglicht. Felder vom Typ Edm.String oder Collection(Edm.String) können standardmäßig durchsucht werden. Diese Eigenschaft muss für einfache Felder anderer Nicht-Zeichenfolgen-Datentypen falsch sein, und sie muss null für komplexe Felder sein. Hinweis: Durchsuchbare Felder verbrauchen zusätzlichen Platz in Ihrem Index, um zusätzliche tokenisierte Versionen des Feldwerts für Volltextsuchen aufzunehmen. Wenn Sie Platz in Ihrem Index sparen möchten und kein Feld in Suchvorgänge einbezogen werden muss, legen Sie die Suchfunktion auf "false" fest. |
sortable |
boolean |
Ein Wert, der angibt, ob das Feld in $orderby Ausdrücken referenziert werden soll. Standardmäßig sortiert die Suchmaschine Ergebnisse nach Bewertung, aber in vielen Erfahrungen möchten Benutzer nach Feldern in den Dokumenten sortieren. Ein einfaches Feld kann nur dann sortiert werden, wenn es ein wertig ist (es hat einen einzelnen Wert im Bereich des übergeordneten Dokuments). Einfache Sammlungsfelder können nicht sortiert werden, da sie mehrwertig sind. Einfache Unterfelder komplexer Auflistungen sind ebenfalls mehrwertig und können daher nicht sortiert werden. Dies gilt unabhängig davon, ob es sich um ein unmittelbares übergeordnetes Feld oder ein Übergeordnetes Feld handelt, das die komplexe Auflistung ist. Komplexe Felder können nicht sortiert werden, und die sortierbare Eigenschaft muss null für solche Felder sein. Der Standardwert für sortierbare Felder mit einem wertigen Wert ist "true", "false" für mehrwertige einfache Felder und null für komplexe Felder. |
stored |
boolean |
Ein unveränderlicher Wert, der angibt, ob das Feld separat auf dem Datenträger gespeichert wird, um in einem Suchergebnis zurückgegeben zu werden. Sie können diese Option deaktivieren, wenn Sie nicht beabsichtigen, den Feldinhalt in einer Suchantwort zurückzugeben, um den Speicheraufwand zu sparen. Dies kann nur während der Indexerstellung und nur für Vektorfelder festgelegt werden. Diese Eigenschaft kann für vorhandene Felder nicht geändert oder für neue Felder als false festgelegt werden. Wenn diese Eigenschaft als "false" festgelegt ist, muss die Eigenschaft "abrufbar" auch auf "false" festgelegt werden. Diese Eigenschaft muss für Schlüsselfelder wahr oder nicht festgelegt sein, für neue Felder und für Nicht-Vektorfelder und muss null für komplexe Felder sein. Durch das Deaktivieren dieser Eigenschaft werden die Indexspeicheranforderungen reduziert. Der Standardwert ist für Vektorfelder wahr. |
synonymMaps |
string[] |
Eine Liste der Namen des Synonyms, die diesem Feld zugeordnet werden sollen. Diese Option kann nur mit durchsuchbaren Feldern verwendet werden. Derzeit wird nur eine Synonymzuordnung pro Feld unterstützt. Durch das Zuweisen einer Synonymzuordnung zu einem Feld wird sichergestellt, dass Abfragebegriffe, die zum Abfragezeitpunkt mithilfe der Regeln in der Synonymzuordnung erweitert werden, erweitert werden. Dieses Attribut kann für vorhandene Felder geändert werden. Muss null oder eine leere Auflistung für komplexe Felder sein. |
type |
Der Datentyp des Felds. |
|
vectorEncoding |
Das Codierungsformat zum Interpretieren des Feldinhalts. |
|
vectorSearchProfile |
string |
Der Name des Vektorsuchprofils, das den Algorithmus und den Vektorizer angibt, der beim Durchsuchen des Vektorfelds verwendet werden soll. |
SearchFieldDataType
Definiert den Datentyp eines Felds in einem Suchindex.
Name | Typ | Beschreibung |
---|---|---|
Edm.Boolean |
string |
Gibt an, dass ein Feld einen booleschen Wert (true oder false) enthält. |
Edm.Byte |
string |
Gibt an, dass ein Feld eine 8-Bit-ganzzahl ohne Vorzeichen enthält. Dies ist nur gültig, wenn sie mit Collection(Edm.Byte) verwendet wird. |
Edm.ComplexType |
string |
Gibt an, dass ein Feld mindestens ein komplexes Objekt enthält, das wiederum Unterfelder anderer Typen enthält. |
Edm.DateTimeOffset |
string |
Gibt an, dass ein Feld einen Datums-/Uhrzeitwert enthält, einschließlich Zeitzoneninformationen. |
Edm.Double |
string |
Gibt an, dass ein Feld eine IEEE-Gleitkommazahl mit doppelter Genauigkeit enthält. |
Edm.GeographyPoint |
string |
Gibt an, dass ein Feld einen geografischen Standort in Bezug auf Längengrad und Breitengrad enthält. |
Edm.Half |
string |
Gibt an, dass ein Feld eine Gleitkommazahl mit halber Genauigkeit enthält. Dies ist nur gültig, wenn sie mit Collection(Edm.Half) verwendet wird. |
Edm.Int16 |
string |
Gibt an, dass ein Feld eine 16-Bit-ganzzahl mit Vorzeichen enthält. Dies ist nur gültig, wenn sie mit Collection(Edm.Int16) verwendet wird. |
Edm.Int32 |
string |
Gibt an, dass ein Feld eine 32-Bit-ganzzahl mit Vorzeichen enthält. |
Edm.Int64 |
string |
Gibt an, dass ein Feld eine 64-Bit-ganzzahl mit Vorzeichen enthält. |
Edm.SByte |
string |
Gibt an, dass ein Feld eine 8-Bit-ganzzahl mit Vorzeichen enthält. Dies ist nur gültig, wenn sie mit Collection(Edm.SByte) verwendet wird. |
Edm.Single |
string |
Gibt an, dass ein Feld eine Gleitkommazahl mit einfacher Genauigkeit enthält. Dies ist nur gültig, wenn sie mit Collection(Edm.Single) verwendet wird. |
Edm.String |
string |
Gibt an, dass ein Feld eine Zeichenfolge enthält. |
SearchIndex
Stellt eine Suchindexdefinition dar, die die Felder und das Suchverhalten eines Indexes beschreibt.
Name | Typ | Beschreibung |
---|---|---|
@odata.etag |
string |
Das ETag des Indexes. |
analyzers | LexicalAnalyzer[]: |
Die Analysegeräte für den Index. |
charFilters | CharFilter[]: |
Das Zeichen filtert für den Index. |
corsOptions |
Optionen zum Steuern der cross-Origin Resource Sharing (CORS) für den Index. |
|
defaultScoringProfile |
string |
Der Name des Bewertungsprofils, das verwendet werden soll, wenn keine in der Abfrage angegeben ist. Wenn diese Eigenschaft nicht festgelegt ist und kein Bewertungsprofil in der Abfrage angegeben wird, wird die Standardbewertung (tf-idf) verwendet. |
encryptionKey |
Eine Beschreibung eines Verschlüsselungsschlüssels, den Sie in Azure Key Vault erstellen. Dieser Schlüssel wird verwendet, um eine zusätzliche Verschlüsselungsstufe für Ihre Daten bereitzustellen, wenn Sie die volle Sicherheit wünschen, dass niemand, nicht einmal Microsoft, Ihre Daten entschlüsseln kann. Sobald Sie Ihre Daten verschlüsselt haben, bleibt sie immer verschlüsselt. Der Suchdienst ignoriert Versuche, diese Eigenschaft auf NULL festzulegen. Sie können diese Eigenschaft nach Bedarf ändern, wenn Sie den Verschlüsselungsschlüssel drehen möchten. Ihre Daten sind davon unberührt. Verschlüsselung mit vom Kunden verwalteten Schlüsseln steht nicht für kostenlose Suchdienste zur Verfügung und ist nur für kostenpflichtige Dienste verfügbar, die am oder nach dem 1. Januar 2019 erstellt wurden. |
|
fields |
Die Felder des Indexes. |
|
name |
string |
Der Name des Indexes. |
scoringProfiles |
Die Bewertungsprofile für den Index. |
|
semantic |
Definiert Parameter für einen Suchindex, der die semantischen Funktionen beeinflusst. |
|
similarity | Similarity: |
Der Typ des Ähnlichkeitsalgorithmus, der beim Bewerten und Bewerten der Dokumente verwendet werden soll, die einer Suchabfrage entsprechen. Der Ähnlichkeitsalgorithmus kann nur zur Indexerstellungszeit definiert werden und kann für vorhandene Indizes nicht geändert werden. Wenn NULL, wird der ClassicSimilarity-Algorithmus verwendet. |
suggesters |
Die Vorschlager für den Index. |
|
tokenFilters |
TokenFilter[]:
|
Das Token filtert für den Index. |
tokenizers | LexicalTokenizer[]: |
Die Tokenizer für den Index. |
vectorSearch |
Enthält Konfigurationsoptionen im Zusammenhang mit der Vektorsuche. |
SearchIndexerDataNoneIdentity
Löscht die Identitätseigenschaft einer Datenquelle.
Name | Typ | Beschreibung |
---|---|---|
@odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Identitätstyp angibt. |
SearchIndexerDataUserAssignedIdentity
Gibt die Identität für eine zu verwendende Datenquelle an.
Name | Typ | Beschreibung |
---|---|---|
@odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Identitätstyp angibt. |
userAssignedIdentity |
string |
Die vollqualifizierte Azure-Ressourcen-ID einer vom Benutzer zugewiesenen verwalteten Identität in der Regel im Format "/subscriptions/12345678-1234-1234-1234-1234567890ab/resourceGroups/rg/providers/Microsoft.ManagedIdentity/userAssignedIdentities/myId", die dem Suchdienst zugewiesen werden sollen. |
SearchResourceEncryptionKey
Ein vom Kunden verwalteter Verschlüsselungsschlüssel im Azure Key Vault. Schlüssel, die Sie erstellen und verwalten, können zum Verschlüsseln oder Entschlüsseln ruhender Daten verwendet werden, z. B. Indizes und Synonymzuordnungen.
Name | Typ | Beschreibung |
---|---|---|
accessCredentials |
Optionale Azure Active Directory-Anmeldeinformationen, die für den Zugriff auf Ihren Azure Key Vault verwendet werden. Ist nicht erforderlich, wenn stattdessen verwaltete Identität verwendet wird. |
|
keyVaultKeyName |
string |
Der Name Ihres Azure Key Vault-Schlüssels, der zum Verschlüsseln Ihrer ruhenden Daten verwendet werden soll. |
keyVaultKeyVersion |
string |
Die Version Ihres Azure Key Vault-Schlüssels, der zum Verschlüsseln Ihrer ruhenden Daten verwendet werden soll. |
keyVaultUri |
string |
Der URI Ihres Azure Key Vault, auch als DNS-Name bezeichnet, der den Schlüssel enthält, der zum Verschlüsseln Ihrer ruhenden Daten verwendet werden soll. Ein Beispiel-URI kann |
SemanticConfiguration
Definiert eine bestimmte Konfiguration, die im Kontext der semantischen Funktionen verwendet werden soll.
Name | Typ | Beschreibung |
---|---|---|
name |
string |
Der Name der semantischen Konfiguration. |
prioritizedFields |
Beschreibt die Titel-, Inhalts- und Schlüsselwortfelder, die für semantische Rangfolge, Beschriftungen, Hervorhebungen und Antworten verwendet werden sollen. Mindestens eine der drei Untereigenschaften (titleField, priordKeywordsFields und priordContentFields) muss festgelegt werden. |
SemanticField
Ein Feld, das als Teil der semantischen Konfiguration verwendet wird.
Name | Typ | Beschreibung |
---|---|---|
fieldName |
string |
SemanticSettings
Definiert Parameter für einen Suchindex, der die semantischen Funktionen beeinflusst.
Name | Typ | Beschreibung |
---|---|---|
configurations |
Die semantischen Konfigurationen für den Index. |
|
defaultConfiguration |
string |
Ermöglicht es Ihnen, den Namen einer Standardsemantikkonfiguration in Ihrem Index festzulegen, sodass sie optional jedes Mal als Abfrageparameter übergeben werden kann. |
ShingleTokenFilter
Erstellt Kombinationen von Token als einzelnes Token. Dieser Tokenfilter wird mit Apache Lucene implementiert.
Name | Typ | Standardwert | Beschreibung |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Typ des Tokenfilters angibt. |
|
filterToken |
string |
_ |
Die Zeichenfolge, die für jede Position eingefügt werden soll, an der kein Token vorhanden ist. Der Standardwert ist ein Unterstrich ("_"). |
maxShingleSize |
integer |
2 |
Die maximale Shinglegröße. Der Standardwert und der Mindestwert sind 2. |
minShingleSize |
integer |
2 |
Die minimale Shinglegröße. Der Standardwert und der Mindestwert sind 2. Muss kleiner als der Wert von maxShingleSize sein. |
name |
string |
Der Name des Tokenfilters. Sie darf nur Buchstaben, Ziffern, Leerzeichen, Gedankenstriche oder Unterstriche enthalten, kann nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen beschränkt. |
|
outputUnigrams |
boolean |
True |
Ein Wert, der angibt, ob der Ausgabedatenstrom die Eingabetoken (Unigramme) sowie Shingles enthält. Der Standardwert ist true. |
outputUnigramsIfNoShingles |
boolean |
False |
Ein Wert, der angibt, ob Unigramme für diese Zeiten ausgegeben werden sollen, wenn keine Shingles verfügbar sind. Diese Eigenschaft hat Vorrang, wenn outputUnigrams auf "false" festgelegt ist. Der Standardwert ist "false". |
tokenSeparator |
string |
Die Zeichenfolge, die beim Verknüpfen angrenzender Token verwendet werden soll, um ein Shingle zu bilden. Der Standardwert ist ein einzelnes Leerzeichen (" "). |
SnowballTokenFilter
Ein Filter, der Wörter mit einem snowball-generierten Stammer abstammt. Dieser Tokenfilter wird mit Apache Lucene implementiert.
Name | Typ | Beschreibung |
---|---|---|
@odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Typ des Tokenfilters angibt. |
language |
Die zu verwendende Sprache. |
|
name |
string |
Der Name des Tokenfilters. Sie darf nur Buchstaben, Ziffern, Leerzeichen, Gedankenstriche oder Unterstriche enthalten, kann nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen beschränkt. |
SnowballTokenFilterLanguage
Die Sprache, die für einen Snowball-Tokenfilter verwendet werden soll.
Name | Typ | Beschreibung |
---|---|---|
armenian |
string |
Wählt den Lucene Snowball-Tokenizer für Armenisch aus. |
basque |
string |
Wählt den Lucene Snowball-Tokenizer für Baskisch aus. |
catalan |
string |
Wählt den Lucene Snowball-Tokenizer für Katalanisch aus. |
danish |
string |
Wählt den Lucene Snowball-Tokenizer für Dänisch aus. |
dutch |
string |
Wählt den Lucene Snowball-Tokenizer für Niederländisch aus. |
english |
string |
Wählt den Lucene Snowball-Tokenizer für Englisch aus. |
finnish |
string |
Wählt den Lucene Snowball-Tokenizer für Finnisch aus. |
french |
string |
Wählt den Lucene Snowball-Tokenizer für Französisch aus. |
german |
string |
Wählt den Lucene Snowball-Tokenizer für Deutsch aus. |
german2 |
string |
Wählt den Lucene Snowball-Tokenizer aus, der den deutschen Variantenalgorithmus verwendet. |
hungarian |
string |
Wählt den Lucene Snowball-Tokenizer für Ungarisch aus. |
italian |
string |
Wählt den Lucene Snowball-Tokenizer für Italienisch aus. |
kp |
string |
Wählt den Lucene Snowball Stemming Tokenizer für Niederländisch aus, der den Kraaij-Pohlmann Stemming-Algorithmus verwendet. |
lovins |
string |
Wählt den Lucene Snowball Stemming Tokenizer für Englisch aus, der den Lovins-Wortstammalgorithmus verwendet. |
norwegian |
string |
Wählt den Lucene Snowball-Tokenizer für Norwegisch aus. |
porter |
string |
Wählt den Lucene Snowball Stemming Tokenizer für Englisch aus, der den Porter-Wortstammalgorithmus verwendet. |
portuguese |
string |
Wählt den Lucene Snowball-Tokenizer für Portugiesisch aus. |
romanian |
string |
Wählt den Lucene Snowball-Tokenizer für Rumänisch aus. |
russian |
string |
Wählt den Lucene Snowball-Tokenizer für Russisch aus. |
spanish |
string |
Wählt den Lucene Snowball-Tokenizer für Spanisch aus. |
swedish |
string |
Wählt den Lucene Snowball-Tokenizer für Schwedisch aus. |
turkish |
string |
Wählt den Lucene Snowball-Tokenizer für Türkisch aus. |
StemmerOverrideTokenFilter
Bietet die Möglichkeit, andere Wortstammfilter mit benutzerwörterbuchbasierter Wortstammerkennung außer Kraft zu setzen. Alle wörterbuchstammigen Begriffe werden als Schlüsselwörter markiert, sodass sie nicht mit Stemmern in der Kette gestammt werden. Muss vor allen Stemmingfiltern platziert werden. Dieser Tokenfilter wird mit Apache Lucene implementiert.
Name | Typ | Beschreibung |
---|---|---|
@odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Typ des Tokenfilters angibt. |
name |
string |
Der Name des Tokenfilters. Sie darf nur Buchstaben, Ziffern, Leerzeichen, Gedankenstriche oder Unterstriche enthalten, kann nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen beschränkt. |
rules |
string[] |
Eine Liste der Wortstammregeln im folgenden Format: "word => stem", z. B. "ran => run". |
StemmerTokenFilter
Sprachspezifischer Wortstammfilter. Dieser Tokenfilter wird mit Apache Lucene implementiert.
Name | Typ | Beschreibung |
---|---|---|
@odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Typ des Tokenfilters angibt. |
language |
Die zu verwendende Sprache. |
|
name |
string |
Der Name des Tokenfilters. Sie darf nur Buchstaben, Ziffern, Leerzeichen, Gedankenstriche oder Unterstriche enthalten, kann nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen beschränkt. |
StemmerTokenFilterLanguage
Die Sprache, die für einen Stammtokenfilter verwendet werden soll.
Name | Typ | Beschreibung |
---|---|---|
arabic |
string |
Wählt den Lucene-Wortstammtokenizer für Arabisch aus. |
armenian |
string |
Wählt den Lucene Stemming Tokenizer für Armenier aus. |
basque |
string |
Wählt den Lucene Stemming Tokenizer für Baskisch aus. |
brazilian |
string |
Wählt den Lucene Stemming Tokenizer für Portugiesisch (Brasilien) aus. |
bulgarian |
string |
Wählt den Lucene Stemming Tokenizer für Bulgarisch aus. |
catalan |
string |
Wählt den Lucene Stemming Tokenizer für Katalanisch aus. |
czech |
string |
Wählt den Lucene Stemming Tokenizer für Tschechisch aus. |
danish |
string |
Wählt den Lucene Stemming Tokenizer für Dänisch aus. |
dutch |
string |
Wählt den Lucene Stemming Tokenizer für Niederländisch aus. |
dutchKp |
string |
Wählt den Lucene Stemming Tokenizer für Niederländisch aus, der den Kraaij-Pohlmann Wortstammalgorithmus verwendet. |
english |
string |
Wählt den Lucene Stemming Tokenizer für Englisch aus. |
finnish |
string |
Wählt den Lucene Stemming Tokenizer für Finnisch aus. |
french |
string |
Wählt den Lucene Stemming Tokenizer für Französisch aus. |
galician |
string |
Wählt den Lucene Stemming Tokenizer für Galizien aus. |
german |
string |
Wählt den Lucene Stemming Tokenizer für Deutsch aus. |
german2 |
string |
Wählt den Lucene Stemming-Tokenizer aus, der den deutschen Variantenalgorithmus verwendet. |
greek |
string |
Wählt den Lucene Stemming Tokenizer für Griechisch aus. |
hindi |
string |
Wählt den Lucene Stemming Tokenizer für Hindi aus. |
hungarian |
string |
Wählt den Lucene Stemming Tokenizer für Ungarisch aus. |
indonesian |
string |
Wählt den Lucene Stemming Tokenizer für Indonesisch aus. |
irish |
string |
Wählt den Lucene Stemming Tokenizer für Irisch aus. |
italian |
string |
Wählt den Lucene Stemming Tokenizer für Italienisch aus. |
latvian |
string |
Wählt den Lucene Stemming Tokenizer für Lettisch aus. |
lightEnglish |
string |
Wählt den Lucene Stemming Tokenizer für Englisch aus, der leichtes Wortstamming durchführt. |
lightFinnish |
string |
Wählt den Lucene Stemming Tokenizer für Finnisch aus, der lichtstammendes Wortstamming durchführt. |
lightFrench |
string |
Wählt den Lucene Stemming Tokenizer für Französisch aus, der leichte Stiele ausführt. |
lightGerman |
string |
Wählt den Lucene Stemming Tokenizer für Deutsch aus, der lichtstammende. |
lightHungarian |
string |
Wählt den Lucene Stemming Tokenizer für Ungarisch aus, der lichtstammend wirkt. |
lightItalian |
string |
Wählt den Lucene Stemming Tokenizer für Italienisch aus, der lichtstammende. |
lightNorwegian |
string |
Wählt den Lucene Stemming Tokenizer für Norwegisch (Bokmål) aus, der lichtstammt. |
lightNynorsk |
string |
Wählt den Lucene Stemming Tokenizer für Norwegisch (Nynorsk) aus, der lichtstammende. |
lightPortuguese |
string |
Wählt den Lucene-Stemming-Tokenizer für Portugiesisch aus, der leichtes Stemming durchführt. |
lightRussian |
string |
Wählt den Lucene Stemming Tokenizer für Russisch aus, der lichtstammende. |
lightSpanish |
string |
Wählt den Lucene Stemming Tokenizer für Spanisch aus, der leichte Wortstammerkennung durchführt. |
lightSwedish |
string |
Wählt den Lucene Stemming Tokenizer für Schwedisch aus, der lichtstammende. |
lovins |
string |
Wählt den Lucene stemming Tokenizer für Englisch aus, der den Lovins-Wortstammalgorithmus verwendet. |
minimalEnglish |
string |
Wählt den Lucene Stemming Tokenizer für Englisch aus, der minimale Wortstammerkennung ausführt. |
minimalFrench |
string |
Wählt den Lucene Stemming Tokenizer für Französisch aus, der minimale Wortstammerkennung ausführt. |
minimalGalician |
string |
Wählt den Lucene Stemming Tokenizer für Galizien aus, der minimale Wortstammerkennung durchführt. |
minimalGerman |
string |
Wählt den Lucene Stemming Tokenizer für Deutsch aus, der minimale Wortstammerkennung durchführt. |
minimalNorwegian |
string |
Wählt den Lucene Stemming Tokenizer für Norwegisch (Bokmål) aus, der minimale Wortstammerkennung durchführt. |
minimalNynorsk |
string |
Wählt den Lucene Stemming Tokenizer für Norwegisch (Nynorsk) aus, der minimale Wortstammerkennung durchführt. |
minimalPortuguese |
string |
Wählt den Lucene Stemming-Tokenizer für Portugiesisch aus, der minimale Wortstammerkennung ausführt. |
norwegian |
string |
Wählt den Lucene Stemming Tokenizer für Norwegisch (Bokmål) aus. |
porter2 |
string |
Wählt den Lucene Stemming-Tokenizer für Englisch aus, der den Porter2-Wortstammalgorithmus verwendet. |
portuguese |
string |
Wählt den Lucene Stemming Tokenizer für Portugiesisch aus. |
portugueseRslp |
string |
Wählt den Lucene Stemming-Tokenizer für Portugiesisch aus, der den RSLP-Stemmingalgorithmus verwendet. |
possessiveEnglish |
string |
Wählt den Lucene stemming Tokenizer für Englisch aus, der nachfolgende Possessive von Wörtern entfernt. |
romanian |
string |
Wählt den Lucene Stemming Tokenizer für Rumänisch aus. |
russian |
string |
Wählt den Lucene Stemming Tokenizer für Russisch aus. |
sorani |
string |
Wählt den Lucene Stemming Tokenizer für Sorani aus. |
spanish |
string |
Wählt den Lucene Stemming Tokenizer für Spanisch aus. |
swedish |
string |
Wählt den Lucene Stemming Tokenizer für Schwedisch aus. |
turkish |
string |
Wählt den Lucene Stemming Tokenizer für Türkisch aus. |
StopAnalyzer
Dividiert Text in Nichtbuchstaben; Wendet die Tokenfilter in Kleinbuchstaben und Stoppwörtern an. Dieser Analyzer wird mit Apache Lucene implementiert.
Name | Typ | Beschreibung |
---|---|---|
@odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Analysetyp angibt. |
name |
string |
Der Name des Analyzers. Sie darf nur Buchstaben, Ziffern, Leerzeichen, Gedankenstriche oder Unterstriche enthalten, kann nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen beschränkt. |
stopwords |
string[] |
Eine Liste der Stichworte. |
StopwordsList
Identifiziert eine vordefinierte Liste sprachspezifischer Wörter.
Name | Typ | Beschreibung |
---|---|---|
arabic |
string |
Wählt die Stoppwortliste für Arabisch aus. |
armenian |
string |
Wählt die Stoppwortliste für Armenier aus. |
basque |
string |
Wählt die Stoppwortliste für Baskisch aus. |
brazilian |
string |
Wählt die Stoppwortliste für Portugiesisch (Brasilien) aus. |
bulgarian |
string |
Wählt die Stoppwortliste für Bulgarisch aus. |
catalan |
string |
Wählt die Stoppwortliste für Katalanisch aus. |
czech |
string |
Wählt die Stoppwortliste für Tschechisch aus. |
danish |
string |
Wählt die Stoppwortliste für Dänisch aus. |
dutch |
string |
Wählt die Stoppwortliste für Niederländisch aus. |
english |
string |
Wählt die Stoppwortliste für Englisch aus. |
finnish |
string |
Wählt die Stoppwortliste für Finnisch aus. |
french |
string |
Wählt die Stoppwortliste für Französisch aus. |
galician |
string |
Wählt die Stoppwortliste für Galizien aus. |
german |
string |
Wählt die Stoppwortliste für Deutsch aus. |
greek |
string |
Wählt die Stoppwortliste für Griechisch aus. |
hindi |
string |
Wählt die Stoppwortliste für Hindi aus. |
hungarian |
string |
Wählt die Stoppwortliste für Ungarisch aus. |
indonesian |
string |
Wählt die Stoppwortliste für Indonesisch aus. |
irish |
string |
Wählt die Stoppwortliste für Irisch aus. |
italian |
string |
Wählt die Stoppwortliste für Italienisch aus. |
latvian |
string |
Wählt die Stoppwortliste für Lettisch aus. |
norwegian |
string |
Wählt die Stoppwortliste für Norwegisch aus. |
persian |
string |
Wählt die Stoppwortliste für Persisch aus. |
portuguese |
string |
Wählt die Stoppwortliste für Portugiesisch aus. |
romanian |
string |
Wählt die Stoppwortliste für Rumänisch aus. |
russian |
string |
Wählt die Stoppwortliste für Russisch aus. |
sorani |
string |
Wählt die Stoppwortliste für Sorani aus. |
spanish |
string |
Wählt die Stoppwortliste für Spanisch aus. |
swedish |
string |
Wählt die Stoppwortliste für Schwedisch aus. |
thai |
string |
Wählt die Stoppwortliste für Thai aus. |
turkish |
string |
Wählt die Stoppwortliste für Türkisch aus. |
StopwordsTokenFilter
Entfernt Stoppwörter aus einem Tokendatenstrom. Dieser Tokenfilter wird mit Apache Lucene implementiert.
Name | Typ | Standardwert | Beschreibung |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Typ des Tokenfilters angibt. |
|
ignoreCase |
boolean |
False |
Ein Wert, der angibt, ob die Groß-/Kleinschreibung ignoriert werden soll. Wenn wahr, werden alle Wörter zuerst in Kleinbuchstaben konvertiert. Der Standardwert ist "false". |
name |
string |
Der Name des Tokenfilters. Sie darf nur Buchstaben, Ziffern, Leerzeichen, Gedankenstriche oder Unterstriche enthalten, kann nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen beschränkt. |
|
removeTrailing |
boolean |
True |
Ein Wert, der angibt, ob der letzte Suchbegriff ignoriert werden soll, wenn es sich um ein Stoppwort handelt. Der Standardwert ist true. |
stopwords |
string[] |
Die Liste der Wortwörter. Diese Eigenschaft und die Stopwords-Listeneigenschaft können nicht beide festgelegt werden. |
|
stopwordsList | english |
Eine vordefinierte Liste der zu verwendenden Wörter. Diese Eigenschaft und die Stopwords-Eigenschaft können nicht beide festgelegt werden. Der Standardwert ist Englisch. |
Suggester
Definiert, wie die Vorschlags-API auf eine Gruppe von Feldern im Index angewendet werden soll.
Name | Typ | Beschreibung |
---|---|---|
name |
string |
Der Name des Vorschlagers. |
searchMode |
Ein Wert, der die Funktionen des Suggesters angibt. |
|
sourceFields |
string[] |
Die Liste der Feldnamen, auf die der Vorschlager angewendet wird. Jedes Feld muss durchsuchbar sein. |
SuggesterSearchMode
Ein Wert, der die Funktionen des Suggesters angibt.
Name | Typ | Beschreibung |
---|---|---|
analyzingInfixMatching |
string |
Gleicht aufeinander folgende ganze Begriffe und Präfixe in einem Feld ab. Für das Feld "Der schnellste braune Fuchs" würden beispielsweise die Abfragen "schnell" und "schnellster Stirn" beide übereinstimmen. |
SynonymTokenFilter
Gleicht ein- oder mehrere Wort-Synonyme in einem Tokendatenstrom ab. Dieser Tokenfilter wird mit Apache Lucene implementiert.
Name | Typ | Standardwert | Beschreibung |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Typ des Tokenfilters angibt. |
|
expand |
boolean |
True |
Ein Wert, der angibt, ob alle Wörter in der Liste der Synonyme (wenn => Notation nicht verwendet wird) einander zugeordnet werden. Wenn true, werden alle Wörter in der Liste der Synonyme (wenn => Notation nicht verwendet wird) einander zugeordnet. Die folgende Liste: unglaublich, unglaublich, fabelhaft, erstaunlich ist gleichbedeutend mit: unglaublich, unglaublich, fabelhaft, erstaunlich => unglaublich, unglaublich, fabelhaft, erstaunlich. Wenn falsch, die folgende Liste: unglaublich, unglaublich, fabelhaft, erstaunlich wird gleichbedeutend mit: unglaublich, unglaublich, fabelhaft, erstaunlich => unglaublich. Der Standardwert ist true. |
ignoreCase |
boolean |
False |
Ein Wert, der angibt, ob die Eingabe für die Groß-/Kleinschreibung für den Abgleich erfolgt. Der Standardwert ist "false". |
name |
string |
Der Name des Tokenfilters. Sie darf nur Buchstaben, Ziffern, Leerzeichen, Gedankenstriche oder Unterstriche enthalten, kann nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen beschränkt. |
|
synonyms |
string[] |
Eine Liste von Synonymen in einem von zwei Formaten: 1. unglaublich, unglaublich, fabelhaft => erstaunlich - alle Begriffe auf der linken Seite von => Symbol werden durch alle Begriffe auf der rechten Seite ersetzt; 2. unglaublich, unglaublich, fabelhaft, erstaunlich - kommagetrennte Liste der entsprechenden Wörter. Legen Sie die Erweiterungsoption fest, um zu ändern, wie diese Liste interpretiert wird. |
TagScoringFunction
Definiert eine Funktion, die Die Bewertungen von Dokumenten mit Zeichenfolgenwerten erhöht, die einer bestimmten Liste von Tags entsprechen.
Name | Typ | Beschreibung |
---|---|---|
boost |
number |
Ein Multiplikator für die unformatierte Bewertung. Muss eine positive Zahl sein, die nicht gleich 1,0 ist. |
fieldName |
string |
Der Name des Felds, das als Eingabe für die Bewertungsfunktion verwendet wird. |
interpolation |
Ein Wert, der angibt, wie die Verstärkung in Dokumentergebnisse interpoliert wird; Ist standardmäßig auf "Linear" festgelegt. |
|
tag |
Parameterwerte für die Tagbewertungsfunktion. |
|
type |
string:
tag |
Gibt den Typ der zu verwendenden Funktion an. Gültige Werte sind Größe, Aktualität, Abstand und Tag. Der Funktionstyp muss Kleinbuchstaben sein. |
TagScoringParameters
Stellt Parameterwerte für eine Tagbewertungsfunktion bereit.
Name | Typ | Beschreibung |
---|---|---|
tagsParameter |
string |
Der Name des in Suchabfragen übergebenen Parameters, um die Liste der Tags anzugeben, die mit dem Zielfeld verglichen werden sollen. |
TextWeights
Definiert Gewichtungen für Indexfelder, für die Übereinstimmungen die Bewertung in Suchabfragen erhöhen sollen.
Name | Typ | Beschreibung |
---|---|---|
weights |
object |
Das Wörterbuch der Gewichtungen pro Feld, um die Dokumentbewertung zu erhöhen. Die Schlüssel sind Feldnamen, und die Werte sind die Gewichtungen für jedes Feld. |
TokenCharacterKind
Stellt Zeichenklassen dar, für die ein Tokenfilter ausgeführt werden kann.
Name | Typ | Beschreibung |
---|---|---|
digit |
string |
Behält Ziffern in Token bei. |
letter |
string |
Behält Buchstaben in Token bei. |
punctuation |
string |
Interpunktionszeichen werden in Token beibehalten. |
symbol |
string |
Behält Symbole in Token bei. |
whitespace |
string |
Behält Leerzeichen in Token bei. |
TokenFilterName
Definiert die Namen aller Tokenfilter, die von der Suchmaschine unterstützt werden.
Name | Typ | Beschreibung |
---|---|---|
apostrophe |
string |
Entfernt alle Zeichen nach einem Apostroph (einschließlich des Apostrophs selbst). Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/tr/ApostropheFilter.html |
arabic_normalization |
string |
Ein Tokenfilter, der den arabischen Normalisierer anwendet, um die Orthografie zu normalisieren. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ar/ArabicNormalizationFilter.html |
asciifolding |
string |
Konvertiert alphabetische, numerische und symbolische Unicode-Zeichen, die sich nicht in den ersten 127 ASCII-Zeichen (dem Unicode-Block "Basic Latin") befinden, in ihre ASCII-Entsprechungen, wenn solche Entsprechungen vorhanden sind. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html |
cjk_bigram |
string |
Bildet Bigrams von CJK-Ausdrücken, die aus dem Standardtokenizer generiert werden. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKBigramFilter.html |
cjk_width |
string |
Normalisiert Unterschiede bei der CJK-Breite. Faltet Fullwidth ASCII-Varianten in die entsprechenden grundlegenden lateinischen und halbbreiten Katakana-Varianten in die entsprechende Kana. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKWidthFilter.html |
classic |
string |
Entfernt englische Possessive und Punkte von Akronyme. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicFilter.html |
common_grams |
string |
Erstellen Sie Bigrams für häufig vorkommende Ausdrücke während der Indizierung. Einzelne Begriffe sind auch weiterhin indiziert, wobei Bigrams überlagert sind. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/commongrams/CommonGramsFilter.html |
edgeNGram_v2 |
string |
Generiert n Gramm der angegebenen Größe(n) beginnend von vorne oder hinten eines Eingabetokens. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenFilter.html |
elision |
string |
Entfernt Elisionen. Beispielsweise wird "l'avion" (die Ebene) in "avion" (Ebene) konvertiert. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html |
german_normalization |
string |
Normalisiert deutsche Charaktere nach den Heuristiken des deutschen Schneeballalgorithmus. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/de/GermanNormalizationFilter.html |
hindi_normalization |
string |
Normalisiert Text in Hindi, um einige Unterschiede bei rechtschreibvarianten zu entfernen. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/hi/HindiNormalizationFilter.html |
indic_normalization |
string |
Normalisiert die Unicode-Darstellung von Text in indischen Sprachen. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/in/IndicNormalizationFilter.html |
keyword_repeat |
string |
Gibt jedes eingehende Token zweimal aus, einmal als Schlüsselwort und einmal als Nicht-Schlüsselwort. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/KeywordRepeatFilter.html |
kstem |
string |
Ein hochleistungsbasierter Kstemfilter für Englisch. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/en/KStemFilter.html |
length |
string |
Entfernt Wörter, die zu lang oder zu kurz sind. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LengthFilter.html |
limit |
string |
Beschränkt die Anzahl der Token während der Indizierung. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LimitTokenCountFilter.html |
lowercase |
string |
Normalisiert Tokentext in Kleinbuchstaben. Siehe https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html |
nGram_v2 |
string |
Generiert n Gramm der angegebenen Größe(n). Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenFilter.html |
persian_normalization |
string |
Wendet normalisierung für Persisch an. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/fa/PersianNormalizationFilter.html |
phonetic |
string |
Erstellen Sie Token für phonetische Übereinstimmungen. Siehe https://lucene.apache.org/core/4_10_3/analyzers-phonetic/org/apache/lucene/analysis/phonetic/package-tree.html |
porter_stem |
string |
Verwendet den Porterstammalgorithmus, um den Tokendatenstrom zu transformieren. Siehe http://tartarus.org/~martin/PorterStemmer |
reverse |
string |
Kehrt die Tokenzeichenfolge um. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html |
scandinavian_folding |
string |
Faltet skandinavische Charaktere åÅäæÄÆ->a und öÖøØ->o. Es diskriminiert auch gegen die Verwendung von doppelten Vokalen aa, ae, ao, oe und oo, wobei nur der erste weggelassen wird. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianFoldingFilter.html |
scandinavian_normalization |
string |
Normalisiert die Verwendung der austauschbaren skandinavischen Charaktere. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianNormalizationFilter.html |
shingle |
string |
Erstellt Kombinationen von Token als einzelnes Token. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/shingle/ShingleFilter.html |
snowball |
string |
Ein Filter, der Wörter mit einem snowball-generierten Stammer abstammt. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/snowball/SnowballFilter.html |
sorani_normalization |
string |
Normalisiert die Unicode-Darstellung von Sorani-Text. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ckb/SoraniNormalizationFilter.html |
stemmer |
string |
Sprachspezifischer Wortstammfilter. Siehe https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#TokenFilters |
stopwords |
string |
Entfernt Stoppwörter aus einem Tokendatenstrom. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html |
trim |
string |
Kürzet führende und nachfolgende Leerzeichen von Token. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TrimFilter.html |
truncate |
string |
Schneidet die Begriffe auf eine bestimmte Länge ab. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TruncateTokenFilter.html |
unique |
string |
Filtert Token mit demselben Text wie das vorherige Token aus. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/RemoveDuplicatesTokenFilter.html |
uppercase |
string |
Normalisiert Tokentext in Großbuchstaben. Siehe https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html |
word_delimiter |
string |
Teilt Wörter in Unterwörter auf und führt optionale Transformationen für Unterwortgruppen aus. |
TruncateTokenFilter
Schneidet die Begriffe auf eine bestimmte Länge ab. Dieser Tokenfilter wird mit Apache Lucene implementiert.
Name | Typ | Standardwert | Beschreibung |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Typ des Tokenfilters angibt. |
|
length |
integer |
300 |
Die Länge, in der Ausdrücke abgeschnitten werden. Der Standardwert und maximal 300. |
name |
string |
Der Name des Tokenfilters. Sie darf nur Buchstaben, Ziffern, Leerzeichen, Gedankenstriche oder Unterstriche enthalten, kann nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen beschränkt. |
UaxUrlEmailTokenizer
Tokenisiert URLs und E-Mails als ein Token. Dieser Tokenizer wird mit Apache Lucene implementiert.
Name | Typ | Standardwert | Beschreibung |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Tokenizertyp angibt. |
|
maxTokenLength |
integer |
255 |
Die maximale Tokenlänge. Der Standardwert ist 255. Token, die länger als die maximale Länge sind, werden geteilt. Die maximale Tokenlänge, die verwendet werden kann, beträgt 300 Zeichen. |
name |
string |
Der Name des Tokenizers. Sie darf nur Buchstaben, Ziffern, Leerzeichen, Gedankenstriche oder Unterstriche enthalten, kann nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen beschränkt. |
UniqueTokenFilter
Filtert Token mit demselben Text wie das vorherige Token aus. Dieser Tokenfilter wird mit Apache Lucene implementiert.
Name | Typ | Standardwert | Beschreibung |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Typ des Tokenfilters angibt. |
|
name |
string |
Der Name des Tokenfilters. Sie darf nur Buchstaben, Ziffern, Leerzeichen, Gedankenstriche oder Unterstriche enthalten, kann nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen beschränkt. |
|
onlyOnSamePosition |
boolean |
False |
Ein Wert, der angibt, ob Duplikate nur an derselben Position entfernt werden sollen. Der Standardwert ist "false". |
VectorEncodingFormat
Das Codierungsformat für die Interpretation von Vektorfeldinhalten.
Name | Typ | Beschreibung |
---|---|---|
packedBit |
string |
Codierungsformat, das Bits darstellt, die in einen breiteren Datentyp verpackt sind. |
VectorSearch
Enthält Konfigurationsoptionen im Zusammenhang mit der Vektorsuche.
Name | Typ | Beschreibung |
---|---|---|
algorithms | VectorSearchAlgorithmConfiguration[]: |
Enthält konfigurationsspezifische Optionen für den Algorithmus, der während der Indizierung oder Abfrage verwendet wird. |
compressions | VectorSearchCompressionConfiguration[]: |
Enthält konfigurationsspezifische Optionen für die Komprimierungsmethode, die während der Indizierung oder Abfrage verwendet wird. |
profiles |
Definiert Kombinationen von Konfigurationen, die mit der Vektorsuche verwendet werden sollen. |
|
vectorizers | VectorSearchVectorizer[]: |
Enthält Konfigurationsoptionen zum Vektorisieren von Textvektorabfragen. |
VectorSearchAlgorithmKind
Der Algorithmus, der für die Indizierung und Abfrage verwendet wird.
Name | Typ | Beschreibung |
---|---|---|
exhaustiveKnn |
string |
Erschöpfende KNN-Algorithmus, der Brute-Force-Suche durchführt. |
hnsw |
string |
HNSW (Hierarchische Navigable Small World), eine Art ungefährer Nachbaralgorithmus. |
VectorSearchAlgorithmMetric
Die Ähnlichkeitsmetrik, die für Vektorvergleiche verwendet werden soll. Es wird empfohlen, die gleiche Ähnlichkeitsmetrik auszuwählen, auf der das Einbettungsmodell trainiert wurde.
Name | Typ | Beschreibung |
---|---|---|
cosine |
string |
Misst den Winkel zwischen Vektoren, um ihre Ähnlichkeit zu quantifizieren, wobei die Größe ignoriert wird. Je kleiner der Winkel, desto näher die Ähnlichkeit. |
dotProduct |
string |
Berechnet die Summe der elementeweisen Produkte, um die Ausrichtung und Größengleichheit zu messen. Je größer und positiver, desto näher die Ähnlichkeit. |
euclidean |
string |
Berechnet den geraden Abstand zwischen Vektoren in einem mehrdimensionalen Raum. Je kleiner der Abstand, desto näher die Ähnlichkeit. |
hamming |
string |
Gilt nur für bitgepackte Binärdatentypen. Bestimmt unterschiedliche Zugehörigkeit, indem unterschiedliche Positionen in binären Vektoren gezählt werden. Je weniger Unterschiede, desto näher die Ähnlichkeit. |
VectorSearchCompressionKind
Die Komprimierungsmethode, die für die Indizierung und Abfrage verwendet wird.
Name | Typ | Beschreibung |
---|---|---|
binaryQuantization |
string |
Binary Quantization, eine Art von Komprimierungsmethode. In der binären Quantisierung werden die ursprünglichen Vektorwerte durch Diskretizing und Darstellung der einzelnen Komponenten eines Vektors mithilfe von Binärwerten auf den schmaleren Binärtyp komprimiert, wodurch die Gesamtdatengröße reduziert wird. |
scalarQuantization |
string |
Skalare Quantisierung, eine Art von Komprimierungsmethode. In der skalaren Quantisierung werden die ursprünglichen Vektorwerte in einen schmaleren Typ komprimiert, indem jede Komponente eines Vektors mithilfe eines reduzierten Satzes quantisierter Werte diskretiert und dargestellt wird, wodurch die Gesamtdatengröße reduziert wird. |
VectorSearchCompressionTargetDataType
Der quantisierte Datentyp komprimierter Vektorwerte.
Name | Typ | Beschreibung |
---|---|---|
int8 |
string |
VectorSearchProfile
Definiert eine Kombination von Konfigurationen, die mit der Vektorsuche verwendet werden sollen.
Name | Typ | Beschreibung |
---|---|---|
algorithm |
string |
Der Name der Konfiguration des Vektorsuchalgorithmus, die den Algorithmus und optionale Parameter angibt. |
compression |
string |
Der Name der Komprimierungsmethodekonfiguration, die die Komprimierungsmethode und optionale Parameter angibt. |
name |
string |
Der Name, der diesem bestimmten Vektorsuchprofil zugeordnet werden soll. |
vectorizer |
string |
Der Name der Vektorisierung, die für die Verwendung mit der Vektorsuche konfiguriert wird. |
VectorSearchVectorizerKind
Die Vektorisierungsmethode, die während der Abfragezeit verwendet werden soll.
Name | Typ | Beschreibung |
---|---|---|
azureOpenAI |
string |
Generieren Sie Einbettungen mithilfe einer Azure OpenAI-Ressource zur Abfragezeit. |
customWebApi |
string |
Generieren Sie Einbettungen mithilfe eines benutzerdefinierten Webendpunkts zur Abfragezeit. |
WebApiParameters
Gibt die Eigenschaften für die Verbindung mit einem benutzerdefinierten Vektorizer an.
Name | Typ | Beschreibung |
---|---|---|
authIdentity | SearchIndexerDataIdentity: |
Die vom Benutzer zugewiesene verwaltete Identität, die für ausgehende Verbindungen verwendet wird. Wenn eine authResourceId bereitgestellt und nicht angegeben wird, wird die vom System zugewiesene verwaltete Identität verwendet. Bei Aktualisierungen des Indexers bleibt der Wert unverändert, wenn die Identität nicht angegeben ist. Wenn dieser Wert auf "none" festgelegt ist, wird der Wert dieser Eigenschaft gelöscht. |
authResourceId |
string |
Gilt für benutzerdefinierte Endpunkte, die eine Verbindung mit externem Code in einer Azure-Funktion oder einer anderen Anwendung herstellen, die die Transformationen bereitstellt. Dieser Wert sollte die Anwendungs-ID sein, die für die Funktion oder App erstellt wurde, als sie bei Azure Active Directory registriert wurde. Wenn angegeben, stellt die Vektorisierung eine Verbindung mit der Funktion oder App mithilfe einer verwalteten ID (entweder system oder vom Benutzer zugewiesen) des Suchdiensts und des Zugriffstokens der Funktion oder App mithilfe dieses Werts als Ressourcen-ID zum Erstellen des Bereichs des Zugriffstokens hergestellt. |
httpHeaders |
object |
Die Header, die zum Erstellen der HTTP-Anforderung erforderlich sind. |
httpMethod |
string |
Die Methode für die HTTP-Anforderung. |
timeout |
string |
Das gewünschte Timeout für die Anforderung. Der Standardwert ist 30 Sekunden. |
uri |
string |
Der URI der Web-API, der den Vektorizer bereitstellt. |
WebApiVectorizer
Gibt einen benutzerdefinierten Vektorizer zum Generieren des Vektoreinbettungs einer Abfragezeichenfolge an. Die Integration eines externen Vektorizers erfolgt mithilfe der benutzerdefinierten Web-API-Schnittstelle eines Skillsets.
Name | Typ | Beschreibung |
---|---|---|
customWebApiParameters |
Gibt die Eigenschaften des benutzerdefinierten Vektorizers an. |
|
kind |
string:
custom |
Der Name der Art der Vektorisierungsmethode, die für die Verwendung mit der Vektorsuche konfiguriert wird. |
name |
string |
Der Name, der dieser bestimmten Vektorisierungsmethode zugeordnet werden soll. |
WordDelimiterTokenFilter
Teilt Wörter in Unterwörter auf und führt optionale Transformationen für Unterwortgruppen aus. Dieser Tokenfilter wird mit Apache Lucene implementiert.
Name | Typ | Standardwert | Beschreibung |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Ein URI-Fragment, das den Typ des Tokenfilters angibt. |
|
catenateAll |
boolean |
False |
Ein Wert, der angibt, ob alle Teilwortteile kategorisiert werden. Wenn dies beispielsweise auf "true" festgelegt ist, wird "Azure-Search-1" zu "AzureSearch1". Der Standardwert ist "false". |
catenateNumbers |
boolean |
False |
Ein Wert, der angibt, ob die maximale Anzahl von Teilen kategorisiert wird. Wenn dies beispielsweise auf "true" festgelegt ist, wird "1-2" zu "12". Der Standardwert ist "false". |
catenateWords |
boolean |
False |
Ein Wert, der angibt, ob die maximale Anzahl von Wortteilen kategorisiert wird. Wenn dies beispielsweise auf "true" festgelegt ist, wird "Azure-Search" zu "AzureSearch". Der Standardwert ist "false". |
generateNumberParts |
boolean |
True |
Ein Wert, der angibt, ob Zahlenunterwörter generiert werden sollen. Der Standardwert ist true. |
generateWordParts |
boolean |
True |
Ein Wert, der angibt, ob Teilewörter generiert werden sollen. Wenn festgelegt, werden Teile von Wörtern generiert; Beispielsweise wird "AzureSearch" zu "Azure" "Suche". Der Standardwert ist true. |
name |
string |
Der Name des Tokenfilters. Sie darf nur Buchstaben, Ziffern, Leerzeichen, Gedankenstriche oder Unterstriche enthalten, kann nur mit alphanumerischen Zeichen beginnen und enden und ist auf 128 Zeichen beschränkt. |
|
preserveOriginal |
boolean |
False |
Ein Wert, der angibt, ob ursprüngliche Wörter beibehalten und der Unterwortliste hinzugefügt werden. Der Standardwert ist "false". |
protectedWords |
string[] |
Eine Liste der Token, die vor Trennzeichen geschützt werden sollen. |
|
splitOnCaseChange |
boolean |
True |
Ein Wert, der angibt, ob Wörter in caseChange geteilt werden sollen. Wenn dies beispielsweise auf "true" festgelegt ist, wird "AzureSearch" zu "Azure" "Search". Der Standardwert ist true. |
splitOnNumerics |
boolean |
True |
Ein Wert, der angibt, ob Zahlen aufgeteilt werden sollen. Wenn dies beispielsweise auf "true" festgelegt ist, wird "Azure1Search" zu "Azure" "1" "Search". Der Standardwert ist true. |
stemEnglishPossessive |
boolean |
True |
Ein Wert, der angibt, ob nachfolgende "'s" für jedes Unterwort entfernt werden sollen. Der Standardwert ist true. |