Indexes - Create Or Update
Membuat indeks pencarian baru atau memperbarui indeks jika sudah ada.
PUT {endpoint}/indexes('{indexName}')?api-version=2023-11-01
PUT {endpoint}/indexes('{indexName}')?allowIndexDowntime={allowIndexDowntime}&api-version=2023-11-01
Parameter URI
Nama | Dalam | Diperlukan | Jenis | Deskripsi |
---|---|---|---|---|
endpoint
|
path | True |
string |
URL titik akhir layanan pencarian. |
index
|
path | True |
string |
Definisi indeks yang akan dibuat atau diperbarui. |
api-version
|
query | True |
string |
Versi Api Klien. |
allow
|
query |
boolean |
Memungkinkan penganalisis, tokenizer, filter token, atau filter karakter baru ditambahkan ke indeks dengan membuat indeks offline setidaknya selama beberapa detik. Ini untuk sementara menyebabkan pengindeksan dan permintaan kueri gagal. Ketersediaan performa dan tulis indeks dapat terganggu selama beberapa menit setelah indeks diperbarui, atau lebih lama untuk indeks yang sangat besar. |
Header Permintaan
Nama | Diperlukan | Jenis | Deskripsi |
---|---|---|---|
x-ms-client-request-id |
string uuid |
ID pelacakan yang dikirim dengan permintaan untuk membantu penelusuran kesalahan. |
|
If-Match |
string |
Menentukan kondisi If-Match. Operasi akan dilakukan hanya jika ETag pada server cocok dengan nilai ini. |
|
If-None-Match |
string |
Menentukan kondisi If-None-Match. Operasi akan dilakukan hanya jika ETag pada server tidak cocok dengan nilai ini. |
|
Prefer | True |
string |
Untuk permintaan HTTP PUT, menginstruksikan layanan untuk mengembalikan sumber daya yang dibuat/diperbarui saat berhasil. |
Isi Permintaan
Nama | Diperlukan | Jenis | Deskripsi |
---|---|---|---|
fields | True |
Bidang indeks. |
|
name | True |
string |
Nama indeks. |
@odata.etag |
string |
ETag indeks. |
|
analyzers | LexicalAnalyzer[]: |
Penganalisis untuk indeks. |
|
charFilters | CharFilter[]: |
Filter karakter untuk indeks. |
|
corsOptions |
Opsi untuk mengontrol Berbagi Sumber Daya Lintas Asal (CORS) untuk indeks. |
||
defaultScoringProfile |
string |
Nama profil penilaian yang akan digunakan jika tidak ada yang ditentukan dalam kueri. Jika properti ini tidak diatur dan tidak ada profil penilaian yang ditentukan dalam kueri, maka penilaian default (tf-idf) akan digunakan. |
|
encryptionKey |
Deskripsi kunci enkripsi yang Anda buat di Azure Key Vault. Kunci ini digunakan untuk menyediakan tingkat enkripsi tambahan saat tidak aktif untuk data Anda ketika Anda menginginkan jaminan penuh bahwa tidak ada seorang pun, bahkan Microsoft, yang dapat mendekripsi data Anda. Setelah Anda mengenkripsi data Anda, data tersebut akan selalu tetap dienkripsi. Layanan pencarian akan mengabaikan upaya untuk menyetel properti ini ke null. Anda dapat mengubah properti ini sesuai kebutuhan jika Anda ingin memutar kunci enkripsi Anda; Data Anda tidak akan terpengaruh. Enkripsi dengan kunci yang dikelola pelanggan tidak tersedia untuk layanan pencarian gratis, dan hanya tersedia untuk layanan berbayar yang dibuat pada atau setelah 1 Januari 2019. |
||
scoringProfiles |
Profil penilaian untuk indeks. |
||
semantic |
Menentukan parameter untuk indeks pencarian yang memengaruhi kemampuan semantik. |
||
similarity | Similarity: |
Jenis algoritma kesamaan yang akan digunakan saat menilai dan memberi peringkat dokumen yang cocok dengan kueri pencarian. Algoritma kesamaan hanya dapat ditentukan pada waktu pembuatan indeks dan tidak dapat dimodifikasi pada indeks yang ada. Jika null, algoritma ClassicSimilarity digunakan. |
|
suggesters |
Pemberi saran untuk indeks. |
||
tokenFilters |
TokenFilter[]:
|
Filter token untuk indeks. |
|
tokenizers | LexicalTokenizer[]: |
Tokenizer untuk indeks. |
|
vectorSearch |
Berisi opsi konfigurasi yang terkait dengan pencarian vektor. |
Respons
Nama | Jenis | Deskripsi |
---|---|---|
200 OK | ||
201 Created | ||
Other Status Codes |
Respons kesalahan. |
Contoh
SearchServiceCreateOrUpdateIndex
Permintaan sampel
PUT https://myservice.search.windows.net/indexes('hotels')?allowIndexDowntime=False&api-version=2023-11-01
{
"name": "hotels",
"fields": [
{
"name": "hotelId",
"type": "Edm.String",
"key": true,
"searchable": false
},
{
"name": "baseRate",
"type": "Edm.Double"
},
{
"name": "description",
"type": "Edm.String",
"filterable": false,
"sortable": false,
"facetable": false
},
{
"name": "descriptionEmbedding",
"type": "Collection(Edm.Single)",
"dimensions": 1536,
"vectorSearchProfile": "myHnswProfile",
"searchable": true,
"retrievable": true
},
{
"name": "description_fr",
"type": "Edm.String",
"filterable": false,
"sortable": false,
"facetable": false,
"analyzer": "fr.lucene"
},
{
"name": "hotelName",
"type": "Edm.String"
},
{
"name": "category",
"type": "Edm.String"
},
{
"name": "tags",
"type": "Collection(Edm.String)",
"analyzer": "tagsAnalyzer"
},
{
"name": "parkingIncluded",
"type": "Edm.Boolean"
},
{
"name": "smokingAllowed",
"type": "Edm.Boolean"
},
{
"name": "lastRenovationDate",
"type": "Edm.DateTimeOffset"
},
{
"name": "rating",
"type": "Edm.Int32"
},
{
"name": "location",
"type": "Edm.GeographyPoint"
}
],
"scoringProfiles": [
{
"name": "geo",
"text": {
"weights": {
"hotelName": 5
}
},
"functions": [
{
"type": "distance",
"boost": 5,
"fieldName": "location",
"interpolation": "logarithmic",
"distance": {
"referencePointParameter": "currentLocation",
"boostingDistance": 10
}
}
]
}
],
"defaultScoringProfile": "geo",
"suggesters": [
{
"name": "sg",
"searchMode": "analyzingInfixMatching",
"sourceFields": [
"hotelName"
]
}
],
"analyzers": [
{
"name": "tagsAnalyzer",
"@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
"charFilters": [
"html_strip"
],
"tokenizer": "standard_v2"
}
],
"corsOptions": {
"allowedOrigins": [
"tempuri.org"
],
"maxAgeInSeconds": 60
},
"encryptionKey": {
"keyVaultKeyName": "myUserManagedEncryptionKey-createdinAzureKeyVault",
"keyVaultKeyVersion": "myKeyVersion-32charAlphaNumericString",
"keyVaultUri": "https://myKeyVault.vault.azure.net",
"accessCredentials": null
},
"similarity": {
"@odata.type": "#Microsoft.Azure.Search.ClassicSimilarity"
},
"semantic": {
"configurations": [
{
"name": "semanticHotels",
"prioritizedFields": {
"titleField": {
"fieldName": "hotelName"
},
"prioritizedContentFields": [
{
"fieldName": "description"
},
{
"fieldName": "description_fr"
}
],
"prioritizedKeywordsFields": [
{
"fieldName": "tags"
},
{
"fieldName": "category"
}
]
}
}
]
},
"vectorSearch": {
"profiles": [
{
"name": "myHnswProfile",
"algorithm": "myHnsw"
},
{
"name": "myAlgorithm",
"algorithm": "myExhaustive"
}
],
"algorithms": [
{
"name": "myHnsw",
"kind": "hnsw",
"hnswParameters": {
"m": 4,
"metric": "cosine"
}
},
{
"name": "myExhaustive",
"kind": "exhaustiveKnn",
"exhaustiveKnnParameters": {
"metric": "cosine"
}
}
]
}
}
Respon sampel
{
"name": "hotels",
"fields": [
{
"name": "hotelId",
"type": "Edm.String",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": true,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "baseRate",
"type": "Edm.Double",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "description",
"type": "Edm.String",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "descriptionEmbedding",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": 1536,
"vectorSearchProfile": "myHnswProfile",
"synonymMaps": []
},
{
"name": "description_fr",
"type": "Edm.String",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": "fr.lucene",
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "hotelName",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "category",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "tags",
"type": "Collection(Edm.String)",
"searchable": true,
"filterable": true,
"retrievable": true,
"sortable": false,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": "tagsAnalyzer",
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "parkingIncluded",
"type": "Edm.Boolean",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "smokingAllowed",
"type": "Edm.Boolean",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "lastRenovationDate",
"type": "Edm.DateTimeOffset",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "rating",
"type": "Edm.Int32",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "location",
"type": "Edm.GeographyPoint",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
}
],
"scoringProfiles": [
{
"name": "geo",
"functionAggregation": "sum",
"text": {
"weights": {
"hotelName": 5
}
},
"functions": [
{
"type": "distance",
"boost": 5,
"fieldName": "location",
"interpolation": "logarithmic",
"distance": {
"referencePointParameter": "currentLocation",
"boostingDistance": 10
}
}
]
}
],
"defaultScoringProfile": "geo",
"suggesters": [
{
"name": "sg",
"searchMode": "analyzingInfixMatching",
"sourceFields": [
"hotelName"
]
}
],
"analyzers": [
{
"name": "tagsAnalyzer",
"@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
"charFilters": [
"html_strip"
],
"tokenizer": "standard_v2"
}
],
"tokenizers": [],
"tokenFilters": [],
"charFilters": [],
"corsOptions": {
"allowedOrigins": [
"tempuri.org"
],
"maxAgeInSeconds": 60
},
"encryptionKey": {
"keyVaultKeyName": "myUserManagedEncryptionKey-createdinAzureKeyVault",
"keyVaultKeyVersion": "myKeyVersion-32charAlphaNumericString",
"keyVaultUri": "https://myKeyVault.vault.azure.net",
"accessCredentials": null
},
"similarity": {
"@odata.type": "#Microsoft.Azure.Search.ClassicSimilarity"
},
"semantic": {
"configurations": [
{
"name": "semanticHotels",
"prioritizedFields": {
"titleField": {
"fieldName": "hotelName"
},
"prioritizedContentFields": [
{
"fieldName": "description"
},
{
"fieldName": "description_fr"
}
],
"prioritizedKeywordsFields": [
{
"fieldName": "tags"
},
{
"fieldName": "category"
}
]
}
}
]
},
"vectorSearch": {
"algorithms": [
{
"name": "myHnsw",
"kind": "hnsw",
"hnswParameters": {
"metric": "cosine",
"m": 4,
"efConstruction": 400,
"efSearch": 500
}
},
{
"name": "myExhaustive",
"kind": "exhaustiveKnn",
"exhaustiveKnnParameters": {
"metric": "cosine"
}
}
],
"profiles": [
{
"name": "myHnswProfile",
"algorithm": "myHnsw"
},
{
"name": "myAlgorithm",
"algorithm": "myExhaustive"
}
]
}
}
{
"name": "hotels",
"fields": [
{
"name": "hotelId",
"type": "Edm.String",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": true,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "baseRate",
"type": "Edm.Double",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "description",
"type": "Edm.String",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "descriptionEmbedding",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": 1536,
"vectorSearchProfile": "myHnswProfile",
"synonymMaps": []
},
{
"name": "description_fr",
"type": "Edm.String",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": "fr.lucene",
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "hotelName",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "category",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "tags",
"type": "Collection(Edm.String)",
"searchable": true,
"filterable": true,
"retrievable": true,
"sortable": false,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": "tagsAnalyzer",
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "parkingIncluded",
"type": "Edm.Boolean",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "smokingAllowed",
"type": "Edm.Boolean",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "lastRenovationDate",
"type": "Edm.DateTimeOffset",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "rating",
"type": "Edm.Int32",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "location",
"type": "Edm.GeographyPoint",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
}
],
"scoringProfiles": [
{
"name": "geo",
"functionAggregation": "sum",
"text": {
"weights": {
"hotelName": 5
}
},
"functions": [
{
"type": "distance",
"boost": 5,
"fieldName": "location",
"interpolation": "logarithmic",
"distance": {
"referencePointParameter": "currentLocation",
"boostingDistance": 10
}
}
]
}
],
"defaultScoringProfile": "geo",
"suggesters": [
{
"name": "sg",
"searchMode": "analyzingInfixMatching",
"sourceFields": [
"hotelName"
]
}
],
"analyzers": [
{
"name": "tagsAnalyzer",
"@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
"charFilters": [
"html_strip"
],
"tokenizer": "standard_v2"
}
],
"tokenizers": [],
"tokenFilters": [],
"charFilters": [],
"corsOptions": {
"allowedOrigins": [
"tempuri.org"
],
"maxAgeInSeconds": 60
},
"encryptionKey": {
"keyVaultKeyName": "myUserManagedEncryptionKey-createdinAzureKeyVault",
"keyVaultKeyVersion": "myKeyVersion-32charAlphaNumericString",
"keyVaultUri": "https://myKeyVault.vault.azure.net",
"accessCredentials": null
},
"semantic": {
"configurations": [
{
"name": "semanticHotels",
"prioritizedFields": {
"titleField": {
"fieldName": "hotelName"
},
"prioritizedContentFields": [
{
"fieldName": "description"
},
{
"fieldName": "description_fr"
}
],
"prioritizedKeywordsFields": [
{
"fieldName": "tags"
},
{
"fieldName": "category"
}
]
}
}
]
},
"vectorSearch": {
"algorithms": [
{
"name": "myHnsw",
"kind": "hnsw",
"hnswParameters": {
"metric": "cosine",
"m": 4,
"efConstruction": 400,
"efSearch": 500
}
},
{
"name": "myExhaustive",
"kind": "exhaustiveKnn",
"exhaustiveKnnParameters": {
"metric": "cosine"
}
}
],
"profiles": [
{
"name": "myHnswProfile",
"algorithm": "myHnsw"
},
{
"name": "myAlgorithm",
"algorithm": "myExhaustive"
}
]
}
}
Definisi
Nama | Deskripsi |
---|---|
Ascii |
Mengonversi karakter Unicode alfabet, numerik, dan simbolis yang tidak berada dalam 127 karakter ASCII pertama (blok Unicode "Latin Dasar") ke dalam setara ASCII mereka, jika setara tersebut ada. Filter token ini diimplementasikan menggunakan Apache Lucene. |
Azure |
Kredensial aplikasi terdaftar yang dibuat untuk layanan pencarian Anda, digunakan untuk akses terautentikasi ke kunci enkripsi yang disimpan di Azure Key Vault. |
BM25Similarity |
Fungsi peringkat berdasarkan algoritma kesamaan Okapi BM25. BM25 adalah algoritma seperti TF-IDF yang mencakup normalisasi panjang (dikendalikan oleh parameter 'b') serta saturasi frekuensi istilah (dikendalikan oleh parameter 'k1'). |
Char |
Menentukan nama semua filter karakter yang didukung oleh mesin pencari. |
Cjk |
Membentuk bigram istilah CJK yang dihasilkan dari tokenizer standar. Filter token ini diimplementasikan menggunakan Apache Lucene. |
Cjk |
Skrip yang dapat diabaikan oleh CjkBigramTokenFilter. |
Classic |
Algoritma kesamaan warisan yang menggunakan implementasi Lucene TFIDFSimilarity dari TF-IDF. Variasi TF-IDF ini memperkenalkan normalisasi panjang dokumen statis serta faktor koordinasi yang mengharuskan dokumen yang hanya sebagian cocok dengan kueri yang dicari. |
Classic |
Tokenizer berbasis tata bahasa yang cocok untuk memproses sebagian besar dokumen berbahasa Eropa. Tokenizer ini diimplementasikan menggunakan Apache Lucene. |
Common |
Membuat bigram untuk istilah yang sering muncul saat mengindeks. Istilah tunggal juga masih diindeks, dengan bigram berlapis. Filter token ini diimplementasikan menggunakan Apache Lucene. |
Cors |
Menentukan opsi untuk mengontrol Berbagi Sumber Daya Lintas Asal (CORS) untuk indeks. |
Custom |
Memungkinkan Anda untuk mengambil kendali atas proses konversi teks menjadi token yang dapat diindeks/dicari. Ini adalah konfigurasi yang ditentukan pengguna yang terdiri dari satu tokenizer yang telah ditentukan dan satu atau beberapa filter. Tokenizer bertanggung jawab untuk memecah teks menjadi token, dan filter untuk memodifikasi token yang dipancarkan oleh tokenizer. |
Dictionary |
Menguraikan kata majemuk yang ditemukan dalam banyak bahasa Jermanik. Filter token ini diimplementasikan menggunakan Apache Lucene. |
Distance |
Menentukan fungsi yang meningkatkan skor berdasarkan jarak dari lokasi geografis. |
Distance |
Menyediakan nilai parameter ke fungsi penilaian jarak. |
Edge |
Menghasilkan n-gram dari ukuran yang diberikan mulai dari depan atau belakang token input. Filter token ini diimplementasikan menggunakan Apache Lucene. |
Edge |
Menentukan sisi input mana yang harus dihasilkan oleh n-gram. |
Edge |
Menghasilkan n-gram dari ukuran yang diberikan mulai dari depan atau belakang token input. Filter token ini diimplementasikan menggunakan Apache Lucene. |
Edge |
Tokenisasi input dari tepi ke dalam n-gram dari ukuran yang diberikan. Tokenizer ini diimplementasikan menggunakan Apache Lucene. |
Elision |
Menghilangkan elision. Misalnya, "l'avion" (bidang) akan dikonversi menjadi "avion" (bidang). Filter token ini diimplementasikan menggunakan Apache Lucene. |
Exhaustive |
Berisi parameter khusus untuk algoritma KNN lengkap. |
Exhaustive |
Berisi opsi konfigurasi khusus untuk algoritma KNN lengkap yang digunakan selama kueri, yang akan melakukan pencarian brute-force di seluruh indeks vektor. |
Freshness |
Menentukan fungsi yang meningkatkan skor berdasarkan nilai bidang tanggal-waktu. |
Freshness |
Menyediakan nilai parameter untuk fungsi penilaian kesegaran. |
Hnsw |
Berisi parameter khusus untuk algoritma HNSW. |
Hnsw |
Berisi opsi konfigurasi khusus untuk algoritma tetangga terdekat HNSW yang digunakan selama pengindeksan dan kueri. Algoritma HNSW menawarkan trade-off yang dapat disesuaikan antara kecepatan pencarian dan akurasi. |
Keep |
Filter token yang hanya menyimpan token dengan teks yang terkandung dalam daftar kata tertentu. Filter token ini diimplementasikan menggunakan Apache Lucene. |
Keyword |
Menandai istilah sebagai kata kunci. Filter token ini diimplementasikan menggunakan Apache Lucene. |
Keyword |
Mengirimkan seluruh input sebagai token tunggal. Tokenizer ini diimplementasikan menggunakan Apache Lucene. |
Keyword |
Mengirimkan seluruh input sebagai token tunggal. Tokenizer ini diimplementasikan menggunakan Apache Lucene. |
Length |
Menghapus kata-kata yang terlalu panjang atau terlalu pendek. Filter token ini diimplementasikan menggunakan Apache Lucene. |
Lexical |
Menentukan nama semua penganalisis teks yang didukung oleh mesin pencari. |
Lexical |
Menentukan nama semua tokenizer yang didukung oleh mesin pencari. |
Limit |
Membatasi jumlah token saat mengindeks. Filter token ini diimplementasikan menggunakan Apache Lucene. |
Lucene |
Penganalisis Apache Lucene standar; Terdiri dari tokenizer standar, filter huruf kecil, dan filter berhenti. |
Lucene |
Memecah teks mengikuti aturan Segmentasi Teks Unicode. Tokenizer ini diimplementasikan menggunakan Apache Lucene. |
Lucene |
Memecah teks mengikuti aturan Segmentasi Teks Unicode. Tokenizer ini diimplementasikan menggunakan Apache Lucene. |
Magnitude |
Menentukan fungsi yang meningkatkan skor berdasarkan besarnya bidang numerik. |
Magnitude |
Menyediakan nilai parameter ke fungsi penilaian besaran. |
Mapping |
Filter karakter yang menerapkan pemetaan yang ditentukan dengan opsi pemetaan. Pencocokan bersifat rakus (pola terpanjang yang cocok di titik tertentu menang). Penggantian diperbolehkan menjadi string kosong. Filter karakter ini diimplementasikan menggunakan Apache Lucene. |
Microsoft |
Membagi teks menggunakan aturan khusus bahasa dan mengurangi kata-kata ke bentuk dasarnya. |
Microsoft |
Membagi teks menggunakan aturan spesifik bahasa. |
Microsoft |
Lists bahasa yang didukung oleh tokenizer stemming bahasa Microsoft. |
Microsoft |
Lists bahasa yang didukung oleh tokenizer bahasa Microsoft. |
NGram |
Menghasilkan n-gram dengan ukuran yang diberikan. Filter token ini diimplementasikan menggunakan Apache Lucene. |
NGram |
Menghasilkan n-gram dengan ukuran yang diberikan. Filter token ini diimplementasikan menggunakan Apache Lucene. |
NGram |
Tokenisasi input menjadi n-gram dari ukuran yang diberikan. Tokenizer ini diimplementasikan menggunakan Apache Lucene. |
Path |
Tokenizer untuk hierarki seperti jalur. Tokenizer ini diimplementasikan menggunakan Apache Lucene. |
Pattern |
Secara fleksibel memisahkan teks menjadi istilah melalui pola ekspresi reguler. Penganalisis ini diimplementasikan menggunakan Apache Lucene. |
Pattern |
Menggunakan regex Java untuk memancarkan beberapa token - satu untuk setiap grup pengambilan dalam satu atau beberapa pola. Filter token ini diimplementasikan menggunakan Apache Lucene. |
Pattern |
Filter karakter yang menggantikan karakter dalam string input. Menggunakan ekspresi reguler untuk mengidentifikasi urutan karakter untuk dipertahankan dan pola pengganti untuk mengidentifikasi karakter untuk diganti. Misalnya, mengingat teks input "aa bb aa bb", pola "(aa)\s+(bb)", dan penggantian "$1#$2", hasilnya adalah "aa#bb aa#bb". Filter karakter ini diimplementasikan menggunakan Apache Lucene. |
Pattern |
Filter karakter yang menggantikan karakter dalam string input. Menggunakan ekspresi reguler untuk mengidentifikasi urutan karakter untuk dipertahankan dan pola pengganti untuk mengidentifikasi karakter untuk diganti. Misalnya, mengingat teks input "aa bb aa bb", pola "(aa)\s+(bb)", dan penggantian "$1#$2", hasilnya adalah "aa#bb aa#bb". Filter token ini diimplementasikan menggunakan Apache Lucene. |
Pattern |
Tokenizer yang menggunakan pencocokan pola regex untuk membangun token yang berbeda. Tokenizer ini diimplementasikan menggunakan Apache Lucene. |
Phonetic |
Mengidentifikasi jenis encoder fonetik untuk digunakan dengan PhoneticTokenFilter. |
Phonetic |
Membuat token untuk kecocokan fonetik. Filter token ini diimplementasikan menggunakan Apache Lucene. |
Prioritized |
Menjelaskan bidang judul, konten, dan kata kunci yang akan digunakan untuk peringkat, keterangan, sorotan, dan jawaban semantik. |
Regex |
Menentukan bendera yang dapat digabungkan untuk mengontrol bagaimana ekspresi reguler digunakan dalam penganalisis pola dan tokenizer pola. |
Scoring |
Menentukan fungsi agregasi yang digunakan untuk menggabungkan hasil semua fungsi penilaian dalam profil penilaian. |
Scoring |
Menentukan fungsi yang digunakan untuk menginterpolasi peningkatan skor di berbagai dokumen. |
Scoring |
Menentukan parameter untuk indeks pencarian yang memengaruhi penilaian dalam kueri pencarian. |
Search |
Menjelaskan kondisi kesalahan untuk API. |
Search |
Mewakili bidang dalam definisi indeks, yang menjelaskan nama, jenis data, dan perilaku pencarian bidang. |
Search |
Menentukan jenis data bidang dalam indeks pencarian. |
Search |
Mewakili definisi indeks pencarian, yang menjelaskan bidang dan perilaku pencarian indeks. |
Search |
Kunci enkripsi yang dikelola pelanggan di Azure Key Vault. Kunci yang Anda buat dan kelola dapat digunakan untuk mengenkripsi atau mendekripsi data tidak aktif di layanan pencarian Anda, seperti indeks dan peta sinonim. |
Semantic |
Menentukan konfigurasi tertentu yang akan digunakan dalam konteks kemampuan semantik. |
Semantic |
Bidang yang digunakan sebagai bagian dari konfigurasi semantik. |
Semantic |
Menentukan parameter untuk indeks pencarian yang memengaruhi kemampuan semantik. |
Shingle |
Membuat kombinasi token sebagai token tunggal. Filter token ini diimplementasikan menggunakan Apache Lucene. |
Snowball |
Filter yang membendung kata-kata menggunakan stemmer yang dihasilkan Snowball. Filter token ini diimplementasikan menggunakan Apache Lucene. |
Snowball |
Bahasa yang digunakan untuk filter token Snowball. |
Stemmer |
Menyediakan kemampuan untuk mengambil alih filter stemming lain dengan stemming berbasis kamus kustom. Istilah apa pun yang bertangkai kamus akan ditandai sebagai kata kunci sehingga tidak akan bertangkai dengan stemmer di bawah rantai. Harus ditempatkan sebelum filter stemming. Filter token ini diimplementasikan menggunakan Apache Lucene. |
Stemmer |
Filter stemming khusus bahasa. Filter token ini diimplementasikan menggunakan Apache Lucene. |
Stemmer |
Bahasa yang digunakan untuk filter token stemmer. |
Stop |
Membagi teks pada non-huruf; Menerapkan filter token huruf kecil dan stopword. Penganalisis ini diimplementasikan menggunakan Apache Lucene. |
Stopwords |
Mengidentifikasi daftar kata henti khusus bahasa yang telah ditentukan sebelumnya. |
Stopwords |
Menghapus kata-kata umum dari stream token. Filter token ini diimplementasikan menggunakan Apache Lucene. |
Suggester |
Menentukan bagaimana SUGGEST API harus berlaku untuk sekelompok bidang dalam indeks. |
Suggester |
Nilai yang menunjukkan kemampuan pemberi saran. |
Synonym |
Cocok dengan sinonim tunggal atau multi-kata dalam aliran token. Filter token ini diimplementasikan menggunakan Apache Lucene. |
Tag |
Menentukan fungsi yang meningkatkan skor dokumen dengan nilai string yang cocok dengan daftar tag tertentu. |
Tag |
Menyediakan nilai parameter ke fungsi penilaian tag. |
Text |
Menentukan bobot pada bidang indeks yang kecocokannya harus meningkatkan penilaian dalam kueri pencarian. |
Token |
Mewakili kelas karakter tempat filter token dapat beroperasi. |
Token |
Menentukan nama semua filter token yang didukung oleh mesin pencari. |
Truncate |
Memotong istilah ke panjang tertentu. Filter token ini diimplementasikan menggunakan Apache Lucene. |
Uax |
Tokenisasi url dan email sebagai satu token. Tokenizer ini diimplementasikan menggunakan Apache Lucene. |
Unique |
Memfilter token dengan teks yang sama dengan token sebelumnya. Filter token ini diimplementasikan menggunakan Apache Lucene. |
Vector |
Berisi opsi konfigurasi yang terkait dengan pencarian vektor. |
Vector |
Algoritma yang digunakan untuk pengindeksan dan kueri. |
Vector |
Metrik kesamaan yang digunakan untuk perbandingan vektor. |
Vector |
Menentukan kombinasi konfigurasi yang akan digunakan dengan pencarian vektor. |
Word |
Membagi kata menjadi subkata dan melakukan transformasi opsional pada grup subkata. Filter token ini diimplementasikan menggunakan Apache Lucene. |
AsciiFoldingTokenFilter
Mengonversi karakter Unicode alfabet, numerik, dan simbolis yang tidak berada dalam 127 karakter ASCII pertama (blok Unicode "Latin Dasar") ke dalam setara ASCII mereka, jika setara tersebut ada. Filter token ini diimplementasikan menggunakan Apache Lucene.
Nama | Jenis | Nilai default | Deskripsi |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis filter token. |
|
name |
string |
Nama filter token. Nama hanya boleh berisi huruf, digit, spasi, garis putus-putus, atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
|
preserveOriginal |
boolean |
False |
Nilai yang menunjukkan apakah token asli akan disimpan. Defaultnya adalah false. |
AzureActiveDirectoryApplicationCredentials
Kredensial aplikasi terdaftar yang dibuat untuk layanan pencarian Anda, digunakan untuk akses terautentikasi ke kunci enkripsi yang disimpan di Azure Key Vault.
Nama | Jenis | Deskripsi |
---|---|---|
applicationId |
string |
ID Aplikasi AAD yang diberikan izin akses yang diperlukan ke Key Vault Azure yang akan digunakan saat mengenkripsi data Anda saat tidak aktif. ID Aplikasi tidak boleh dikacaukan dengan ID Objek untuk Aplikasi AAD Anda. |
applicationSecret |
string |
Kunci autentikasi aplikasi AAD yang ditentukan. |
BM25Similarity
Fungsi peringkat berdasarkan algoritma kesamaan Okapi BM25. BM25 adalah algoritma seperti TF-IDF yang mencakup normalisasi panjang (dikendalikan oleh parameter 'b') serta saturasi frekuensi istilah (dikendalikan oleh parameter 'k1').
Nama | Jenis | Deskripsi |
---|---|---|
@odata.type |
string:
#Microsoft. |
|
b |
number |
Properti ini mengontrol bagaimana panjang dokumen memengaruhi skor relevansi. Secara default, nilai 0,75 digunakan. Nilai 0,0 berarti tidak ada normalisasi panjang yang diterapkan, sementara nilai 1,0 berarti skor sepenuhnya dinormalisasi dengan panjang dokumen. |
k1 |
number |
Properti ini mengontrol fungsi penskalaan antara frekuensi istilah setiap istilah yang cocok dan skor relevansi akhir dari pasangan kueri dokumen. Secara default, nilai 1.2 digunakan. Nilai 0,0 berarti skor tidak diskalakan dengan peningkatan frekuensi istilah. |
CharFilterName
Menentukan nama semua filter karakter yang didukung oleh mesin pencari.
Nama | Jenis | Deskripsi |
---|---|---|
html_strip |
string |
Filter karakter yang mencoba menghapus konstruksi HTML. Lihat https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html |
CjkBigramTokenFilter
Membentuk bigram istilah CJK yang dihasilkan dari tokenizer standar. Filter token ini diimplementasikan menggunakan Apache Lucene.
Nama | Jenis | Nilai default | Deskripsi |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis filter token. |
|
ignoreScripts |
Skrip yang akan diabaikan. |
||
name |
string |
Nama filter token. Nama hanya boleh berisi huruf, digit, spasi, garis putus-putus, atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
|
outputUnigrams |
boolean |
False |
Nilai yang menunjukkan apakah akan menghasilkan unigram dan bigram (jika benar), atau hanya bigram (jika salah). Defaultnya adalah false. |
CjkBigramTokenFilterScripts
Skrip yang dapat diabaikan oleh CjkBigramTokenFilter.
Nama | Jenis | Deskripsi |
---|---|---|
han |
string |
Abaikan skrip Han saat membentuk bigram istilah CJK. |
hangul |
string |
Abaikan skrip Hangul saat membentuk bigram istilah CJK. |
hiragana |
string |
Abaikan skrip Hiragana saat membentuk bigram istilah CJK. |
katakana |
string |
Abaikan skrip Katakana saat membentuk bigram istilah CJK. |
ClassicSimilarity
Algoritma kesamaan warisan yang menggunakan implementasi Lucene TFIDFSimilarity dari TF-IDF. Variasi TF-IDF ini memperkenalkan normalisasi panjang dokumen statis serta faktor koordinasi yang mengharuskan dokumen yang hanya sebagian cocok dengan kueri yang dicari.
Nama | Jenis | Deskripsi |
---|---|---|
@odata.type |
string:
#Microsoft. |
ClassicTokenizer
Tokenizer berbasis tata bahasa yang cocok untuk memproses sebagian besar dokumen berbahasa Eropa. Tokenizer ini diimplementasikan menggunakan Apache Lucene.
Nama | Jenis | Nilai default | Deskripsi |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis tokenizer. |
|
maxTokenLength |
integer |
255 |
Panjang token maksimum. Defaultnya adalah 255. Token yang lebih panjang dari panjang maksimum dipecah. Panjang token maksimum yang dapat digunakan adalah 300 karakter. |
name |
string |
Nama tokenizer. Nama hanya boleh berisi huruf, digit, spasi, garis putus-putus, atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
CommonGramTokenFilter
Membuat bigram untuk istilah yang sering muncul saat mengindeks. Istilah tunggal juga masih diindeks, dengan bigram berlapis. Filter token ini diimplementasikan menggunakan Apache Lucene.
Nama | Jenis | Nilai default | Deskripsi |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis filter token. |
|
commonWords |
string[] |
Kumpulan kata-kata umum. |
|
ignoreCase |
boolean |
False |
Nilai yang menunjukkan apakah pencocokan kata umum akan menjadi tidak peka huruf besar/kecil. Defaultnya adalah false. |
name |
string |
Nama filter token. Nama hanya boleh berisi huruf, digit, spasi, garis putus-putus, atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
|
queryMode |
boolean |
False |
Nilai yang menunjukkan apakah filter token berada dalam mode kueri. Saat dalam mode kueri, filter token menghasilkan bigram lalu menghapus kata-kata umum dan istilah tunggal diikuti dengan kata umum. Defaultnya adalah false. |
CorsOptions
Menentukan opsi untuk mengontrol Berbagi Sumber Daya Lintas Asal (CORS) untuk indeks.
Nama | Jenis | Deskripsi |
---|---|---|
allowedOrigins |
string[] |
Daftar asal kode JavaScript akan diberikan akses ke indeks Anda. Dapat berisi daftar host formulir {protocol}://{fully-qualified-domain-name}[:{port#}], atau satu |
maxAgeInSeconds |
integer |
Durasi browser mana yang harus men-cache respons preflight CORS. Default ke 5 menit. |
CustomAnalyzer
Memungkinkan Anda untuk mengambil kendali atas proses konversi teks menjadi token yang dapat diindeks/dicari. Ini adalah konfigurasi yang ditentukan pengguna yang terdiri dari satu tokenizer yang telah ditentukan dan satu atau beberapa filter. Tokenizer bertanggung jawab untuk memecah teks menjadi token, dan filter untuk memodifikasi token yang dipancarkan oleh tokenizer.
Nama | Jenis | Deskripsi |
---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis penganalisis. |
charFilters |
Daftar filter karakter yang digunakan untuk menyiapkan teks input sebelum diproses oleh tokenizer. Misalnya, mereka dapat menggantikan karakter atau simbol tertentu. Filter dijalankan dalam urutan di mana filter tersebut tercantum. |
|
name |
string |
Nama penganalisis. Nama hanya boleh berisi huruf, digit, spasi, garis putus-putus, atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
tokenFilters |
Daftar filter token yang digunakan untuk memfilter atau memodifikasi token yang dihasilkan oleh tokenizer. Misalnya, Anda dapat menetapkan filter huruf kecil yang mengonversi semua karakter menjadi huruf kecil. Filter dijalankan dalam urutan di mana filter tersebut tercantum. |
|
tokenizer |
Nama tokenizer yang digunakan untuk membagi teks berkelanjutan menjadi urutan token, seperti memecah kalimat menjadi kata-kata. |
DictionaryDecompounderTokenFilter
Menguraikan kata majemuk yang ditemukan dalam banyak bahasa Jermanik. Filter token ini diimplementasikan menggunakan Apache Lucene.
Nama | Jenis | Nilai default | Deskripsi |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis filter token. |
|
maxSubwordSize |
integer |
15 |
Ukuran subkata maksimum. Hanya subkata yang lebih pendek dari ini yang dihasilkan. Defaultnya adalah 15. Maksimum adalah 300. |
minSubwordSize |
integer |
2 |
Ukuran subkata minimum. Hanya subkata yang lebih panjang dari ini yang dihasilkan. Defaultnya adalah 2. Maksimum adalah 300. |
minWordSize |
integer |
5 |
Ukuran kata minimum. Hanya kata-kata yang lebih panjang dari ini yang diproses. Defaultnya adalah 5. Maksimum adalah 300. |
name |
string |
Nama filter token. Nama hanya boleh berisi huruf, digit, spasi, garis putus-putus, atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
|
onlyLongestMatch |
boolean |
False |
Nilai yang menunjukkan apakah hanya akan menambahkan subkata pencocokan terpanjang ke output. Defaultnya adalah false. |
wordList |
string[] |
Daftar kata yang akan dicocokkan. |
DistanceScoringFunction
Menentukan fungsi yang meningkatkan skor berdasarkan jarak dari lokasi geografis.
Nama | Jenis | Deskripsi |
---|---|---|
boost |
number |
Pengali untuk skor mentah. Harus berupa angka positif yang tidak sama dengan 1,0. |
distance |
Nilai parameter untuk fungsi penilaian jarak. |
|
fieldName |
string |
Nama bidang yang digunakan sebagai input ke fungsi penilaian. |
interpolation |
Nilai yang menunjukkan bagaimana peningkatan akan diinterpolasi di seluruh skor dokumen; default ke "Linear". |
|
type |
string:
distance |
Menunjukkan jenis fungsi yang akan digunakan. Nilai yang valid termasuk besaran, kesegaran, jarak, dan tag. Jenis fungsi harus huruf kecil. |
DistanceScoringParameters
Menyediakan nilai parameter ke fungsi penilaian jarak.
Nama | Jenis | Deskripsi |
---|---|---|
boostingDistance |
number |
Jarak dalam kilometer dari lokasi referensi tempat rentang peningkatan berakhir. |
referencePointParameter |
string |
Nama parameter yang diteruskan dalam kueri pencarian untuk menentukan lokasi referensi. |
EdgeNGramTokenFilter
Menghasilkan n-gram dari ukuran yang diberikan mulai dari depan atau belakang token input. Filter token ini diimplementasikan menggunakan Apache Lucene.
Nama | Jenis | Nilai default | Deskripsi |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis filter token. |
|
maxGram |
integer |
2 |
Panjang n-gram maksimum. Defaultnya adalah 2. |
minGram |
integer |
1 |
Panjang n-gram minimum. Defaultnya adalah 1. Harus kurang dari nilai maxGram. |
name |
string |
Nama filter token. Nama hanya boleh berisi huruf, digit, spasi, garis putus-putus, atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
|
side | front |
Menentukan sisi input mana yang harus dihasilkan oleh n-gram. Defaultnya adalah "front". |
EdgeNGramTokenFilterSide
Menentukan sisi input mana yang harus dihasilkan oleh n-gram.
Nama | Jenis | Deskripsi |
---|---|---|
back |
string |
Menentukan bahwa n-gram harus dihasilkan dari bagian belakang input. |
front |
string |
Menentukan bahwa n-gram harus dihasilkan dari depan input. |
EdgeNGramTokenFilterV2
Menghasilkan n-gram dari ukuran yang diberikan mulai dari depan atau belakang token input. Filter token ini diimplementasikan menggunakan Apache Lucene.
Nama | Jenis | Nilai default | Deskripsi |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis filter token. |
|
maxGram |
integer |
2 |
Panjang n-gram maksimum. Defaultnya adalah 2. Maksimum adalah 300. |
minGram |
integer |
1 |
Panjang n-gram minimum. Defaultnya adalah 1. Maksimum adalah 300. Harus kurang dari nilai maxGram. |
name |
string |
Nama filter token. Nama hanya boleh berisi huruf, digit, spasi, garis putus-putus, atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
|
side | front |
Menentukan sisi input mana yang harus dihasilkan oleh n-gram. Defaultnya adalah "front". |
EdgeNGramTokenizer
Tokenisasi input dari tepi ke dalam n-gram dari ukuran yang diberikan. Tokenizer ini diimplementasikan menggunakan Apache Lucene.
Nama | Jenis | Nilai default | Deskripsi |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis tokenizer. |
|
maxGram |
integer |
2 |
Panjang maksimum n-gram. Defaultnya adalah 2. Maksimum adalah 300. |
minGram |
integer |
1 |
Panjang n-gram minimum. Defaultnya adalah 1. Maksimum adalah 300. Harus kurang dari nilai maxGram. |
name |
string |
Nama tokenizer. Nama hanya boleh berisi huruf, digit, spasi, garis putus-putus, atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
|
tokenChars |
Kelas karakter untuk disimpan dalam token. |
ElisionTokenFilter
Menghilangkan elision. Misalnya, "l'avion" (bidang) akan dikonversi menjadi "avion" (bidang). Filter token ini diimplementasikan menggunakan Apache Lucene.
Nama | Jenis | Deskripsi |
---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis filter token. |
articles |
string[] |
Kumpulan artikel yang akan dihapus. |
name |
string |
Nama filter token. Nama hanya boleh berisi huruf, digit, spasi, garis putus-putus, atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
ExhaustiveKnnParameters
Berisi parameter khusus untuk algoritma KNN lengkap.
Nama | Jenis | Deskripsi |
---|---|---|
metric |
Metrik kesamaan yang digunakan untuk perbandingan vektor. |
ExhaustiveKnnVectorSearchAlgorithmConfiguration
Berisi opsi konfigurasi khusus untuk algoritma KNN lengkap yang digunakan selama kueri, yang akan melakukan pencarian brute-force di seluruh indeks vektor.
Nama | Jenis | Deskripsi |
---|---|---|
exhaustiveKnnParameters |
Berisi parameter khusus untuk algoritma KNN lengkap. |
|
kind |
string:
exhaustive |
Nama jenis algoritma yang dikonfigurasi untuk digunakan dengan pencarian vektor. |
name |
string |
Nama yang akan dikaitkan dengan konfigurasi khusus ini. |
FreshnessScoringFunction
Menentukan fungsi yang meningkatkan skor berdasarkan nilai bidang tanggal-waktu.
Nama | Jenis | Deskripsi |
---|---|---|
boost |
number |
Pengali untuk skor mentah. Harus berupa angka positif yang tidak sama dengan 1,0. |
fieldName |
string |
Nama bidang yang digunakan sebagai input ke fungsi penilaian. |
freshness |
Nilai parameter untuk fungsi penilaian kesegaran. |
|
interpolation |
Nilai yang menunjukkan bagaimana peningkatan akan diinterpolasi di seluruh skor dokumen; default ke "Linear". |
|
type |
string:
freshness |
Menunjukkan jenis fungsi yang akan digunakan. Nilai yang valid termasuk besaran, kesegaran, jarak, dan tag. Jenis fungsi harus huruf kecil. |
FreshnessScoringParameters
Menyediakan nilai parameter untuk fungsi penilaian kesegaran.
Nama | Jenis | Deskripsi |
---|---|---|
boostingDuration |
string |
Periode kedaluwarsa setelah peningkatan akan berhenti untuk dokumen tertentu. |
HnswParameters
Berisi parameter khusus untuk algoritma HNSW.
Nama | Jenis | Nilai default | Deskripsi |
---|---|---|---|
efConstruction |
integer |
400 |
Ukuran daftar dinamis yang berisi tetangga terdekat, yang digunakan selama waktu indeks. Meningkatkan parameter ini dapat meningkatkan kualitas indeks, dengan mengorbankan peningkatan waktu pengindeksan. Pada titik tertentu, meningkatkan parameter ini menyebabkan pengembalian yang berkurang. |
efSearch |
integer |
500 |
Ukuran daftar dinamis yang berisi tetangga terdekat, yang digunakan selama waktu pencarian. Meningkatkan parameter ini dapat meningkatkan hasil pencarian, dengan mengorbankan pencarian yang lebih lambat. Pada titik tertentu, meningkatkan parameter ini menyebabkan pengembalian yang berkurang. |
m |
integer |
4 |
Jumlah tautan dua arah yang dibuat untuk setiap elemen baru selama konstruksi. Meningkatkan nilai parameter ini dapat meningkatkan pengenalan dan mengurangi waktu pengambilan untuk himpunan data dengan dimensi intrinsik tinggi dengan mengorbankan peningkatan konsumsi memori dan waktu pengindeksan yang lebih lama. |
metric |
Metrik kesamaan yang digunakan untuk perbandingan vektor. |
HnswVectorSearchAlgorithmConfiguration
Berisi opsi konfigurasi khusus untuk algoritma tetangga terdekat HNSW yang digunakan selama pengindeksan dan kueri. Algoritma HNSW menawarkan trade-off yang dapat disesuaikan antara kecepatan pencarian dan akurasi.
Nama | Jenis | Deskripsi |
---|---|---|
hnswParameters |
Berisi parameter khusus untuk algoritma HNSW. |
|
kind |
string:
hnsw |
Nama jenis algoritma yang dikonfigurasi untuk digunakan dengan pencarian vektor. |
name |
string |
Nama yang akan dikaitkan dengan konfigurasi khusus ini. |
KeepTokenFilter
Filter token yang hanya menyimpan token dengan teks yang terkandung dalam daftar kata tertentu. Filter token ini diimplementasikan menggunakan Apache Lucene.
Nama | Jenis | Nilai default | Deskripsi |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis filter token. |
|
keepWords |
string[] |
Daftar kata yang harus disimpan. |
|
keepWordsCase |
boolean |
False |
Nilai yang menunjukkan apakah akan menurunkan huruf besar/kecil semua kata terlebih dahulu. Defaultnya adalah false. |
name |
string |
Nama filter token. Nama hanya boleh berisi huruf, digit, spasi, garis putus-putus, atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
KeywordMarkerTokenFilter
Menandai istilah sebagai kata kunci. Filter token ini diimplementasikan menggunakan Apache Lucene.
Nama | Jenis | Nilai default | Deskripsi |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis filter token. |
|
ignoreCase |
boolean |
False |
Nilai yang menunjukkan apakah akan mengabaikan kasus. Jika true, semua kata dikonversi menjadi huruf kecil terlebih dahulu. Defaultnya adalah false. |
keywords |
string[] |
Daftar kata untuk ditandai sebagai kata kunci. |
|
name |
string |
Nama filter token. Nama hanya boleh berisi huruf, digit, spasi, garis putus-putus, atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
KeywordTokenizer
Mengirimkan seluruh input sebagai token tunggal. Tokenizer ini diimplementasikan menggunakan Apache Lucene.
Nama | Jenis | Nilai default | Deskripsi |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis tokenizer. |
|
bufferSize |
integer |
256 |
Ukuran buffer baca dalam byte. Defaultnya adalah 256. |
name |
string |
Nama tokenizer. Nama hanya boleh berisi huruf, digit, spasi, garis putus-putus, atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
KeywordTokenizerV2
Mengirimkan seluruh input sebagai token tunggal. Tokenizer ini diimplementasikan menggunakan Apache Lucene.
Nama | Jenis | Nilai default | Deskripsi |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis tokenizer. |
|
maxTokenLength |
integer |
256 |
Panjang token maksimum. Defaultnya adalah 256. Token yang lebih panjang dari panjang maksimum dipecah. Panjang token maksimum yang dapat digunakan adalah 300 karakter. |
name |
string |
Nama tokenizer. Nama hanya boleh berisi huruf, digit, spasi, garis putus-putus, atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
LengthTokenFilter
Menghapus kata-kata yang terlalu panjang atau terlalu pendek. Filter token ini diimplementasikan menggunakan Apache Lucene.
Nama | Jenis | Nilai default | Deskripsi |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis filter token. |
|
max |
integer |
300 |
Panjang maksimum dalam karakter. Default dan maksimum adalah 300. |
min |
integer |
0 |
Panjang minimum dalam karakter. Defaultnya adalah 0. Maksimum adalah 300. Harus kurang dari nilai maks. |
name |
string |
Nama filter token. Nama hanya boleh berisi huruf, digit, spasi, garis putus-putus, atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
LexicalAnalyzerName
Menentukan nama semua penganalisis teks yang didukung oleh mesin pencari.
Nama | Jenis | Deskripsi |
---|---|---|
ar.lucene |
string |
Penganalisis Lucene untuk bahasa Arab. |
ar.microsoft |
string |
Penganalisis Microsoft untuk bahasa Arab. |
bg.lucene |
string |
Penganalisis Lucene untuk bahasa Bulgaria. |
bg.microsoft |
string |
Penganalisis Microsoft untuk bahasa Bulgaria. |
bn.microsoft |
string |
Penganalisis Microsoft untuk Bangla. |
ca.lucene |
string |
Penganalisis Lucene untuk Catalan. |
ca.microsoft |
string |
Penganalisis Microsoft untuk Catalan. |
cs.lucene |
string |
Penganalisis Lucene untuk Ceko. |
cs.microsoft |
string |
Penganalisis Microsoft untuk Ceko. |
da.lucene |
string |
Penganalisis Lucene untuk Denmark. |
da.microsoft |
string |
Penganalisis Microsoft untuk Bahasa Denmark. |
de.lucene |
string |
Penganalisis Lucene untuk bahasa Jerman. |
de.microsoft |
string |
Penganalisis Microsoft untuk bahasa Jerman. |
el.lucene |
string |
Penganalisis Lucene untuk bahasa Yunani. |
el.microsoft |
string |
Penganalisis Microsoft untuk bahasa Yunani. |
en.lucene |
string |
Penganalisis Lucene untuk bahasa Inggris. |
en.microsoft |
string |
Penganalisis Microsoft untuk bahasa Inggris. |
es.lucene |
string |
Penganalisis Lucene untuk bahasa Spanyol. |
es.microsoft |
string |
Penganalisis Microsoft untuk bahasa Spanyol. |
et.microsoft |
string |
Penganalisis Microsoft untuk Bahasa Estonia. |
eu.lucene |
string |
Penganalisis Lucene untuk Basque. |
fa.lucene |
string |
Penganalisis Lucene untuk bahasa Persia. |
fi.lucene |
string |
Penganalisis Lucene untuk Finlandia. |
fi.microsoft |
string |
Penganalisis Microsoft untuk Finlandia. |
fr.lucene |
string |
Penganalisis Lucene untuk bahasa Prancis. |
fr.microsoft |
string |
Penganalisis Microsoft untuk bahasa Prancis. |
ga.lucene |
string |
Penganalisis Lucene untuk Irlandia. |
gl.lucene |
string |
Penganalisis Lucene untuk Bahasa Galisia. |
gu.microsoft |
string |
Penganalisis Microsoft untuk Gujarati. |
he.microsoft |
string |
Penganalisis Microsoft untuk bahasa Ibrani. |
hi.lucene |
string |
Penganalisis Lucene untuk Bahasa Hindi. |
hi.microsoft |
string |
Penganalisis Microsoft untuk Hindi. |
hr.microsoft |
string |
Penganalisis Microsoft untuk bahasa Kroasia. |
hu.lucene |
string |
Penganalisis Lucene untuk bahasa Hungaria. |
hu.microsoft |
string |
Penganalisis Microsoft untuk bahasa Hungaria. |
hy.lucene |
string |
Penganalisis Lucene untuk Armenia. |
id.lucene |
string |
Penganalisis Lucene untuk bahasa Indonesia. |
id.microsoft |
string |
Penganalisis Microsoft untuk Bahasa Indonesia (Bahasa). |
is.microsoft |
string |
Penganalisis Microsoft untuk Islandia. |
it.lucene |
string |
Penganalisis Lucene untuk bahasa Italia. |
it.microsoft |
string |
Penganalisis Microsoft untuk bahasa Italia. |
ja.lucene |
string |
Penganalisis Lucene untuk bahasa Jepang. |
ja.microsoft |
string |
Penganalisis Microsoft untuk bahasa Jepang. |
keyword |
string |
Perlakukan seluruh konten bidang sebagai token tunggal. Ini berguna untuk data seperti kode pos, id, dan beberapa nama produk. Lihat http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html |
kn.microsoft |
string |
Penganalisis Microsoft untuk Kannada. |
ko.lucene |
string |
Penganalisis Lucene untuk bahasa Korea. |
ko.microsoft |
string |
Penganalisis Microsoft untuk bahasa Korea. |
lt.microsoft |
string |
Penganalisis Microsoft untuk bahasa Lithuania. |
lv.lucene |
string |
Penganalisis Lucene untuk bahasa Latvia. |
lv.microsoft |
string |
Penganalisis Microsoft untuk Latvia. |
ml.microsoft |
string |
Penganalisis Microsoft untuk Malayalam. |
mr.microsoft |
string |
Penganalisis Microsoft untuk Marathi. |
ms.microsoft |
string |
Penganalisis Microsoft untuk Bahasa Melayu (Latin). |
nb.microsoft |
string |
Penganalisis Microsoft untuk Norwegia (Bokmål). |
nl.lucene |
string |
Penganalisis Lucene untuk Bahasa Belanda. |
nl.microsoft |
string |
Penganalisis Microsoft untuk Bahasa Belanda. |
no.lucene |
string |
Penganalisis Lucene untuk Bahasa Norwegia. |
pa.microsoft |
string |
Penganalisis Microsoft untuk Punjabi. |
pattern |
string |
Secara fleksibel memisahkan teks menjadi istilah melalui pola ekspresi reguler. Lihat http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html |
pl.lucene |
string |
Penganalisis Lucene untuk Polandia. |
pl.microsoft |
string |
Penganalisis Microsoft untuk Polandia. |
pt-BR.lucene |
string |
Penganalisis Lucene untuk Bahasa Portugis (Brasil). |
pt-BR.microsoft |
string |
Penganalisis Microsoft untuk Bahasa Portugis (Brasil). |
pt-PT.lucene |
string |
Penganalisis Lucene untuk bahasa Portugis (Portugal). |
pt-PT.microsoft |
string |
Penganalisis Microsoft untuk bahasa Portugis (Portugal). |
ro.lucene |
string |
Penganalisis Lucene untuk rumania. |
ro.microsoft |
string |
Penganalisis Microsoft untuk Rumania. |
ru.lucene |
string |
Penganalisis Lucene untuk bahasa Rusia. |
ru.microsoft |
string |
Penganalisis Microsoft untuk bahasa Rusia. |
simple |
string |
Membagi teks pada non-huruf dan mengonversinya menjadi huruf kecil. Lihat http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html |
sk.microsoft |
string |
Penganalisis Microsoft untuk Slowakia. |
sl.microsoft |
string |
Penganalisis Microsoft untuk bahasa Slovenia. |
sr-cyrillic.microsoft |
string |
Penganalisis Microsoft untuk Serbia (Sirilik). |
sr-latin.microsoft |
string |
Penganalisis Microsoft untuk Serbia (Latin). |
standard.lucene |
string |
Penganalisis Lucene standar. |
standardasciifolding.lucene |
string |
Penganalisis Lucene Lipat ASCII Standar. Lihat https://docs.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers |
stop |
string |
Membagi teks pada non-huruf; Menerapkan filter token huruf kecil dan stopword. Lihat http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html |
sv.lucene |
string |
Penganalisis Lucene untuk Swedia. |
sv.microsoft |
string |
Penganalisis Microsoft untuk Swedia. |
ta.microsoft |
string |
Penganalisis Microsoft untuk Tamil. |
te.microsoft |
string |
Penganalisis Microsoft untuk Telugu. |
th.lucene |
string |
Penganalisis Lucene untuk Bahasa Thailand. |
th.microsoft |
string |
Penganalisis Microsoft untuk Bahasa Thailand. |
tr.lucene |
string |
Penganalisis Lucene untuk Bahasa Turki. |
tr.microsoft |
string |
Penganalisis Microsoft untuk Bahasa Turki. |
uk.microsoft |
string |
Penganalisis Microsoft untuk Ukraina. |
ur.microsoft |
string |
Penganalisis Microsoft untuk Urdu. |
vi.microsoft |
string |
Penganalisis Microsoft untuk bahasa Vietnam. |
whitespace |
string |
Penganalisis yang menggunakan tokenizer spasi kosong. Lihat http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html |
zh-Hans.lucene |
string |
Penganalisis Lucene untuk Bahasa Tionghoa (Sederhana). |
zh-Hans.microsoft |
string |
Penganalisis Microsoft untuk Bahasa Tionghoa (Disederhanakan). |
zh-Hant.lucene |
string |
Penganalisis Lucene untuk Bahasa Tionghoa (Tradisional). |
zh-Hant.microsoft |
string |
Penganalisis Microsoft untuk Bahasa Tionghoa (Tradisional). |
LexicalTokenizerName
Menentukan nama semua tokenizer yang didukung oleh mesin pencari.
LimitTokenFilter
Membatasi jumlah token saat mengindeks. Filter token ini diimplementasikan menggunakan Apache Lucene.
Nama | Jenis | Nilai default | Deskripsi |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis filter token. |
|
consumeAllTokens |
boolean |
False |
Nilai yang menunjukkan apakah semua token dari input harus dikonsumsi bahkan jika maxTokenCount tercapai. Defaultnya adalah false. |
maxTokenCount |
integer |
1 |
Jumlah maksimum token yang akan dihasilkan. Defaultnya adalah 1. |
name |
string |
Nama filter token. Nama hanya boleh berisi huruf, digit, spasi, garis putus-putus, atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
LuceneStandardAnalyzer
Penganalisis Apache Lucene standar; Terdiri dari tokenizer standar, filter huruf kecil, dan filter berhenti.
Nama | Jenis | Nilai default | Deskripsi |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis penganalisis. |
|
maxTokenLength |
integer |
255 |
Panjang token maksimum. Defaultnya adalah 255. Token yang lebih panjang dari panjang maksimum dipecah. Panjang token maksimum yang dapat digunakan adalah 300 karakter. |
name |
string |
Nama penganalisis. Nama hanya boleh berisi huruf, digit, spasi, garis putus-putus, atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
|
stopwords |
string[] |
Daftar kata henti. |
LuceneStandardTokenizer
Memecah teks mengikuti aturan Segmentasi Teks Unicode. Tokenizer ini diimplementasikan menggunakan Apache Lucene.
Nama | Jenis | Nilai default | Deskripsi |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis tokenizer. |
|
maxTokenLength |
integer |
255 |
Panjang token maksimum. Defaultnya adalah 255. Token yang lebih panjang dari panjang maksimum dipecah. |
name |
string |
Nama tokenizer. Nama hanya boleh berisi huruf, digit, spasi, garis putus-putus, atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
LuceneStandardTokenizerV2
Memecah teks mengikuti aturan Segmentasi Teks Unicode. Tokenizer ini diimplementasikan menggunakan Apache Lucene.
Nama | Jenis | Nilai default | Deskripsi |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis tokenizer. |
|
maxTokenLength |
integer |
255 |
Panjang token maksimum. Defaultnya adalah 255. Token yang lebih panjang dari panjang maksimum dipecah. Panjang token maksimum yang dapat digunakan adalah 300 karakter. |
name |
string |
Nama tokenizer. Nama hanya boleh berisi huruf, digit, spasi, garis putus-putus, atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
MagnitudeScoringFunction
Menentukan fungsi yang meningkatkan skor berdasarkan besarnya bidang numerik.
Nama | Jenis | Deskripsi |
---|---|---|
boost |
number |
Pengali untuk skor mentah. Harus berupa angka positif yang tidak sama dengan 1,0. |
fieldName |
string |
Nama bidang yang digunakan sebagai input ke fungsi penilaian. |
interpolation |
Nilai yang menunjukkan bagaimana peningkatan akan diinterpolasi di seluruh skor dokumen; default ke "Linear". |
|
magnitude |
Nilai parameter untuk fungsi penilaian besaran. |
|
type |
string:
magnitude |
Menunjukkan jenis fungsi yang akan digunakan. Nilai yang valid termasuk besaran, kesegaran, jarak, dan tag. Jenis fungsi harus huruf kecil. |
MagnitudeScoringParameters
Menyediakan nilai parameter ke fungsi penilaian besaran.
Nama | Jenis | Deskripsi |
---|---|---|
boostingRangeEnd |
number |
Nilai bidang di mana peningkatan berakhir. |
boostingRangeStart |
number |
Nilai bidang di mana peningkatan dimulai. |
constantBoostBeyondRange |
boolean |
Nilai yang menunjukkan apakah akan menerapkan peningkatan konstan untuk nilai bidang di luar nilai akhir rentang; defaultnya adalah false. |
MappingCharFilter
Filter karakter yang menerapkan pemetaan yang ditentukan dengan opsi pemetaan. Pencocokan bersifat rakus (pola terpanjang yang cocok di titik tertentu menang). Penggantian diperbolehkan menjadi string kosong. Filter karakter ini diimplementasikan menggunakan Apache Lucene.
Nama | Jenis | Deskripsi |
---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis filter karakter. |
mappings |
string[] |
Daftar pemetaan format berikut: "a=>b" (semua kemunculan karakter "a" akan diganti dengan karakter "b"). |
name |
string |
Nama filter karakter. Nama hanya boleh berisi huruf, digit, spasi, garis putus-putus, atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
MicrosoftLanguageStemmingTokenizer
Membagi teks menggunakan aturan khusus bahasa dan mengurangi kata-kata ke bentuk dasarnya.
Nama | Jenis | Nilai default | Deskripsi |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis tokenizer. |
|
isSearchTokenizer |
boolean |
False |
Nilai yang menunjukkan bagaimana tokenizer digunakan. Atur ke true jika digunakan sebagai tokenizer pencarian, atur ke false jika digunakan sebagai tokenizer pengindeksan. Defaultnya adalah false. |
language |
Bahasa yang akan digunakan. Defaultnya adalah bahasa Inggris. |
||
maxTokenLength |
integer |
255 |
Panjang token maksimum. Token yang lebih panjang dari panjang maksimum dipecah. Panjang token maksimum yang dapat digunakan adalah 300 karakter. Token yang lebih panjang dari 300 karakter pertama kali dibagi menjadi token dengan panjang 300 dan kemudian masing-masing token tersebut dibagi berdasarkan panjang token maks yang ditetapkan. Defaultnya adalah 255. |
name |
string |
Nama tokenizer. Nama hanya boleh berisi huruf, digit, spasi, garis putus-putus, atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
MicrosoftLanguageTokenizer
Membagi teks menggunakan aturan spesifik bahasa.
Nama | Jenis | Nilai default | Deskripsi |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis tokenizer. |
|
isSearchTokenizer |
boolean |
False |
Nilai yang menunjukkan bagaimana tokenizer digunakan. Atur ke true jika digunakan sebagai tokenizer pencarian, atur ke false jika digunakan sebagai tokenizer pengindeksan. Defaultnya adalah false. |
language |
Bahasa yang akan digunakan. Defaultnya adalah bahasa Inggris. |
||
maxTokenLength |
integer |
255 |
Panjang token maksimum. Token yang lebih panjang dari panjang maksimum dipecah. Panjang token maksimum yang dapat digunakan adalah 300 karakter. Token yang lebih panjang dari 300 karakter pertama kali dibagi menjadi token dengan panjang 300 dan kemudian masing-masing token tersebut dibagi berdasarkan panjang token maks yang ditetapkan. Defaultnya adalah 255. |
name |
string |
Nama tokenizer. Nama hanya boleh berisi huruf, digit, spasi, garis putus-putus, atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
MicrosoftStemmingTokenizerLanguage
Lists bahasa yang didukung oleh tokenizer stemming bahasa Microsoft.
Nama | Jenis | Deskripsi |
---|---|---|
arabic |
string |
Memilih tokenizer stemming Microsoft untuk bahasa Arab. |
bangla |
string |
Memilih tokenizer stemming Microsoft untuk Bangla. |
bulgarian |
string |
Memilih tokenizer stemming Microsoft untuk bahasa Bulgaria. |
catalan |
string |
Memilih tokenizer stemming Microsoft untuk Catalan. |
croatian |
string |
Memilih tokenizer stemming Microsoft untuk bahasa Kroasia. |
czech |
string |
Memilih tokenizer stemming Microsoft untuk Ceko. |
danish |
string |
Memilih tokenizer stemming Microsoft untuk Bahasa Denmark. |
dutch |
string |
Memilih tokenizer stemming Microsoft untuk Bahasa Belanda. |
english |
string |
Memilih tokenizer stemming Microsoft untuk bahasa Inggris. |
estonian |
string |
Memilih tokenizer stemming Microsoft untuk Estonia. |
finnish |
string |
Memilih tokenizer stemming Microsoft untuk bahasa Finlandia. |
french |
string |
Memilih tokenizer stemming Microsoft untuk bahasa Prancis. |
german |
string |
Memilih tokenizer stemming Microsoft untuk bahasa Jerman. |
greek |
string |
Memilih tokenizer stemming Microsoft untuk bahasa Yunani. |
gujarati |
string |
Memilih tokenizer stemming Microsoft untuk Gujarati. |
hebrew |
string |
Memilih tokenizer stemming Microsoft untuk Ibrani. |
hindi |
string |
Memilih tokenizer stemming Microsoft untuk Hindi. |
hungarian |
string |
Memilih tokenizer stemming Microsoft untuk Hungaria. |
icelandic |
string |
Memilih tokenizer stemming Microsoft untuk Islandia. |
indonesian |
string |
Memilih tokenizer stemming Microsoft untuk bahasa Indonesia. |
italian |
string |
Memilih tokenizer stemming Microsoft untuk bahasa Italia. |
kannada |
string |
Memilih tokenizer stemming Microsoft untuk Kannada. |
latvian |
string |
Memilih tokenizer stemming Microsoft untuk Latvia. |
lithuanian |
string |
Memilih tokenizer stemming Microsoft untuk Lithuania. |
malay |
string |
Memilih tokenizer stemming Microsoft untuk Bahasa Melayu. |
malayalam |
string |
Memilih tokenizer stemming Microsoft untuk Malayalam. |
marathi |
string |
Memilih tokenizer stemming Microsoft untuk Marathi. |
norwegianBokmaal |
string |
Memilih tokenizer stemming Microsoft untuk Norwegia (Bokmål). |
polish |
string |
Memilih tokenizer stemming Microsoft untuk Polandia. |
portuguese |
string |
Memilih tokenizer stemming Microsoft untuk bahasa Portugis. |
portugueseBrazilian |
string |
Memilih tokenizer stemming Microsoft untuk Bahasa Portugis (Brasil). |
punjabi |
string |
Memilih tokenizer stemming Microsoft untuk Punjabi. |
romanian |
string |
Memilih tokenizer stemming Microsoft untuk Rumania. |
russian |
string |
Memilih tokenizer stemming Microsoft untuk bahasa Rusia. |
serbianCyrillic |
string |
Memilih tokenizer stemming Microsoft untuk Serbia (Sirilik). |
serbianLatin |
string |
Memilih tokenizer stemming Microsoft untuk Serbia (Latin). |
slovak |
string |
Memilih tokenizer stemming Microsoft untuk Slowakia. |
slovenian |
string |
Memilih tokenizer stemming Microsoft untuk Slovenia. |
spanish |
string |
Memilih tokenizer stemming Microsoft untuk bahasa Spanyol. |
swedish |
string |
Memilih tokenizer stemming Microsoft untuk Swedia. |
tamil |
string |
Memilih tokenizer stemming Microsoft untuk Tamil. |
telugu |
string |
Memilih tokenizer stemming Microsoft untuk Telugu. |
turkish |
string |
Memilih tokenizer stemming Microsoft untuk Bahasa Turki. |
ukrainian |
string |
Memilih tokenizer stemming Microsoft untuk Ukraina. |
urdu |
string |
Memilih tokenizer stemming Microsoft untuk Urdu. |
MicrosoftTokenizerLanguage
Lists bahasa yang didukung oleh tokenizer bahasa Microsoft.
Nama | Jenis | Deskripsi |
---|---|---|
bangla |
string |
Memilih tokenizer Microsoft untuk Bangla. |
bulgarian |
string |
Memilih tokenizer Microsoft untuk Bulgaria. |
catalan |
string |
Memilih tokenizer Microsoft untuk Catalan. |
chineseSimplified |
string |
Memilih tokenizer Microsoft untuk bahasa Tionghoa (Disederhanakan). |
chineseTraditional |
string |
Memilih tokenizer Microsoft untuk Bahasa Tionghoa (Tradisional). |
croatian |
string |
Memilih tokenizer Microsoft untuk bahasa Kroasia. |
czech |
string |
Memilih tokenizer Microsoft untuk Ceko. |
danish |
string |
Memilih tokenizer Microsoft untuk Bahasa Denmark. |
dutch |
string |
Memilih tokenizer Microsoft untuk Bahasa Belanda. |
english |
string |
Memilih tokenizer Microsoft untuk bahasa Inggris. |
french |
string |
Memilih tokenizer Microsoft untuk bahasa Prancis. |
german |
string |
Memilih tokenizer Microsoft untuk bahasa Jerman. |
greek |
string |
Memilih tokenizer Microsoft untuk bahasa Yunani. |
gujarati |
string |
Memilih tokenizer Microsoft untuk Gujarati. |
hindi |
string |
Memilih tokenizer Microsoft untuk Hindi. |
icelandic |
string |
Memilih tokenizer Microsoft untuk Islandia. |
indonesian |
string |
Memilih tokenizer Microsoft untuk bahasa Indonesia. |
italian |
string |
Memilih tokenizer Microsoft untuk bahasa Italia. |
japanese |
string |
Memilih tokenizer Microsoft untuk bahasa Jepang. |
kannada |
string |
Memilih tokenizer Microsoft untuk Kannada. |
korean |
string |
Memilih tokenizer Microsoft untuk bahasa Korea. |
malay |
string |
Memilih tokenizer Microsoft untuk Bahasa Melayu. |
malayalam |
string |
Memilih tokenizer Microsoft untuk Malayalam. |
marathi |
string |
Memilih tokenizer Microsoft untuk Marathi. |
norwegianBokmaal |
string |
Memilih tokenizer Microsoft untuk Norwegia (Bokmål). |
polish |
string |
Memilih tokenizer Microsoft untuk Polandia. |
portuguese |
string |
Memilih tokenizer Microsoft untuk bahasa Portugis. |
portugueseBrazilian |
string |
Memilih tokenizer Microsoft untuk Bahasa Portugis (Brasil). |
punjabi |
string |
Memilih tokenizer Microsoft untuk Punjabi. |
romanian |
string |
Memilih tokenizer Microsoft untuk Rumania. |
russian |
string |
Memilih tokenizer Microsoft untuk bahasa Rusia. |
serbianCyrillic |
string |
Memilih tokenizer Microsoft untuk Serbia (Sirilik). |
serbianLatin |
string |
Memilih tokenizer Microsoft untuk Serbia (Latin). |
slovenian |
string |
Memilih tokenizer Microsoft untuk Slovenia. |
spanish |
string |
Memilih tokenizer Microsoft untuk bahasa Spanyol. |
swedish |
string |
Memilih tokenizer Microsoft untuk Swedia. |
tamil |
string |
Memilih tokenizer Microsoft untuk Tamil. |
telugu |
string |
Memilih tokenizer Microsoft untuk Telugu. |
thai |
string |
Memilih tokenizer Microsoft untuk Thailand. |
ukrainian |
string |
Memilih tokenizer Microsoft untuk Ukraina. |
urdu |
string |
Memilih tokenizer Microsoft untuk Urdu. |
vietnamese |
string |
Memilih tokenizer Microsoft untuk Bahasa Vietnam. |
NGramTokenFilter
Menghasilkan n-gram dengan ukuran yang diberikan. Filter token ini diimplementasikan menggunakan Apache Lucene.
Nama | Jenis | Nilai default | Deskripsi |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis filter token. |
|
maxGram |
integer |
2 |
Panjang n-gram maksimum. Defaultnya adalah 2. |
minGram |
integer |
1 |
Panjang n-gram minimum. Defaultnya adalah 1. Harus kurang dari nilai maxGram. |
name |
string |
Nama filter token. Nama hanya boleh berisi huruf, digit, spasi, garis putus-putus, atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
NGramTokenFilterV2
Menghasilkan n-gram dengan ukuran yang diberikan. Filter token ini diimplementasikan menggunakan Apache Lucene.
Nama | Jenis | Nilai default | Deskripsi |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis filter token. |
|
maxGram |
integer |
2 |
Panjang n-gram maksimum. Defaultnya adalah 2. Maksimum adalah 300. |
minGram |
integer |
1 |
Panjang n-gram minimum. Defaultnya adalah 1. Maksimum adalah 300. Harus kurang dari nilai maxGram. |
name |
string |
Nama filter token. Nama hanya boleh berisi huruf, digit, spasi, garis putus-putus, atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
NGramTokenizer
Tokenisasi input menjadi n-gram dari ukuran yang diberikan. Tokenizer ini diimplementasikan menggunakan Apache Lucene.
Nama | Jenis | Nilai default | Deskripsi |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis tokenizer. |
|
maxGram |
integer |
2 |
Panjang maksimum n-gram. Defaultnya adalah 2. Maksimum adalah 300. |
minGram |
integer |
1 |
Panjang n-gram minimum. Defaultnya adalah 1. Maksimum adalah 300. Harus kurang dari nilai maxGram. |
name |
string |
Nama tokenizer. Nama hanya boleh berisi huruf, digit, spasi, garis putus-putus, atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
|
tokenChars |
Kelas karakter untuk disimpan dalam token. |
PathHierarchyTokenizerV2
Tokenizer untuk hierarki seperti jalur. Tokenizer ini diimplementasikan menggunakan Apache Lucene.
Nama | Jenis | Nilai default | Deskripsi |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis tokenizer. |
|
delimiter |
string |
/ |
Karakter pemisah yang akan digunakan. Defaultnya adalah "/". |
maxTokenLength |
integer |
300 |
Panjang token maksimum. Default dan maksimum adalah 300. |
name |
string |
Nama tokenizer. Nama hanya boleh berisi huruf, digit, spasi, garis putus-putus, atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
|
replacement |
string |
/ |
Nilai yang, jika diatur, menggantikan karakter pemisah. Defaultnya adalah "/". |
reverse |
boolean |
False |
Nilai yang menunjukkan apakah akan menghasilkan token dalam urutan terbalik. Defaultnya adalah false. |
skip |
integer |
0 |
Jumlah token awal yang akan dilewati. Defaultnya adalah 0. |
PatternAnalyzer
Secara fleksibel memisahkan teks menjadi istilah melalui pola ekspresi reguler. Penganalisis ini diimplementasikan menggunakan Apache Lucene.
Nama | Jenis | Nilai default | Deskripsi |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis penganalisis. |
|
flags |
Bendera ekspresi reguler. |
||
lowercase |
boolean |
True |
Nilai yang menunjukkan apakah istilah harus dalam huruf kecil. Defaultnya adalah true. |
name |
string |
Nama penganalisis. Nama hanya boleh berisi huruf, digit, spasi, garis putus-putus, atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
|
pattern |
string |
\W+ |
Pola ekspresi reguler untuk mencocokkan pemisah token. Defaultnya adalah ekspresi yang cocok dengan satu atau beberapa karakter non-kata. |
stopwords |
string[] |
Daftar kata henti. |
PatternCaptureTokenFilter
Menggunakan regex Java untuk memancarkan beberapa token - satu untuk setiap grup pengambilan dalam satu atau beberapa pola. Filter token ini diimplementasikan menggunakan Apache Lucene.
Nama | Jenis | Nilai default | Deskripsi |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis filter token. |
|
name |
string |
Nama filter token. Nama hanya boleh berisi huruf, digit, spasi, garis putus-putus, atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
|
patterns |
string[] |
Daftar pola yang akan dicocokkan dengan setiap token. |
|
preserveOriginal |
boolean |
True |
Nilai yang menunjukkan apakah akan mengembalikan token asli meskipun salah satu pola cocok. Defaultnya adalah true. |
PatternReplaceCharFilter
Filter karakter yang menggantikan karakter dalam string input. Menggunakan ekspresi reguler untuk mengidentifikasi urutan karakter untuk dipertahankan dan pola pengganti untuk mengidentifikasi karakter untuk diganti. Misalnya, mengingat teks input "aa bb aa bb", pola "(aa)\s+(bb)", dan penggantian "$1#$2", hasilnya adalah "aa#bb aa#bb". Filter karakter ini diimplementasikan menggunakan Apache Lucene.
Nama | Jenis | Deskripsi |
---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis filter karakter. |
name |
string |
Nama filter karakter. Nama hanya boleh berisi huruf, digit, spasi, garis putus-putus, atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
pattern |
string |
Pola ekspresi reguler. |
replacement |
string |
Teks pengganti. |
PatternReplaceTokenFilter
Filter karakter yang menggantikan karakter dalam string input. Menggunakan ekspresi reguler untuk mengidentifikasi urutan karakter untuk dipertahankan dan pola pengganti untuk mengidentifikasi karakter untuk diganti. Misalnya, mengingat teks input "aa bb aa bb", pola "(aa)\s+(bb)", dan penggantian "$1#$2", hasilnya adalah "aa#bb aa#bb". Filter token ini diimplementasikan menggunakan Apache Lucene.
Nama | Jenis | Deskripsi |
---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis filter token. |
name |
string |
Nama filter token. Nama hanya boleh berisi huruf, digit, spasi, garis putus-putus, atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
pattern |
string |
Pola ekspresi reguler. |
replacement |
string |
Teks pengganti. |
PatternTokenizer
Tokenizer yang menggunakan pencocokan pola regex untuk membangun token yang berbeda. Tokenizer ini diimplementasikan menggunakan Apache Lucene.
Nama | Jenis | Nilai default | Deskripsi |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis tokenizer. |
|
flags |
Bendera ekspresi reguler. |
||
group |
integer |
-1 |
Ordinal berbasis nol dari grup yang cocok dalam pola ekspresi reguler untuk mengekstrak ke dalam token. Gunakan -1 jika Anda ingin menggunakan seluruh pola untuk membagi input menjadi token, terlepas dari grup yang cocok. Defaultnya adalah -1. |
name |
string |
Nama tokenizer. Nama hanya boleh berisi huruf, digit, spasi, garis putus-putus, atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
|
pattern |
string |
\W+ |
Pola ekspresi reguler untuk mencocokkan pemisah token. Defaultnya adalah ekspresi yang cocok dengan satu atau beberapa karakter non-kata. |
PhoneticEncoder
Mengidentifikasi jenis encoder fonetik untuk digunakan dengan PhoneticTokenFilter.
Nama | Jenis | Deskripsi |
---|---|---|
beiderMorse |
string |
Mengodekan token ke dalam nilai Beider-Morse. |
caverphone1 |
string |
Mengodekan token ke dalam nilai Caverphone 1.0. |
caverphone2 |
string |
Mengodekan token ke dalam nilai Caverphone 2.0. |
cologne |
string |
Mengodekan token ke dalam nilai Fonetik Cologne. |
doubleMetaphone |
string |
Mengodekan token ke dalam nilai metafon ganda. |
haasePhonetik |
string |
Mengodekan token menggunakan penyempurnaan Haase dari algoritma Kölner Phonetik. |
koelnerPhonetik |
string |
Mengodekan token menggunakan algoritma Kölner Phonetik. |
metaphone |
string |
Mengodekan token ke dalam nilai Metaphone. |
nysiis |
string |
Mengodekan token ke dalam nilai NYSIIS. |
refinedSoundex |
string |
Mengodekan token ke dalam nilai Soundex Yang Disempurnakan. |
soundex |
string |
Mengodekan token ke dalam nilai Soundex. |
PhoneticTokenFilter
Membuat token untuk kecocokan fonetik. Filter token ini diimplementasikan menggunakan Apache Lucene.
Nama | Jenis | Nilai default | Deskripsi |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis filter token. |
|
encoder | metaphone |
Encoder fonetik yang akan digunakan. Defaultnya adalah "metaphone". |
|
name |
string |
Nama filter token. Nama hanya boleh berisi huruf, digit, spasi, garis putus-putus, atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
|
replace |
boolean |
True |
Nilai yang menunjukkan apakah token yang dikodekan harus menggantikan token asli. Jika false, token yang dikodekan ditambahkan sebagai sinonim. Defaultnya adalah true. |
PrioritizedFields
Menjelaskan bidang judul, konten, dan kata kunci yang akan digunakan untuk peringkat, keterangan, sorotan, dan jawaban semantik.
Nama | Jenis | Deskripsi |
---|---|---|
prioritizedContentFields |
Menentukan bidang konten yang akan digunakan untuk peringkat semantik, keterangan, sorotan, dan jawaban. Untuk hasil terbaik, bidang yang dipilih harus berisi teks dalam bentuk bahasa alami. Urutan bidang dalam array mewakili prioritasnya. Bidang dengan prioritas yang lebih rendah mungkin terpotok jika kontennya panjang. |
|
prioritizedKeywordsFields |
Menentukan bidang kata kunci yang akan digunakan untuk peringkat semantik, keterangan, sorotan, dan jawaban. Untuk hasil terbaik, bidang yang dipilih harus berisi daftar kata kunci. Urutan bidang dalam array mewakili prioritasnya. Bidang dengan prioritas yang lebih rendah mungkin terpotok jika kontennya panjang. |
|
titleField |
Menentukan bidang judul yang akan digunakan untuk peringkat semantik, keterangan, sorotan, dan jawaban. Jika Anda tidak memiliki bidang judul di indeks Anda, biarkan bidang ini kosong. |
RegexFlags
Menentukan bendera yang dapat digabungkan untuk mengontrol bagaimana ekspresi reguler digunakan dalam penganalisis pola dan tokenizer pola.
Nama | Jenis | Deskripsi |
---|---|---|
CANON_EQ |
string |
Mengaktifkan kesetaraan kanonis. |
CASE_INSENSITIVE |
string |
Mengaktifkan pencocokan tidak peka huruf besar/kecil. |
COMMENTS |
string |
Mengizinkan spasi kosong dan komentar dalam pola. |
DOTALL |
string |
Mengaktifkan mode dotall. |
LITERAL |
string |
Memungkinkan penguraian harfiah pola. |
MULTILINE |
string |
Mengaktifkan mode multibaris. |
UNICODE_CASE |
string |
Mengaktifkan pelipatan kasus sadar Unicode. |
UNIX_LINES |
string |
Mengaktifkan mode garis Unix. |
ScoringFunctionAggregation
Menentukan fungsi agregasi yang digunakan untuk menggabungkan hasil semua fungsi penilaian dalam profil penilaian.
Nama | Jenis | Deskripsi |
---|---|---|
average |
string |
Tingkatkan skor dengan rata-rata semua hasil fungsi penilaian. |
firstMatching |
string |
Tingkatkan skor menggunakan fungsi penilaian pertama yang berlaku di profil penilaian. |
maximum |
string |
Tingkatkan skor dengan maksimum semua hasil fungsi penilaian. |
minimum |
string |
Tingkatkan skor dengan minimal semua hasil fungsi penilaian. |
sum |
string |
Tingkatkan skor dengan jumlah semua hasil fungsi penilaian. |
ScoringFunctionInterpolation
Menentukan fungsi yang digunakan untuk menginterpolasi peningkatan skor di berbagai dokumen.
Nama | Jenis | Deskripsi |
---|---|---|
constant |
string |
Meningkatkan skor berdasarkan faktor konstanta. |
linear |
string |
Meningkatkan skor dengan jumlah yang menurun secara linear. Ini adalah interpolasi default untuk fungsi penilaian. |
logarithmic |
string |
Meningkatkan skor dengan jumlah yang menurun secara logaritma. Peningkatan berkurang dengan cepat untuk skor yang lebih tinggi, dan lebih lambat saat skor berkurang. Opsi interpolasi ini tidak diizinkan dalam fungsi penilaian tag. |
quadratic |
string |
Meningkatkan skor dengan jumlah yang menurun secara kuadrat. Peningkatan menurun perlahan untuk skor yang lebih tinggi, dan lebih cepat saat skor berkurang. Opsi interpolasi ini tidak diizinkan dalam fungsi penilaian tag. |
ScoringProfile
Menentukan parameter untuk indeks pencarian yang memengaruhi penilaian dalam kueri pencarian.
Nama | Jenis | Deskripsi |
---|---|---|
functionAggregation |
Nilai yang menunjukkan bagaimana hasil fungsi penilaian individu harus digabungkan. Default ke "Jumlah". Diabaikan jika tidak ada fungsi penilaian. |
|
functions | ScoringFunction[]: |
Kumpulan fungsi yang memengaruhi penilaian dokumen. |
name |
string |
Nama profil penilaian. |
text |
Parameter yang meningkatkan penilaian berdasarkan kecocokan teks di bidang indeks tertentu. |
SearchError
Menjelaskan kondisi kesalahan untuk API.
Nama | Jenis | Deskripsi |
---|---|---|
code |
string |
Salah satu set kode kesalahan yang ditentukan server. |
details |
Array detail tentang kesalahan tertentu yang menyebabkan kesalahan yang dilaporkan ini. |
|
message |
string |
Representasi kesalahan yang dapat dibaca manusia. |
SearchField
Mewakili bidang dalam definisi indeks, yang menjelaskan nama, jenis data, dan perilaku pencarian bidang.
Nama | Jenis | Deskripsi |
---|---|---|
analyzer |
Nama penganalisis yang digunakan untuk bidang . Opsi ini hanya dapat digunakan dengan bidang yang dapat dicari dan tidak dapat diatur bersama dengan searchAnalyzer atau indexAnalyzer. Setelah penganalisis dipilih, penganalisis tidak dapat diubah untuk bidang . Harus null untuk bidang kompleks. |
|
dimensions |
integer |
Dimensi bidang vektor. |
facetable |
boolean |
Nilai yang menunjukkan apakah akan mengaktifkan bidang untuk direferensikan dalam kueri faset. Biasanya digunakan dalam presentasi hasil pencarian yang mencakup hitungan menurut kategori (misalnya, mencari kamera digital dan melihat hit berdasarkan merek, berdasarkan megapiksel, berdasarkan harga, dan sebagainya). Properti ini harus null untuk bidang kompleks. Bidang tipe Edm.GeographyPoint atau Collection(Edm.GeographyPoint) tidak dapat difaset. Defaultnya adalah true untuk semua bidang sederhana lainnya. |
fields |
Daftar sub-bidang jika ini adalah bidang tipe Edm.ComplexType atau Collection(Edm.ComplexType). Harus null atau kosong untuk bidang sederhana. |
|
filterable |
boolean |
Nilai yang menunjukkan apakah akan mengaktifkan bidang yang akan direferensikan dalam kueri $filter. dapat difilter berbeda dari yang dapat dicari dalam bagaimana string ditangani. Bidang tipe Edm.String atau Collection(Edm.String) yang dapat difilter tidak mengalami pemecahan kata, sehingga perbandingan hanya untuk kecocokan yang tepat. Misalnya, jika Anda mengatur bidang f seperti itu ke "hari cerah", $filter=f eq 'cerah' tidak akan menemukan kecocokan, tetapi $filter=f eq 'hari cerah' akan. Properti ini harus null untuk bidang kompleks. Defaultnya adalah true untuk bidang sederhana dan null untuk bidang kompleks. |
indexAnalyzer |
Nama penganalisis yang digunakan pada waktu pengindeksan untuk bidang . Opsi ini hanya dapat digunakan dengan bidang yang dapat dicari. Ini harus diatur bersama dengan searchAnalyzer dan tidak dapat diatur bersama dengan opsi penganalisis. Properti ini tidak dapat diatur ke nama penganalisis bahasa; gunakan properti penganalisis sebagai gantinya jika Anda memerlukan penganalisis bahasa. Setelah penganalisis dipilih, penganalisis tidak dapat diubah untuk bidang . Harus null untuk bidang kompleks. |
|
key |
boolean |
Nilai yang menunjukkan apakah bidang secara unik mengidentifikasi dokumen dalam indeks. Tepat satu bidang tingkat atas di setiap indeks harus dipilih sebagai bidang kunci dan harus berjenis Edm.String. Bidang kunci dapat digunakan untuk mencari dokumen secara langsung dan memperbarui atau menghapus dokumen tertentu. Defaultnya adalah false untuk bidang sederhana dan null untuk bidang kompleks. |
name |
string |
Nama bidang , yang harus unik dalam kumpulan bidang indeks atau bidang induk. |
retrievable |
boolean |
Nilai yang menunjukkan apakah bidang dapat dikembalikan dalam hasil pencarian. Anda dapat menonaktifkan opsi ini jika Anda ingin menggunakan bidang (misalnya, margin) sebagai mekanisme filter, pengurutan, atau penilaian tetapi tidak ingin bidang terlihat oleh pengguna akhir. Properti ini harus benar untuk bidang kunci, dan harus null untuk bidang kompleks. Properti ini dapat diubah pada bidang yang ada. Mengaktifkan properti ini tidak menyebabkan peningkatan persyaratan penyimpanan indeks. Defaultnya adalah true untuk bidang sederhana dan null untuk bidang kompleks. |
searchAnalyzer |
Nama penganalisis yang digunakan pada waktu pencarian untuk bidang . Opsi ini hanya dapat digunakan dengan bidang yang dapat dicari. Ini harus diatur bersama dengan indexAnalyzer dan tidak dapat diatur bersama dengan opsi penganalisis. Properti ini tidak dapat diatur ke nama penganalisis bahasa; gunakan properti penganalisis sebagai gantinya jika Anda memerlukan penganalisis bahasa. Penganalisis ini dapat diperbarui pada bidang yang ada. Harus null untuk bidang kompleks. |
|
searchable |
boolean |
Nilai yang menunjukkan apakah bidang dapat dicari teks lengkap. Ini berarti akan menjalani analisis seperti pemecahan kata selama pengindeksan. Jika Anda mengatur bidang yang dapat dicari ke nilai seperti "sunny day", secara internal itu akan dibagi menjadi token individu "sunny" dan "day". Ini memungkinkan pencarian teks lengkap untuk istilah-istilah ini. Bidang tipe Edm.String atau Collection(Edm.String) dapat dicari secara default. Properti ini harus false untuk bidang sederhana dari jenis data non-string lainnya, dan harus null untuk bidang kompleks. Catatan: bidang yang dapat dicari menggunakan ruang ekstra dalam indeks Anda untuk mengakomodasi versi token tambahan dari nilai bidang untuk pencarian teks lengkap. Jika Anda ingin menghemat ruang dalam indeks dan tidak memerlukan bidang untuk disertakan dalam pencarian, atur dapat dicari ke false. |
sortable |
boolean |
Nilai yang menunjukkan apakah akan mengaktifkan bidang yang akan direferensikan dalam ekspresi $orderby. Secara default, mesin pencari mengurutkan hasil menurut skor, tetapi dalam banyak pengalaman pengguna akan ingin mengurutkan menurut bidang dalam dokumen. Bidang sederhana hanya dapat diurutkan jika bernilai tunggal (memiliki nilai tunggal dalam cakupan dokumen induk). Bidang koleksi sederhana tidak dapat diurutkan, karena multinilai. Sub-bidang sederhana dari koleksi kompleks juga multinilai, dan oleh karena itu tidak dapat diurutkan. Ini benar apakah itu bidang induk langsung, atau bidang leluhur, itulah koleksi kompleks. Bidang kompleks tidak dapat diurutkan dan properti yang dapat diurutkan harus null untuk bidang tersebut. Default untuk dapat diurutkan berlaku untuk bidang sederhana bernilai tunggal, false untuk bidang sederhana multinilai, dan null untuk bidang kompleks. |
synonymMaps |
string[] |
Daftar nama peta sinonim untuk dikaitkan dengan bidang ini. Opsi ini hanya dapat digunakan dengan bidang yang dapat dicari. Saat ini hanya satu peta sinonim per bidang yang didukung. Menetapkan peta sinonim ke bidang memastikan bahwa istilah kueri yang menargetkan bidang tersebut diperluas pada waktu kueri menggunakan aturan di peta sinonim. Atribut ini dapat diubah pada bidang yang ada. Harus null atau koleksi kosong untuk bidang kompleks. |
type |
Jenis data bidang. |
|
vectorSearchProfile |
string |
Nama profil pencarian vektor yang menentukan algoritma yang akan digunakan saat mencari bidang vektor. |
SearchFieldDataType
Menentukan jenis data bidang dalam indeks pencarian.
Nama | Jenis | Deskripsi |
---|---|---|
Edm.Boolean |
string |
Menunjukkan bahwa bidang berisi nilai Boolean (benar atau salah). |
Edm.ComplexType |
string |
Menunjukkan bahwa bidang berisi satu atau beberapa objek kompleks yang pada gilirannya memiliki sub-bidang jenis lain. |
Edm.DateTimeOffset |
string |
Menunjukkan bahwa bidang berisi nilai tanggal/waktu, termasuk informasi zona waktu. |
Edm.Double |
string |
Menunjukkan bahwa bidang berisi angka titik mengambang presisi ganda IEEE. |
Edm.GeographyPoint |
string |
Menunjukkan bahwa bidang berisi lokasi geografis dalam hal bujur dan lintang. |
Edm.Int32 |
string |
Menunjukkan bahwa bidang berisi bilangan bulat bertanda tangan 32-bit. |
Edm.Int64 |
string |
Menunjukkan bahwa bidang berisi bilangan bulat bertanda tangan 64-bit. |
Edm.Single |
string |
Menunjukkan bahwa bidang berisi angka titik mengambang presisi tunggal. Ini hanya valid ketika digunakan dengan Collection(Edm.Single). |
Edm.String |
string |
Menunjukkan bahwa bidang berisi string. |
SearchIndex
Mewakili definisi indeks pencarian, yang menjelaskan bidang dan perilaku pencarian indeks.
Nama | Jenis | Deskripsi |
---|---|---|
@odata.etag |
string |
ETag indeks. |
analyzers | LexicalAnalyzer[]: |
Penganalisis untuk indeks. |
charFilters | CharFilter[]: |
Karakter memfilter indeks. |
corsOptions |
Opsi untuk mengontrol Berbagi Sumber Daya Lintas Asal (CORS) untuk indeks. |
|
defaultScoringProfile |
string |
Nama profil penilaian yang akan digunakan jika tidak ada yang ditentukan dalam kueri. Jika properti ini tidak diatur dan tidak ada profil penilaian yang ditentukan dalam kueri, maka penilaian default (tf-idf) akan digunakan. |
encryptionKey |
Deskripsi kunci enkripsi yang Anda buat di Azure Key Vault. Kunci ini digunakan untuk menyediakan tingkat enkripsi tidak aktif tambahan untuk data Anda saat Anda menginginkan jaminan penuh bahwa tidak ada orang, bahkan Microsoft, yang dapat mendekripsi data Anda. Setelah Anda mengenkripsi data Anda, data tersebut akan selalu tetap dienkripsi. Layanan pencarian akan mengabaikan upaya untuk menyetel properti ini ke null. Anda dapat mengubah properti ini sesuai kebutuhan jika Anda ingin memutar kunci enkripsi; Data Anda tidak akan terpengaruh. Enkripsi dengan kunci yang dikelola pelanggan tidak tersedia untuk layanan pencarian gratis, dan hanya tersedia untuk layanan berbayar yang dibuat pada atau setelah 1 Januari 2019. |
|
fields |
Bidang indeks. |
|
name |
string |
Nama indeks. |
scoringProfiles |
Profil penilaian untuk indeks. |
|
semantic |
Menentukan parameter untuk indeks pencarian yang memengaruhi kemampuan semantik. |
|
similarity | Similarity: |
Jenis algoritma kesamaan yang akan digunakan saat menilai dan memberi peringkat dokumen yang cocok dengan kueri pencarian. Algoritma kesamaan hanya dapat ditentukan pada waktu pembuatan indeks dan tidak dapat dimodifikasi pada indeks yang ada. Jika null, algoritma ClassicSimilarity digunakan. |
suggesters |
Pemberi saran untuk indeks. |
|
tokenFilters |
TokenFilter[]:
|
Filter token untuk indeks. |
tokenizers | LexicalTokenizer[]: |
Tokenizer untuk indeks. |
vectorSearch |
Berisi opsi konfigurasi yang terkait dengan pencarian vektor. |
SearchResourceEncryptionKey
Kunci enkripsi yang dikelola pelanggan di Azure Key Vault. Kunci yang Anda buat dan kelola dapat digunakan untuk mengenkripsi atau mendekripsi data tidak aktif di layanan pencarian Anda, seperti indeks dan peta sinonim.
Nama | Jenis | Deskripsi |
---|---|---|
accessCredentials |
Kredensial Azure Active Directory opsional yang digunakan untuk mengakses Key Vault Azure Anda. Tidak diperlukan jika menggunakan identitas terkelola sebagai gantinya. |
|
keyVaultKeyName |
string |
Nama kunci Azure Key Vault Anda yang akan digunakan untuk mengenkripsi data Anda saat tidak aktif. |
keyVaultKeyVersion |
string |
Versi kunci Azure Key Vault Anda yang akan digunakan untuk mengenkripsi data Anda saat tidak aktif. |
keyVaultUri |
string |
URI Azure Key Vault Anda, juga disebut sebagai nama DNS, yang berisi kunci yang akan digunakan untuk mengenkripsi data Anda saat tidak aktif. Contoh URI adalah |
SemanticConfiguration
Menentukan konfigurasi tertentu yang akan digunakan dalam konteks kemampuan semantik.
Nama | Jenis | Deskripsi |
---|---|---|
name |
string |
Nama konfigurasi semantik. |
prioritizedFields |
Menjelaskan bidang judul, konten, dan kata kunci yang akan digunakan untuk peringkat, keterangan, sorotan, dan jawaban semantik. Setidaknya salah satu dari tiga sub properti (titleField, prioritizedKeywordsFields dan prioritizedContentFields) perlu diatur. |
SemanticField
Bidang yang digunakan sebagai bagian dari konfigurasi semantik.
Nama | Jenis | Deskripsi |
---|---|---|
fieldName |
string |
SemanticSettings
Menentukan parameter untuk indeks pencarian yang memengaruhi kemampuan semantik.
Nama | Jenis | Deskripsi |
---|---|---|
configurations |
Konfigurasi semantik untuk indeks. |
|
defaultConfiguration |
string |
Memungkinkan Anda mengatur nama konfigurasi semantik default dalam indeks Anda, membuatnya opsional untuk meneruskannya sebagai parameter kueri setiap saat. |
ShingleTokenFilter
Membuat kombinasi token sebagai token tunggal. Filter token ini diimplementasikan menggunakan Apache Lucene.
Nama | Jenis | Nilai default | Deskripsi |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis filter token. |
|
filterToken |
string |
_ |
String yang akan disisipkan untuk setiap posisi di mana tidak ada token. Defaultnya adalah garis bawah ("_"). |
maxShingleSize |
integer |
2 |
Ukuran shingle maksimum. Nilai default dan minimum adalah 2. |
minShingleSize |
integer |
2 |
Ukuran kilau minimum. Nilai default dan minimum adalah 2. Harus kurang dari nilai maxShingleSize. |
name |
string |
Nama filter token. Nama hanya boleh berisi huruf, digit, spasi, garis putus-putus, atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
|
outputUnigrams |
boolean |
True |
Nilai yang menunjukkan apakah aliran output akan berisi token input (unigram) serta shingle. Defaultnya adalah true. |
outputUnigramsIfNoShingles |
boolean |
False |
Nilai yang menunjukkan apakah akan menghasilkan unigram untuk saat-saat ketika tidak ada shingle yang tersedia. Properti ini lebih diutamakan ketika outputUnigram diatur ke false. Defaultnya adalah false. |
tokenSeparator |
string |
String yang digunakan saat menggabungkan token yang berdekatan untuk membentuk shingle. Defaultnya adalah spasi tunggal (" "). |
SnowballTokenFilter
Filter yang membendung kata-kata menggunakan stemmer yang dihasilkan Snowball. Filter token ini diimplementasikan menggunakan Apache Lucene.
Nama | Jenis | Deskripsi |
---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis filter token. |
language |
Bahasa yang akan digunakan. |
|
name |
string |
Nama filter token. Nama hanya boleh berisi huruf, digit, spasi, garis putus-putus, atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
SnowballTokenFilterLanguage
Bahasa yang digunakan untuk filter token Snowball.
Nama | Jenis | Deskripsi |
---|---|---|
armenian |
string |
Memilih tokenizer stemming Lucene Snowball untuk Armenia. |
basque |
string |
Memilih tokenizer stemming Lucene Snowball untuk Basque. |
catalan |
string |
Memilih tokenizer stemming Lucene Snowball untuk Catalan. |
danish |
string |
Memilih tokenizer stemming Lucene Snowball untuk Denmark. |
dutch |
string |
Memilih tokenizer stemming Lucene Snowball untuk bahasa Belanda. |
english |
string |
Memilih tokenizer stemming Lucene Snowball untuk bahasa Inggris. |
finnish |
string |
Memilih tokenizer stemming Lucene Snowball untuk bahasa Finlandia. |
french |
string |
Memilih tokenizer stemming Lucene Snowball untuk bahasa Prancis. |
german |
string |
Memilih tokenizer stemming Lucene Snowball untuk bahasa Jerman. |
german2 |
string |
Memilih tokenizer stemming Lucene Snowball yang menggunakan algoritma varian Jerman. |
hungarian |
string |
Memilih tokenizer stemming Lucene Snowball untuk Hungaria. |
italian |
string |
Memilih tokenizer stemming Lucene Snowball untuk bahasa Italia. |
kp |
string |
Memilih tokenizer stemming Lucene Snowball untuk bahasa Belanda yang menggunakan algoritma stemming Kraaij-Pohlmann. |
lovins |
string |
Memilih tokenizer stemming Lucene Snowball untuk bahasa Inggris yang menggunakan algoritma stemming Lovins. |
norwegian |
string |
Memilih tokenizer stemming Lucene Snowball untuk Norwegia. |
porter |
string |
Memilih tokenizer stemming Lucene Snowball untuk bahasa Inggris yang menggunakan algoritma stemming Porter. |
portuguese |
string |
Memilih tokenizer stemming Lucene Snowball untuk bahasa Portugis. |
romanian |
string |
Memilih tokenizer stemming Lucene Snowball untuk bahasa Rumania. |
russian |
string |
Memilih tokenizer stemming Lucene Snowball untuk bahasa Rusia. |
spanish |
string |
Memilih tokenizer stemming Lucene Snowball untuk bahasa Spanyol. |
swedish |
string |
Memilih tokenizer stemming Lucene Snowball untuk Swedia. |
turkish |
string |
Memilih tokenizer stemming Lucene Snowball untuk Bahasa Turki. |
StemmerOverrideTokenFilter
Menyediakan kemampuan untuk mengambil alih filter stemming lain dengan stemming berbasis kamus kustom. Istilah apa pun yang bertangkai kamus akan ditandai sebagai kata kunci sehingga tidak akan bertangkai dengan stemmer di bawah rantai. Harus ditempatkan sebelum filter stemming. Filter token ini diimplementasikan menggunakan Apache Lucene.
Nama | Jenis | Deskripsi |
---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis filter token. |
name |
string |
Nama filter token. Nama hanya boleh berisi huruf, digit, spasi, garis putus-putus, atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
rules |
string[] |
Daftar aturan stemming dalam format berikut: "word => stem", misalnya: "ran => run". |
StemmerTokenFilter
Filter stemming khusus bahasa. Filter token ini diimplementasikan menggunakan Apache Lucene.
Nama | Jenis | Deskripsi |
---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis filter token. |
language |
Bahasa yang akan digunakan. |
|
name |
string |
Nama filter token. Nama hanya boleh berisi huruf, digit, spasi, garis putus-putus, atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
StemmerTokenFilterLanguage
Bahasa yang digunakan untuk filter token stemmer.
Nama | Jenis | Deskripsi |
---|---|---|
arabic |
string |
Memilih tokenizer stemming Lucene untuk bahasa Arab. |
armenian |
string |
Memilih tokenizer stemming Lucene untuk Armenia. |
basque |
string |
Memilih tokenizer stemming Lucene untuk Basque. |
brazilian |
string |
Memilih tokenizer stemming Lucene untuk Portugis (Brasil). |
bulgarian |
string |
Memilih tokenizer stemming Lucene untuk bahasa Bulgaria. |
catalan |
string |
Memilih tokenizer stemming Lucene untuk Catalan. |
czech |
string |
Memilih tokenizer stemming Lucene untuk Ceko. |
danish |
string |
Memilih tokenizer stemming Lucene untuk Denmark. |
dutch |
string |
Memilih tokenizer stemming Lucene untuk bahasa Belanda. |
dutchKp |
string |
Memilih tokenizer stemming Lucene untuk bahasa Belanda yang menggunakan algoritma stemming Kraaij-Pohlmann. |
english |
string |
Memilih tokenizer stemming Lucene untuk bahasa Inggris. |
finnish |
string |
Memilih tokenizer stemming Lucene untuk bahasa Finlandia. |
french |
string |
Memilih tokenizer stemming Lucene untuk bahasa Prancis. |
galician |
string |
Memilih tokenizer stemming Lucene untuk Galician. |
german |
string |
Memilih tokenizer stemming Lucene untuk bahasa Jerman. |
german2 |
string |
Memilih tokenizer stemming Lucene yang menggunakan algoritma varian Jerman. |
greek |
string |
Memilih tokenizer stemming Lucene untuk bahasa Yunani. |
hindi |
string |
Memilih tokenizer stemming Lucene untuk Hindi. |
hungarian |
string |
Memilih tokenizer stemming Lucene untuk Hungaria. |
indonesian |
string |
Memilih tokenizer stemming Lucene untuk bahasa Indonesia. |
irish |
string |
Memilih tokenizer stemming Lucene untuk Irlandia. |
italian |
string |
Memilih tokenizer stemming Lucene untuk bahasa Italia. |
latvian |
string |
Memilih tokenizer stemming Lucene untuk Latvia. |
lightEnglish |
string |
Memilih tokenizer stemming Lucene untuk bahasa Inggris yang melakukan stemming ringan. |
lightFinnish |
string |
Memilih tokenizer stemming Lucene untuk Finlandia yang melakukan stemming ringan. |
lightFrench |
string |
Memilih tokenizer stemming Lucene untuk bahasa Prancis yang melakukan stemming ringan. |
lightGerman |
string |
Memilih tokenizer stemming Lucene untuk bahasa Jerman yang melakukan stemming ringan. |
lightHungarian |
string |
Memilih tokenizer stemming Lucene untuk Hungaria yang melakukan stemming ringan. |
lightItalian |
string |
Memilih tokenizer stemming Lucene untuk Italia yang melakukan stemming ringan. |
lightNorwegian |
string |
Memilih tokenizer stemming Lucene untuk Norwegia (Bokmål) yang melakukan stemming ringan. |
lightNynorsk |
string |
Memilih tokenizer stemming Lucene untuk Norwegia (Nynorsk) yang melakukan stemming ringan. |
lightPortuguese |
string |
Memilih tokenizer stemming Lucene untuk bahasa Portugis yang melakukan stemming ringan. |
lightRussian |
string |
Memilih tokenizer stemming Lucene untuk Rusia yang melakukan stemming ringan. |
lightSpanish |
string |
Memilih tokenizer stemming Lucene untuk bahasa Spanyol yang melakukan stemming ringan. |
lightSwedish |
string |
Memilih tokenizer stemming Lucene untuk Swedia yang melakukan stemming ringan. |
lovins |
string |
Memilih tokenizer stemming Lucene untuk bahasa Inggris yang menggunakan algoritma stemming Lovins. |
minimalEnglish |
string |
Memilih tokenizer stemming Lucene untuk bahasa Inggris yang melakukan stemming minimal. |
minimalFrench |
string |
Memilih tokenizer stemming Lucene untuk bahasa Prancis yang melakukan stemming minimal. |
minimalGalician |
string |
Memilih tokenizer stemming Lucene untuk Galisia yang melakukan stemming minimal. |
minimalGerman |
string |
Memilih tokenizer stemming Lucene untuk bahasa Jerman yang melakukan stemming minimal. |
minimalNorwegian |
string |
Memilih tokenizer stemming Lucene untuk Norwegia (Bokmål) yang melakukan stemming minimal. |
minimalNynorsk |
string |
Memilih tokenizer stemming Lucene untuk Norwegia (Nynorsk) yang melakukan stemming minimal. |
minimalPortuguese |
string |
Memilih tokenizer stemming Lucene untuk bahasa Portugis yang melakukan stemming minimal. |
norwegian |
string |
Memilih tokenizer stemming Lucene untuk Norwegia (Bokmål). |
porter2 |
string |
Memilih tokenizer stemming Lucene untuk bahasa Inggris yang menggunakan algoritma stemming Porter2. |
portuguese |
string |
Memilih tokenizer stemming Lucene untuk bahasa Portugis. |
portugueseRslp |
string |
Memilih tokenizer stemming Lucene untuk bahasa Portugis yang menggunakan algoritma stemming RSLP. |
possessiveEnglish |
string |
Memilih tokenizer stemming Lucene untuk bahasa Inggris yang menghapus kepemilikan berikutnya dari kata-kata. |
romanian |
string |
Memilih tokenizer stemming Lucene untuk rumania. |
russian |
string |
Memilih tokenizer stemming Lucene untuk bahasa Rusia. |
sorani |
string |
Memilih tokenizer stemming Lucene untuk Sorani. |
spanish |
string |
Memilih tokenizer stemming Lucene untuk bahasa Spanyol. |
swedish |
string |
Memilih tokenizer stemming Lucene untuk Swedia. |
turkish |
string |
Memilih tokenizer stemming Lucene untuk Bahasa Turki. |
StopAnalyzer
Membagi teks pada non-huruf; Menerapkan filter token huruf kecil dan stopword. Penganalisis ini diimplementasikan menggunakan Apache Lucene.
Nama | Jenis | Deskripsi |
---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis penganalisis. |
name |
string |
Nama penganalisis. Nama hanya boleh berisi huruf, digit, spasi, garis putus-putus, atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
stopwords |
string[] |
Daftar kata henti. |
StopwordsList
Mengidentifikasi daftar kata henti khusus bahasa yang telah ditentukan sebelumnya.
Nama | Jenis | Deskripsi |
---|---|---|
arabic |
string |
Memilih daftar stopword untuk bahasa Arab. |
armenian |
string |
Memilih daftar stopword untuk Armenia. |
basque |
string |
Memilih daftar stopword untuk Basque. |
brazilian |
string |
Memilih daftar stopword untuk Bahasa Portugis (Brasil). |
bulgarian |
string |
Memilih daftar stopword untuk bahasa Bulgaria. |
catalan |
string |
Memilih daftar stopword untuk Katalan. |
czech |
string |
Memilih daftar stopword untuk Ceko. |
danish |
string |
Memilih daftar stopword untuk Bahasa Denmark. |
dutch |
string |
Memilih daftar stopword untuk bahasa Belanda. |
english |
string |
Memilih daftar stopword untuk bahasa Inggris. |
finnish |
string |
Memilih daftar stopword untuk bahasa Finlandia. |
french |
string |
Memilih daftar stopword untuk bahasa Prancis. |
galician |
string |
Memilih daftar stopword untuk Galician. |
german |
string |
Memilih daftar stopword untuk bahasa Jerman. |
greek |
string |
Memilih daftar stopword untuk bahasa Yunani. |
hindi |
string |
Memilih daftar stopword untuk Hindi. |
hungarian |
string |
Memilih daftar stopword untuk bahasa Hungaria. |
indonesian |
string |
Memilih daftar stopword untuk bahasa Indonesia. |
irish |
string |
Memilih daftar stopword untuk Irlandia. |
italian |
string |
Memilih daftar stopword untuk bahasa Italia. |
latvian |
string |
Memilih daftar stopword untuk Latvia. |
norwegian |
string |
Memilih daftar stopword untuk Bahasa Norwegia. |
persian |
string |
Memilih daftar stopword untuk Bahasa Persia. |
portuguese |
string |
Memilih daftar stopword untuk bahasa Portugis. |
romanian |
string |
Memilih daftar stopword untuk rumania. |
russian |
string |
Memilih daftar stopword untuk bahasa Rusia. |
sorani |
string |
Memilih daftar stopword untuk Sorani. |
spanish |
string |
Memilih daftar stopword untuk bahasa Spanyol. |
swedish |
string |
Memilih daftar stopword untuk Swedia. |
thai |
string |
Memilih daftar stopword untuk Thai. |
turkish |
string |
Memilih daftar stopword untuk Bahasa Turki. |
StopwordsTokenFilter
Menghapus kata-kata umum dari stream token. Filter token ini diimplementasikan menggunakan Apache Lucene.
Nama | Jenis | Nilai default | Deskripsi |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis filter token. |
|
ignoreCase |
boolean |
False |
Nilai yang menunjukkan apakah akan mengabaikan kasus. Jika true, semua kata dikonversi ke huruf kecil terlebih dahulu. Defaultnya adalah false. |
name |
string |
Nama filter token. Nama hanya boleh berisi huruf, digit, spasi, garis putus-putus, atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
|
removeTrailing |
boolean |
True |
Nilai yang menunjukkan apakah akan mengabaikan istilah pencarian terakhir jika merupakan kata berhenti. Defaultnya adalah true. |
stopwords |
string[] |
Daftar kata-kata berhenti. Properti ini dan properti daftar stopwords tidak dapat diatur keduanya. |
|
stopwordsList | english |
Daftar stopword yang telah ditentukan sebelumnya untuk digunakan. Properti ini dan properti stopwords tidak dapat diatur keduanya. Defaultnya adalah bahasa Inggris. |
Suggester
Menentukan bagaimana SUGGEST API harus berlaku untuk sekelompok bidang dalam indeks.
Nama | Jenis | Deskripsi |
---|---|---|
name |
string |
Nama pemberi saran. |
searchMode |
Nilai yang menunjukkan kemampuan pemberi saran. |
|
sourceFields |
string[] |
Daftar nama bidang yang diterapkan pemberi saran. Setiap bidang harus dapat dicari. |
SuggesterSearchMode
Nilai yang menunjukkan kemampuan pemberi saran.
Nama | Jenis | Deskripsi |
---|---|---|
analyzingInfixMatching |
string |
Cocok dengan seluruh istilah dan awalan berturut-turut dalam bidang. Misalnya, untuk bidang 'Rubah coklat tercepat', kueri 'cepat' dan 'penjelajahan tercepat' keduanya akan cocok. |
SynonymTokenFilter
Cocok dengan sinonim tunggal atau multi-kata dalam aliran token. Filter token ini diimplementasikan menggunakan Apache Lucene.
Nama | Jenis | Nilai default | Deskripsi |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis filter token. |
|
expand |
boolean |
True |
Nilai yang menunjukkan apakah semua kata dalam daftar sinonim (jika => notasi tidak digunakan) akan memetakan satu sama lain. Jika true, semua kata dalam daftar sinonim (jika => notasi tidak digunakan) akan dipetakan satu sama lain. Daftar berikut: incredible, unbelievable, fabulous, amazing setara dengan: incredible, unbelievable, fabulous, amazing => incredible, unbelievable, fabulous, amazing. Jika false, daftar berikut: incredible, unbelievable, fabulous, amazing akan setara dengan: incredible, unbelievable, fabulous, amazing => incredible. Defaultnya adalah true. |
ignoreCase |
boolean |
False |
Nilai yang menunjukkan apakah akan memasukkan lipatan huruf besar/kecil untuk pencocokan. Defaultnya adalah false. |
name |
string |
Nama filter token. Nama hanya boleh berisi huruf, digit, spasi, garis putus-putus, atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
|
synonyms |
string[] |
Daftar sinonim dalam salah satu dari dua format berikut: 1. incredible, unbelievable, fabulous => amazing - semua istilah di sisi kiri => simbol akan diganti dengan semua istilah di sisi kanannya; 2. incredible, unbelievable, fabulous, amazing - comma separated list of equivalent words. Atur perluas opsi untuk mengubah cara daftar ini ditafsirkan. |
TagScoringFunction
Menentukan fungsi yang meningkatkan skor dokumen dengan nilai string yang cocok dengan daftar tag tertentu.
Nama | Jenis | Deskripsi |
---|---|---|
boost |
number |
Pengali untuk skor mentah. Harus berupa angka positif yang tidak sama dengan 1,0. |
fieldName |
string |
Nama bidang yang digunakan sebagai input ke fungsi penilaian. |
interpolation |
Nilai yang menunjukkan bagaimana peningkatan akan diinterpolasi di seluruh skor dokumen; default ke "Linear". |
|
tag |
Nilai parameter untuk fungsi penilaian tag. |
|
type |
string:
tag |
Menunjukkan jenis fungsi yang akan digunakan. Nilai yang valid termasuk besaran, kesegaran, jarak, dan tag. Jenis fungsi harus huruf kecil. |
TagScoringParameters
Menyediakan nilai parameter ke fungsi penilaian tag.
Nama | Jenis | Deskripsi |
---|---|---|
tagsParameter |
string |
Nama parameter yang diteruskan dalam kueri pencarian untuk menentukan daftar tag yang akan dibandingkan dengan bidang target. |
TextWeights
Menentukan bobot pada bidang indeks yang kecocokannya harus meningkatkan penilaian dalam kueri pencarian.
Nama | Jenis | Deskripsi |
---|---|---|
weights |
object |
Kamus bobot per bidang untuk meningkatkan penilaian dokumen. Kuncinya adalah nama bidang dan nilainya adalah bobot untuk setiap bidang. |
TokenCharacterKind
Mewakili kelas karakter tempat filter token dapat beroperasi.
Nama | Jenis | Deskripsi |
---|---|---|
digit |
string |
Menyimpan digit dalam token. |
letter |
string |
Menyimpan huruf dalam token. |
punctuation |
string |
Menyimpan tanda baca dalam token. |
symbol |
string |
Menyimpan simbol dalam token. |
whitespace |
string |
Menyimpan spasi kosong dalam token. |
TokenFilterName
Menentukan nama semua filter token yang didukung oleh mesin pencari.
TruncateTokenFilter
Memotong istilah ke panjang tertentu. Filter token ini diimplementasikan menggunakan Apache Lucene.
Nama | Jenis | Nilai default | Deskripsi |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis filter token. |
|
length |
integer |
300 |
Panjang istilah yang akan dipotong. Default dan maksimum adalah 300. |
name |
string |
Nama filter token. Nama hanya boleh berisi huruf, digit, spasi, garis putus-putus, atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
UaxUrlEmailTokenizer
Tokenisasi url dan email sebagai satu token. Tokenizer ini diimplementasikan menggunakan Apache Lucene.
Nama | Jenis | Nilai default | Deskripsi |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis tokenizer. |
|
maxTokenLength |
integer |
255 |
Panjang token maksimum. Defaultnya adalah 255. Token yang lebih panjang dari panjang maksimum dipecah. Panjang token maksimum yang dapat digunakan adalah 300 karakter. |
name |
string |
Nama tokenizer. Nama hanya boleh berisi huruf, digit, spasi, garis putus-putus, atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
UniqueTokenFilter
Memfilter token dengan teks yang sama dengan token sebelumnya. Filter token ini diimplementasikan menggunakan Apache Lucene.
Nama | Jenis | Nilai default | Deskripsi |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis filter token. |
|
name |
string |
Nama filter token. Nama hanya boleh berisi huruf, digit, spasi, garis putus-putus, atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
|
onlyOnSamePosition |
boolean |
False |
Nilai yang menunjukkan apakah akan menghapus duplikat hanya pada posisi yang sama. Defaultnya adalah false. |
VectorSearch
Berisi opsi konfigurasi yang terkait dengan pencarian vektor.
Nama | Jenis | Deskripsi |
---|---|---|
algorithms | VectorSearchAlgorithmConfiguration[]: |
Berisi opsi konfigurasi khusus untuk algoritma yang digunakan selama pengindeksan atau kueri. |
profiles |
Menentukan kombinasi konfigurasi yang akan digunakan dengan pencarian vektor. |
VectorSearchAlgorithmKind
Algoritma yang digunakan untuk pengindeksan dan kueri.
Nama | Jenis | Deskripsi |
---|---|---|
exhaustiveKnn |
string |
Algoritma KNN lengkap yang akan melakukan pencarian brute-force. |
hnsw |
string |
HNSW (Hierarkis Navigable Small World), jenis sekitar algoritma tetangga terdekat. |
VectorSearchAlgorithmMetric
Metrik kesamaan yang digunakan untuk perbandingan vektor.
Nama | Jenis | Deskripsi |
---|---|---|
cosine |
string |
|
dotProduct |
string |
|
euclidean |
string |
VectorSearchProfile
Menentukan kombinasi konfigurasi yang akan digunakan dengan pencarian vektor.
Nama | Jenis | Deskripsi |
---|---|---|
algorithm |
string |
Nama konfigurasi algoritma pencarian vektor yang menentukan algoritma dan parameter opsional. |
name |
string |
Nama yang akan dikaitkan dengan profil pencarian vektor khusus ini. |
WordDelimiterTokenFilter
Membagi kata menjadi subkata dan melakukan transformasi opsional pada grup subkata. Filter token ini diimplementasikan menggunakan Apache Lucene.
Nama | Jenis | Nilai default | Deskripsi |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis filter token. |
|
catenateAll |
boolean |
False |
Nilai yang menunjukkan apakah semua bagian subkata akan dikakukan. Misalnya, jika ini diatur ke true, "Azure-Search-1" menjadi "AzureSearch1". Defaultnya adalah false. |
catenateNumbers |
boolean |
False |
Nilai yang menunjukkan apakah eksekusi maksimum bagian angka akan dikakukan. Misalnya, jika ini diatur ke true, "1-2" menjadi "12". Defaultnya adalah false. |
catenateWords |
boolean |
False |
Nilai yang menunjukkan apakah eksekusi maksimum bagian kata akan dikakukan. Misalnya, jika ini diatur ke true, "Azure-Search" menjadi "AzureSearch". Defaultnya adalah false. |
generateNumberParts |
boolean |
True |
Nilai yang menunjukkan apakah akan menghasilkan subkata angka. Defaultnya adalah true. |
generateWordParts |
boolean |
True |
Nilai yang menunjukkan apakah akan menghasilkan kata bagian. Jika diatur, menyebabkan bagian kata dihasilkan; misalnya "AzureSearch" menjadi "Azure" "Search". Defaultnya adalah true. |
name |
string |
Nama filter token. Nama hanya boleh berisi huruf, digit, spasi, garis putus-putus, atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
|
preserveOriginal |
boolean |
False |
Nilai yang menunjukkan apakah kata asli akan dipertahankan dan ditambahkan ke daftar subkata. Defaultnya adalah false. |
protectedWords |
string[] |
Daftar token untuk dilindungi agar tidak dibatasi. |
|
splitOnCaseChange |
boolean |
True |
Nilai yang menunjukkan apakah akan membagi kata pada caseChange. Misalnya, jika ini diatur ke true, "AzureSearch" menjadi "Azure" "Search". Defaultnya adalah true. |
splitOnNumerics |
boolean |
True |
Nilai yang menunjukkan apakah akan memisahkan angka. Misalnya, jika ini diatur ke true, "Azure1Search" menjadi "Azure" "1" "Search". Defaultnya adalah true. |
stemEnglishPossessive |
boolean |
True |
Nilai yang menunjukkan apakah akan menghapus "'s" berikutnya untuk setiap subkata. Defaultnya adalah true. |