Indexes - Get
Mengambil definisi indeks.
GET {endpoint}/indexes('{indexName}')?api-version=2024-07-01
Parameter URI
Nama | Dalam | Diperlukan | Jenis | Deskripsi |
---|---|---|---|---|
endpoint
|
path | True |
string |
URL titik akhir layanan pencarian. |
index
|
path | True |
string |
Nama indeks yang akan diambil. |
api-version
|
query | True |
string |
Versi Api Klien. |
Header Permintaan
Nama | Diperlukan | Jenis | Deskripsi |
---|---|---|---|
x-ms-client-request-id |
string uuid |
ID pelacakan yang dikirim dengan permintaan untuk membantu penelusuran kesalahan. |
Respons
Nama | Jenis | Deskripsi |
---|---|---|
200 OK | ||
Other Status Codes |
Respons kesalahan. |
Contoh
SearchServiceGetIndex
Permintaan sampel
GET https://myservice.search.windows.net/indexes('hotels')?api-version=2024-07-01
Respon sampel
{
"name": "hotels",
"fields": [
{
"name": "hotelId",
"type": "Edm.String",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": true,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "baseRate",
"type": "Edm.Double",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "description",
"type": "Edm.String",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "descriptionEmbedding",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": 1536,
"vectorSearchProfile": "myHnswProfile",
"synonymMaps": []
},
{
"name": "description_fr",
"type": "Edm.String",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": "fr.lucene",
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "hotelName",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "category",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "tags",
"type": "Collection(Edm.String)",
"searchable": true,
"filterable": true,
"retrievable": true,
"sortable": false,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": "tagsAnalyzer",
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "parkingIncluded",
"type": "Edm.Boolean",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "smokingAllowed",
"type": "Edm.Boolean",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "lastRenovationDate",
"type": "Edm.DateTimeOffset",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "rating",
"type": "Edm.Int32",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "location",
"type": "Edm.GeographyPoint",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
}
],
"scoringProfiles": [
{
"name": "geo",
"functionAggregation": "sum",
"text": {
"weights": {
"hotelName": 5
}
},
"functions": [
{
"type": "distance",
"boost": 5,
"fieldName": "location",
"interpolation": "logarithmic",
"distance": {
"referencePointParameter": "currentLocation",
"boostingDistance": 10
}
}
]
}
],
"defaultScoringProfile": "geo",
"suggesters": [
{
"name": "sg",
"searchMode": "analyzingInfixMatching",
"sourceFields": [
"hotelName"
]
}
],
"analyzers": [
{
"name": "tagsAnalyzer",
"@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
"charFilters": [
"html_strip"
],
"tokenizer": "standard_v2"
}
],
"tokenizers": [],
"tokenFilters": [],
"charFilters": [],
"corsOptions": {
"allowedOrigins": [
"tempuri.org"
],
"maxAgeInSeconds": 60
},
"encryptionKey": {
"keyVaultKeyName": "myKeyName",
"keyVaultKeyVersion": "myKeyVersion",
"keyVaultUri": "https://myKeyVault.vault.azure.net",
"accessCredentials": {
"applicationId": "00000000-0000-0000-0000-000000000000",
"applicationSecret": null
}
},
"semantic": {
"configurations": [
{
"name": "semanticHotels",
"prioritizedFields": {
"titleField": {
"fieldName": "hotelName"
},
"prioritizedContentFields": [
{
"fieldName": "description"
},
{
"fieldName": "description_fr"
}
],
"prioritizedKeywordsFields": [
{
"fieldName": "tags"
},
{
"fieldName": "category"
}
]
}
}
]
},
"vectorSearch": {
"algorithms": [
{
"name": "myHnsw",
"kind": "hnsw",
"hnswParameters": {
"metric": "cosine",
"m": 4,
"efConstruction": 400,
"efSearch": 500
}
},
{
"name": "myExhaustive",
"kind": "exhaustiveKnn",
"exhaustiveKnnParameters": {
"metric": "cosine"
}
}
],
"profiles": [
{
"name": "myHnswProfile",
"algorithm": "myHnsw"
},
{
"name": "myAlgorithm",
"algorithm": "myExhaustive"
}
]
}
}
Definisi
Nama | Deskripsi |
---|---|
Ascii |
Mengonversi karakter Unicode alfabet, numerik, dan simbolis yang tidak berada dalam 127 karakter ASCII pertama (blok Unicode "Latin Dasar" ke dalam setara ASCII mereka, jika setara tersebut ada. Filter token ini diimplementasikan menggunakan Apache Lucene. |
Azure |
Kredensial aplikasi terdaftar yang dibuat untuk layanan pencarian Anda, digunakan untuk akses terautentikasi ke kunci enkripsi yang disimpan di Azure Key Vault. |
Azure |
Memungkinkan Anda membuat penyematan vektor untuk input teks tertentu menggunakan sumber daya Azure OpenAI. |
Azure |
Nama model Azure Open AI yang akan dipanggil. |
Azure |
Menentukan parameter untuk menyambungkan ke sumber daya Azure OpenAI. |
Azure |
Menentukan sumber daya Azure OpenAI yang digunakan untuk mem-vektorisasi string kueri. |
Binary |
Berisi opsi konfigurasi khusus untuk metode kompresi kuantisasi biner yang digunakan selama pengindeksan dan kueri. |
BM25Similarity |
Fungsi peringkat berdasarkan algoritma kesamaan Okapi BM25. BM25 adalah algoritma seperti TF-IDF yang mencakup normalisasi panjang (dikontrol oleh parameter 'b') serta saturasi frekuensi istilah (dikontrol oleh parameter 'k1'). |
Char |
Menentukan nama semua filter karakter yang didukung oleh mesin pencari. |
Cjk |
Membentuk bigram istilah CJK yang dihasilkan dari tokenizer standar. Filter token ini diimplementasikan menggunakan Apache Lucene. |
Cjk |
Skrip yang dapat diabaikan oleh CjkBigramTokenFilter. |
Classic |
Algoritma kesamaan warisan yang menggunakan implementasi Lucene TFIDFSimilarity dari TF-IDF. Variasi TF-IDF ini memperkenalkan normalisasi panjang dokumen statis serta faktor koordinasi yang mengharuskan dokumen yang hanya sebagian cocok dengan kueri yang dicari. |
Classic |
Tokenizer berbasis tata bahasa yang cocok untuk memproses sebagian besar dokumen berbahasa Eropa. Tokenizer ini diimplementasikan menggunakan Apache Lucene. |
Common |
Buat bigram untuk istilah yang sering terjadi saat mengindeks. Istilah tunggal masih diindeks juga, dengan bigram dilapisi. Filter token ini diimplementasikan menggunakan Apache Lucene. |
Cors |
Menentukan opsi untuk mengontrol Berbagi Sumber Daya Lintas Asal (CORS) untuk indeks. |
Custom |
Memungkinkan Anda mengambil kontrol atas proses konversi teks menjadi token yang dapat diindeks/dapat dicari. Ini adalah konfigurasi yang ditentukan pengguna yang terdiri dari satu tokenizer yang telah ditentukan sebelumnya dan satu atau beberapa filter. Tokenizer bertanggung jawab untuk memecah teks menjadi token, dan filter untuk memodifikasi token yang dipancarkan oleh tokenizer. |
Dictionary |
Menguraikan kata-kata manyawa yang ditemukan dalam banyak bahasa Jermanik. Filter token ini diimplementasikan menggunakan Apache Lucene. |
Distance |
Menentukan fungsi yang meningkatkan skor berdasarkan jarak dari lokasi geografis. |
Distance |
Menyediakan nilai parameter ke fungsi penilaian jarak. |
Edge |
Menghasilkan n-gram dari ukuran yang diberikan mulai dari depan atau belakang token input. Filter token ini diimplementasikan menggunakan Apache Lucene. |
Edge |
Menentukan sisi input mana yang harus dihasilkan oleh n-gram. |
Edge |
Menghasilkan n-gram dari ukuran yang diberikan mulai dari depan atau belakang token input. Filter token ini diimplementasikan menggunakan Apache Lucene. |
Edge |
Tokenisasi input dari tepi ke dalam n-gram dari ukuran yang diberikan. Tokenizer ini diimplementasikan menggunakan Apache Lucene. |
Elision |
Menghapus elisi. Misalnya, "l'avion" (bidang) akan dikonversi menjadi "avion" (bidang). Filter token ini diimplementasikan menggunakan Apache Lucene. |
Error |
Info tambahan kesalahan manajemen sumber daya. |
Error |
Detail kesalahan. |
Error |
Respons kesalahan |
Exhaustive |
Berisi parameter khusus untuk algoritma KNN lengkap. |
Exhaustive |
Berisi opsi konfigurasi khusus untuk algoritma KNN lengkap yang digunakan selama kueri, yang akan melakukan pencarian brute-force di seluruh indeks vektor. |
Freshness |
Menentukan fungsi yang meningkatkan skor berdasarkan nilai bidang tanggal-waktu. |
Freshness |
Menyediakan nilai parameter ke fungsi penilaian kesegaran. |
Hnsw |
Berisi parameter khusus untuk algoritma HNSW. |
Hnsw |
Berisi opsi konfigurasi khusus untuk HNSW perkiraan algoritma tetangga terdekat yang digunakan selama pengindeksan dan kueri. Algoritma HNSW menawarkan trade-off yang dapat disesuaikan antara kecepatan pencarian dan akurasi. |
Input |
Pemetaan bidang input untuk keterampilan. |
Keep |
Filter token yang hanya menyimpan token dengan teks yang terkandung dalam daftar kata tertentu. Filter token ini diimplementasikan menggunakan Apache Lucene. |
Keyword |
Menandai istilah sebagai kata kunci. Filter token ini diimplementasikan menggunakan Apache Lucene. |
Keyword |
Memancarkan seluruh input sebagai token tunggal. Tokenizer ini diimplementasikan menggunakan Apache Lucene. |
Keyword |
Memancarkan seluruh input sebagai token tunggal. Tokenizer ini diimplementasikan menggunakan Apache Lucene. |
Length |
Menghapus kata-kata yang terlalu panjang atau terlalu pendek. Filter token ini diimplementasikan menggunakan Apache Lucene. |
Lexical |
Menentukan nama semua penganalisis teks yang didukung oleh mesin pencari. |
Lexical |
Menentukan nama semua tokenizer yang didukung oleh mesin pencari. |
Limit |
Membatasi jumlah token saat mengindeks. Filter token ini diimplementasikan menggunakan Apache Lucene. |
Lucene |
Penganalisis Apache Lucene Standar; Terdiri dari tokenizer standar, filter huruf kecil, dan filter berhenti. |
Lucene |
Hentian teks mengikuti aturan Segmentasi Teks Unicode. Tokenizer ini diimplementasikan menggunakan Apache Lucene. |
Lucene |
Hentian teks mengikuti aturan Segmentasi Teks Unicode. Tokenizer ini diimplementasikan menggunakan Apache Lucene. |
Magnitude |
Menentukan fungsi yang meningkatkan skor berdasarkan besarnya bidang numerik. |
Magnitude |
Menyediakan nilai parameter ke fungsi penilaian besaran. |
Mapping |
Filter karakter yang menerapkan pemetaan yang ditentukan dengan opsi pemetaan. Pencocokan serakah (pencocokan pola terpanjang pada poin tertentu menang). Penggantian diperbolehkan menjadi string kosong. Filter karakter ini diimplementasikan menggunakan Apache Lucene. |
Microsoft |
Membagi teks menggunakan aturan khusus bahasa dan mengurangi kata-kata ke formulir dasarnya. |
Microsoft |
Membagi teks menggunakan aturan khusus bahasa. |
Microsoft |
Mencantumkan bahasa yang didukung oleh tokenizer stemming bahasa Microsoft. |
Microsoft |
Mencantumkan bahasa yang didukung oleh tokenizer bahasa Microsoft. |
NGram |
Menghasilkan n-gram dari ukuran yang diberikan. Filter token ini diimplementasikan menggunakan Apache Lucene. |
NGram |
Menghasilkan n-gram dari ukuran yang diberikan. Filter token ini diimplementasikan menggunakan Apache Lucene. |
NGram |
Tokenisasi input ke dalam n-gram dari ukuran yang diberikan. Tokenizer ini diimplementasikan menggunakan Apache Lucene. |
Output |
Pemetaan bidang output untuk keterampilan. |
Path |
Tokenizer untuk hierarki seperti jalur. Tokenizer ini diimplementasikan menggunakan Apache Lucene. |
Pattern |
Secara fleksibel memisahkan teks menjadi istilah melalui pola ekspresi reguler. Penganalisis ini diimplementasikan menggunakan Apache Lucene. |
Pattern |
Menggunakan regex Java untuk memancarkan beberapa token - satu untuk setiap grup pengambilan dalam satu atau beberapa pola. Filter token ini diimplementasikan menggunakan Apache Lucene. |
Pattern |
Filter karakter yang menggantikan karakter dalam string input. Ini menggunakan ekspresi reguler untuk mengidentifikasi urutan karakter untuk mempertahankan dan pola penggantian untuk mengidentifikasi karakter yang akan diganti. Misalnya, mengingat teks input "aa bb aa bb", pola "(aa)\s+(bb)", dan penggantian "$1#$2", hasilnya adalah "aa#bb aa#bb". Filter karakter ini diimplementasikan menggunakan Apache Lucene. |
Pattern |
Filter karakter yang menggantikan karakter dalam string input. Ini menggunakan ekspresi reguler untuk mengidentifikasi urutan karakter untuk mempertahankan dan pola penggantian untuk mengidentifikasi karakter yang akan diganti. Misalnya, mengingat teks input "aa bb aa bb", pola "(aa)\s+(bb)", dan penggantian "$1#$2", hasilnya adalah "aa#bb aa#bb". Filter token ini diimplementasikan menggunakan Apache Lucene. |
Pattern |
Tokenizer yang menggunakan pencocokan pola regex untuk membangun token yang berbeda. Tokenizer ini diimplementasikan menggunakan Apache Lucene. |
Phonetic |
Mengidentifikasi jenis encoder fonetik untuk digunakan dengan PhoneticTokenFilter. |
Phonetic |
Buat token untuk kecocokan fonetik. Filter token ini diimplementasikan menggunakan Apache Lucene. |
Prioritized |
Menjelaskan bidang judul, konten, dan kata kunci yang akan digunakan untuk peringkat, keterangan, sorotan, dan jawaban semantik. |
Regex |
Menentukan bendera yang dapat digabungkan untuk mengontrol bagaimana ekspresi reguler digunakan dalam penganalisis pola dan tokenizer pola. |
Scalar |
Berisi parameter khusus untuk Kuantisasi Skalar. |
Scalar |
Berisi opsi konfigurasi khusus untuk metode kompresi kuantisasi skalar yang digunakan selama pengindeksan dan kueri. |
Scoring |
Menentukan fungsi agregasi yang digunakan untuk menggabungkan hasil semua fungsi penilaian dalam profil penilaian. |
Scoring |
Menentukan fungsi yang digunakan untuk menginterpolasi peningkatan skor di berbagai dokumen. |
Scoring |
Menentukan parameter untuk indeks pencarian yang memengaruhi penilaian dalam kueri pencarian. |
Search |
Mewakili bidang dalam definisi indeks, yang menjelaskan nama, jenis data, dan perilaku pencarian bidang. |
Search |
Menentukan tipe data bidang dalam indeks pencarian. |
Search |
Mewakili definisi indeks pencarian, yang menjelaskan bidang dan perilaku pencarian indeks. |
Search |
Menghapus properti identitas sumber data. |
Search |
Menentukan identitas untuk sumber data yang akan digunakan. |
Search |
Kunci enkripsi yang dikelola pelanggan di Azure Key Vault. Kunci yang Anda buat dan kelola dapat digunakan untuk mengenkripsi atau mendekripsi data tidak aktif, seperti indeks dan peta sinonim. |
Semantic |
Menentukan konfigurasi tertentu yang akan digunakan dalam konteks kemampuan semantik. |
Semantic |
Bidang yang digunakan sebagai bagian dari konfigurasi semantik. |
Semantic |
Menentukan parameter untuk indeks pencarian yang memengaruhi kemampuan semantik. |
Shingle |
Membuat kombinasi token sebagai token tunggal. Filter token ini diimplementasikan menggunakan Apache Lucene. |
Snowball |
Filter yang membendung kata-kata menggunakan stemmer yang dihasilkan Snowball. Filter token ini diimplementasikan menggunakan Apache Lucene. |
Snowball |
Bahasa yang digunakan untuk filter token Snowball. |
Stemmer |
Menyediakan kemampuan untuk mengambil alih filter stemming lain dengan stemming berbasis kamus kustom. Istilah apa pun yang bertangkai kamus akan ditandai sebagai kata kunci sehingga tidak akan dibendung dengan stemmer di bawah rantai. Harus ditempatkan sebelum filter stemming. Filter token ini diimplementasikan menggunakan Apache Lucene. |
Stemmer |
Filter stemming khusus bahasa. Filter token ini diimplementasikan menggunakan Apache Lucene. |
Stemmer |
Bahasa yang digunakan untuk filter token stemmer. |
Stop |
Membagi teks pada non-huruf; Menerapkan filter token huruf kecil dan stopword. Penganalisis ini diimplementasikan menggunakan Apache Lucene. |
Stopwords |
Mengidentifikasi daftar stopword khusus bahasa yang telah ditentukan sebelumnya. |
Stopwords |
Menghapus kata berhenti dari aliran token. Filter token ini diimplementasikan menggunakan Apache Lucene. |
Suggester |
Menentukan bagaimana SUGGEST API harus berlaku untuk sekelompok bidang dalam indeks. |
Suggester |
Nilai yang menunjukkan kemampuan pemberi saran. |
Synonym |
Cocok dengan sinonim tunggal atau multi-kata dalam aliran token. Filter token ini diimplementasikan menggunakan Apache Lucene. |
Tag |
Menentukan fungsi yang meningkatkan skor dokumen dengan nilai string yang cocok dengan daftar tag tertentu. |
Tag |
Menyediakan nilai parameter ke fungsi penilaian tag. |
Text |
Menentukan bobot pada bidang indeks yang kecocokannya harus meningkatkan penilaian dalam kueri pencarian. |
Token |
Mewakili kelas karakter tempat filter token dapat beroperasi. |
Token |
Menentukan nama semua filter token yang didukung oleh mesin pencari. |
Truncate |
Memotong istilah ke panjang tertentu. Filter token ini diimplementasikan menggunakan Apache Lucene. |
Uax |
Tokenisasi url dan email sebagai satu token. Tokenizer ini diimplementasikan menggunakan Apache Lucene. |
Unique |
Memfilter token dengan teks yang sama dengan token sebelumnya. Filter token ini diimplementasikan menggunakan Apache Lucene. |
Vector |
Format pengodean untuk menginterpretasikan konten bidang vektor. |
Vector |
Berisi opsi konfigurasi yang terkait dengan pencarian vektor. |
Vector |
Algoritma yang digunakan untuk pengindeksan dan kueri. |
Vector |
Metrik kesamaan yang digunakan untuk perbandingan vektor. Disarankan untuk memilih metrik kesamaan yang sama dengan model penyematan yang dilatih. |
Vector |
Metode pemadatan yang digunakan untuk pengindeksan dan kueri. |
Vector |
Jenis data terkuantisasi dari nilai vektor terkompresi. |
Vector |
Menentukan kombinasi konfigurasi yang akan digunakan dengan pencarian vektor. |
Vector |
Metode vektorisasi yang akan digunakan selama waktu kueri. |
Web |
Menentukan properti untuk menyambungkan ke vektorizer yang ditentukan pengguna. |
Web |
Menentukan vektorizer yang ditentukan pengguna untuk menghasilkan penyematan vektor string kueri. Integrasi vektorizer eksternal dicapai menggunakan antarmuka API Web kustom dari set keterampilan. |
Word |
Membagi kata menjadi subkata dan melakukan transformasi opsional pada grup subkata. Filter token ini diimplementasikan menggunakan Apache Lucene. |
AsciiFoldingTokenFilter
Mengonversi karakter Unicode alfabet, numerik, dan simbolis yang tidak berada dalam 127 karakter ASCII pertama (blok Unicode "Latin Dasar" ke dalam setara ASCII mereka, jika setara tersebut ada. Filter token ini diimplementasikan menggunakan Apache Lucene.
Nama | Jenis | Nilai default | Deskripsi |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis filter token. |
|
name |
string |
Nama filter token. Ini hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhir dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
|
preserveOriginal |
boolean |
False |
Nilai yang menunjukkan apakah token asli akan disimpan. Defaultnya adalah false. |
AzureActiveDirectoryApplicationCredentials
Kredensial aplikasi terdaftar yang dibuat untuk layanan pencarian Anda, digunakan untuk akses terautentikasi ke kunci enkripsi yang disimpan di Azure Key Vault.
Nama | Jenis | Deskripsi |
---|---|---|
applicationId |
string |
ID Aplikasi AAD yang diberikan izin akses yang diperlukan ke Azure Key Vault yang akan digunakan saat mengenkripsi data Anda tidak aktif. ID Aplikasi tidak boleh bingung dengan ID Objek untuk Aplikasi AAD Anda. |
applicationSecret |
string |
Kunci autentikasi aplikasi AAD yang ditentukan. |
AzureOpenAIEmbeddingSkill
Memungkinkan Anda membuat penyematan vektor untuk input teks tertentu menggunakan sumber daya Azure OpenAI.
Nama | Jenis | Deskripsi |
---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis keterampilan. |
apiKey |
string |
Kunci API dari sumber daya Azure OpenAI yang ditunjuk. |
authIdentity | SearchIndexerDataIdentity: |
Identitas terkelola yang ditetapkan pengguna yang digunakan untuk koneksi keluar. |
context |
string |
Mewakili tingkat di mana operasi berlangsung, seperti akar dokumen atau konten dokumen (misalnya, /document atau /document/content). Defaultnya adalah /document. |
deploymentId |
string |
ID penyebaran model Azure OpenAI pada sumber daya yang ditunjuk. |
description |
string |
Deskripsi keterampilan yang menjelaskan input, output, dan penggunaan keterampilan. |
dimensions |
integer |
Jumlah dimensi yang harus dimiliki penyematan output yang dihasilkan. Hanya didukung dalam model penyematan teks-3 dan yang lebih baru. |
inputs |
Input keterampilan bisa menjadi kolom dalam himpunan data sumber, atau output keterampilan hulu. |
|
modelName |
Nama model penyematan yang disebarkan di jalur deploymentId yang disediakan. |
|
name |
string |
Nama keterampilan yang secara unik mengidentifikasinya dalam set keterampilan. Keterampilan tanpa nama yang ditentukan akan diberi nama default indeks berbasis 1 dalam array keterampilan, diawali dengan karakter '#'. |
outputs |
Output keterampilan adalah bidang dalam indeks pencarian, atau nilai yang dapat dikonsumsi sebagai input oleh keterampilan lain. |
|
resourceUri |
string |
URI sumber daya sumber daya Azure OpenAI. |
AzureOpenAIModelName
Nama model Azure Open AI yang akan dipanggil.
Nama | Jenis | Deskripsi |
---|---|---|
text-embedding-3-large |
string |
|
text-embedding-3-small |
string |
|
text-embedding-ada-002 |
string |
AzureOpenAIParameters
Menentukan parameter untuk menyambungkan ke sumber daya Azure OpenAI.
Nama | Jenis | Deskripsi |
---|---|---|
apiKey |
string |
Kunci API dari sumber daya Azure OpenAI yang ditunjuk. |
authIdentity | SearchIndexerDataIdentity: |
Identitas terkelola yang ditetapkan pengguna yang digunakan untuk koneksi keluar. |
deploymentId |
string |
ID penyebaran model Azure OpenAI pada sumber daya yang ditunjuk. |
modelName |
Nama model penyematan yang disebarkan di jalur deploymentId yang disediakan. |
|
resourceUri |
string |
URI sumber daya sumber daya Azure OpenAI. |
AzureOpenAIVectorizer
Menentukan sumber daya Azure OpenAI yang digunakan untuk mem-vektorisasi string kueri.
Nama | Jenis | Deskripsi |
---|---|---|
azureOpenAIParameters | AzureOpenAIParameters: |
Berisi parameter khusus untuk vektorisasi penyematan Azure OpenAI. |
kind |
string:
azure |
Nama jenis metode vektorisasi yang dikonfigurasi untuk digunakan dengan pencarian vektor. |
name |
string |
Nama yang akan dikaitkan dengan metode vektorisasi khusus ini. |
BinaryQuantizationVectorSearchCompressionConfiguration
Berisi opsi konfigurasi khusus untuk metode kompresi kuantisasi biner yang digunakan selama pengindeksan dan kueri.
Nama | Jenis | Nilai default | Deskripsi |
---|---|---|---|
defaultOversampling |
number |
Faktor oversampling default. Pengambilan sampel berlebih akan meminta lebih banyak dokumen secara internal (ditentukan oleh pengali ini) dalam pencarian awal. Ini meningkatkan serangkaian hasil yang akan direrank menggunakan skor kesamaan yang dikomputasi ulang dari vektor presisi penuh. Nilai minimum adalah 1, yang berarti tidak ada oversampling (1x). Parameter ini hanya dapat diatur ketika rerankWithOriginalVectors benar. Nilai yang lebih tinggi meningkatkan pengenalan dengan mengorbankan latensi. |
|
kind |
string:
binary |
Nama jenis metode kompresi yang dikonfigurasi untuk digunakan dengan pencarian vektor. |
|
name |
string |
Nama yang akan dikaitkan dengan konfigurasi khusus ini. |
|
rerankWithOriginalVectors |
boolean |
True |
Jika diatur ke true, setelah kumpulan hasil yang diurutkan yang dihitung menggunakan vektor terkompresi diperoleh, mereka akan dirankit ulang lagi dengan menghitung ulang skor kesamaan presisi penuh. Ini akan meningkatkan pengenalan dengan mengorbankan latensi. |
BM25Similarity
Fungsi peringkat berdasarkan algoritma kesamaan Okapi BM25. BM25 adalah algoritma seperti TF-IDF yang mencakup normalisasi panjang (dikontrol oleh parameter 'b') serta saturasi frekuensi istilah (dikontrol oleh parameter 'k1').
Nama | Jenis | Deskripsi |
---|---|---|
@odata.type |
string:
#Microsoft. |
|
b |
number |
Properti ini mengontrol bagaimana panjang dokumen memengaruhi skor relevansi. Secara default, nilai 0,75 digunakan. Nilai 0,0 berarti tidak ada normalisasi panjang yang diterapkan, sementara nilai 1,0 berarti skor sepenuhnya dinormalisasi dengan panjang dokumen. |
k1 |
number |
Properti ini mengontrol fungsi penskalaan antara frekuensi istilah setiap istilah yang cocok dan skor relevansi akhir pasangan kueri dokumen. Secara default, nilai 1.2 digunakan. Nilai 0,0 berarti skor tidak diskalakan dengan peningkatan frekuensi istilah. |
CharFilterName
Menentukan nama semua filter karakter yang didukung oleh mesin pencari.
Nama | Jenis | Deskripsi |
---|---|---|
html_strip |
string |
Filter karakter yang mencoba menghapus konstruksi HTML. Lihat https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html |
CjkBigramTokenFilter
Membentuk bigram istilah CJK yang dihasilkan dari tokenizer standar. Filter token ini diimplementasikan menggunakan Apache Lucene.
Nama | Jenis | Nilai default | Deskripsi |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis filter token. |
|
ignoreScripts |
Skrip yang akan diabaikan. |
||
name |
string |
Nama filter token. Ini hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhir dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
|
outputUnigrams |
boolean |
False |
Nilai yang menunjukkan apakah akan menghasilkan unigram dan bigram (jika benar), atau hanya bigram (jika salah). Defaultnya adalah false. |
CjkBigramTokenFilterScripts
Skrip yang dapat diabaikan oleh CjkBigramTokenFilter.
Nama | Jenis | Deskripsi |
---|---|---|
han |
string |
Abaikan skrip Han saat membentuk bigram istilah CJK. |
hangul |
string |
Abaikan skrip Hangul saat membentuk bigram istilah CJK. |
hiragana |
string |
Abaikan skrip Hiragana saat membentuk bigram istilah CJK. |
katakana |
string |
Abaikan skrip Katakana saat membentuk bigram istilah CJK. |
ClassicSimilarity
Algoritma kesamaan warisan yang menggunakan implementasi Lucene TFIDFSimilarity dari TF-IDF. Variasi TF-IDF ini memperkenalkan normalisasi panjang dokumen statis serta faktor koordinasi yang mengharuskan dokumen yang hanya sebagian cocok dengan kueri yang dicari.
Nama | Jenis | Deskripsi |
---|---|---|
@odata.type |
string:
#Microsoft. |
ClassicTokenizer
Tokenizer berbasis tata bahasa yang cocok untuk memproses sebagian besar dokumen berbahasa Eropa. Tokenizer ini diimplementasikan menggunakan Apache Lucene.
Nama | Jenis | Nilai default | Deskripsi |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis tokenizer. |
|
maxTokenLength |
integer |
255 |
Panjang token maksimum. Defaultnya adalah 255. Token yang lebih panjang dari panjang maksimum dibagi. Panjang token maksimum yang dapat digunakan adalah 300 karakter. |
name |
string |
Nama tokenizer. Ini hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhir dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
CommonGramTokenFilter
Buat bigram untuk istilah yang sering terjadi saat mengindeks. Istilah tunggal masih diindeks juga, dengan bigram dilapisi. Filter token ini diimplementasikan menggunakan Apache Lucene.
Nama | Jenis | Nilai default | Deskripsi |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis filter token. |
|
commonWords |
string[] |
Kumpulan kata-kata umum. |
|
ignoreCase |
boolean |
False |
Nilai yang menunjukkan apakah pencocokan kata umum akan tidak peka huruf besar/kecil. Defaultnya adalah false. |
name |
string |
Nama filter token. Ini hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhir dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
|
queryMode |
boolean |
False |
Nilai yang menunjukkan apakah filter token berada dalam mode kueri. Saat dalam mode kueri, filter token menghasilkan bigram lalu menghapus kata-kata umum dan istilah tunggal diikuti dengan kata umum. Defaultnya adalah false. |
CorsOptions
Menentukan opsi untuk mengontrol Berbagi Sumber Daya Lintas Asal (CORS) untuk indeks.
Nama | Jenis | Deskripsi |
---|---|---|
allowedOrigins |
string[] |
Daftar asal dari mana kode JavaScript akan diberikan akses ke indeks Anda. Dapat berisi daftar host formulir {protocol}://{fully-qualified-domain-name}[:{port#}], atau satu '*' untuk mengizinkan semua asal (tidak disarankan). |
maxAgeInSeconds |
integer |
Durasi browser mana yang harus men-cache respons preflight CORS. Default ke 5 menit. |
CustomAnalyzer
Memungkinkan Anda mengambil kontrol atas proses konversi teks menjadi token yang dapat diindeks/dapat dicari. Ini adalah konfigurasi yang ditentukan pengguna yang terdiri dari satu tokenizer yang telah ditentukan sebelumnya dan satu atau beberapa filter. Tokenizer bertanggung jawab untuk memecah teks menjadi token, dan filter untuk memodifikasi token yang dipancarkan oleh tokenizer.
Nama | Jenis | Deskripsi |
---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis penganalisis. |
charFilters |
Daftar filter karakter yang digunakan untuk menyiapkan teks input sebelum diproses oleh tokenizer. Misalnya, mereka dapat menggantikan karakter atau simbol tertentu. Filter dijalankan dalam urutan di mana filter tersebut tercantum. |
|
name |
string |
Nama penganalisis. Ini hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhir dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
tokenFilters |
Daftar filter token yang digunakan untuk memfilter atau mengubah token yang dihasilkan oleh tokenizer. Misalnya, Anda dapat menentukan filter huruf kecil yang mengonversi semua karakter menjadi huruf kecil. Filter dijalankan dalam urutan di mana filter tersebut tercantum. |
|
tokenizer |
Nama tokenizer yang digunakan untuk membagi teks berkelanjutan menjadi urutan token, seperti memecah kalimat menjadi kata-kata. |
DictionaryDecompounderTokenFilter
Menguraikan kata-kata manyawa yang ditemukan dalam banyak bahasa Jermanik. Filter token ini diimplementasikan menggunakan Apache Lucene.
Nama | Jenis | Nilai default | Deskripsi |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis filter token. |
|
maxSubwordSize |
integer |
15 |
Ukuran subkata maksimum. Hanya subkata yang lebih pendek dari ini yang dihasilkan. Defaultnya adalah 15. Maksimum adalah 300. |
minSubwordSize |
integer |
2 |
Ukuran subkata minimum. Hanya subkata yang lebih panjang dari ini yang dihasilkan. Defaultnya adalah 2. Maksimum adalah 300. |
minWordSize |
integer |
5 |
Ukuran kata minimum. Hanya kata-kata yang lebih panjang dari ini yang diproses. Defaultnya adalah 5. Maksimum adalah 300. |
name |
string |
Nama filter token. Ini hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhir dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
|
onlyLongestMatch |
boolean |
False |
Nilai yang menunjukkan apakah hanya menambahkan subword yang cocok terpanjang ke output. Defaultnya adalah false. |
wordList |
string[] |
Daftar kata yang cocok dengan. |
DistanceScoringFunction
Menentukan fungsi yang meningkatkan skor berdasarkan jarak dari lokasi geografis.
Nama | Jenis | Deskripsi |
---|---|---|
boost |
number |
Pengali untuk skor mentah. Harus berupa angka positif yang tidak sama dengan 1,0. |
distance |
Nilai parameter untuk fungsi penilaian jarak. |
|
fieldName |
string |
Nama bidang yang digunakan sebagai input ke fungsi penilaian. |
interpolation |
Nilai yang menunjukkan bagaimana peningkatan akan diinterpolasi di seluruh skor dokumen; default ke "Linear". |
|
type |
string:
distance |
Menunjukkan jenis fungsi yang akan digunakan. Nilai yang valid termasuk besaran, kesegaran, jarak, dan tag. Jenis fungsi harus huruf kecil. |
DistanceScoringParameters
Menyediakan nilai parameter ke fungsi penilaian jarak.
Nama | Jenis | Deskripsi |
---|---|---|
boostingDistance |
number |
Jarak dalam kilometer dari lokasi referensi tempat rentang peningkatan berakhir. |
referencePointParameter |
string |
Nama parameter yang diteruskan dalam kueri pencarian untuk menentukan lokasi referensi. |
EdgeNGramTokenFilter
Menghasilkan n-gram dari ukuran yang diberikan mulai dari depan atau belakang token input. Filter token ini diimplementasikan menggunakan Apache Lucene.
Nama | Jenis | Nilai default | Deskripsi |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis filter token. |
|
maxGram |
integer |
2 |
Panjang n-gram maksimum. Defaultnya adalah 2. |
minGram |
integer |
1 |
Panjang n-gram minimum. Defaultnya adalah 1. Harus kurang dari nilai maxGram. |
name |
string |
Nama filter token. Ini hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhir dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
|
side | front |
Menentukan sisi input mana yang harus dihasilkan oleh n-gram. Defaultnya adalah "front". |
EdgeNGramTokenFilterSide
Menentukan sisi input mana yang harus dihasilkan oleh n-gram.
Nama | Jenis | Deskripsi |
---|---|---|
back |
string |
Menentukan bahwa n-gram harus dihasilkan dari bagian belakang input. |
front |
string |
Menentukan bahwa n-gram harus dihasilkan dari bagian depan input. |
EdgeNGramTokenFilterV2
Menghasilkan n-gram dari ukuran yang diberikan mulai dari depan atau belakang token input. Filter token ini diimplementasikan menggunakan Apache Lucene.
Nama | Jenis | Nilai default | Deskripsi |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis filter token. |
|
maxGram |
integer |
2 |
Panjang n-gram maksimum. Defaultnya adalah 2. Maksimum adalah 300. |
minGram |
integer |
1 |
Panjang n-gram minimum. Defaultnya adalah 1. Maksimum adalah 300. Harus kurang dari nilai maxGram. |
name |
string |
Nama filter token. Ini hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhir dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
|
side | front |
Menentukan sisi input mana yang harus dihasilkan oleh n-gram. Defaultnya adalah "front". |
EdgeNGramTokenizer
Tokenisasi input dari tepi ke dalam n-gram dari ukuran yang diberikan. Tokenizer ini diimplementasikan menggunakan Apache Lucene.
Nama | Jenis | Nilai default | Deskripsi |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis tokenizer. |
|
maxGram |
integer |
2 |
Panjang n-gram maksimum. Defaultnya adalah 2. Maksimum adalah 300. |
minGram |
integer |
1 |
Panjang n-gram minimum. Defaultnya adalah 1. Maksimum adalah 300. Harus kurang dari nilai maxGram. |
name |
string |
Nama tokenizer. Ini hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhir dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
|
tokenChars |
Kelas karakter untuk disimpan dalam token. |
ElisionTokenFilter
Menghapus elisi. Misalnya, "l'avion" (bidang) akan dikonversi menjadi "avion" (bidang). Filter token ini diimplementasikan menggunakan Apache Lucene.
Nama | Jenis | Deskripsi |
---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis filter token. |
articles |
string[] |
Kumpulan artikel yang akan dihapus. |
name |
string |
Nama filter token. Ini hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhir dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
ErrorAdditionalInfo
Info tambahan kesalahan manajemen sumber daya.
Nama | Jenis | Deskripsi |
---|---|---|
info |
object |
Info tambahan. |
type |
string |
Jenis info tambahan. |
ErrorDetail
Detail kesalahan.
Nama | Jenis | Deskripsi |
---|---|---|
additionalInfo |
Info tambahan kesalahan. |
|
code |
string |
Kode kesalahan. |
details |
Detail kesalahan. |
|
message |
string |
Pesan kesalahan. |
target |
string |
Target kesalahan. |
ErrorResponse
Respons kesalahan
Nama | Jenis | Deskripsi |
---|---|---|
error |
Objek kesalahan. |
ExhaustiveKnnParameters
Berisi parameter khusus untuk algoritma KNN lengkap.
Nama | Jenis | Deskripsi |
---|---|---|
metric |
Metrik kesamaan yang digunakan untuk perbandingan vektor. |
ExhaustiveKnnVectorSearchAlgorithmConfiguration
Berisi opsi konfigurasi khusus untuk algoritma KNN lengkap yang digunakan selama kueri, yang akan melakukan pencarian brute-force di seluruh indeks vektor.
Nama | Jenis | Deskripsi |
---|---|---|
exhaustiveKnnParameters |
Berisi parameter khusus untuk algoritma KNN lengkap. |
|
kind |
string:
exhaustive |
Nama jenis algoritma yang dikonfigurasi untuk digunakan dengan pencarian vektor. |
name |
string |
Nama yang akan dikaitkan dengan konfigurasi khusus ini. |
FreshnessScoringFunction
Menentukan fungsi yang meningkatkan skor berdasarkan nilai bidang tanggal-waktu.
Nama | Jenis | Deskripsi |
---|---|---|
boost |
number |
Pengali untuk skor mentah. Harus berupa angka positif yang tidak sama dengan 1,0. |
fieldName |
string |
Nama bidang yang digunakan sebagai input ke fungsi penilaian. |
freshness |
Nilai parameter untuk fungsi penilaian kesegaran. |
|
interpolation |
Nilai yang menunjukkan bagaimana peningkatan akan diinterpolasi di seluruh skor dokumen; default ke "Linear". |
|
type |
string:
freshness |
Menunjukkan jenis fungsi yang akan digunakan. Nilai yang valid termasuk besaran, kesegaran, jarak, dan tag. Jenis fungsi harus huruf kecil. |
FreshnessScoringParameters
Menyediakan nilai parameter ke fungsi penilaian kesegaran.
Nama | Jenis | Deskripsi |
---|---|---|
boostingDuration |
string |
Periode kedaluwarsa setelah peningkatan akan berhenti untuk dokumen tertentu. |
HnswParameters
Berisi parameter khusus untuk algoritma HNSW.
Nama | Jenis | Nilai default | Deskripsi |
---|---|---|---|
efConstruction |
integer |
400 |
Ukuran daftar dinamis yang berisi tetangga terdekat, yang digunakan selama waktu indeks. Meningkatkan parameter ini dapat meningkatkan kualitas indeks, dengan mengorbankan peningkatan waktu pengindeksan. Pada titik tertentu, meningkatkan parameter ini menyebabkan berkurangnya pengembalian. |
efSearch |
integer |
500 |
Ukuran daftar dinamis yang berisi tetangga terdekat, yang digunakan selama waktu pencarian. Meningkatkan parameter ini dapat meningkatkan hasil pencarian, dengan mengorbankan pencarian yang lebih lambat. Pada titik tertentu, meningkatkan parameter ini menyebabkan berkurangnya pengembalian. |
m |
integer |
4 |
Jumlah tautan dua arah yang dibuat untuk setiap elemen baru selama konstruksi. Meningkatkan nilai parameter ini dapat meningkatkan pengenalan dan mengurangi waktu pengambilan untuk himpunan data dengan dimensi intrinsik tinggi dengan mengorbankan peningkatan konsumsi memori dan waktu pengindeksan yang lebih lama. |
metric |
Metrik kesamaan yang digunakan untuk perbandingan vektor. |
HnswVectorSearchAlgorithmConfiguration
Berisi opsi konfigurasi khusus untuk HNSW perkiraan algoritma tetangga terdekat yang digunakan selama pengindeksan dan kueri. Algoritma HNSW menawarkan trade-off yang dapat disesuaikan antara kecepatan pencarian dan akurasi.
Nama | Jenis | Deskripsi |
---|---|---|
hnswParameters |
Berisi parameter khusus untuk algoritma HNSW. |
|
kind |
string:
hnsw |
Nama jenis algoritma yang dikonfigurasi untuk digunakan dengan pencarian vektor. |
name |
string |
Nama yang akan dikaitkan dengan konfigurasi khusus ini. |
InputFieldMappingEntry
Pemetaan bidang input untuk keterampilan.
Nama | Jenis | Deskripsi |
---|---|---|
inputs |
Input rekursif yang digunakan saat membuat jenis kompleks. |
|
name |
string |
Nama input. |
source |
string |
Sumber input. |
sourceContext |
string |
Konteks sumber yang digunakan untuk memilih input rekursif. |
KeepTokenFilter
Filter token yang hanya menyimpan token dengan teks yang terkandung dalam daftar kata tertentu. Filter token ini diimplementasikan menggunakan Apache Lucene.
Nama | Jenis | Nilai default | Deskripsi |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis filter token. |
|
keepWords |
string[] |
Daftar kata yang harus disimpan. |
|
keepWordsCase |
boolean |
False |
Nilai yang menunjukkan apakah akan menurunkan huruf besar/kecil semua kata terlebih dahulu. Defaultnya adalah false. |
name |
string |
Nama filter token. Ini hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhir dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
KeywordMarkerTokenFilter
Menandai istilah sebagai kata kunci. Filter token ini diimplementasikan menggunakan Apache Lucene.
Nama | Jenis | Nilai default | Deskripsi |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis filter token. |
|
ignoreCase |
boolean |
False |
Nilai yang menunjukkan apakah akan mengabaikan kasus. Jika true, semua kata dikonversi ke huruf kecil terlebih dahulu. Defaultnya adalah false. |
keywords |
string[] |
Daftar kata untuk ditandai sebagai kata kunci. |
|
name |
string |
Nama filter token. Ini hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhir dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
KeywordTokenizer
Memancarkan seluruh input sebagai token tunggal. Tokenizer ini diimplementasikan menggunakan Apache Lucene.
Nama | Jenis | Nilai default | Deskripsi |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis tokenizer. |
|
bufferSize |
integer |
256 |
Ukuran buffer baca dalam byte. Defaultnya adalah 256. |
name |
string |
Nama tokenizer. Ini hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhir dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
KeywordTokenizerV2
Memancarkan seluruh input sebagai token tunggal. Tokenizer ini diimplementasikan menggunakan Apache Lucene.
Nama | Jenis | Nilai default | Deskripsi |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis tokenizer. |
|
maxTokenLength |
integer |
256 |
Panjang token maksimum. Defaultnya adalah 256. Token yang lebih panjang dari panjang maksimum dibagi. Panjang token maksimum yang dapat digunakan adalah 300 karakter. |
name |
string |
Nama tokenizer. Ini hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhir dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
LengthTokenFilter
Menghapus kata-kata yang terlalu panjang atau terlalu pendek. Filter token ini diimplementasikan menggunakan Apache Lucene.
Nama | Jenis | Nilai default | Deskripsi |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis filter token. |
|
max |
integer |
300 |
Panjang maksimum dalam karakter. Default dan maksimum adalah 300. |
min |
integer |
0 |
Panjang minimum dalam karakter. Defaultnya adalah 0. Maksimum adalah 300. Harus kurang dari nilai maks. |
name |
string |
Nama filter token. Ini hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhir dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
LexicalAnalyzerName
Menentukan nama semua penganalisis teks yang didukung oleh mesin pencari.
Nama | Jenis | Deskripsi |
---|---|---|
ar.lucene |
string |
Penganalisis Lucene untuk bahasa Arab. |
ar.microsoft |
string |
Penganalisis Microsoft untuk bahasa Arab. |
bg.lucene |
string |
Penganalisis Lucene untuk bahasa Bulgaria. |
bg.microsoft |
string |
Penganalisis Microsoft untuk bahasa Bulgaria. |
bn.microsoft |
string |
Penganalisis Microsoft untuk Bangla. |
ca.lucene |
string |
Penganalisis Lucene untuk Bahasa Catalan. |
ca.microsoft |
string |
Penganalisis Microsoft untuk Catalan. |
cs.lucene |
string |
Penganalisis Lucene untuk Ceko. |
cs.microsoft |
string |
Penganalisis Microsoft untuk Ceko. |
da.lucene |
string |
Penganalisis Lucene untuk Denmark. |
da.microsoft |
string |
Penganalisis Microsoft untuk Bahasa Denmark. |
de.lucene |
string |
Penganalisis Lucene untuk bahasa Jerman. |
de.microsoft |
string |
Penganalisis Microsoft untuk bahasa Jerman. |
el.lucene |
string |
Penganalisis Lucene untuk bahasa Yunani. |
el.microsoft |
string |
Penganalisis Microsoft untuk bahasa Yunani. |
en.lucene |
string |
Penganalisis Lucene untuk bahasa Inggris. |
en.microsoft |
string |
Penganalisis Microsoft untuk bahasa Inggris. |
es.lucene |
string |
Penganalisis Lucene untuk bahasa Spanyol. |
es.microsoft |
string |
Penganalisis Microsoft untuk bahasa Spanyol. |
et.microsoft |
string |
Penganalisis Microsoft untuk Bahasa Estonia. |
eu.lucene |
string |
Penganalisis Lucene untuk Basque. |
fa.lucene |
string |
Penganalisis Lucene untuk Persia. |
fi.lucene |
string |
Penganalisis Lucene untuk bahasa Finlandia. |
fi.microsoft |
string |
Penganalisis Microsoft untuk bahasa Finlandia. |
fr.lucene |
string |
Penganalisis Lucene untuk bahasa Prancis. |
fr.microsoft |
string |
Penganalisis Microsoft untuk bahasa Prancis. |
ga.lucene |
string |
Penganalisis Lucene untuk Irlandia. |
gl.lucene |
string |
Penganalisis Lucene untuk Galician. |
gu.microsoft |
string |
Penganalisis Microsoft untuk Gujarati. |
he.microsoft |
string |
Penganalisis Microsoft untuk Bahasa Ibrani. |
hi.lucene |
string |
Penganalisis Lucene untuk Bahasa Hindi. |
hi.microsoft |
string |
Penganalisis Microsoft untuk Hindi. |
hr.microsoft |
string |
Penganalisis Microsoft untuk bahasa Kroasia. |
hu.lucene |
string |
Penganalisis Lucene untuk Hungaria. |
hu.microsoft |
string |
Penganalisis Microsoft untuk Hungaria. |
hy.lucene |
string |
Penganalisis Lucene untuk Armenia. |
id.lucene |
string |
Penganalisis Lucene untuk bahasa Indonesia. |
id.microsoft |
string |
Penganalisis Microsoft untuk Bahasa Indonesia (Bahasa Indonesia). |
is.microsoft |
string |
Penganalisis Microsoft untuk Islandia. |
it.lucene |
string |
Penganalisis Lucene untuk bahasa Italia. |
it.microsoft |
string |
Penganalisis Microsoft untuk bahasa Italia. |
ja.lucene |
string |
Penganalisis Lucene untuk bahasa Jepang. |
ja.microsoft |
string |
Penganalisis Microsoft untuk bahasa Jepang. |
keyword |
string |
Memperlakukan seluruh konten bidang sebagai token tunggal. Ini berguna untuk data seperti kode pos, id, dan beberapa nama produk. Lihat http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html |
kn.microsoft |
string |
Penganalisis Microsoft untuk Kannada. |
ko.lucene |
string |
Penganalisis Lucene untuk bahasa Korea. |
ko.microsoft |
string |
Penganalisis Microsoft untuk bahasa Korea. |
lt.microsoft |
string |
Penganalisis Microsoft untuk Bahasa Lithuania. |
lv.lucene |
string |
Penganalisis Lucene untuk bahasa Latvia. |
lv.microsoft |
string |
Penganalisis Microsoft untuk Latvia. |
ml.microsoft |
string |
Penganalisis Microsoft untuk Malayalam. |
mr.microsoft |
string |
Penganalisis Microsoft untuk Marathi. |
ms.microsoft |
string |
Penganalisis Microsoft untuk Bahasa Melayu (Latin). |
nb.microsoft |
string |
Penganalisis Microsoft untuk Norwegia (Bokmål). |
nl.lucene |
string |
Penganalisis Lucene untuk Belanda. |
nl.microsoft |
string |
Penganalisis Microsoft untuk Bahasa Belanda. |
no.lucene |
string |
Penganalisis Lucene untuk Norwegia. |
pa.microsoft |
string |
Penganalisis Microsoft untuk Punjabi. |
pattern |
string |
Secara fleksibel memisahkan teks menjadi istilah melalui pola ekspresi reguler. Lihat http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html |
pl.lucene |
string |
Penganalisis Lucene untuk Polandia. |
pl.microsoft |
string |
Penganalisis Microsoft untuk Polandia. |
pt-BR.lucene |
string |
Penganalisis Lucene untuk Bahasa Portugis (Brasil). |
pt-BR.microsoft |
string |
Penganalisis Microsoft untuk Bahasa Portugis (Brasil). |
pt-PT.lucene |
string |
Penganalisis Lucene untuk Bahasa Portugis (Portugal). |
pt-PT.microsoft |
string |
Penganalisis Microsoft untuk Bahasa Portugis (Portugal). |
ro.lucene |
string |
Penganalisis Lucene untuk rumania. |
ro.microsoft |
string |
Penganalisis Microsoft untuk Rumania. |
ru.lucene |
string |
Penganalisis Lucene untuk bahasa Rusia. |
ru.microsoft |
string |
Penganalisis Microsoft untuk bahasa Rusia. |
simple |
string |
Membagi teks pada non-huruf dan mengonversinya menjadi huruf kecil. Lihat http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html |
sk.microsoft |
string |
Penganalisis Microsoft untuk Slovakia. |
sl.microsoft |
string |
Penganalisis Microsoft untuk Slovenia. |
sr-cyrillic.microsoft |
string |
Penganalisis Microsoft untuk Bahasa Serbia (Sirilik). |
sr-latin.microsoft |
string |
Penganalisis Microsoft untuk Bahasa Serbia (Latin). |
standard.lucene |
string |
Penganalisis Lucene Standar. |
standardasciifolding.lucene |
string |
Penganalisis Lucene Lipat ASCII Standar. Lihat https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers |
stop |
string |
Membagi teks pada non-huruf; Menerapkan filter token huruf kecil dan stopword. Lihat http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html |
sv.lucene |
string |
Penganalisis Lucene untuk Swedia. |
sv.microsoft |
string |
Penganalisis Microsoft untuk Swedia. |
ta.microsoft |
string |
Penganalisis Microsoft untuk Tamil. |
te.microsoft |
string |
Penganalisis Microsoft untuk Telugu. |
th.lucene |
string |
Penganalisis Lucene untuk Thai. |
th.microsoft |
string |
Penganalisis Microsoft untuk Bahasa Thailand. |
tr.lucene |
string |
Penganalisis Lucene untuk Turki. |
tr.microsoft |
string |
Penganalisis Microsoft untuk Turki. |
uk.microsoft |
string |
Penganalisis Microsoft untuk Ukraina. |
ur.microsoft |
string |
Penganalisis Microsoft untuk Urdu. |
vi.microsoft |
string |
Penganalisis Microsoft untuk bahasa Vietnam. |
whitespace |
string |
Penganalisis yang menggunakan tokenizer spasi putih. Lihat http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html |
zh-Hans.lucene |
string |
Penganalisis Lucene untuk Bahasa Tionghoa (Sederhana). |
zh-Hans.microsoft |
string |
Penganalisis Microsoft untuk Bahasa Tionghoa (Disederhanakan). |
zh-Hant.lucene |
string |
Penganalisis Lucene untuk Bahasa Tionghoa (Tradisional). |
zh-Hant.microsoft |
string |
Penganalisis Microsoft untuk Bahasa Tionghoa (Tradisional). |
LexicalTokenizerName
Menentukan nama semua tokenizer yang didukung oleh mesin pencari.
LimitTokenFilter
Membatasi jumlah token saat mengindeks. Filter token ini diimplementasikan menggunakan Apache Lucene.
Nama | Jenis | Nilai default | Deskripsi |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis filter token. |
|
consumeAllTokens |
boolean |
False |
Nilai yang menunjukkan apakah semua token dari input harus digunakan bahkan jika maxTokenCount tercapai. Defaultnya adalah false. |
maxTokenCount |
integer |
1 |
Jumlah maksimum token yang akan dihasilkan. Defaultnya adalah 1. |
name |
string |
Nama filter token. Ini hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhir dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
LuceneStandardAnalyzer
Penganalisis Apache Lucene Standar; Terdiri dari tokenizer standar, filter huruf kecil, dan filter berhenti.
Nama | Jenis | Nilai default | Deskripsi |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis penganalisis. |
|
maxTokenLength |
integer |
255 |
Panjang token maksimum. Defaultnya adalah 255. Token yang lebih panjang dari panjang maksimum dibagi. Panjang token maksimum yang dapat digunakan adalah 300 karakter. |
name |
string |
Nama penganalisis. Ini hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhir dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
|
stopwords |
string[] |
Daftar kata henti. |
LuceneStandardTokenizer
Hentian teks mengikuti aturan Segmentasi Teks Unicode. Tokenizer ini diimplementasikan menggunakan Apache Lucene.
Nama | Jenis | Nilai default | Deskripsi |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis tokenizer. |
|
maxTokenLength |
integer |
255 |
Panjang token maksimum. Defaultnya adalah 255. Token yang lebih panjang dari panjang maksimum dibagi. |
name |
string |
Nama tokenizer. Ini hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhir dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
LuceneStandardTokenizerV2
Hentian teks mengikuti aturan Segmentasi Teks Unicode. Tokenizer ini diimplementasikan menggunakan Apache Lucene.
Nama | Jenis | Nilai default | Deskripsi |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis tokenizer. |
|
maxTokenLength |
integer |
255 |
Panjang token maksimum. Defaultnya adalah 255. Token yang lebih panjang dari panjang maksimum dibagi. Panjang token maksimum yang dapat digunakan adalah 300 karakter. |
name |
string |
Nama tokenizer. Ini hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhir dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
MagnitudeScoringFunction
Menentukan fungsi yang meningkatkan skor berdasarkan besarnya bidang numerik.
Nama | Jenis | Deskripsi |
---|---|---|
boost |
number |
Pengali untuk skor mentah. Harus berupa angka positif yang tidak sama dengan 1,0. |
fieldName |
string |
Nama bidang yang digunakan sebagai input ke fungsi penilaian. |
interpolation |
Nilai yang menunjukkan bagaimana peningkatan akan diinterpolasi di seluruh skor dokumen; default ke "Linear". |
|
magnitude |
Nilai parameter untuk fungsi penilaian besar. |
|
type |
string:
magnitude |
Menunjukkan jenis fungsi yang akan digunakan. Nilai yang valid termasuk besaran, kesegaran, jarak, dan tag. Jenis fungsi harus huruf kecil. |
MagnitudeScoringParameters
Menyediakan nilai parameter ke fungsi penilaian besaran.
Nama | Jenis | Deskripsi |
---|---|---|
boostingRangeEnd |
number |
Nilai bidang di mana peningkatan berakhir. |
boostingRangeStart |
number |
Nilai bidang di mana peningkatan dimulai. |
constantBoostBeyondRange |
boolean |
Nilai yang menunjukkan apakah akan menerapkan peningkatan konstanta untuk nilai bidang di luar nilai akhir rentang; defaultnya adalah false. |
MappingCharFilter
Filter karakter yang menerapkan pemetaan yang ditentukan dengan opsi pemetaan. Pencocokan serakah (pencocokan pola terpanjang pada poin tertentu menang). Penggantian diperbolehkan menjadi string kosong. Filter karakter ini diimplementasikan menggunakan Apache Lucene.
Nama | Jenis | Deskripsi |
---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis filter karakter. |
mappings |
string[] |
Daftar pemetaan format berikut: "a=>b" (semua kemunculan karakter "a" akan diganti dengan karakter "b"). |
name |
string |
Nama filter karakter. Ini hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhir dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
MicrosoftLanguageStemmingTokenizer
Membagi teks menggunakan aturan khusus bahasa dan mengurangi kata-kata ke formulir dasarnya.
Nama | Jenis | Nilai default | Deskripsi |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis tokenizer. |
|
isSearchTokenizer |
boolean |
False |
Nilai yang menunjukkan bagaimana tokenizer digunakan. Atur ke true jika digunakan sebagai tokenizer pencarian, atur ke false jika digunakan sebagai tokenizer pengindeksan. Defaultnya adalah false. |
language |
Bahasa yang digunakan. Defaultnya adalah bahasa Inggris. |
||
maxTokenLength |
integer |
255 |
Panjang token maksimum. Token yang lebih panjang dari panjang maksimum dibagi. Panjang token maksimum yang dapat digunakan adalah 300 karakter. Token yang lebih panjang dari 300 karakter pertama kali dibagi menjadi token dengan panjang 300 dan kemudian masing-masing token tersebut dibagi berdasarkan panjang token maksimum yang ditetapkan. Defaultnya adalah 255. |
name |
string |
Nama tokenizer. Ini hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhir dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
MicrosoftLanguageTokenizer
Membagi teks menggunakan aturan khusus bahasa.
Nama | Jenis | Nilai default | Deskripsi |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis tokenizer. |
|
isSearchTokenizer |
boolean |
False |
Nilai yang menunjukkan bagaimana tokenizer digunakan. Atur ke true jika digunakan sebagai tokenizer pencarian, atur ke false jika digunakan sebagai tokenizer pengindeksan. Defaultnya adalah false. |
language |
Bahasa yang digunakan. Defaultnya adalah bahasa Inggris. |
||
maxTokenLength |
integer |
255 |
Panjang token maksimum. Token yang lebih panjang dari panjang maksimum dibagi. Panjang token maksimum yang dapat digunakan adalah 300 karakter. Token yang lebih panjang dari 300 karakter pertama kali dibagi menjadi token dengan panjang 300 dan kemudian masing-masing token tersebut dibagi berdasarkan panjang token maksimum yang ditetapkan. Defaultnya adalah 255. |
name |
string |
Nama tokenizer. Ini hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhir dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
MicrosoftStemmingTokenizerLanguage
Mencantumkan bahasa yang didukung oleh tokenizer stemming bahasa Microsoft.
Nama | Jenis | Deskripsi |
---|---|---|
arabic |
string |
Memilih tokenizer stemming Microsoft untuk Bahasa Arab. |
bangla |
string |
Memilih tokenizer stemming Microsoft untuk Bangla. |
bulgarian |
string |
Memilih tokenizer stemming Microsoft untuk Bulgaria. |
catalan |
string |
Memilih tokenizer stemming Microsoft untuk Catalan. |
croatian |
string |
Memilih tokenizer stemming Microsoft untuk bahasa Kroasia. |
czech |
string |
Memilih tokenizer stemming Microsoft untuk Ceko. |
danish |
string |
Memilih tokenizer stemming Microsoft untuk Denmark. |
dutch |
string |
Memilih tokenizer stemming Microsoft untuk Bahasa Belanda. |
english |
string |
Memilih tokenizer stemming Microsoft untuk bahasa Inggris. |
estonian |
string |
Memilih tokenizer stemming Microsoft untuk Estonia. |
finnish |
string |
Memilih tokenizer stemming Microsoft untuk Finlandia. |
french |
string |
Memilih tokenizer stemming Microsoft untuk bahasa Prancis. |
german |
string |
Memilih tokenizer stemming Microsoft untuk bahasa Jerman. |
greek |
string |
Memilih tokenizer stemming Microsoft untuk bahasa Yunani. |
gujarati |
string |
Memilih tokenizer stemming Microsoft untuk Gujarati. |
hebrew |
string |
Memilih tokenizer stemming Microsoft untuk Ibrani. |
hindi |
string |
Memilih tokenizer stemming Microsoft untuk Hindi. |
hungarian |
string |
Memilih tokenizer stemming Microsoft untuk Hungaria. |
icelandic |
string |
Memilih tokenizer stemming Microsoft untuk Islandia. |
indonesian |
string |
Memilih tokenizer stemming Microsoft untuk bahasa Indonesia. |
italian |
string |
Memilih tokenizer stemming Microsoft untuk bahasa Italia. |
kannada |
string |
Memilih tokenizer stemming Microsoft untuk Kannada. |
latvian |
string |
Memilih tokenizer stemming Microsoft untuk Latvia. |
lithuanian |
string |
Memilih tokenizer stemming Microsoft untuk Lithuania. |
malay |
string |
Memilih tokenizer stemming Microsoft untuk Melayu. |
malayalam |
string |
Memilih tokenizer stemming Microsoft untuk Malayalam. |
marathi |
string |
Memilih tokenizer stemming Microsoft untuk Marathi. |
norwegianBokmaal |
string |
Memilih tokenizer stemming Microsoft untuk Norwegia (Bokmål). |
polish |
string |
Memilih tokenizer stemming Microsoft untuk Polandia. |
portuguese |
string |
Memilih tokenizer stemming Microsoft untuk Portugis. |
portugueseBrazilian |
string |
Memilih tokenizer stemming Microsoft untuk Portugis (Brasil). |
punjabi |
string |
Memilih tokenizer stemming Microsoft untuk Punjabi. |
romanian |
string |
Memilih tokenizer stemming Microsoft untuk Rumania. |
russian |
string |
Memilih tokenizer stemming Microsoft untuk bahasa Rusia. |
serbianCyrillic |
string |
Memilih tokenizer stemming Microsoft untuk Serbia (Sirilik). |
serbianLatin |
string |
Memilih tokenizer stemming Microsoft untuk Serbia (Latin). |
slovak |
string |
Memilih tokenizer stemming Microsoft untuk Slovakia. |
slovenian |
string |
Memilih tokenizer stemming Microsoft untuk Slovenia. |
spanish |
string |
Memilih tokenizer stemming Microsoft untuk Bahasa Spanyol. |
swedish |
string |
Memilih tokenizer stemming Microsoft untuk Swedia. |
tamil |
string |
Memilih tokenizer stemming Microsoft untuk Tamil. |
telugu |
string |
Memilih tokenizer stemming Microsoft untuk Telugu. |
turkish |
string |
Memilih tokenizer stemming Microsoft untuk Turki. |
ukrainian |
string |
Memilih tokenizer stemming Microsoft untuk Ukraina. |
urdu |
string |
Memilih tokenizer stemming Microsoft untuk Urdu. |
MicrosoftTokenizerLanguage
Mencantumkan bahasa yang didukung oleh tokenizer bahasa Microsoft.
Nama | Jenis | Deskripsi |
---|---|---|
bangla |
string |
Memilih tokenizer Microsoft untuk Bangla. |
bulgarian |
string |
Memilih tokenizer Microsoft untuk Bulgaria. |
catalan |
string |
Memilih tokenizer Microsoft untuk Catalan. |
chineseSimplified |
string |
Memilih tokenizer Microsoft untuk Bahasa Tionghoa (Disederhanakan). |
chineseTraditional |
string |
Memilih tokenizer Microsoft untuk Bahasa Tionghoa (Tradisional). |
croatian |
string |
Memilih tokenizer Microsoft untuk Kroasia. |
czech |
string |
Memilih tokenizer Microsoft untuk Ceko. |
danish |
string |
Memilih tokenizer Microsoft untuk Denmark. |
dutch |
string |
Memilih tokenizer Microsoft untuk Bahasa Belanda. |
english |
string |
Memilih tokenizer Microsoft untuk bahasa Inggris. |
french |
string |
Memilih tokenizer Microsoft untuk bahasa Prancis. |
german |
string |
Memilih tokenizer Microsoft untuk bahasa Jerman. |
greek |
string |
Memilih tokenizer Microsoft untuk bahasa Yunani. |
gujarati |
string |
Memilih tokenizer Microsoft untuk Gujarati. |
hindi |
string |
Memilih tokenizer Microsoft untuk Hindi. |
icelandic |
string |
Memilih tokenizer Microsoft untuk Islandia. |
indonesian |
string |
Memilih tokenizer Microsoft untuk bahasa Indonesia. |
italian |
string |
Memilih tokenizer Microsoft untuk bahasa Italia. |
japanese |
string |
Memilih tokenizer Microsoft untuk bahasa Jepang. |
kannada |
string |
Memilih tokenizer Microsoft untuk Kannada. |
korean |
string |
Memilih tokenizer Microsoft untuk Bahasa Korea. |
malay |
string |
Memilih tokenizer Microsoft untuk Melayu. |
malayalam |
string |
Memilih tokenizer Microsoft untuk Malayalam. |
marathi |
string |
Memilih tokenizer Microsoft untuk Marathi. |
norwegianBokmaal |
string |
Memilih tokenizer Microsoft untuk Norwegia (Bokmål). |
polish |
string |
Memilih tokenizer Microsoft untuk Polandia. |
portuguese |
string |
Memilih tokenizer Microsoft untuk Bahasa Portugis. |
portugueseBrazilian |
string |
Memilih tokenizer Microsoft untuk Portugis (Brasil). |
punjabi |
string |
Memilih tokenizer Microsoft untuk Punjabi. |
romanian |
string |
Memilih tokenizer Microsoft untuk Rumania. |
russian |
string |
Memilih tokenizer Microsoft untuk bahasa Rusia. |
serbianCyrillic |
string |
Memilih tokenizer Microsoft untuk Serbia (Sirilik). |
serbianLatin |
string |
Memilih tokenizer Microsoft untuk Serbia (Latin). |
slovenian |
string |
Memilih tokenizer Microsoft untuk Slovenia. |
spanish |
string |
Memilih tokenizer Microsoft untuk Bahasa Spanyol. |
swedish |
string |
Memilih tokenizer Microsoft untuk Swedia. |
tamil |
string |
Memilih tokenizer Microsoft untuk Tamil. |
telugu |
string |
Memilih tokenizer Microsoft untuk Telugu. |
thai |
string |
Memilih tokenizer Microsoft untuk Thailand. |
ukrainian |
string |
Memilih tokenizer Microsoft untuk Ukraina. |
urdu |
string |
Memilih tokenizer Microsoft untuk Urdu. |
vietnamese |
string |
Memilih tokenizer Microsoft untuk Vietnam. |
NGramTokenFilter
Menghasilkan n-gram dari ukuran yang diberikan. Filter token ini diimplementasikan menggunakan Apache Lucene.
Nama | Jenis | Nilai default | Deskripsi |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis filter token. |
|
maxGram |
integer |
2 |
Panjang n-gram maksimum. Defaultnya adalah 2. |
minGram |
integer |
1 |
Panjang n-gram minimum. Defaultnya adalah 1. Harus kurang dari nilai maxGram. |
name |
string |
Nama filter token. Ini hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhir dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
NGramTokenFilterV2
Menghasilkan n-gram dari ukuran yang diberikan. Filter token ini diimplementasikan menggunakan Apache Lucene.
Nama | Jenis | Nilai default | Deskripsi |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis filter token. |
|
maxGram |
integer |
2 |
Panjang n-gram maksimum. Defaultnya adalah 2. Maksimum adalah 300. |
minGram |
integer |
1 |
Panjang n-gram minimum. Defaultnya adalah 1. Maksimum adalah 300. Harus kurang dari nilai maxGram. |
name |
string |
Nama filter token. Ini hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhir dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
NGramTokenizer
Tokenisasi input ke dalam n-gram dari ukuran yang diberikan. Tokenizer ini diimplementasikan menggunakan Apache Lucene.
Nama | Jenis | Nilai default | Deskripsi |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis tokenizer. |
|
maxGram |
integer |
2 |
Panjang n-gram maksimum. Defaultnya adalah 2. Maksimum adalah 300. |
minGram |
integer |
1 |
Panjang n-gram minimum. Defaultnya adalah 1. Maksimum adalah 300. Harus kurang dari nilai maxGram. |
name |
string |
Nama tokenizer. Ini hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhir dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
|
tokenChars |
Kelas karakter untuk disimpan dalam token. |
OutputFieldMappingEntry
Pemetaan bidang output untuk keterampilan.
Nama | Jenis | Deskripsi |
---|---|---|
name |
string |
Nama output yang ditentukan oleh keterampilan. |
targetName |
string |
Nama target output. Ini opsional dan default ke nama. |
PathHierarchyTokenizerV2
Tokenizer untuk hierarki seperti jalur. Tokenizer ini diimplementasikan menggunakan Apache Lucene.
Nama | Jenis | Nilai default | Deskripsi |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis tokenizer. |
|
delimiter |
string |
/ |
Karakter pemisah yang akan digunakan. Defaultnya adalah "/". |
maxTokenLength |
integer |
300 |
Panjang token maksimum. Default dan maksimum adalah 300. |
name |
string |
Nama tokenizer. Ini hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhir dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
|
replacement |
string |
/ |
Nilai yang, jika diatur, menggantikan karakter pemisah. Defaultnya adalah "/". |
reverse |
boolean |
False |
Nilai yang menunjukkan apakah akan menghasilkan token dalam urutan terbalik. Defaultnya adalah false. |
skip |
integer |
0 |
Jumlah token awal yang akan dilewati. Defaultnya adalah 0. |
PatternAnalyzer
Secara fleksibel memisahkan teks menjadi istilah melalui pola ekspresi reguler. Penganalisis ini diimplementasikan menggunakan Apache Lucene.
Nama | Jenis | Nilai default | Deskripsi |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis penganalisis. |
|
flags |
Bendera ekspresi reguler. |
||
lowercase |
boolean |
True |
Nilai yang menunjukkan apakah istilah harus lebih rendah huruf besar/kecil. Defaultnya adalah true. |
name |
string |
Nama penganalisis. Ini hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhir dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
|
pattern |
string |
\W+ |
Pola ekspresi reguler untuk mencocokkan pemisah token. Defaultnya adalah ekspresi yang cocok dengan satu atau beberapa karakter non-kata. |
stopwords |
string[] |
Daftar kata henti. |
PatternCaptureTokenFilter
Menggunakan regex Java untuk memancarkan beberapa token - satu untuk setiap grup pengambilan dalam satu atau beberapa pola. Filter token ini diimplementasikan menggunakan Apache Lucene.
Nama | Jenis | Nilai default | Deskripsi |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis filter token. |
|
name |
string |
Nama filter token. Ini hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhir dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
|
patterns |
string[] |
Daftar pola yang cocok dengan setiap token. |
|
preserveOriginal |
boolean |
True |
Nilai yang menunjukkan apakah akan mengembalikan token asli meskipun salah satu pola cocok. Defaultnya adalah true. |
PatternReplaceCharFilter
Filter karakter yang menggantikan karakter dalam string input. Ini menggunakan ekspresi reguler untuk mengidentifikasi urutan karakter untuk mempertahankan dan pola penggantian untuk mengidentifikasi karakter yang akan diganti. Misalnya, mengingat teks input "aa bb aa bb", pola "(aa)\s+(bb)", dan penggantian "$1#$2", hasilnya adalah "aa#bb aa#bb". Filter karakter ini diimplementasikan menggunakan Apache Lucene.
Nama | Jenis | Deskripsi |
---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis filter karakter. |
name |
string |
Nama filter karakter. Ini hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhir dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
pattern |
string |
Pola ekspresi reguler. |
replacement |
string |
Teks pengganti. |
PatternReplaceTokenFilter
Filter karakter yang menggantikan karakter dalam string input. Ini menggunakan ekspresi reguler untuk mengidentifikasi urutan karakter untuk mempertahankan dan pola penggantian untuk mengidentifikasi karakter yang akan diganti. Misalnya, mengingat teks input "aa bb aa bb", pola "(aa)\s+(bb)", dan penggantian "$1#$2", hasilnya adalah "aa#bb aa#bb". Filter token ini diimplementasikan menggunakan Apache Lucene.
Nama | Jenis | Deskripsi |
---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis filter token. |
name |
string |
Nama filter token. Ini hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhir dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
pattern |
string |
Pola ekspresi reguler. |
replacement |
string |
Teks pengganti. |
PatternTokenizer
Tokenizer yang menggunakan pencocokan pola regex untuk membangun token yang berbeda. Tokenizer ini diimplementasikan menggunakan Apache Lucene.
Nama | Jenis | Nilai default | Deskripsi |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis tokenizer. |
|
flags |
Bendera ekspresi reguler. |
||
group |
integer |
-1 |
Ordinal berbasis nol dari grup yang cocok dalam pola ekspresi reguler untuk mengekstrak ke dalam token. Gunakan -1 jika Anda ingin menggunakan seluruh pola untuk membagi input menjadi token, terlepas dari grup yang cocok. Defaultnya adalah -1. |
name |
string |
Nama tokenizer. Ini hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhir dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
|
pattern |
string |
\W+ |
Pola ekspresi reguler untuk mencocokkan pemisah token. Defaultnya adalah ekspresi yang cocok dengan satu atau beberapa karakter non-kata. |
PhoneticEncoder
Mengidentifikasi jenis encoder fonetik untuk digunakan dengan PhoneticTokenFilter.
Nama | Jenis | Deskripsi |
---|---|---|
beiderMorse |
string |
Mengodekan token ke dalam nilai Beider-Morse. |
caverphone1 |
string |
Mengodekan token ke dalam nilai Caverphone 1.0. |
caverphone2 |
string |
Mengodekan token ke dalam nilai Caverphone 2.0. |
cologne |
string |
Mengodekan token ke dalam nilai Fonetik Cologne. |
doubleMetaphone |
string |
Mengodekan token ke dalam nilai metaphone ganda. |
haasePhonetik |
string |
Mengodekan token menggunakan penyempurnaan Haase dari algoritma Kölner Phonetik. |
koelnerPhonetik |
string |
Mengodekan token menggunakan algoritma Kölner Phonetik. |
metaphone |
string |
Mengodekan token ke dalam nilai Metaphone. |
nysiis |
string |
Mengodekan token ke dalam nilai NYSIIS. |
refinedSoundex |
string |
Mengodekan token ke dalam nilai Soundex Yang Disempurnakan. |
soundex |
string |
Mengodekan token ke dalam nilai Soundex. |
PhoneticTokenFilter
Buat token untuk kecocokan fonetik. Filter token ini diimplementasikan menggunakan Apache Lucene.
Nama | Jenis | Nilai default | Deskripsi |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis filter token. |
|
encoder | metaphone |
Encoder fonetik yang akan digunakan. Defaultnya adalah "metaphone". |
|
name |
string |
Nama filter token. Ini hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhir dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
|
replace |
boolean |
True |
Nilai yang menunjukkan apakah token yang dikodekan harus menggantikan token asli. Jika false, token yang dikodekan ditambahkan sebagai sinonim. Defaultnya adalah true. |
PrioritizedFields
Menjelaskan bidang judul, konten, dan kata kunci yang akan digunakan untuk peringkat, keterangan, sorotan, dan jawaban semantik.
Nama | Jenis | Deskripsi |
---|---|---|
prioritizedContentFields |
Menentukan bidang konten yang akan digunakan untuk peringkat semantik, keterangan, sorotan, dan jawaban. Untuk hasil terbaik, bidang yang dipilih harus berisi teks dalam bentuk bahasa alami. Urutan bidang dalam array mewakili prioritasnya. Bidang dengan prioritas yang lebih rendah mungkin terpotong jika kontennya panjang. |
|
prioritizedKeywordsFields |
Menentukan bidang kata kunci yang akan digunakan untuk peringkat semantik, keterangan, sorotan, dan jawaban. Untuk hasil terbaik, bidang yang dipilih harus berisi daftar kata kunci. Urutan bidang dalam array mewakili prioritasnya. Bidang dengan prioritas yang lebih rendah mungkin terpotong jika kontennya panjang. |
|
titleField |
Menentukan bidang judul yang akan digunakan untuk peringkat semantik, keterangan, sorotan, dan jawaban. Jika Anda tidak memiliki bidang judul dalam indeks Anda, biarkan bidang ini kosong. |
RegexFlags
Menentukan bendera yang dapat digabungkan untuk mengontrol bagaimana ekspresi reguler digunakan dalam penganalisis pola dan tokenizer pola.
Nama | Jenis | Deskripsi |
---|---|---|
CANON_EQ |
string |
Mengaktifkan kesetaraan kanonis. |
CASE_INSENSITIVE |
string |
Mengaktifkan pencocokan yang tidak peka huruf besar/kecil. |
COMMENTS |
string |
Mengizinkan spasi kosong dan komentar dalam pola. |
DOTALL |
string |
Mengaktifkan mode dotall. |
LITERAL |
string |
Memungkinkan penguraian harfiah pola. |
MULTILINE |
string |
Mengaktifkan mode multibaris. |
UNICODE_CASE |
string |
Mengaktifkan pelipatan kasus sadar Unicode. |
UNIX_LINES |
string |
Mengaktifkan mode garis Unix. |
ScalarQuantizationParameters
Berisi parameter khusus untuk Kuantisasi Skalar.
Nama | Jenis | Deskripsi |
---|---|---|
quantizedDataType |
Jenis data terkuantisasi dari nilai vektor terkompresi. |
ScalarQuantizationVectorSearchCompressionConfiguration
Berisi opsi konfigurasi khusus untuk metode kompresi kuantisasi skalar yang digunakan selama pengindeksan dan kueri.
Nama | Jenis | Nilai default | Deskripsi |
---|---|---|---|
defaultOversampling |
number |
Faktor oversampling default. Pengambilan sampel berlebih akan meminta lebih banyak dokumen secara internal (ditentukan oleh pengali ini) dalam pencarian awal. Ini meningkatkan serangkaian hasil yang akan direrank menggunakan skor kesamaan yang dikomputasi ulang dari vektor presisi penuh. Nilai minimum adalah 1, yang berarti tidak ada oversampling (1x). Parameter ini hanya dapat diatur ketika rerankWithOriginalVectors benar. Nilai yang lebih tinggi meningkatkan pengenalan dengan mengorbankan latensi. |
|
kind |
string:
scalar |
Nama jenis metode kompresi yang dikonfigurasi untuk digunakan dengan pencarian vektor. |
|
name |
string |
Nama yang akan dikaitkan dengan konfigurasi khusus ini. |
|
rerankWithOriginalVectors |
boolean |
True |
Jika diatur ke true, setelah kumpulan hasil yang diurutkan yang dihitung menggunakan vektor terkompresi diperoleh, mereka akan dirankit ulang lagi dengan menghitung ulang skor kesamaan presisi penuh. Ini akan meningkatkan pengenalan dengan mengorbankan latensi. |
scalarQuantizationParameters |
Berisi parameter khusus untuk Kuantisasi Skalar. |
ScoringFunctionAggregation
Menentukan fungsi agregasi yang digunakan untuk menggabungkan hasil semua fungsi penilaian dalam profil penilaian.
Nama | Jenis | Deskripsi |
---|---|---|
average |
string |
Tingkatkan skor dengan rata-rata semua hasil fungsi penilaian. |
firstMatching |
string |
Tingkatkan skor menggunakan fungsi penilaian pertama yang berlaku di profil penilaian. |
maximum |
string |
Tingkatkan skor dengan maksimum semua hasil fungsi penilaian. |
minimum |
string |
Tingkatkan skor dengan minimal semua hasil fungsi penilaian. |
sum |
string |
Tingkatkan skor dengan jumlah semua hasil fungsi penilaian. |
ScoringFunctionInterpolation
Menentukan fungsi yang digunakan untuk menginterpolasi peningkatan skor di berbagai dokumen.
Nama | Jenis | Deskripsi |
---|---|---|
constant |
string |
Meningkatkan skor dengan faktor konstanta. |
linear |
string |
Meningkatkan skor dengan jumlah yang menurun secara linier. Ini adalah interpolasi default untuk fungsi penilaian. |
logarithmic |
string |
Meningkatkan skor dengan jumlah yang menurun secara logaritma. Peningkatan menurun dengan cepat untuk skor yang lebih tinggi, dan lebih lambat saat skor menurun. Opsi interpolasi ini tidak diperbolehkan dalam fungsi penilaian tag. |
quadratic |
string |
Meningkatkan skor dengan jumlah yang menurun secara kuadrat. Peningkatan menurun perlahan untuk skor yang lebih tinggi, dan lebih cepat saat skor menurun. Opsi interpolasi ini tidak diperbolehkan dalam fungsi penilaian tag. |
ScoringProfile
Menentukan parameter untuk indeks pencarian yang memengaruhi penilaian dalam kueri pencarian.
Nama | Jenis | Deskripsi |
---|---|---|
functionAggregation |
Nilai yang menunjukkan bagaimana hasil fungsi penilaian individu harus digabungkan. Default ke "Jumlah". Diabaikan jika tidak ada fungsi penilaian. |
|
functions | ScoringFunction[]: |
Kumpulan fungsi yang memengaruhi penilaian dokumen. |
name |
string |
Nama profil penilaian. |
text |
Parameter yang meningkatkan penilaian berdasarkan kecocokan teks di bidang indeks tertentu. |
SearchField
Mewakili bidang dalam definisi indeks, yang menjelaskan nama, jenis data, dan perilaku pencarian bidang.
Nama | Jenis | Deskripsi |
---|---|---|
analyzer |
Nama penganalisis yang digunakan untuk bidang . Opsi ini hanya dapat digunakan dengan bidang yang dapat dicari dan tidak dapat diatur bersama dengan searchAnalyzer atau indexAnalyzer. Setelah penganalisis dipilih, penganalisis tidak dapat diubah untuk bidang . Harus null untuk bidang kompleks. |
|
dimensions |
integer |
Dimensi bidang vektor. |
facetable |
boolean |
Nilai yang menunjukkan apakah akan mengaktifkan bidang yang akan direferensikan dalam kueri faset. Biasanya digunakan dalam presentasi hasil pencarian yang mencakup hit hit berdasarkan kategori (misalnya, mencari kamera digital dan melihat hit berdasarkan merek, berdasarkan megapiksel, berdasarkan harga, dan sebagainya). Properti ini harus null untuk bidang kompleks. Bidang tipe Edm.GeographyPoint atau Collection(Edm.GeographyPoint) tidak dapat difaset. Default berlaku untuk semua bidang sederhana lainnya. |
fields |
Daftar sub-bidang jika ini adalah bidang tipe Edm.ComplexType atau Collection(Edm.ComplexType). Harus null atau kosong untuk bidang sederhana. |
|
filterable |
boolean |
Nilai yang menunjukkan apakah akan mengaktifkan bidang yang akan direferensikan dalam kueri $filter. dapat difilter berbeda dari yang dapat dicari dalam bagaimana string ditangani. Bidang tipe Edm.String atau Collection(Edm.String) yang dapat difilter tidak mengalami pemecahan kata, sehingga perbandingan hanya untuk kecocokan yang tepat. Misalnya, jika Anda mengatur bidang f seperti itu ke "hari cerah", $filter=f eq 'cerah' tidak akan menemukan kecocokan, tetapi $filter=f eq 'hari cerah' akan. Properti ini harus null untuk bidang kompleks. Default berlaku untuk bidang sederhana dan null untuk bidang kompleks. |
indexAnalyzer |
Nama penganalisis yang digunakan pada waktu pengindeksan untuk bidang . Opsi ini hanya dapat digunakan dengan bidang yang dapat dicari. Ini harus diatur bersama dengan searchAnalyzer dan tidak dapat diatur bersama dengan opsi penganalisis. Properti ini tidak dapat diatur ke nama penganalisis bahasa; gunakan properti penganalisis sebagai gantinya jika Anda memerlukan penganalisis bahasa. Setelah penganalisis dipilih, penganalisis tidak dapat diubah untuk bidang . Harus null untuk bidang kompleks. |
|
key |
boolean |
Nilai yang menunjukkan apakah bidang secara unik mengidentifikasi dokumen dalam indeks. Tepat satu bidang tingkat atas di setiap indeks harus dipilih sebagai bidang kunci dan harus berjenis Edm.String. Bidang kunci dapat digunakan untuk mencari dokumen secara langsung dan memperbarui atau menghapus dokumen tertentu. Defaultnya adalah false untuk bidang sederhana dan null untuk bidang kompleks. |
name |
string |
Nama bidang, yang harus unik dalam kumpulan bidang indeks atau bidang induk. |
retrievable |
boolean |
Nilai yang menunjukkan apakah bidang dapat dikembalikan dalam hasil pencarian. Anda dapat menonaktifkan opsi ini jika Anda ingin menggunakan bidang (misalnya, margin) sebagai mekanisme filter, pengurutan, atau penilaian tetapi tidak ingin bidang terlihat oleh pengguna akhir. Properti ini harus benar untuk bidang kunci, dan harus null untuk bidang kompleks. Properti ini dapat diubah pada bidang yang ada. Mengaktifkan properti ini tidak menyebabkan peningkatan persyaratan penyimpanan indeks. Defaultnya adalah true untuk bidang sederhana, false untuk bidang vektor, dan null untuk bidang kompleks. |
searchAnalyzer |
Nama penganalisis yang digunakan pada waktu pencarian untuk bidang . Opsi ini hanya dapat digunakan dengan bidang yang dapat dicari. Ini harus diatur bersama dengan indexAnalyzer dan tidak dapat diatur bersama dengan opsi penganalisis. Properti ini tidak dapat diatur ke nama penganalisis bahasa; gunakan properti penganalisis sebagai gantinya jika Anda memerlukan penganalisis bahasa. Penganalisis ini dapat diperbarui pada bidang yang ada. Harus null untuk bidang kompleks. |
|
searchable |
boolean |
Nilai yang menunjukkan apakah bidang dapat dicari teks lengkap. Ini berarti ia akan menjalani analisis seperti pemecahan kata selama pengindeksan. Jika Anda mengatur bidang yang dapat dicari ke nilai seperti "hari cerah", secara internal akan dibagi menjadi token individu "cerah" dan "hari". Ini memungkinkan pencarian teks lengkap untuk istilah-istilah ini. Bidang tipe Edm.String atau Collection(Edm.String) dapat dicari secara default. Properti ini harus salah untuk bidang sederhana dari jenis data non-string lainnya, dan harus null untuk bidang kompleks. Catatan: bidang yang dapat dicari menggunakan ruang ekstra dalam indeks Anda untuk mengakomodasi versi token tambahan dari nilai bidang untuk pencarian teks lengkap. Jika Anda ingin menghemat ruang dalam indeks Dan Anda tidak memerlukan bidang untuk disertakan dalam pencarian, atur dapat dicari ke false. |
sortable |
boolean |
Nilai yang menunjukkan apakah akan mengaktifkan bidang yang akan direferensikan dalam ekspresi $orderby. Secara default, mesin pencari mengurutkan hasil menurut skor, tetapi dalam banyak pengalaman pengguna akan ingin mengurutkan menurut bidang dalam dokumen. Bidang sederhana hanya dapat diurutkan jika bernilai tunggal (memiliki nilai tunggal dalam cakupan dokumen induk). Bidang koleksi sederhana tidak dapat diurutkan, karena bernilai multinilai. Sub-bidang sederhana dari koleksi kompleks juga multinilai, dan karenanya tidak dapat diurutkan. Ini benar apakah itu bidang induk langsung, atau bidang leluhur, itulah koleksi kompleks. Bidang kompleks tidak dapat diurutkan dan properti yang dapat diurutkan harus null untuk bidang tersebut. Default untuk dapat diurutkan adalah true untuk bidang sederhana bernilai tunggal, false untuk bidang sederhana multinilai, dan null untuk bidang kompleks. |
stored |
boolean |
Nilai yang tidak dapat diubah yang menunjukkan apakah bidang akan disimpan secara terpisah pada disk yang akan dikembalikan dalam hasil pencarian. Anda dapat menonaktifkan opsi ini jika Anda tidak berencana mengembalikan konten bidang dalam respons pencarian untuk disimpan di overhead penyimpanan. Ini hanya dapat diatur selama pembuatan indeks dan hanya untuk bidang vektor. Properti ini tidak dapat diubah untuk bidang yang ada atau diatur sebagai false untuk bidang baru. Jika properti ini diatur sebagai false, properti 'dapat diambil' juga harus diatur ke false. Properti ini harus benar atau tidak diatur untuk bidang kunci, untuk bidang baru, dan untuk bidang non-vektor, dan harus null untuk bidang kompleks. Menonaktifkan properti ini akan mengurangi persyaratan penyimpanan indeks. Defaultnya adalah true untuk bidang vektor. |
synonymMaps |
string[] |
Daftar nama peta sinonim untuk dikaitkan dengan bidang ini. Opsi ini hanya dapat digunakan dengan bidang yang dapat dicari. Saat ini hanya satu peta sinonim per bidang yang didukung. Menetapkan peta sinonim ke bidang memastikan bahwa istilah kueri yang menargetkan bidang tersebut diperluas pada waktu kueri menggunakan aturan di peta sinonim. Atribut ini dapat diubah pada bidang yang ada. Harus null atau koleksi kosong untuk bidang kompleks. |
type |
Jenis data bidang. |
|
vectorEncoding |
Format pengodean untuk menginterpretasikan konten bidang. |
|
vectorSearchProfile |
string |
Nama profil pencarian vektor yang menentukan algoritma dan vektorizer untuk digunakan saat mencari bidang vektor. |
SearchFieldDataType
Menentukan tipe data bidang dalam indeks pencarian.
Nama | Jenis | Deskripsi |
---|---|---|
Edm.Boolean |
string |
Menunjukkan bahwa bidang berisi nilai Boolean (benar atau salah). |
Edm.Byte |
string |
Menunjukkan bahwa bidang berisi bilangan bulat yang tidak ditandatangani 8-bit. Ini hanya valid ketika digunakan dengan Collection(Edm.Byte). |
Edm.ComplexType |
string |
Menunjukkan bahwa bidang berisi satu atau beberapa objek kompleks yang pada gilirannya memiliki sub-bidang jenis lain. |
Edm.DateTimeOffset |
string |
Menunjukkan bahwa bidang berisi nilai tanggal/waktu, termasuk informasi zona waktu. |
Edm.Double |
string |
Menunjukkan bahwa bidang berisi nomor titik mengambang presisi ganda IEEE. |
Edm.GeographyPoint |
string |
Menunjukkan bahwa bidang berisi lokasi geografis dalam hal garis bujur dan lintang. |
Edm.Half |
string |
Menunjukkan bahwa bidang berisi angka titik mengambang setengah presisi. Ini hanya valid ketika digunakan dengan Collection(Edm.Half). |
Edm.Int16 |
string |
Menunjukkan bahwa bidang berisi bilangan bulat bertanda 16-bit. Ini hanya valid ketika digunakan dengan Collection(Edm.Int16). |
Edm.Int32 |
string |
Menunjukkan bahwa bidang berisi bilangan bulat bertanda tangan 32-bit. |
Edm.Int64 |
string |
Menunjukkan bahwa bidang berisi bilangan bulat bertanda tangan 64-bit. |
Edm.SByte |
string |
Menunjukkan bahwa bidang berisi bilangan bulat bertanda tangan 8-bit. Ini hanya valid ketika digunakan dengan Collection(Edm.SByte). |
Edm.Single |
string |
Menunjukkan bahwa bidang berisi angka titik mengambang presisi tunggal. Ini hanya valid ketika digunakan dengan Collection(Edm.Single). |
Edm.String |
string |
Menunjukkan bahwa bidang berisi string. |
SearchIndex
Mewakili definisi indeks pencarian, yang menjelaskan bidang dan perilaku pencarian indeks.
Nama | Jenis | Deskripsi |
---|---|---|
@odata.etag |
string |
ETag indeks. |
analyzers | LexicalAnalyzer[]: |
Penganalisis untuk indeks. |
charFilters | CharFilter[]: |
Karakter memfilter indeks. |
corsOptions |
Opsi untuk mengontrol Berbagi Sumber Daya Lintas Asal (CORS) untuk indeks. |
|
defaultScoringProfile |
string |
Nama profil penilaian yang akan digunakan jika tidak ada yang ditentukan dalam kueri. Jika properti ini tidak diatur dan tidak ada profil penilaian yang ditentukan dalam kueri, maka penilaian default (tf-idf) akan digunakan. |
encryptionKey |
Deskripsi kunci enkripsi yang Anda buat di Azure Key Vault. Kunci ini digunakan untuk menyediakan tingkat enkripsi-tidak aktif tambahan untuk data Anda ketika Anda menginginkan jaminan penuh bahwa tidak ada yang, bahkan Microsoft, dapat mendekripsi data Anda. Setelah Anda mengenkripsi data Anda, data tersebut akan selalu tetap dienkripsi. Layanan pencarian akan mengabaikan upaya untuk mengatur properti ini ke null. Anda dapat mengubah properti ini sesuai kebutuhan jika Anda ingin memutar kunci enkripsi; Data Anda tidak akan terpengaruh. Enkripsi dengan kunci yang dikelola pelanggan tidak tersedia untuk layanan pencarian gratis, dan hanya tersedia untuk layanan berbayar yang dibuat pada atau setelah 1 Januari 2019. |
|
fields |
Bidang indeks. |
|
name |
string |
Nama indeks. |
scoringProfiles |
Profil penilaian untuk indeks. |
|
semantic |
Menentukan parameter untuk indeks pencarian yang memengaruhi kemampuan semantik. |
|
similarity | Similarity: |
Jenis algoritma kesamaan yang akan digunakan saat menilai dan memberi peringkat dokumen yang cocok dengan kueri pencarian. Algoritma kesamaan hanya dapat ditentukan pada waktu pembuatan indeks dan tidak dapat dimodifikasi pada indeks yang ada. Jika null, algoritma ClassicSimilarity digunakan. |
suggesters |
Pemberi saran untuk indeks. |
|
tokenFilters |
TokenFilter[]:
|
Token memfilter indeks. |
tokenizers | LexicalTokenizer[]: |
Tokenizer untuk indeks. |
vectorSearch |
Berisi opsi konfigurasi yang terkait dengan pencarian vektor. |
SearchIndexerDataNoneIdentity
Menghapus properti identitas sumber data.
Nama | Jenis | Deskripsi |
---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis identitas. |
SearchIndexerDataUserAssignedIdentity
Menentukan identitas untuk sumber data yang akan digunakan.
Nama | Jenis | Deskripsi |
---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis identitas. |
userAssignedIdentity |
string |
Id sumber daya Azure yang sepenuhnya memenuhi syarat dari identitas terkelola yang ditetapkan pengguna biasanya dalam formulir "/subscriptions/12345678-1234-1234-1234567890ab/resourceGroups/rg/providers/Microsoft.ManagedIdentity/userAssignedIdentities/myId" yang seharusnya ditetapkan ke layanan pencarian. |
SearchResourceEncryptionKey
Kunci enkripsi yang dikelola pelanggan di Azure Key Vault. Kunci yang Anda buat dan kelola dapat digunakan untuk mengenkripsi atau mendekripsi data tidak aktif, seperti indeks dan peta sinonim.
Nama | Jenis | Deskripsi |
---|---|---|
accessCredentials |
Kredensial Azure Active Directory opsional yang digunakan untuk mengakses Azure Key Vault Anda. Tidak diperlukan jika menggunakan identitas terkelola sebagai gantinya. |
|
keyVaultKeyName |
string |
Nama kunci Azure Key Vault Anda yang akan digunakan untuk mengenkripsi data Anda saat tidak aktif. |
keyVaultKeyVersion |
string |
Versi kunci Azure Key Vault Anda yang akan digunakan untuk mengenkripsi data Anda saat tidak aktif. |
keyVaultUri |
string |
URI Azure Key Vault Anda, juga disebut sebagai nama DNS, yang berisi kunci yang akan digunakan untuk mengenkripsi data Anda saat tidak aktif. Contoh URI mungkin |
SemanticConfiguration
Menentukan konfigurasi tertentu yang akan digunakan dalam konteks kemampuan semantik.
Nama | Jenis | Deskripsi |
---|---|---|
name |
string |
Nama konfigurasi semantik. |
prioritizedFields |
Menjelaskan bidang judul, konten, dan kata kunci yang akan digunakan untuk peringkat, keterangan, sorotan, dan jawaban semantik. Setidaknya salah satu dari tiga sub properti (titleField, prioritizedKeywordsFields dan prioritizedContentFields) perlu diatur. |
SemanticField
Bidang yang digunakan sebagai bagian dari konfigurasi semantik.
Nama | Jenis | Deskripsi |
---|---|---|
fieldName |
string |
SemanticSettings
Menentukan parameter untuk indeks pencarian yang memengaruhi kemampuan semantik.
Nama | Jenis | Deskripsi |
---|---|---|
configurations |
Konfigurasi semantik untuk indeks. |
|
defaultConfiguration |
string |
Memungkinkan Anda mengatur nama konfigurasi semantik default dalam indeks Anda, membuatnya opsional untuk meneruskannya sebagai parameter kueri setiap saat. |
ShingleTokenFilter
Membuat kombinasi token sebagai token tunggal. Filter token ini diimplementasikan menggunakan Apache Lucene.
Nama | Jenis | Nilai default | Deskripsi |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis filter token. |
|
filterToken |
string |
_ |
String yang akan disisipkan untuk setiap posisi di mana tidak ada token. Defaultnya adalah garis bawah ("_"). |
maxShingleSize |
integer |
2 |
Ukuran shingle maksimum. Nilai default dan minimum adalah 2. |
minShingleSize |
integer |
2 |
Ukuran shingle minimum. Nilai default dan minimum adalah 2. Harus kurang dari nilai maxShingleSize. |
name |
string |
Nama filter token. Ini hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhir dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
|
outputUnigrams |
boolean |
True |
Nilai yang menunjukkan apakah aliran output akan berisi token input (unigram) serta shingle. Defaultnya adalah true. |
outputUnigramsIfNoShingles |
boolean |
False |
Nilai yang menunjukkan apakah akan menghasilkan unigram untuk waktu tersebut ketika tidak ada shingle yang tersedia. Properti ini lebih diutamakan ketika outputUnigram diatur ke false. Defaultnya adalah false. |
tokenSeparator |
string |
String yang digunakan saat menggabungkan token yang berdekatan untuk membentuk shingle. Defaultnya adalah spasi tunggal (" "). |
SnowballTokenFilter
Filter yang membendung kata-kata menggunakan stemmer yang dihasilkan Snowball. Filter token ini diimplementasikan menggunakan Apache Lucene.
Nama | Jenis | Deskripsi |
---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis filter token. |
language |
Bahasa yang digunakan. |
|
name |
string |
Nama filter token. Ini hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhir dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
SnowballTokenFilterLanguage
Bahasa yang digunakan untuk filter token Snowball.
Nama | Jenis | Deskripsi |
---|---|---|
armenian |
string |
Memilih tokenizer stemming Lucene Snowball untuk Armenia. |
basque |
string |
Memilih tokenizer stemming Lucene Snowball untuk Basque. |
catalan |
string |
Memilih tokenizer stemming Lucene Snowball untuk Catalan. |
danish |
string |
Memilih tokenizer stemming Lucene Snowball untuk Denmark. |
dutch |
string |
Memilih tokenizer stemming Lucene Snowball untuk Belanda. |
english |
string |
Memilih tokenizer stemming Lucene Snowball untuk bahasa Inggris. |
finnish |
string |
Memilih tokenizer stemming Lucene Snowball untuk Finlandia. |
french |
string |
Memilih tokenizer stemming Lucene Snowball untuk bahasa Prancis. |
german |
string |
Memilih tokenizer stemming Lucene Snowball untuk bahasa Jerman. |
german2 |
string |
Memilih tokenizer stemming Lucene Snowball yang menggunakan algoritma varian Jerman. |
hungarian |
string |
Memilih tokenizer stemming Lucene Snowball untuk Hungaria. |
italian |
string |
Memilih tokenizer stemming Lucene Snowball untuk bahasa Italia. |
kp |
string |
Memilih tokenizer stemming Lucene Snowball untuk Belanda yang menggunakan algoritma stemming Kraaij-Pohlmann. |
lovins |
string |
Memilih tokenizer stemming Lucene Snowball untuk bahasa Inggris yang menggunakan algoritma stemming Lovins. |
norwegian |
string |
Memilih tokenizer stemming Lucene Snowball untuk Norwegia. |
porter |
string |
Memilih tokenizer stemming Lucene Snowball untuk bahasa Inggris yang menggunakan algoritma stemming Porter. |
portuguese |
string |
Memilih tokenizer stemming Lucene Snowball untuk Bahasa Portugis. |
romanian |
string |
Memilih tokenizer stemming Lucene Snowball untuk rumania. |
russian |
string |
Memilih tokenizer stemming Lucene Snowball untuk bahasa Rusia. |
spanish |
string |
Memilih tokenizer stemming Lucene Snowball untuk Bahasa Spanyol. |
swedish |
string |
Memilih tokenizer stemming Lucene Snowball untuk Swedia. |
turkish |
string |
Memilih tokenizer stemming Lucene Snowball untuk Turki. |
StemmerOverrideTokenFilter
Menyediakan kemampuan untuk mengambil alih filter stemming lain dengan stemming berbasis kamus kustom. Istilah apa pun yang bertangkai kamus akan ditandai sebagai kata kunci sehingga tidak akan dibendung dengan stemmer di bawah rantai. Harus ditempatkan sebelum filter stemming. Filter token ini diimplementasikan menggunakan Apache Lucene.
Nama | Jenis | Deskripsi |
---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis filter token. |
name |
string |
Nama filter token. Ini hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhir dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
rules |
string[] |
Daftar aturan stemming dalam format berikut: "word => stem", misalnya: "ran => run". |
StemmerTokenFilter
Filter stemming khusus bahasa. Filter token ini diimplementasikan menggunakan Apache Lucene.
Nama | Jenis | Deskripsi |
---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis filter token. |
language |
Bahasa yang digunakan. |
|
name |
string |
Nama filter token. Ini hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhir dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
StemmerTokenFilterLanguage
Bahasa yang digunakan untuk filter token stemmer.
Nama | Jenis | Deskripsi |
---|---|---|
arabic |
string |
Memilih tokenizer stemming Lucene untuk bahasa Arab. |
armenian |
string |
Memilih tokenizer stemming Lucene untuk Armenia. |
basque |
string |
Memilih tokenizer stemming Lucene untuk Basque. |
brazilian |
string |
Memilih tokenizer stemming Lucene untuk Portugis (Brasil). |
bulgarian |
string |
Memilih tokenizer stemming Lucene untuk Bulgaria. |
catalan |
string |
Memilih tokenizer stemming Lucene untuk Catalan. |
czech |
string |
Memilih tokenizer stemming Lucene untuk Ceko. |
danish |
string |
Memilih tokenizer stemming Lucene untuk Denmark. |
dutch |
string |
Memilih tokenizer stemming Lucene untuk Belanda. |
dutchKp |
string |
Memilih tokenizer stemming Lucene untuk Bahasa Belanda yang menggunakan algoritma stemming Kraaij-Pohlmann. |
english |
string |
Memilih tokenizer stemming Lucene untuk bahasa Inggris. |
finnish |
string |
Memilih tokenizer stemming Lucene untuk Finlandia. |
french |
string |
Memilih tokenizer stemming Lucene untuk bahasa Prancis. |
galician |
string |
Memilih tokenizer stemming Lucene untuk Galician. |
german |
string |
Memilih tokenizer stemming Lucene untuk bahasa Jerman. |
german2 |
string |
Memilih tokenizer stemming Lucene yang menggunakan algoritma varian Jerman. |
greek |
string |
Memilih tokenizer stemming Lucene untuk bahasa Yunani. |
hindi |
string |
Memilih tokenizer stemming Lucene untuk Hindi. |
hungarian |
string |
Memilih tokenizer stemming Lucene untuk Hungaria. |
indonesian |
string |
Memilih tokenizer stemming Lucene untuk bahasa Indonesia. |
irish |
string |
Memilih tokenizer stemming Lucene untuk Irlandia. |
italian |
string |
Memilih tokenizer stemming Lucene untuk Bahasa Italia. |
latvian |
string |
Memilih tokenizer stemming Lucene untuk Latvia. |
lightEnglish |
string |
Memilih tokenizer stemming Lucene untuk bahasa Inggris yang melakukan stemming ringan. |
lightFinnish |
string |
Memilih tokenizer stemming Lucene untuk Finlandia yang melakukan stemming ringan. |
lightFrench |
string |
Memilih tokenizer stemming Lucene untuk bahasa Prancis yang melakukan stemming ringan. |
lightGerman |
string |
Memilih tokenizer stemming Lucene untuk bahasa Jerman yang melakukan stemming ringan. |
lightHungarian |
string |
Memilih tokenizer stemming Lucene untuk Hungaria yang melakukan stemming ringan. |
lightItalian |
string |
Memilih tokenizer stemming Lucene untuk Italia yang melakukan stemming ringan. |
lightNorwegian |
string |
Memilih tokenizer stemming Lucene untuk Norwegia (Bokmål) yang melakukan stemming ringan. |
lightNynorsk |
string |
Memilih tokenizer stemming Lucene untuk Norwegia (Nynorsk) yang melakukan stemming ringan. |
lightPortuguese |
string |
Memilih tokenizer stemming Lucene untuk bahasa Portugis yang melakukan stemming ringan. |
lightRussian |
string |
Memilih tokenizer stemming Lucene untuk Rusia yang melakukan stemming ringan. |
lightSpanish |
string |
Memilih tokenizer stemming Lucene untuk Spanyol yang melakukan stemming ringan. |
lightSwedish |
string |
Memilih tokenizer stemming Lucene untuk Swedia yang melakukan stemming ringan. |
lovins |
string |
Memilih tokenizer stemming Lucene untuk bahasa Inggris yang menggunakan algoritma stemming Lovins. |
minimalEnglish |
string |
Memilih tokenizer stemming Lucene untuk bahasa Inggris yang melakukan stemming minimal. |
minimalFrench |
string |
Memilih tokenizer stemming Lucene untuk bahasa Prancis yang melakukan stemming minimal. |
minimalGalician |
string |
Memilih tokenizer stemming Lucene untuk Galician yang melakukan stemming minimal. |
minimalGerman |
string |
Memilih tokenizer stemming Lucene untuk bahasa Jerman yang melakukan stemming minimal. |
minimalNorwegian |
string |
Memilih tokenizer stemming Lucene untuk Norwegia (Bokmål) yang melakukan stemming minimal. |
minimalNynorsk |
string |
Memilih tokenizer stemming Lucene untuk Norwegia (Nynorsk) yang melakukan stemming minimal. |
minimalPortuguese |
string |
Memilih tokenizer stemming Lucene untuk Portugis yang melakukan stemming minimal. |
norwegian |
string |
Memilih tokenizer stemming Lucene untuk Norwegia (Bokmål). |
porter2 |
string |
Memilih tokenizer stemming Lucene untuk bahasa Inggris yang menggunakan algoritma stemming Porter2. |
portuguese |
string |
Memilih tokenizer stemming Lucene untuk Bahasa Portugis. |
portugueseRslp |
string |
Memilih tokenizer stemming Lucene untuk Bahasa Portugis yang menggunakan algoritma stemming RSLP. |
possessiveEnglish |
string |
Memilih tokenizer stemming Lucene untuk bahasa Inggris yang menghapus posesif berikutnya dari kata-kata. |
romanian |
string |
Memilih tokenizer stemming Lucene untuk Rumania. |
russian |
string |
Memilih tokenizer stemming Lucene untuk Rusia. |
sorani |
string |
Memilih tokenizer stemming Lucene untuk Sorani. |
spanish |
string |
Memilih tokenizer stemming Lucene untuk Bahasa Spanyol. |
swedish |
string |
Memilih tokenizer stemming Lucene untuk Swedia. |
turkish |
string |
Memilih tokenizer stemming Lucene untuk Turki. |
StopAnalyzer
Membagi teks pada non-huruf; Menerapkan filter token huruf kecil dan stopword. Penganalisis ini diimplementasikan menggunakan Apache Lucene.
Nama | Jenis | Deskripsi |
---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis penganalisis. |
name |
string |
Nama penganalisis. Ini hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhir dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
stopwords |
string[] |
Daftar kata henti. |
StopwordsList
Mengidentifikasi daftar stopword khusus bahasa yang telah ditentukan sebelumnya.
Nama | Jenis | Deskripsi |
---|---|---|
arabic |
string |
Memilih daftar stopword untuk Bahasa Arab. |
armenian |
string |
Memilih daftar stopword untuk Armenia. |
basque |
string |
Memilih daftar stopword untuk Basque. |
brazilian |
string |
Memilih daftar stopword untuk Bahasa Portugis (Brasil). |
bulgarian |
string |
Memilih daftar stopword untuk bahasa Bulgaria. |
catalan |
string |
Memilih daftar stopword untuk Catalan. |
czech |
string |
Memilih daftar stopword untuk Ceko. |
danish |
string |
Memilih daftar stopword untuk Bahasa Denmark. |
dutch |
string |
Memilih daftar stopword untuk Bahasa Belanda. |
english |
string |
Memilih daftar stopword untuk bahasa Inggris. |
finnish |
string |
Memilih daftar stopword untuk bahasa Finlandia. |
french |
string |
Memilih daftar stopword untuk bahasa Prancis. |
galician |
string |
Memilih daftar stopword untuk Galician. |
german |
string |
Memilih daftar stopword untuk bahasa Jerman. |
greek |
string |
Memilih daftar stopword untuk bahasa Yunani. |
hindi |
string |
Memilih daftar stopword untuk Hindi. |
hungarian |
string |
Memilih daftar stopword untuk Hungaria. |
indonesian |
string |
Memilih daftar stopword untuk bahasa Indonesia. |
irish |
string |
Memilih daftar stopword untuk Irlandia. |
italian |
string |
Memilih daftar stopword untuk bahasa Italia. |
latvian |
string |
Memilih daftar stopword untuk bahasa Latvia. |
norwegian |
string |
Memilih daftar stopword untuk Bahasa Norwegia. |
persian |
string |
Memilih daftar stopword untuk Persia. |
portuguese |
string |
Memilih daftar stopword untuk Bahasa Portugis. |
romanian |
string |
Memilih daftar stopword untuk Rumania. |
russian |
string |
Memilih daftar stopword untuk bahasa Rusia. |
sorani |
string |
Memilih daftar stopword untuk Sorani. |
spanish |
string |
Memilih daftar stopword untuk bahasa Spanyol. |
swedish |
string |
Memilih daftar stopword untuk Swedia. |
thai |
string |
Memilih daftar stopword untuk Bahasa Thailand. |
turkish |
string |
Memilih daftar stopword untuk Turki. |
StopwordsTokenFilter
Menghapus kata berhenti dari aliran token. Filter token ini diimplementasikan menggunakan Apache Lucene.
Nama | Jenis | Nilai default | Deskripsi |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis filter token. |
|
ignoreCase |
boolean |
False |
Nilai yang menunjukkan apakah akan mengabaikan kasus. Jika true, semua kata dikonversi ke huruf kecil terlebih dahulu. Defaultnya adalah false. |
name |
string |
Nama filter token. Ini hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhir dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
|
removeTrailing |
boolean |
True |
Nilai yang menunjukkan apakah akan mengabaikan istilah pencarian terakhir jika itu adalah kata berhenti. Defaultnya adalah true. |
stopwords |
string[] |
Daftar stopwords. Properti ini dan properti daftar stopwords tidak dapat disetel keduanya. |
|
stopwordsList | english |
Daftar stopword yang telah ditentukan sebelumnya untuk digunakan. Properti ini dan properti stopwords tidak dapat keduanya diatur. Defaultnya adalah bahasa Inggris. |
Suggester
Menentukan bagaimana SUGGEST API harus berlaku untuk sekelompok bidang dalam indeks.
Nama | Jenis | Deskripsi |
---|---|---|
name |
string |
Nama pemberi saran. |
searchMode |
Nilai yang menunjukkan kemampuan pemberi saran. |
|
sourceFields |
string[] |
Daftar nama bidang yang diterapkan pemberi saran. Setiap bidang harus dapat dicari. |
SuggesterSearchMode
Nilai yang menunjukkan kemampuan pemberi saran.
Nama | Jenis | Deskripsi |
---|---|---|
analyzingInfixMatching |
string |
Cocok dengan seluruh istilah dan awalan berturut-turut dalam bidang. Misalnya, untuk bidang 'Rubah coklat tercepat', kueri 'cepat' dan 'penjelajahan tercepat' keduanya akan cocok. |
SynonymTokenFilter
Cocok dengan sinonim tunggal atau multi-kata dalam aliran token. Filter token ini diimplementasikan menggunakan Apache Lucene.
Nama | Jenis | Nilai default | Deskripsi |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis filter token. |
|
expand |
boolean |
True |
Nilai yang menunjukkan apakah semua kata dalam daftar sinonim (jika => notasi tidak digunakan) akan memetakan satu sama lain. Jika true, semua kata dalam daftar sinonim (jika => notasi tidak digunakan) akan memetakan satu sama lain. Daftar berikut: luar biasa, luar biasa, luar biasa, luar biasa, luar biasa setara dengan: luar biasa, luar biasa, luar biasa, menakjubkan => luar biasa, luar biasa, luar biasa, luar biasa, luar biasa, luar biasa. Jika false, daftar berikut: luar biasa, luar biasa, luar biasa, luar biasa, luar biasa akan setara dengan: luar biasa, luar biasa, luar biasa, menakjubkan => luar biasa. Defaultnya adalah true. |
ignoreCase |
boolean |
False |
Nilai yang menunjukkan apakah akan memasukkan lipatan huruf besar/kecil untuk pencocokan. Defaultnya adalah false. |
name |
string |
Nama filter token. Ini hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhir dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
|
synonyms |
string[] |
Daftar sinonim dalam salah satu dari dua format berikut: 1. luar biasa, luar biasa, luar biasa => menakjubkan - semua istilah di sisi kiri = simbol> akan diganti dengan semua istilah di sisi kanannya; 2. luar biasa, tidak dapat dipercaya, luar biasa, menakjubkan - daftar kata-kata yang dipisahkan koma yang setara. Atur opsi perluas untuk mengubah bagaimana daftar ini ditafsirkan. |
TagScoringFunction
Menentukan fungsi yang meningkatkan skor dokumen dengan nilai string yang cocok dengan daftar tag tertentu.
Nama | Jenis | Deskripsi |
---|---|---|
boost |
number |
Pengali untuk skor mentah. Harus berupa angka positif yang tidak sama dengan 1,0. |
fieldName |
string |
Nama bidang yang digunakan sebagai input ke fungsi penilaian. |
interpolation |
Nilai yang menunjukkan bagaimana peningkatan akan diinterpolasi di seluruh skor dokumen; default ke "Linear". |
|
tag |
Nilai parameter untuk fungsi penilaian tag. |
|
type |
string:
tag |
Menunjukkan jenis fungsi yang akan digunakan. Nilai yang valid termasuk besaran, kesegaran, jarak, dan tag. Jenis fungsi harus huruf kecil. |
TagScoringParameters
Menyediakan nilai parameter ke fungsi penilaian tag.
Nama | Jenis | Deskripsi |
---|---|---|
tagsParameter |
string |
Nama parameter yang diteruskan dalam kueri pencarian untuk menentukan daftar tag yang akan dibandingkan dengan bidang target. |
TextWeights
Menentukan bobot pada bidang indeks yang kecocokannya harus meningkatkan penilaian dalam kueri pencarian.
Nama | Jenis | Deskripsi |
---|---|---|
weights |
object |
Kamus bobot per bidang untuk meningkatkan penilaian dokumen. Kuncinya adalah nama bidang dan nilainya adalah bobot untuk setiap bidang. |
TokenCharacterKind
Mewakili kelas karakter tempat filter token dapat beroperasi.
Nama | Jenis | Deskripsi |
---|---|---|
digit |
string |
Menyimpan digit dalam token. |
letter |
string |
Menyimpan huruf dalam token. |
punctuation |
string |
Menyimpan tanda baca dalam token. |
symbol |
string |
Menyimpan simbol dalam token. |
whitespace |
string |
Menyimpan spasi kosong dalam token. |
TokenFilterName
Menentukan nama semua filter token yang didukung oleh mesin pencari.
TruncateTokenFilter
Memotong istilah ke panjang tertentu. Filter token ini diimplementasikan menggunakan Apache Lucene.
Nama | Jenis | Nilai default | Deskripsi |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis filter token. |
|
length |
integer |
300 |
Panjang istilah yang akan dipotong. Default dan maksimum adalah 300. |
name |
string |
Nama filter token. Ini hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhir dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
UaxUrlEmailTokenizer
Tokenisasi url dan email sebagai satu token. Tokenizer ini diimplementasikan menggunakan Apache Lucene.
Nama | Jenis | Nilai default | Deskripsi |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis tokenizer. |
|
maxTokenLength |
integer |
255 |
Panjang token maksimum. Defaultnya adalah 255. Token yang lebih panjang dari panjang maksimum dibagi. Panjang token maksimum yang dapat digunakan adalah 300 karakter. |
name |
string |
Nama tokenizer. Ini hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhir dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
UniqueTokenFilter
Memfilter token dengan teks yang sama dengan token sebelumnya. Filter token ini diimplementasikan menggunakan Apache Lucene.
Nama | Jenis | Nilai default | Deskripsi |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis filter token. |
|
name |
string |
Nama filter token. Ini hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhir dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
|
onlyOnSamePosition |
boolean |
False |
Nilai yang menunjukkan apakah akan menghapus duplikat hanya pada posisi yang sama. Defaultnya adalah false. |
VectorEncodingFormat
Format pengodean untuk menginterpretasikan konten bidang vektor.
Nama | Jenis | Deskripsi |
---|---|---|
packedBit |
string |
Format pengodean yang mewakili bit yang dikemas ke dalam jenis data yang lebih luas. |
VectorSearch
Berisi opsi konfigurasi yang terkait dengan pencarian vektor.
Nama | Jenis | Deskripsi |
---|---|---|
algorithms | VectorSearchAlgorithmConfiguration[]: |
Berisi opsi konfigurasi khusus untuk algoritma yang digunakan selama pengindeksan atau kueri. |
compressions | VectorSearchCompressionConfiguration[]: |
Berisi opsi konfigurasi khusus untuk metode pemadatan yang digunakan selama pengindeksan atau kueri. |
profiles |
Menentukan kombinasi konfigurasi yang akan digunakan dengan pencarian vektor. |
|
vectorizers | VectorSearchVectorizer[]: |
Berisi opsi konfigurasi tentang cara mem-vektorisasi kueri vektor teks. |
VectorSearchAlgorithmKind
Algoritma yang digunakan untuk pengindeksan dan kueri.
Nama | Jenis | Deskripsi |
---|---|---|
exhaustiveKnn |
string |
Algoritma KNN lengkap yang akan melakukan pencarian brute-force. |
hnsw |
string |
HNSW (Hierarkis Navigable Small World), jenis sekitar algoritma tetangga terdekat. |
VectorSearchAlgorithmMetric
Metrik kesamaan yang digunakan untuk perbandingan vektor. Disarankan untuk memilih metrik kesamaan yang sama dengan model penyematan yang dilatih.
Nama | Jenis | Deskripsi |
---|---|---|
cosine |
string |
Mengukur sudut antara vektor untuk mengukur kesamaannya, mengabaikan besaran. Semakin kecil sudutnya, semakin dekat kesamaannya. |
dotProduct |
string |
Menghitung jumlah produk yang bijaksana elemen untuk mengukur keselarasan dan kesamaan besar. Semakin besar dan lebih positif, semakin dekat kesamaannya. |
euclidean |
string |
Menghitung jarak garis lurus antara vektor dalam ruang multidimensi. Semakin kecil jaraknya, semakin dekat kesamaannya. |
hamming |
string |
Hanya berlaku untuk jenis data biner yang dikemas bit. Menentukan perbedaan dengan menghitung posisi yang berbeda dalam vektor biner. Semakin sedikit perbedaan, semakin dekat kesamaannya. |
VectorSearchCompressionKind
Metode pemadatan yang digunakan untuk pengindeksan dan kueri.
Nama | Jenis | Deskripsi |
---|---|---|
binaryQuantization |
string |
Kuantisasi Biner, jenis metode pemadatan. Dalam kuantisasi biner, nilai vektor asli dikompresi ke jenis biner yang lebih sempit dengan membedakan dan mewakili setiap komponen vektor menggunakan nilai biner, sehingga mengurangi ukuran data keseluruhan. |
scalarQuantization |
string |
Kuantisasi Skalar, jenis metode kompresi. Dalam kuantisasi skalar, nilai vektor asli dikompresi ke jenis yang lebih sempit dengan membedakan dan mewakili setiap komponen vektor menggunakan sekumpulan nilai terkuantisasi yang dikurangi, sehingga mengurangi ukuran data keseluruhan. |
VectorSearchCompressionTargetDataType
Jenis data terkuantisasi dari nilai vektor terkompresi.
Nama | Jenis | Deskripsi |
---|---|---|
int8 |
string |
VectorSearchProfile
Menentukan kombinasi konfigurasi yang akan digunakan dengan pencarian vektor.
Nama | Jenis | Deskripsi |
---|---|---|
algorithm |
string |
Nama konfigurasi algoritma pencarian vektor yang menentukan algoritma dan parameter opsional. |
compression |
string |
Nama konfigurasi metode kompresi yang menentukan metode kompresi dan parameter opsional. |
name |
string |
Nama yang akan dikaitkan dengan profil pencarian vektor tertentu ini. |
vectorizer |
string |
Nama vektorisasi yang sedang dikonfigurasi untuk digunakan dengan pencarian vektor. |
VectorSearchVectorizerKind
Metode vektorisasi yang akan digunakan selama waktu kueri.
Nama | Jenis | Deskripsi |
---|---|---|
azureOpenAI |
string |
Buat penyematan menggunakan sumber daya Azure OpenAI pada waktu kueri. |
customWebApi |
string |
Buat penyematan menggunakan titik akhir web kustom pada waktu kueri. |
WebApiParameters
Menentukan properti untuk menyambungkan ke vektorizer yang ditentukan pengguna.
Nama | Jenis | Deskripsi |
---|---|---|
authIdentity | SearchIndexerDataIdentity: |
Identitas terkelola yang ditetapkan pengguna yang digunakan untuk koneksi keluar. Jika authResourceId disediakan dan tidak ditentukan, identitas terkelola yang ditetapkan sistem akan digunakan. Pada pembaruan pengindeks, jika identitas tidak ditentukan, nilainya tetap tidak berubah. Jika diatur ke "none", nilai properti ini akan dihapus. |
authResourceId |
string |
Berlaku untuk titik akhir kustom yang tersambung ke kode eksternal dalam fungsi Azure atau beberapa aplikasi lain yang menyediakan transformasi. Nilai ini harus berupa ID aplikasi yang dibuat untuk fungsi atau aplikasi saat terdaftar di Azure Active Directory. Jika ditentukan, vektorisasi terhubung ke fungsi atau aplikasi menggunakan ID terkelola (baik sistem atau yang ditetapkan pengguna) dari layanan pencarian dan token akses fungsi atau aplikasi, menggunakan nilai ini sebagai id sumber daya untuk membuat cakupan token akses. |
httpHeaders |
object |
Header yang diperlukan untuk membuat permintaan HTTP. |
httpMethod |
string |
Metode untuk permintaan HTTP. |
timeout |
string |
Batas waktu yang diinginkan untuk permintaan. Defaultnya adalah 30 detik. |
uri |
string |
URI API Web yang menyediakan vektorizer. |
WebApiVectorizer
Menentukan vektorizer yang ditentukan pengguna untuk menghasilkan penyematan vektor string kueri. Integrasi vektorizer eksternal dicapai menggunakan antarmuka API Web kustom dari set keterampilan.
Nama | Jenis | Deskripsi |
---|---|---|
customWebApiParameters |
Menentukan properti vektorizer yang ditentukan pengguna. |
|
kind |
string:
custom |
Nama jenis metode vektorisasi yang dikonfigurasi untuk digunakan dengan pencarian vektor. |
name |
string |
Nama yang akan dikaitkan dengan metode vektorisasi khusus ini. |
WordDelimiterTokenFilter
Membagi kata menjadi subkata dan melakukan transformasi opsional pada grup subkata. Filter token ini diimplementasikan menggunakan Apache Lucene.
Nama | Jenis | Nilai default | Deskripsi |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis filter token. |
|
catenateAll |
boolean |
False |
Nilai yang menunjukkan apakah semua bagian subkata akan diukur. Misalnya, jika ini diatur ke true, "Azure-Search-1" menjadi "AzureSearch1". Defaultnya adalah false. |
catenateNumbers |
boolean |
False |
Nilai yang menunjukkan apakah eksekusi maksimum bagian angka akan di catenated. Misalnya, jika ini diatur ke true, "1-2" menjadi "12". Defaultnya adalah false. |
catenateWords |
boolean |
False |
Nilai yang menunjukkan apakah eksekusi maksimum bagian kata akan diukur. Misalnya, jika ini diatur ke true, "Azure-Search" menjadi "AzureSearch". Defaultnya adalah false. |
generateNumberParts |
boolean |
True |
Nilai yang menunjukkan apakah akan menghasilkan subkata angka. Defaultnya adalah true. |
generateWordParts |
boolean |
True |
Nilai yang menunjukkan apakah akan menghasilkan kata-kata bagian. Jika diatur, menyebabkan bagian kata dihasilkan; misalnya "AzureSearch" menjadi "Azure" "Search". Defaultnya adalah true. |
name |
string |
Nama filter token. Ini hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhir dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
|
preserveOriginal |
boolean |
False |
Nilai yang menunjukkan apakah kata asli akan dipertahankan dan ditambahkan ke daftar subkata. Defaultnya adalah false. |
protectedWords |
string[] |
Daftar token yang akan dilindungi agar tidak dibatasi. |
|
splitOnCaseChange |
boolean |
True |
Nilai yang menunjukkan apakah akan membagi kata pada caseChange. Misalnya, jika ini diatur ke true, "AzureSearch" menjadi "Azure" "Search". Defaultnya adalah true. |
splitOnNumerics |
boolean |
True |
Nilai yang menunjukkan apakah akan memisahkan angka. Misalnya, jika ini diatur ke true, "Azure1Search" menjadi "Azure" "1" "Search". Defaultnya adalah true. |
stemEnglishPossessive |
boolean |
True |
Nilai yang menunjukkan apakah akan menghapus "'s" berikutnya untuk setiap subkata. Defaultnya adalah true. |