Indexes - Create
Membuat indeks pencarian baru.
POST {endpoint}/indexes?api-version=2025-09-01
Parameter URI
| Nama | Dalam | Diperlukan | Jenis | Deskripsi |
|---|---|---|---|---|
|
endpoint
|
path | True |
string |
URL titik akhir layanan pencarian. |
|
api-version
|
query | True |
string |
Versi Api Klien. |
Header Permintaan
| Nama | Diperlukan | Jenis | Deskripsi |
|---|---|---|---|
| x-ms-client-request-id |
string (uuid) |
ID pelacakan yang dikirim dengan permintaan untuk membantu penelusuran kesalahan. |
Isi Permintaan
| Nama | Diperlukan | Jenis | Deskripsi |
|---|---|---|---|
| fields | True |
Bidang indeks. |
|
| name | True |
string |
Nama indeks. |
| @odata.etag |
string |
ETag indeks. |
|
| analyzers | LexicalAnalyzer[]: |
Penganalisis untuk indeks. |
|
| charFilters | CharFilter[]: |
Filter karakter untuk indeks. |
|
| corsOptions |
Opsi untuk mengontrol Berbagi Sumber Daya Lintas Asal (CORS) untuk indeks. |
||
| defaultScoringProfile |
string |
Nama profil penilaian yang akan digunakan jika tidak ada yang ditentukan dalam kueri. Jika properti ini tidak diatur dan tidak ada profil penilaian yang ditentukan dalam kueri, maka penilaian default (tf-idf) akan digunakan. |
|
| description |
string |
Deskripsi indeks. |
|
| encryptionKey |
Deskripsi kunci enkripsi yang Anda buat di Azure Key Vault. Kunci ini digunakan untuk memberikan tingkat enkripsi tambahan untuk data Anda ketika Anda menginginkan jaminan penuh bahwa tidak ada seorang pun, bahkan Microsoft, yang dapat mendekripsi data Anda. Setelah Anda mengenkripsi data Anda, itu akan selalu terenkripsi. Layanan pencarian akan mengabaikan upaya untuk mengatur properti ini ke null. Anda dapat mengubah properti ini sesuai kebutuhan jika Anda ingin memutar kunci enkripsi Anda; Data Anda tidak akan terpengaruh. Enkripsi dengan kunci yang dikelola pelanggan tidak tersedia untuk layanan penelusuran gratis, dan hanya tersedia untuk layanan berbayar yang dibuat pada atau setelah 1 Januari 2019. |
||
| normalizers | LexicalNormalizer[]: |
Normalisasi untuk indeks. |
|
| scoringProfiles |
Profil penilaian untuk indeks. |
||
| semantic |
Menentukan parameter untuk indeks pencarian yang memengaruhi kemampuan semantik. |
||
| similarity | Similarity: |
Jenis algoritma kesamaan yang akan digunakan saat menilai dan memberi peringkat dokumen yang cocok dengan kueri pencarian. Algoritma kesamaan hanya dapat didefinisikan pada waktu pembuatan indeks dan tidak dapat dimodifikasi pada indeks yang ada. Jika null, algoritma ClassicSimilarity digunakan. |
|
| suggesters |
Saran untuk indeks. |
||
| tokenFilters |
TokenFilter[]:
|
Filter token untuk indeks. |
|
| tokenizers | LexicalTokenizer[]: |
Tokenizer untuk indeks. |
|
| vectorSearch |
Berisi opsi konfigurasi yang terkait dengan pencarian vektor. |
Respons
| Nama | Jenis | Deskripsi |
|---|---|---|
| 201 Created | ||
| Other Status Codes |
Respons kesalahan. |
Contoh
SearchServiceCreateIndex
Permintaan sampel
POST https://stableexampleservice.search.windows.net/indexes?api-version=2025-09-01
{
"name": "temp-stable-test",
"description": "description",
"fields": [
{
"name": "id",
"type": "Edm.String",
"key": true,
"sortable": true
},
{
"name": "vector1",
"type": "Collection(Edm.Single)",
"retrievable": true,
"searchable": true,
"dimensions": 20,
"vectorSearchProfile": "config1"
},
{
"name": "vector1b",
"type": "Collection(Edm.Single)",
"retrievable": true,
"searchable": true,
"dimensions": 10,
"vectorSearchProfile": "config2"
},
{
"name": "vector2",
"type": "Collection(Edm.Single)",
"retrievable": true,
"searchable": true,
"dimensions": 5,
"vectorSearchProfile": "config3"
},
{
"name": "vector3",
"type": "Collection(Edm.Single)",
"retrievable": true,
"searchable": true,
"dimensions": 5,
"vectorSearchProfile": "config3"
},
{
"name": "vector22",
"type": "Collection(Edm.Single)",
"retrievable": true,
"searchable": true,
"dimensions": 10,
"vectorSearchProfile": "config2"
},
{
"name": "name",
"type": "Edm.String",
"retrievable": true,
"searchable": true,
"filterable": true,
"sortable": true,
"facetable": true,
"analyzer": "en.lucene"
},
{
"name": "description",
"type": "Edm.String",
"retrievable": true,
"searchable": true,
"filterable": true,
"sortable": true,
"facetable": true,
"analyzer": "standard.lucene"
},
{
"name": "category",
"type": "Edm.String",
"retrievable": true,
"searchable": true,
"filterable": true,
"sortable": true,
"facetable": true,
"analyzer": "en.lucene",
"normalizer": "standard"
},
{
"name": "ownerId",
"type": "Edm.String",
"retrievable": true,
"searchable": true,
"filterable": true,
"sortable": true,
"facetable": true,
"analyzer": "en.lucene"
}
],
"scoringProfiles": [
{
"name": "stringFieldBoost",
"text": {
"weights": {
"name": 3,
"description": 1,
"category": 2,
"ownerId": 1
}
},
"functions": [
{
"tag": {
"tagsParameter": "categoryTag"
},
"type": "tag",
"fieldName": "category",
"boost": 2
}
]
}
],
"defaultScoringProfile": "stringFieldBoost",
"corsOptions": {
"allowedOrigins": [
"https://www.example.com/foo"
],
"maxAgeInSeconds": 10
},
"suggesters": [
{
"name": "sg",
"searchMode": "analyzingInfixMatching",
"sourceFields": [
"category",
"ownerId"
]
}
],
"analyzers": [
{
"tokenizer": "standard_v2",
"tokenFilters": [
"common_grams"
],
"charFilters": [
"html_strip"
],
"@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
"name": "tagsAnalyzer"
}
],
"tokenizers": [
{
"maxTokenLength": 100,
"@odata.type": "#Microsoft.Azure.Search.StandardTokenizerV2",
"name": "my_tokenizer"
}
],
"tokenFilters": [
{
"preserveOriginal": false,
"@odata.type": "#Microsoft.Azure.Search.AsciiFoldingTokenFilter",
"name": "my_tokenFilter"
}
],
"charFilters": [
{
"mappings": [
".=>,",
"_=>-"
],
"@odata.type": "#Microsoft.Azure.Search.MappingCharFilter",
"name": "my_mapping"
}
],
"normalizers": [
{
"tokenFilters": [
"asciifolding"
],
"charFilters": [
"my_mapping"
],
"@odata.type": "#Microsoft.Azure.Search.CustomNormalizer",
"name": "tagsNormalizer"
}
],
"similarity": {
"k1": 10,
"b": 0.1,
"@odata.type": "#Microsoft.Azure.Search.BM25Similarity"
},
"semantic": {
"defaultConfiguration": "testconfig",
"configurations": [
{
"name": "testconfig",
"prioritizedFields": {
"titleField": {
"fieldName": "category"
},
"prioritizedContentFields": [
{
"fieldName": "description"
}
],
"prioritizedKeywordsFields": [
{
"fieldName": "ownerId"
}
]
},
"rankingOrder": "BoostedRerankerScore"
}
]
},
"vectorSearch": {
"profiles": [
{
"name": "config1",
"algorithm": "cosine",
"vectorizer": "openai",
"compression": "mySQ8"
},
{
"name": "config2",
"algorithm": "euclidean",
"vectorizer": "custom-web-api",
"compression": "mySQ8"
},
{
"name": "config3",
"algorithm": "dotProduct",
"vectorizer": "custom-web-api",
"compression": "myBQC"
}
],
"algorithms": [
{
"hnswParameters": {
"metric": "cosine"
},
"name": "cosine",
"kind": "hnsw"
},
{
"hnswParameters": {
"metric": "euclidean"
},
"name": "euclidean",
"kind": "hnsw"
},
{
"hnswParameters": {
"metric": "dotProduct"
},
"name": "dotProduct",
"kind": "hnsw"
}
],
"vectorizers": [
{
"azureOpenAIParameters": {
"resourceUri": "https://test-sample.openai.azure.com/",
"deploymentId": "model",
"apiKey": "api-key",
"modelName": "text-embedding-3-large"
},
"name": "openai",
"kind": "azureOpenAI"
},
{
"customWebApiParameters": {
"uri": "https://my-custom-endpoint.org/",
"httpHeaders": {
"header1": "value1",
"header2": "value2"
},
"httpMethod": "POST",
"timeout": "PT1M",
"authResourceId": "api://f89d1c93-58a7-4b07-9a5b-5f89048b927b",
"authIdentity": {
"@odata.type": "#Microsoft.Azure.Search.DataNoneIdentity"
}
},
"name": "custom-web-api",
"kind": "customWebApi"
}
],
"compressions": [
{
"scalarQuantizationParameters": {
"quantizedDataType": "int8"
},
"name": "mySQ8",
"kind": "scalarQuantization",
"truncationDimension": 2
},
{
"name": "myBQC",
"kind": "binaryQuantization",
"truncationDimension": 2
}
]
},
"@odata.etag": "0x1234568AE7E58A1"
}
Respon sampel
{
"@odata.etag": "0x1234568AE7E58A1",
"name": "temp-stable-test",
"description": "description",
"defaultScoringProfile": "stringFieldBoost",
"fields": [
{
"name": "id",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"stored": true,
"sortable": true,
"facetable": true,
"key": true,
"synonymMaps": []
},
{
"name": "vector1",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"stored": true,
"sortable": false,
"facetable": false,
"key": false,
"dimensions": 20,
"vectorSearchProfile": "config1",
"synonymMaps": []
},
{
"name": "vector1b",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"stored": true,
"sortable": false,
"facetable": false,
"key": false,
"dimensions": 10,
"vectorSearchProfile": "config2",
"synonymMaps": []
},
{
"name": "vector2",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"stored": true,
"sortable": false,
"facetable": false,
"key": false,
"dimensions": 5,
"vectorSearchProfile": "config3",
"synonymMaps": []
},
{
"name": "vector3",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"stored": true,
"sortable": false,
"facetable": false,
"key": false,
"dimensions": 5,
"vectorSearchProfile": "config3",
"synonymMaps": []
},
{
"name": "vector22",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"stored": true,
"sortable": false,
"facetable": false,
"key": false,
"dimensions": 10,
"vectorSearchProfile": "config2",
"synonymMaps": []
},
{
"name": "name",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"stored": true,
"sortable": true,
"facetable": true,
"key": false,
"analyzer": "en.lucene",
"synonymMaps": []
},
{
"name": "description",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"stored": true,
"sortable": true,
"facetable": true,
"key": false,
"analyzer": "standard.lucene",
"synonymMaps": []
},
{
"name": "category",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"stored": true,
"sortable": true,
"facetable": true,
"key": false,
"analyzer": "en.lucene",
"normalizer": "standard",
"synonymMaps": []
},
{
"name": "ownerId",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"stored": true,
"sortable": true,
"facetable": true,
"key": false,
"analyzer": "en.lucene",
"synonymMaps": []
}
],
"scoringProfiles": [
{
"name": "stringFieldBoost",
"functionAggregation": "sum",
"text": {
"weights": {
"name": 3,
"description": 1,
"category": 2,
"ownerId": 1
}
},
"functions": [
{
"fieldName": "category",
"interpolation": "linear",
"type": "tag",
"boost": 2,
"tag": {
"tagsParameter": "categoryTag"
}
}
]
}
],
"corsOptions": {
"allowedOrigins": [
"https://www.example.com/foo"
],
"maxAgeInSeconds": 10
},
"suggesters": [
{
"name": "sg",
"searchMode": "analyzingInfixMatching",
"sourceFields": [
"category",
"ownerId"
]
}
],
"analyzers": [
{
"@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
"name": "tagsAnalyzer",
"tokenizer": "standard_v2",
"tokenFilters": [
"common_grams"
],
"charFilters": [
"html_strip"
]
}
],
"normalizers": [
{
"@odata.type": "#Microsoft.Azure.Search.CustomNormalizer",
"name": "tagsNormalizer",
"tokenFilters": [
"asciifolding"
],
"charFilters": [
"my_mapping"
]
}
],
"tokenizers": [
{
"@odata.type": "#Microsoft.Azure.Search.StandardTokenizerV2",
"name": "my_tokenizer",
"maxTokenLength": 100
}
],
"tokenFilters": [
{
"@odata.type": "#Microsoft.Azure.Search.AsciiFoldingTokenFilter",
"name": "my_tokenFilter",
"preserveOriginal": false
}
],
"charFilters": [
{
"@odata.type": "#Microsoft.Azure.Search.MappingCharFilter",
"name": "my_mapping",
"mappings": [
".=>,",
"_=>-"
]
}
],
"similarity": {
"@odata.type": "#Microsoft.Azure.Search.BM25Similarity",
"k1": 10,
"b": 0.1
},
"semantic": {
"defaultConfiguration": "testconfig",
"configurations": [
{
"name": "testconfig",
"rankingOrder": "BoostedRerankerScore",
"prioritizedFields": {
"titleField": {
"fieldName": "category"
},
"prioritizedContentFields": [
{
"fieldName": "description"
}
],
"prioritizedKeywordsFields": [
{
"fieldName": "ownerId"
}
]
}
}
]
},
"vectorSearch": {
"algorithms": [
{
"name": "cosine",
"kind": "hnsw",
"hnswParameters": {
"metric": "cosine",
"m": 4,
"efConstruction": 400,
"efSearch": 500
}
},
{
"name": "euclidean",
"kind": "hnsw",
"hnswParameters": {
"metric": "euclidean",
"m": 4,
"efConstruction": 400,
"efSearch": 500
}
},
{
"name": "dotProduct",
"kind": "hnsw",
"hnswParameters": {
"metric": "dotProduct",
"m": 4,
"efConstruction": 400,
"efSearch": 500
}
}
],
"profiles": [
{
"name": "config1",
"algorithm": "cosine",
"vectorizer": "openai",
"compression": "mySQ8"
},
{
"name": "config2",
"algorithm": "euclidean",
"vectorizer": "custom-web-api",
"compression": "mySQ8"
},
{
"name": "config3",
"algorithm": "dotProduct",
"vectorizer": "custom-web-api",
"compression": "myBQC"
}
],
"vectorizers": [
{
"name": "openai",
"kind": "azureOpenAI",
"azureOpenAIParameters": {
"resourceUri": "https://test-sample.openai.azure.com",
"deploymentId": "model",
"apiKey": "api-key",
"modelName": "text-embedding-3-large"
}
},
{
"name": "custom-web-api",
"kind": "customWebApi",
"customWebApiParameters": {
"httpMethod": "POST",
"uri": "https://my-custom-endpoint.org/",
"timeout": "PT1M",
"authResourceId": "api://f89d1c93-58a7-4b07-9a5b-5f89048b927b",
"httpHeaders": {
"header1": "value1",
"header2": "value2"
},
"authIdentity": {
"@odata.type": "#Microsoft.Azure.Search.DataNoneIdentity"
}
}
}
],
"compressions": [
{
"name": "mySQ8",
"kind": "scalarQuantization",
"truncationDimension": 2,
"scalarQuantizationParameters": {
"quantizedDataType": "int8"
},
"rescoringOptions": {
"enableRescoring": true,
"defaultOversampling": 4,
"rescoreStorageMethod": "preserveOriginals"
}
},
{
"name": "myBQC",
"kind": "binaryQuantization",
"truncationDimension": 2,
"rescoringOptions": {
"enableRescoring": true,
"defaultOversampling": 4,
"rescoreStorageMethod": "preserveOriginals"
}
}
]
}
}
Definisi
| Nama | Deskripsi |
|---|---|
|
Ascii |
Mengonversi karakter Unicode alfabet, numerik, dan simbolis yang tidak ada dalam 127 karakter ASCII pertama (blok Unicode "Latin Dasar") menjadi padanan ASCII, jika ada padanan tersebut. Filter token ini diimplementasikan menggunakan Apache Lucene. |
|
Azure |
Kredensial aplikasi terdaftar yang dibuat untuk layanan pencarian Anda, digunakan untuk akses terautentikasi ke kunci enkripsi yang disimpan di Azure Key Vault. |
|
Azure |
Memungkinkan Anda membuat penyematan vektor untuk input teks tertentu menggunakan sumber daya Azure OpenAI. |
|
Azure |
Nama model Azure Open AI yang akan dipanggil. |
|
Azure |
Menentukan parameter untuk menyambungkan ke sumber daya Azure OpenAI. |
|
Azure |
Menentukan sumber daya Azure OpenAI yang digunakan untuk mengvektorkan string kueri. |
|
Binary |
Berisi opsi konfigurasi khusus untuk metode kompresi kuantisasi biner yang digunakan selama pengindeksan dan kueri. |
| BM25Similarity |
Fungsi peringkat berdasarkan algoritma kesamaan Okapi BM25. BM25 adalah algoritma mirip TF-IDF yang mencakup normalisasi panjang (dikendalikan oleh parameter 'b') serta saturasi frekuensi istilah (dikendalikan oleh parameter 'k1'). |
|
Char |
Menentukan nama semua filter karakter yang didukung oleh mesin pencari. |
|
Cjk |
Membentuk bigram istilah CJK yang dihasilkan dari tokenizer standar. Filter token ini diimplementasikan menggunakan Apache Lucene. |
|
Cjk |
Skrip yang dapat diabaikan oleh CjkBigramTokenFilter. |
|
Classic |
Algoritma kesamaan warisan yang menggunakan implementasi Lucene TFIDFSimilarity dari TF-IDF. Variasi TF-IDF ini memperkenalkan normalisasi panjang dokumen statis serta faktor koordinasi yang menghukum dokumen yang hanya sebagian cocok dengan kueri yang dicari. |
|
Classic |
Tokenizer berbasis tata bahasa yang cocok untuk memproses sebagian besar dokumen berbahasa Eropa. Tokenizer ini diimplementasikan menggunakan Apache Lucene. |
|
Common |
Buat bigram untuk istilah yang sering terjadi saat mengindeks. Istilah tunggal juga masih diindeks, dengan bigram dilapisi. Filter token ini diimplementasikan menggunakan Apache Lucene. |
|
Cors |
Menentukan opsi untuk mengontrol Berbagi Sumber Daya Lintas Asal (CORS) untuk indeks. |
|
Custom |
Memungkinkan Anda untuk mengambil kendali atas proses konversi teks menjadi token yang dapat diindeks/dicari. Ini adalah konfigurasi yang ditentukan pengguna yang terdiri dari satu tokenizer yang telah ditentukan sebelumnya dan satu atau beberapa filter. Tokenizer bertanggung jawab untuk memecah teks menjadi token, dan filter untuk memodifikasi token yang dipancarkan oleh tokenizer. |
|
Custom |
Memungkinkan Anda mengonfigurasi normalisasi untuk bidang yang dapat difilter, dapat diurutkan, dan dapat dimuka, yang secara default beroperasi dengan pencocokan yang ketat. Ini adalah konfigurasi yang ditentukan pengguna yang terdiri dari setidaknya satu atau lebih filter, yang memodifikasi token yang disimpan. |
|
Dictionary |
Menguraikan kata-kata majemuk yang ditemukan dalam banyak bahasa Jermanik. Filter token ini diimplementasikan menggunakan Apache Lucene. |
|
Distance |
Menentukan fungsi yang meningkatkan skor berdasarkan jarak dari lokasi geografis. |
|
Distance |
Memberikan nilai parameter ke fungsi penilaian jarak. |
|
Edge |
Menghasilkan n-gram dari ukuran yang diberikan mulai dari depan atau belakang token input. Filter token ini diimplementasikan menggunakan Apache Lucene. |
|
Edge |
Menentukan sisi input mana yang harus dihasilkan dari n-gram. |
|
Edge |
Menghasilkan n-gram dari ukuran yang diberikan mulai dari depan atau belakang token input. Filter token ini diimplementasikan menggunakan Apache Lucene. |
|
Edge |
Tokenisasi input dari tepi ke n-gram dari ukuran yang diberikan. Tokenizer ini diimplementasikan menggunakan Apache Lucene. |
|
Elision |
Menghilangkan elisi. Misalnya, "l'avion" (pesawat) akan diubah menjadi "avion" (pesawat). Filter token ini diimplementasikan menggunakan Apache Lucene. |
|
Error |
Info tambahan kesalahan manajemen sumber daya. |
|
Error |
Detail kesalahan. |
|
Error |
Tanggapan kesalahan |
|
Exhaustive |
Berisi parameter khusus untuk algoritma KNN yang lengkap. |
|
Exhaustive |
Berisi opsi konfigurasi khusus untuk algoritma KNN lengkap yang digunakan selama kueri, yang akan melakukan pencarian brute-force di seluruh indeks vektor. |
|
Freshness |
Menentukan fungsi yang meningkatkan skor berdasarkan nilai bidang tanggal-waktu. |
|
Freshness |
Memberikan nilai parameter ke fungsi penilaian kesegaran. |
|
Hnsw |
Berisi parameter khusus untuk algoritma HNSW. |
|
Hnsw |
Berisi opsi konfigurasi khusus untuk algoritma perkiraan tetangga terdekat HNSW yang digunakan selama pengindeksan dan kueri. Algoritma HNSW menawarkan trade-off yang dapat disetel antara kecepatan dan akurasi pencarian. |
|
Input |
Pemetaan bidang input untuk keterampilan. |
|
Keep |
Filter token yang hanya menyimpan token dengan teks yang terkandung dalam daftar kata tertentu. Filter token ini diimplementasikan menggunakan Apache Lucene. |
|
Keyword |
Menandai istilah sebagai kata kunci. Filter token ini diimplementasikan menggunakan Apache Lucene. |
|
Keyword |
Memancarkan seluruh input sebagai satu token. Tokenizer ini diimplementasikan menggunakan Apache Lucene. |
|
Keyword |
Memancarkan seluruh input sebagai satu token. Tokenizer ini diimplementasikan menggunakan Apache Lucene. |
|
Length |
Menghapus kata-kata yang terlalu panjang atau terlalu pendek. Filter token ini diimplementasikan menggunakan Apache Lucene. |
|
Lexical |
Menentukan nama semua penganalisis teks yang didukung oleh mesin pencari. |
|
Lexical |
Menentukan nama semua normalisasi teks yang didukung oleh mesin pencari. |
|
Lexical |
Menentukan nama semua tokenizer yang didukung oleh mesin pencari. |
|
Limit |
Membatasi jumlah token saat mengindeks. Filter token ini diimplementasikan menggunakan Apache Lucene. |
|
Lucene |
Penganalisis Apache Lucene standar; Terdiri dari tokenizer standar, filter huruf kecil, dan filter berhenti. |
|
Lucene |
Memutus teks mengikuti aturan Segmentasi Teks Unicode. Tokenizer ini diimplementasikan menggunakan Apache Lucene. |
|
Lucene |
Memutus teks mengikuti aturan Segmentasi Teks Unicode. Tokenizer ini diimplementasikan menggunakan Apache Lucene. |
|
Magnitude |
Menentukan fungsi yang meningkatkan skor berdasarkan besarnya bidang numerik. |
|
Magnitude |
Memberikan nilai parameter ke fungsi penilaian besar. |
|
Mapping |
Filter karakter yang menerapkan pemetaan yang ditentukan dengan opsi pemetaan. Pencocokan itu serakah (pencocokan pola terpanjang pada titik tertentu menang). Penggantian diperbolehkan menjadi string kosong. Filter karakter ini diimplementasikan menggunakan Apache Lucene. |
|
Microsoft |
Membagi teks menggunakan aturan khusus bahasa dan mengurangi kata-kata ke bentuk dasarnya. |
|
Microsoft |
Membagi teks menggunakan aturan khusus bahasa. |
|
Microsoft |
Mencantumkan bahasa yang didukung oleh tokenizer stem bahasa Microsoft. |
|
Microsoft |
Mencantumkan bahasa yang didukung oleh tokenizer bahasa Microsoft. |
|
NGram |
Menghasilkan n-gram dari ukuran yang diberikan. Filter token ini diimplementasikan menggunakan Apache Lucene. |
|
NGram |
Menghasilkan n-gram dari ukuran yang diberikan. Filter token ini diimplementasikan menggunakan Apache Lucene. |
|
NGram |
Tokenisasi input ke dalam n-gram dari ukuran yang diberikan. Tokenizer ini diimplementasikan menggunakan Apache Lucene. |
|
Output |
Pemetaan bidang keluaran untuk keterampilan. |
|
Path |
Tokenizer untuk hierarki seperti jalur. Tokenizer ini diimplementasikan menggunakan Apache Lucene. |
|
Pattern |
Secara fleksibel memisahkan teks menjadi istilah melalui pola ekspresi reguler. Penganalisis ini diimplementasikan menggunakan Apache Lucene. |
|
Pattern |
Menggunakan regex Java untuk memancarkan beberapa token - satu untuk setiap grup pengambilan dalam satu atau beberapa pola. Filter token ini diimplementasikan menggunakan Apache Lucene. |
|
Pattern |
Filter karakter yang menggantikan karakter dalam string input. Ini menggunakan ekspresi reguler untuk mengidentifikasi urutan karakter yang akan dipertahankan dan pola pengganti untuk mengidentifikasi karakter yang akan diganti. Misalnya, mengingat teks input "aa bb aa bb", pola "(aa)\s+(bb)", dan penggantian "$1#$2", hasilnya adalah "aa#bb aa#bb". Filter karakter ini diimplementasikan menggunakan Apache Lucene. |
|
Pattern |
Filter karakter yang menggantikan karakter dalam string input. Ini menggunakan ekspresi reguler untuk mengidentifikasi urutan karakter yang akan dipertahankan dan pola pengganti untuk mengidentifikasi karakter yang akan diganti. Misalnya, mengingat teks input "aa bb aa bb", pola "(aa)\s+(bb)", dan penggantian "$1#$2", hasilnya adalah "aa#bb aa#bb". Filter token ini diimplementasikan menggunakan Apache Lucene. |
|
Pattern |
Tokenizer yang menggunakan pencocokan pola ekspresi reguler untuk membuat token yang berbeda. Tokenizer ini diimplementasikan menggunakan Apache Lucene. |
|
Phonetic |
Mengidentifikasi jenis encoder fonetik yang akan digunakan dengan PhoneticTokenFilter. |
|
Phonetic |
Buat token untuk kecocokan fonetik. Filter token ini diimplementasikan menggunakan Apache Lucene. |
|
Prioritized |
Menjelaskan bidang judul, konten, dan kata kunci yang akan digunakan untuk peringkat semantik, teks, sorotan, dan jawaban. |
|
Ranking |
Mewakili skor untuk digunakan untuk urutan pengurutan dokumen. |
|
Regex |
Menentukan bendera yang dapat digabungkan untuk mengontrol bagaimana ekspresi reguler digunakan dalam penganalisis pola dan tokenizer pola. |
|
Rescoring |
Berisi opsi untuk memulihkan. |
|
Scalar |
Berisi parameter khusus untuk Kuantisasi Skalar. |
|
Scalar |
Berisi opsi konfigurasi khusus untuk metode kompresi kuantisasi skalar yang digunakan selama pengindeksan dan kueri. |
|
Scoring |
Menentukan fungsi agregasi yang digunakan untuk menggabungkan hasil semua fungsi penilaian dalam profil penilaian. |
|
Scoring |
Menentukan fungsi yang digunakan untuk menginterpolasi peningkatan skor di berbagai dokumen. |
|
Scoring |
Menentukan parameter untuk indeks pencarian yang memengaruhi penilaian dalam kueri pencarian. |
|
Search |
Mewakili bidang dalam definisi indeks, yang menjelaskan nama, jenis data, dan perilaku pencarian bidang. |
|
Search |
Menentukan jenis data bidang dalam indeks pencarian. |
|
Search |
Mewakili definisi indeks pencarian, yang menjelaskan bidang dan perilaku pencarian indeks. |
|
Search |
Menghapus properti identitas sumber data. |
|
Search |
Menentukan identitas untuk digunakan sumber data. |
|
Search |
Kunci enkripsi yang dikelola pelanggan di Azure Key Vault. Kunci yang Anda buat dan kelola dapat digunakan untuk mengenkripsi atau mendekripsi data-at-rest, seperti indeks dan peta sinonim. |
|
Semantic |
Mendefinisikan konfigurasi tertentu yang akan digunakan dalam konteks kemampuan semantik. |
|
Semantic |
Bidang yang digunakan sebagai bagian dari konfigurasi semantik. |
|
Semantic |
Menentukan parameter untuk indeks pencarian yang memengaruhi kemampuan semantik. |
|
Shingle |
Membuat kombinasi token sebagai satu token. Filter token ini diimplementasikan menggunakan Apache Lucene. |
|
Snowball |
Filter yang membela kata-kata menggunakan stemmer yang dihasilkan Snowball. Filter token ini diimplementasikan menggunakan Apache Lucene. |
|
Snowball |
Bahasa yang akan digunakan untuk filter token Snowball. |
|
Stemmer |
Menyediakan kemampuan untuk mengganti filter stem lainnya dengan stemming berbasis kamus kustom. Setiap istilah berbatang kamus akan ditandai sebagai kata kunci sehingga tidak akan dibendung dengan stemmer di bawah rantai. Harus ditempatkan sebelum filter steming. Filter token ini diimplementasikan menggunakan Apache Lucene. |
|
Stemmer |
Filter stem khusus bahasa. Filter token ini diimplementasikan menggunakan Apache Lucene. |
|
Stemmer |
Bahasa yang akan digunakan untuk filter token stemmer. |
|
Stop |
Membagi teks pada non-huruf; Menerapkan filter token huruf kecil dan kata henti. Penganalisis ini diimplementasikan menggunakan Apache Lucene. |
|
Stopwords |
Mengidentifikasi daftar kata henti khusus bahasa yang telah ditentukan sebelumnya. |
|
Stopwords |
Menghapus kata berhenti dari aliran token. Filter token ini diimplementasikan menggunakan Apache Lucene. |
| Suggester |
Menentukan bagaimana Suggest API harus diterapkan ke grup bidang dalam indeks. |
|
Suggester |
Nilai yang menunjukkan kemampuan pemberan. |
|
Synonym |
Mencocokkan sinonim satu atau multi-kata dalam aliran token. Filter token ini diimplementasikan menggunakan Apache Lucene. |
|
Tag |
Menentukan fungsi yang meningkatkan skor dokumen dengan nilai string yang cocok dengan daftar tag tertentu. |
|
Tag |
Memberikan nilai parameter ke fungsi penilaian tag. |
|
Text |
Menentukan bobot pada bidang indeks yang kecocokan harus meningkatkan penilaian dalam kueri pencarian. |
|
Token |
Mewakili kelas karakter tempat filter token dapat beroperasi. |
|
Token |
Menentukan nama semua filter token yang didukung oleh mesin pencari. |
|
Truncate |
Memotong istilah ke panjang tertentu. Filter token ini diimplementasikan menggunakan Apache Lucene. |
|
Uax |
Mentokenisasi url dan email sebagai satu token. Tokenizer ini diimplementasikan menggunakan Apache Lucene. |
|
Unique |
Memfilter token dengan teks yang sama dengan token sebelumnya. Filter token ini diimplementasikan menggunakan Apache Lucene. |
|
Vector |
Format pengkodean untuk menafsirkan konten bidang vektor. |
|
Vector |
Berisi opsi konfigurasi yang terkait dengan pencarian vektor. |
|
Vector |
Algoritma yang digunakan untuk pengindeksan dan kueri. |
|
Vector |
Metrik kesamaan yang digunakan untuk perbandingan vektor. Disarankan untuk memilih metrik kesamaan yang sama dengan model penyematan yang dilatih. |
|
Vector |
Metode kompresi yang digunakan untuk pengindeksan dan kueri. |
|
Vector |
Metode penyimpanan untuk vektor presisi penuh asli yang digunakan untuk penilaian ulang dan operasi indeks internal. |
|
Vector |
Jenis data terkuantisasi dari nilai vektor terkompresi. |
|
Vector |
Menentukan kombinasi konfigurasi yang akan digunakan dengan pencarian vektor. |
|
Vector |
Metode vektorisasi yang akan digunakan selama waktu kueri. |
|
Web |
Menentukan properti untuk menyambungkan ke vektor yang ditentukan pengguna. |
|
Web |
Menentukan vektor yang ditentukan pengguna untuk menghasilkan penyematan vektor string kueri. Integrasi vektor eksternal dicapai menggunakan antarmuka API Web khusus dari set keterampilan. |
|
Word |
Membagi kata menjadi subkata dan melakukan transformasi opsional pada grup subkata. Filter token ini diimplementasikan menggunakan Apache Lucene. |
AsciiFoldingTokenFilter
Mengonversi karakter Unicode alfabet, numerik, dan simbolis yang tidak ada dalam 127 karakter ASCII pertama (blok Unicode "Latin Dasar") menjadi padanan ASCII, jika ada padanan tersebut. Filter token ini diimplementasikan menggunakan Apache Lucene.
| Nama | Jenis | Nilai default | Deskripsi |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis filter token. |
|
| name |
string |
Nama filter token. Itu hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
|
| preserveOriginal |
boolean |
False |
Nilai yang menunjukkan apakah token asli akan dipertahankan. Secara default adalah false. |
AzureActiveDirectoryApplicationCredentials
Kredensial aplikasi terdaftar yang dibuat untuk layanan pencarian Anda, digunakan untuk akses terautentikasi ke kunci enkripsi yang disimpan di Azure Key Vault.
| Nama | Jenis | Deskripsi |
|---|---|---|
| applicationId |
string |
ID Aplikasi AAD yang diberikan izin akses yang diperlukan ke Azure Key Vault yang akan digunakan saat mengenkripsi data Anda saat tidak aktif. ID Aplikasi tidak boleh disamakan dengan ID Objek untuk Aplikasi AAD Anda. |
| applicationSecret |
string |
Kunci otentikasi dari aplikasi AAD yang ditentukan. |
AzureOpenAIEmbeddingSkill
Memungkinkan Anda membuat penyematan vektor untuk input teks tertentu menggunakan sumber daya Azure OpenAI.
| Nama | Jenis | Deskripsi |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis keterampilan. |
| apiKey |
string |
Kunci API dari sumber daya Azure OpenAI yang ditunjuk. |
| authIdentity | SearchIndexerDataIdentity: |
Identitas terkelola yang ditetapkan pengguna yang digunakan untuk koneksi keluar. |
| context |
string |
Mewakili tingkat di mana operasi berlangsung, seperti akar dokumen atau konten dokumen (misalnya, /document atau /document/content). Defaultnya adalah /document. |
| deploymentId |
string |
ID penyebaran model Azure OpenAI pada sumber daya yang ditentukan. |
| description |
string |
Deskripsi keterampilan yang menggambarkan input, output, dan penggunaan keterampilan. |
| dimensions |
integer (int32) |
Jumlah dimensi yang harus dimiliki oleh embedding output yang dihasilkan. Hanya didukung dalam text-embedding-3 dan model yang lebih baru. |
| inputs |
Input keterampilan dapat berupa kolom dalam kumpulan data sumber, atau output dari keterampilan hulu. |
|
| modelName |
Nama model penyematan yang disebarkan di jalur deploymentId yang disediakan. |
|
| name |
string |
Nama keterampilan yang secara unik mengidentifikasinya dalam keahlian. Keterampilan tanpa nama yang ditentukan akan diberi nama default dari indeks berbasis 1 dalam array keterampilan, diawali dengan karakter '#'. |
| outputs |
Output keterampilan adalah bidang dalam indeks pencarian, atau nilai yang dapat digunakan sebagai input oleh keterampilan lain. |
|
| resourceUri |
string (uri) |
URI sumber daya sumber daya Azure OpenAI. |
AzureOpenAIModelName
Nama model Azure Open AI yang akan dipanggil.
| Nilai | Deskripsi |
|---|---|
| text-embedding-ada-002 | |
| text-embedding-3-large | |
| text-embedding-3-small |
AzureOpenAIParameters
Menentukan parameter untuk menyambungkan ke sumber daya Azure OpenAI.
| Nama | Jenis | Deskripsi |
|---|---|---|
| apiKey |
string |
Kunci API dari sumber daya Azure OpenAI yang ditunjuk. |
| authIdentity | SearchIndexerDataIdentity: |
Identitas terkelola yang ditetapkan pengguna yang digunakan untuk koneksi keluar. |
| deploymentId |
string |
ID penyebaran model Azure OpenAI pada sumber daya yang ditentukan. |
| modelName |
Nama model penyematan yang disebarkan di jalur deploymentId yang disediakan. |
|
| resourceUri |
string (uri) |
URI sumber daya sumber daya Azure OpenAI. |
AzureOpenAIVectorizer
Menentukan sumber daya Azure OpenAI yang digunakan untuk mengvektorkan string kueri.
| Nama | Jenis | Deskripsi |
|---|---|---|
| azureOpenAIParameters | AzureOpenAIParameters: |
Berisi parameter khusus untuk vektorisasi penyematan Azure OpenAI. |
| kind |
string:
azure |
Nama jenis metode vektorisasi yang dikonfigurasi untuk digunakan dengan pencarian vektor. |
| name |
string |
Nama untuk dikaitkan dengan metode vektorisasi khusus ini. |
BinaryQuantizationVectorSearchCompressionConfiguration
Berisi opsi konfigurasi khusus untuk metode kompresi kuantisasi biner yang digunakan selama pengindeksan dan kueri.
| Nama | Jenis | Deskripsi |
|---|---|---|
| kind |
string:
binary |
Nama jenis metode kompresi yang dikonfigurasi untuk digunakan dengan pencarian vektor. |
| name |
string |
Nama yang akan dikaitkan dengan konfigurasi khusus ini. |
| rescoringOptions |
Berisi opsi untuk memulihkan. |
|
| truncationDimension |
integer (int32) |
Jumlah dimensi untuk memotong vektor. Memotong vektor mengurangi ukuran vektor dan jumlah data yang perlu ditransfer selama pencarian. Ini dapat menghemat biaya penyimpanan dan meningkatkan kinerja pencarian dengan mengorbankan penarikan. Ini hanya boleh digunakan untuk penyematan yang dilatih dengan Matryoshka Representation Learning (MRL) seperti OpenAI text-embedding-3-large (kecil). Nilai defaultnya adalah null, yang berarti tidak ada pemotongan. |
BM25Similarity
Fungsi peringkat berdasarkan algoritma kesamaan Okapi BM25. BM25 adalah algoritma mirip TF-IDF yang mencakup normalisasi panjang (dikendalikan oleh parameter 'b') serta saturasi frekuensi istilah (dikendalikan oleh parameter 'k1').
| Nama | Jenis | Deskripsi |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
|
| b |
number (double) |
Properti ini mengontrol bagaimana panjang dokumen memengaruhi skor relevansi. Secara default, nilai 0,75 digunakan. Nilai 0,0 berarti tidak ada normalisasi panjang yang diterapkan, sedangkan nilai 1,0 berarti skor sepenuhnya dinormalisasi oleh panjang dokumen. |
| k1 |
number (double) |
Properti ini mengontrol fungsi penskalaan antara frekuensi istilah setiap istilah yang cocok dan skor relevansi akhir dari pasangan kueri dokumen. Secara default, nilai 1.2 digunakan. Nilai 0,0 berarti skor tidak diskalakan dengan peningkatan frekuensi istilah. |
CharFilterName
Menentukan nama semua filter karakter yang didukung oleh mesin pencari.
| Nilai | Deskripsi |
|---|---|
| html_strip |
Filter karakter yang mencoba menghapus konstruksi HTML. Lihat https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html |
CjkBigramTokenFilter
Membentuk bigram istilah CJK yang dihasilkan dari tokenizer standar. Filter token ini diimplementasikan menggunakan Apache Lucene.
| Nama | Jenis | Nilai default | Deskripsi |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis filter token. |
|
| ignoreScripts |
Skrip yang harus diabaikan. |
||
| name |
string |
Nama filter token. Itu hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
|
| outputUnigrams |
boolean |
False |
Nilai yang menunjukkan apakah akan menampilkan unigram dan bigram (jika benar), atau hanya bigram (jika salah). Secara default adalah false. |
CjkBigramTokenFilterScripts
Skrip yang dapat diabaikan oleh CjkBigramTokenFilter.
| Nilai | Deskripsi |
|---|---|
| han |
Abaikan aksara Han saat membentuk bigram istilah CJK. |
| hiragana |
Abaikan aksara Hiragana saat membentuk bigram istilah CJK. |
| katakana |
Abaikan aksara Katakana saat membentuk bigram istilah CJK. |
| hangul |
Abaikan aksara Hangul saat membentuk bigram istilah CJK. |
ClassicSimilarity
Algoritma kesamaan warisan yang menggunakan implementasi Lucene TFIDFSimilarity dari TF-IDF. Variasi TF-IDF ini memperkenalkan normalisasi panjang dokumen statis serta faktor koordinasi yang menghukum dokumen yang hanya sebagian cocok dengan kueri yang dicari.
| Nama | Jenis | Deskripsi |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
ClassicTokenizer
Tokenizer berbasis tata bahasa yang cocok untuk memproses sebagian besar dokumen berbahasa Eropa. Tokenizer ini diimplementasikan menggunakan Apache Lucene.
| Nama | Jenis | Nilai default | Deskripsi |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis tokenizer. |
|
| maxTokenLength |
integer (int32) maximum: 300 |
255 |
Panjang token maksimum. Defaultnya adalah 255. Token yang lebih panjang dari panjang maksimum dibagi. Panjang token maksimum yang dapat digunakan adalah 300 karakter. |
| name |
string |
Nama tokenizer. Itu hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
CommonGramTokenFilter
Buat bigram untuk istilah yang sering terjadi saat mengindeks. Istilah tunggal juga masih diindeks, dengan bigram dilapisi. Filter token ini diimplementasikan menggunakan Apache Lucene.
| Nama | Jenis | Nilai default | Deskripsi |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis filter token. |
|
| commonWords |
string[] |
Kumpulan kata-kata umum. |
|
| ignoreCase |
boolean |
False |
Nilai yang menunjukkan apakah pencocokan kata umum tidak akan peka huruf besar/kecil. Secara default adalah false. |
| name |
string |
Nama filter token. Itu hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
|
| queryMode |
boolean |
False |
Nilai yang menunjukkan apakah filter token dalam mode kueri. Saat dalam mode kueri, filter token menghasilkan bigram dan kemudian menghapus kata umum dan istilah tunggal diikuti dengan kata umum. Secara default adalah false. |
CorsOptions
Menentukan opsi untuk mengontrol Berbagi Sumber Daya Lintas Asal (CORS) untuk indeks.
| Nama | Jenis | Deskripsi |
|---|---|---|
| allowedOrigins |
string[] |
Daftar asal dari mana kode JavaScript akan diberikan akses ke indeks Anda. Dapat berisi daftar host dari bentuk {protocol}://{fully-qualified-domain-name}[:{port#}], atau satu '*' untuk mengizinkan semua asal (tidak disarankan). |
| maxAgeInSeconds |
integer (int64) |
Durasi browser harus menyimpan respons prapenerbangan CORS dalam cache. Default ke 5 menit. |
CustomAnalyzer
Memungkinkan Anda untuk mengambil kendali atas proses konversi teks menjadi token yang dapat diindeks/dicari. Ini adalah konfigurasi yang ditentukan pengguna yang terdiri dari satu tokenizer yang telah ditentukan sebelumnya dan satu atau beberapa filter. Tokenizer bertanggung jawab untuk memecah teks menjadi token, dan filter untuk memodifikasi token yang dipancarkan oleh tokenizer.
| Nama | Jenis | Deskripsi |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis penganalisis. |
| charFilters |
Daftar filter karakter yang digunakan untuk menyiapkan teks input sebelum diproses oleh tokenizer. Misalnya, mereka dapat menggantikan karakter atau simbol tertentu. Filter dijalankan dalam urutan di mana mereka tercantum. |
|
| name |
string |
Nama penganalisis. Itu hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
| tokenFilters |
Daftar filter token yang digunakan untuk memfilter atau memodifikasi token yang dihasilkan oleh tokenizer. Misalnya, Anda dapat menentukan filter huruf kecil yang mengubah semua karakter menjadi huruf kecil. Filter dijalankan dalam urutan di mana mereka tercantum. |
|
| tokenizer |
Nama tokenizer yang akan digunakan untuk membagi teks kontinu menjadi urutan token, seperti memecah kalimat menjadi kata-kata. |
CustomNormalizer
Memungkinkan Anda mengonfigurasi normalisasi untuk bidang yang dapat difilter, dapat diurutkan, dan dapat dimuka, yang secara default beroperasi dengan pencocokan yang ketat. Ini adalah konfigurasi yang ditentukan pengguna yang terdiri dari setidaknya satu atau lebih filter, yang memodifikasi token yang disimpan.
| Nama | Jenis | Deskripsi |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis normalisasi. |
| charFilters |
Daftar filter karakter yang digunakan untuk menyiapkan teks input sebelum diproses. Misalnya, mereka dapat menggantikan karakter atau simbol tertentu. Filter dijalankan dalam urutan di mana mereka tercantum. |
|
| name |
string |
Nama normalisasi. Itu hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. Itu tidak dapat diakhiri dengan '.microsoft' atau '.lucene', atau diberi nama 'asciifolding', 'standard', 'huruf kecil', 'huruf besar', atau 'elision'. |
| tokenFilters |
Daftar filter token yang digunakan untuk memfilter atau memodifikasi token input. Misalnya, Anda dapat menentukan filter huruf kecil yang mengubah semua karakter menjadi huruf kecil. Filter dijalankan dalam urutan di mana mereka tercantum. |
DictionaryDecompounderTokenFilter
Menguraikan kata-kata majemuk yang ditemukan dalam banyak bahasa Jermanik. Filter token ini diimplementasikan menggunakan Apache Lucene.
| Nama | Jenis | Nilai default | Deskripsi |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis filter token. |
|
| maxSubwordSize |
integer (int32) maximum: 300 |
15 |
Ukuran subkata maksimum. Hanya subkata yang lebih pendek dari ini yang dikeluarkan. Defaultnya adalah 15. Maksimum adalah 300. |
| minSubwordSize |
integer (int32) maximum: 300 |
2 |
Ukuran subkata minimum. Hanya subkata yang lebih panjang dari ini yang dikeluarkan. Defaultnya adalah 2. Maksimum adalah 300. |
| minWordSize |
integer (int32) maximum: 300 |
5 |
Ukuran kata minimum. Hanya kata-kata yang lebih panjang dari ini yang diproses. Pengaturan awal adalah 5. Maksimum adalah 300. |
| name |
string |
Nama filter token. Itu hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
|
| onlyLongestMatch |
boolean |
False |
Nilai yang menunjukkan apakah hanya akan menambahkan subkata pencocokan terpanjang ke output. Secara default adalah false. |
| wordList |
string[] |
Daftar kata-kata yang harus dicocokkan. |
DistanceScoringFunction
Menentukan fungsi yang meningkatkan skor berdasarkan jarak dari lokasi geografis.
| Nama | Jenis | Deskripsi |
|---|---|---|
| boost |
number (double) |
Pengganda untuk skor mentah. Harus berupa angka positif tidak sama dengan 1.0. |
| distance |
Nilai parameter untuk fungsi penilaian jarak. |
|
| fieldName |
string |
Nama bidang yang digunakan sebagai input ke fungsi penilaian. |
| interpolation |
Nilai yang menunjukkan bagaimana peningkatan akan diinterpolasi di seluruh skor dokumen; default ke "Linear". |
|
| type |
string:
distance |
Menunjukkan jenis fungsi yang akan digunakan. Nilai yang valid termasuk besaran, kesegaran, jarak, dan tag. Jenis fungsi harus huruf kecil. |
DistanceScoringParameters
Memberikan nilai parameter ke fungsi penilaian jarak.
| Nama | Jenis | Deskripsi |
|---|---|---|
| boostingDistance |
number (double) |
Jarak dalam kilometer dari lokasi referensi tempat jangkauan boosting berakhir. |
| referencePointParameter |
string |
Nama parameter yang diteruskan dalam kueri pencarian untuk menentukan lokasi referensi. |
EdgeNGramTokenFilter
Menghasilkan n-gram dari ukuran yang diberikan mulai dari depan atau belakang token input. Filter token ini diimplementasikan menggunakan Apache Lucene.
| Nama | Jenis | Nilai default | Deskripsi |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis filter token. |
|
| maxGram |
integer (int32) |
2 |
Panjang n-gram maksimum. Defaultnya adalah 2. |
| minGram |
integer (int32) |
1 |
Panjang minimum n-gram. Pengaturan awal adalah 1. Harus kurang dari nilai maxGram. |
| name |
string |
Nama filter token. Itu hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
|
| side | front |
Menentukan sisi input mana yang harus dihasilkan dari n-gram. Defaultnya adalah "depan". |
EdgeNGramTokenFilterSide
Menentukan sisi input mana yang harus dihasilkan dari n-gram.
| Nilai | Deskripsi |
|---|---|
| front |
Menentukan bahwa n-gram harus dihasilkan dari bagian depan input. |
| back |
Menentukan bahwa n-gram harus dihasilkan dari bagian belakang input. |
EdgeNGramTokenFilterV2
Menghasilkan n-gram dari ukuran yang diberikan mulai dari depan atau belakang token input. Filter token ini diimplementasikan menggunakan Apache Lucene.
| Nama | Jenis | Nilai default | Deskripsi |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis filter token. |
|
| maxGram |
integer (int32) maximum: 300 |
2 |
Panjang n-gram maksimum. Defaultnya adalah 2. Maksimum adalah 300. |
| minGram |
integer (int32) maximum: 300 |
1 |
Panjang minimum n-gram. Pengaturan awal adalah 1. Maksimum adalah 300. Harus kurang dari nilai maxGram. |
| name |
string |
Nama filter token. Itu hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
|
| side | front |
Menentukan sisi input mana yang harus dihasilkan dari n-gram. Defaultnya adalah "depan". |
EdgeNGramTokenizer
Tokenisasi input dari tepi ke n-gram dari ukuran yang diberikan. Tokenizer ini diimplementasikan menggunakan Apache Lucene.
| Nama | Jenis | Nilai default | Deskripsi |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis tokenizer. |
|
| maxGram |
integer (int32) maximum: 300 |
2 |
Panjang n-gram maksimum. Defaultnya adalah 2. Maksimum adalah 300. |
| minGram |
integer (int32) maximum: 300 |
1 |
Panjang minimum n-gram. Pengaturan awal adalah 1. Maksimum adalah 300. Harus kurang dari nilai maxGram. |
| name |
string |
Nama tokenizer. Itu hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
|
| tokenChars |
Kelas karakter untuk disimpan dalam token. |
ElisionTokenFilter
Menghilangkan elisi. Misalnya, "l'avion" (pesawat) akan diubah menjadi "avion" (pesawat). Filter token ini diimplementasikan menggunakan Apache Lucene.
| Nama | Jenis | Deskripsi |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis filter token. |
| articles |
string[] |
Kumpulan artikel yang akan dihapus. |
| name |
string |
Nama filter token. Itu hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
ErrorAdditionalInfo
Info tambahan kesalahan manajemen sumber daya.
| Nama | Jenis | Deskripsi |
|---|---|---|
| info |
object |
Info tambahan. |
| type |
string |
Jenis info tambahan. |
ErrorDetail
Detail kesalahan.
| Nama | Jenis | Deskripsi |
|---|---|---|
| additionalInfo |
Info tambahan kesalahan. |
|
| code |
string |
Kode kesalahan. |
| details |
Detail kesalahan. |
|
| message |
string |
Pesan kesalahan. |
| target |
string |
Target kesalahan. |
ErrorResponse
Tanggapan kesalahan
| Nama | Jenis | Deskripsi |
|---|---|---|
| error |
Objek kesalahan. |
ExhaustiveKnnParameters
Berisi parameter khusus untuk algoritma KNN yang lengkap.
| Nama | Jenis | Deskripsi |
|---|---|---|
| metric |
Metrik kesamaan yang digunakan untuk perbandingan vektor. |
ExhaustiveKnnVectorSearchAlgorithmConfiguration
Berisi opsi konfigurasi khusus untuk algoritma KNN lengkap yang digunakan selama kueri, yang akan melakukan pencarian brute-force di seluruh indeks vektor.
| Nama | Jenis | Deskripsi |
|---|---|---|
| exhaustiveKnnParameters |
Berisi parameter khusus untuk algoritma KNN yang lengkap. |
|
| kind |
string:
exhaustive |
Nama jenis algoritma yang dikonfigurasi untuk digunakan dengan pencarian vektor. |
| name |
string |
Nama yang akan dikaitkan dengan konfigurasi khusus ini. |
FreshnessScoringFunction
Menentukan fungsi yang meningkatkan skor berdasarkan nilai bidang tanggal-waktu.
| Nama | Jenis | Deskripsi |
|---|---|---|
| boost |
number (double) |
Pengganda untuk skor mentah. Harus berupa angka positif tidak sama dengan 1.0. |
| fieldName |
string |
Nama bidang yang digunakan sebagai input ke fungsi penilaian. |
| freshness |
Nilai parameter untuk fungsi penilaian kesegaran. |
|
| interpolation |
Nilai yang menunjukkan bagaimana peningkatan akan diinterpolasi di seluruh skor dokumen; default ke "Linear". |
|
| type |
string:
freshness |
Menunjukkan jenis fungsi yang akan digunakan. Nilai yang valid termasuk besaran, kesegaran, jarak, dan tag. Jenis fungsi harus huruf kecil. |
FreshnessScoringParameters
Memberikan nilai parameter ke fungsi penilaian kesegaran.
| Nama | Jenis | Deskripsi |
|---|---|---|
| boostingDuration |
string (duration) |
Periode kedaluwarsa setelah itu peningkatan akan berhenti untuk dokumen tertentu. |
HnswParameters
Berisi parameter khusus untuk algoritma HNSW.
| Nama | Jenis | Nilai default | Deskripsi |
|---|---|---|---|
| efConstruction |
integer (int32) minimum: 100maximum: 1000 |
400 |
Ukuran daftar dinamis yang berisi tetangga terdekat, yang digunakan selama waktu indeks. Meningkatkan parameter ini dapat meningkatkan kualitas indeks, dengan mengorbankan peningkatan waktu pengindeksan. Pada titik tertentu, meningkatkan parameter ini menyebabkan pengembalian yang berkurang. |
| efSearch |
integer (int32) minimum: 100maximum: 1000 |
500 |
Ukuran daftar dinamis yang berisi tetangga terdekat, yang digunakan selama waktu pencarian. Meningkatkan parameter ini dapat meningkatkan hasil pencarian, dengan mengorbankan pencarian yang lebih lambat. Pada titik tertentu, meningkatkan parameter ini menyebabkan pengembalian yang berkurang. |
| m |
integer (int32) minimum: 4maximum: 10 |
4 |
Jumlah tautan dua arah yang dibuat untuk setiap elemen baru selama konstruksi. Meningkatkan nilai parameter ini dapat meningkatkan penarikan dan mengurangi waktu pengambilan untuk himpunan data dengan dimensi intrinsik tinggi dengan mengorbankan peningkatan konsumsi memori dan waktu pengindeksan yang lebih lama. |
| metric |
Metrik kesamaan yang digunakan untuk perbandingan vektor. |
HnswVectorSearchAlgorithmConfiguration
Berisi opsi konfigurasi khusus untuk algoritma perkiraan tetangga terdekat HNSW yang digunakan selama pengindeksan dan kueri. Algoritma HNSW menawarkan trade-off yang dapat disetel antara kecepatan dan akurasi pencarian.
| Nama | Jenis | Deskripsi |
|---|---|---|
| hnswParameters |
Berisi parameter khusus untuk algoritma HNSW. |
|
| kind |
string:
hnsw |
Nama jenis algoritma yang dikonfigurasi untuk digunakan dengan pencarian vektor. |
| name |
string |
Nama yang akan dikaitkan dengan konfigurasi khusus ini. |
InputFieldMappingEntry
Pemetaan bidang input untuk keterampilan.
| Nama | Jenis | Deskripsi |
|---|---|---|
| inputs |
Input rekursif yang digunakan saat membuat jenis yang kompleks. |
|
| name |
string |
Nama input. |
| source |
string |
Sumber input. |
| sourceContext |
string |
Konteks sumber yang digunakan untuk memilih input rekursif. |
KeepTokenFilter
Filter token yang hanya menyimpan token dengan teks yang terkandung dalam daftar kata tertentu. Filter token ini diimplementasikan menggunakan Apache Lucene.
| Nama | Jenis | Nilai default | Deskripsi |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis filter token. |
|
| keepWords |
string[] |
Daftar kata-kata yang harus disimpan. |
|
| keepWordsCase |
boolean |
False |
Nilai yang menunjukkan apakah akan mengecilkan semua kata dengan huruf kecil terlebih dahulu. Secara default adalah false. |
| name |
string |
Nama filter token. Itu hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
KeywordMarkerTokenFilter
Menandai istilah sebagai kata kunci. Filter token ini diimplementasikan menggunakan Apache Lucene.
| Nama | Jenis | Nilai default | Deskripsi |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis filter token. |
|
| ignoreCase |
boolean |
False |
Nilai yang menunjukkan apakah akan mengabaikan huruf besar/kecil. Jika benar, semua kata diubah menjadi huruf kecil terlebih dahulu. Secara default adalah false. |
| keywords |
string[] |
Daftar kata yang akan ditandai sebagai kata kunci. |
|
| name |
string |
Nama filter token. Itu hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
KeywordTokenizer
Memancarkan seluruh input sebagai satu token. Tokenizer ini diimplementasikan menggunakan Apache Lucene.
| Nama | Jenis | Nilai default | Deskripsi |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis tokenizer. |
|
| bufferSize |
integer (int32) |
256 |
Ukuran buffer baca dalam byte. Defaultnya adalah 256. |
| name |
string |
Nama tokenizer. Itu hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
KeywordTokenizerV2
Memancarkan seluruh input sebagai satu token. Tokenizer ini diimplementasikan menggunakan Apache Lucene.
| Nama | Jenis | Nilai default | Deskripsi |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis tokenizer. |
|
| maxTokenLength |
integer (int32) maximum: 300 |
256 |
Panjang token maksimum. Defaultnya adalah 256. Token yang lebih panjang dari panjang maksimum dibagi. Panjang token maksimum yang dapat digunakan adalah 300 karakter. |
| name |
string |
Nama tokenizer. Itu hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
LengthTokenFilter
Menghapus kata-kata yang terlalu panjang atau terlalu pendek. Filter token ini diimplementasikan menggunakan Apache Lucene.
| Nama | Jenis | Nilai default | Deskripsi |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis filter token. |
|
| max |
integer (int32) maximum: 300 |
300 |
Panjang maksimum dalam karakter. Default dan maksimum adalah 300. |
| min |
integer (int32) maximum: 300 |
0 |
Panjang minimum dalam karakter. Nilai bawaan adalah 0. Maksimum adalah 300. Harus kurang dari nilai maks. |
| name |
string |
Nama filter token. Itu hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
LexicalAnalyzerName
Menentukan nama semua penganalisis teks yang didukung oleh mesin pencari.
| Nilai | Deskripsi |
|---|---|
| ar.microsoft |
Penganalisis Microsoft untuk bahasa Arab. |
| ar.lucene |
Lucene analyzer untuk bahasa Arab. |
| hy.lucene |
Penganalisis Lucene untuk Armenia. |
| bn.microsoft |
Microsoft analyzer untuk Bangla. |
| eu.lucene |
Penganalisis Lucene untuk Basque. |
| bg.microsoft |
Penganalisis Microsoft untuk bahasa Bulgaria. |
| bg.lucene |
Penganalisis Lucene untuk bahasa Bulgaria. |
| ca.microsoft |
Penganalisis Microsoft untuk bahasa Catalan. |
| ca.lucene |
Penganalisis Lucene untuk bahasa Catalan. |
| zh-Hans.microsoft |
Penganalisis Microsoft untuk bahasa Cina (Sederhana). |
| zh-Hans.lucene |
Penganalisis Lucene untuk Cina (Sederhana). |
| zh-Hant.microsoft |
Penganalisis Microsoft untuk bahasa Cina (Tradisional). |
| zh-Hant.lucene |
Lucene analyzer untuk Cina (Tradisional). |
| hr.microsoft |
Penganalisis Microsoft untuk bahasa Kroasia. |
| cs.microsoft |
Penganalisis Microsoft untuk Ceko. |
| cs.lucene |
Penganalisis Lucene untuk Ceko. |
| da.microsoft |
Penganalisis Microsoft untuk Denmark. |
| da.lucene |
Penganalisis Lucene untuk Denmark. |
| nl.microsoft |
Penganalisis Microsoft untuk bahasa Belanda. |
| nl.lucene |
Lucene analyzer untuk bahasa Belanda. |
| en.microsoft |
Penganalisis Microsoft untuk bahasa Inggris. |
| en.lucene |
Penganalisis Lucene untuk bahasa Inggris. |
| et.microsoft |
Penganalisis Microsoft untuk bahasa Estonia. |
| fi.microsoft |
Penganalisis Microsoft untuk bahasa Finlandia. |
| fi.lucene |
Penganalisis Lucene untuk bahasa Finlandia. |
| fr.microsoft |
Penganalisis Microsoft untuk bahasa Prancis. |
| fr.lucene |
Penganalisis Lucene untuk bahasa Prancis. |
| gl.lucene |
Penganalisis Lucene untuk Galicia. |
| de.microsoft |
Penganalisis Microsoft untuk bahasa Jerman. |
| de.lucene |
Penganalisis Lucene untuk bahasa Jerman. |
| el.microsoft |
Penganalisis Microsoft untuk bahasa Yunani. |
| el.lucene |
Penganalisis Lucene untuk bahasa Yunani. |
| gu.microsoft |
Penganalisis Microsoft untuk Gujarati. |
| he.microsoft |
Penganalisis Microsoft untuk bahasa Ibrani. |
| hi.microsoft |
Penganalisis Microsoft untuk bahasa Hindi. |
| hi.lucene |
Penganalisis Lucene untuk bahasa Hindi. |
| hu.microsoft |
Penganalisis Microsoft untuk bahasa Hongaria. |
| hu.lucene |
Penganalisis Lucene untuk bahasa Hongaria. |
| is.microsoft |
Penganalisis Microsoft untuk bahasa Islandia. |
| id.microsoft |
Microsoft analyzer untuk bahasa Indonesia (Bahasa). |
| id.lucene |
Lucene analyzer untuk bahasa Indonesia. |
| ga.lucene |
Penganalisis Lucene untuk Irlandia. |
| it.microsoft |
Penganalisis Microsoft untuk bahasa Italia. |
| it.lucene |
Penganalisis Lucene untuk bahasa Italia. |
| ja.microsoft |
Penganalisis Microsoft untuk bahasa Jepang. |
| ja.lucene |
Penganalisis Lucene untuk bahasa Jepang. |
| kn.microsoft |
Penganalisis Microsoft untuk Kannada. |
| ko.microsoft |
Penganalisis Microsoft untuk bahasa Korea. |
| ko.lucene |
Penganalisis Lucene untuk bahasa Korea. |
| lv.microsoft |
Penganalisis Microsoft untuk bahasa Latvia. |
| lv.lucene |
Penganalisis Lucene untuk bahasa Latvia. |
| lt.microsoft |
Penganalisis Microsoft untuk bahasa Lituania. |
| ml.microsoft |
Penganalisis Microsoft untuk Malayalam. |
| ms.microsoft |
Penganalisis Microsoft untuk bahasa Melayu (Latin). |
| mr.microsoft |
Penganalisis Microsoft untuk Marathi. |
| nb.microsoft |
Penganalisis Microsoft untuk Norwegia (Bokmål). |
| no.lucene |
Penganalisis Lucene untuk Norwegia. |
| fa.lucene |
Penganalisis Lucene untuk Persia. |
| pl.microsoft |
Penganalisis Microsoft untuk bahasa Polandia. |
| pl.lucene |
Lucene analyzer untuk Polandia. |
| pt-BR.microsoft |
Penganalisis Microsoft untuk Portugis (Brasil). |
| pt-BR.lucene |
Penganalisis Lucene untuk Portugis (Brasil). |
| pt-PT.microsoft |
Penganalisis Microsoft untuk Portugis (Portugal). |
| pt-PT.lucene |
Penganalisis Lucene untuk Portugis (Portugal). |
| pa.microsoft |
Penganalisis Microsoft untuk Punjabi. |
| ro.microsoft |
Penganalisis Microsoft untuk bahasa Rumania. |
| ro.lucene |
Penganalisis Lucene untuk Rumania. |
| ru.microsoft |
Penganalisis Microsoft untuk bahasa Rusia. |
| ru.lucene |
Penganalisis Lucene untuk Rusia. |
| sr-cyrillic.microsoft |
Penganalisis Microsoft untuk bahasa Serbia (Cyrillic). |
| sr-latin.microsoft |
Penganalisis Microsoft untuk bahasa Serbia (Latin). |
| sk.microsoft |
Penganalisis Microsoft untuk bahasa Slovakia. |
| sl.microsoft |
Penganalisis Microsoft untuk bahasa Slovenia. |
| es.microsoft |
Penganalisis Microsoft untuk bahasa Spanyol. |
| es.lucene |
Lucene analyzer untuk bahasa Spanyol. |
| sv.microsoft |
Penganalisis Microsoft untuk bahasa Swedia. |
| sv.lucene |
Penganalisis Lucene untuk bahasa Swedia. |
| ta.microsoft |
Penganalisis Microsoft untuk bahasa Tamil. |
| te.microsoft |
Penganalisis Microsoft untuk Telugu. |
| th.microsoft |
Penganalisis Microsoft untuk bahasa Thailand. |
| th.lucene |
Penganalisis Lucene untuk Thailand. |
| tr.microsoft |
Penganalisis Microsoft untuk bahasa Turki. |
| tr.lucene |
Penganalisis Lucene untuk Turki. |
| uk.microsoft |
Penganalisis Microsoft untuk bahasa Ukraina. |
| ur.microsoft |
Penganalisis Microsoft untuk bahasa Urdu. |
| vi.microsoft |
Penganalisis Microsoft untuk bahasa Vietnam. |
| standard.lucene |
Penganalisis Lucene standar. |
| standardasciifolding.lucene |
Alat analisis Lucene Lipat ASCII Standar. Lihat https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers |
| keyword |
Memperlakukan seluruh konten bidang sebagai satu token. Ini berguna untuk data seperti kode pos, id, dan beberapa nama produk. Lihat http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html |
| pattern |
Secara fleksibel memisahkan teks menjadi istilah melalui pola ekspresi reguler. Lihat http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html |
| simple |
Membagi teks pada non-huruf dan mengubahnya menjadi huruf kecil. Lihat http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html |
| stop |
Membagi teks pada non-huruf; Menerapkan filter token huruf kecil dan kata henti. Lihat http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html |
| whitespace |
Penganalisis yang menggunakan tokenizer spasi putih. Lihat http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html |
LexicalNormalizerName
Menentukan nama semua normalisasi teks yang didukung oleh mesin pencari.
LexicalTokenizerName
Menentukan nama semua tokenizer yang didukung oleh mesin pencari.
LimitTokenFilter
Membatasi jumlah token saat mengindeks. Filter token ini diimplementasikan menggunakan Apache Lucene.
| Nama | Jenis | Nilai default | Deskripsi |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis filter token. |
|
| consumeAllTokens |
boolean |
False |
Nilai yang menunjukkan apakah semua token dari input harus digunakan bahkan jika maxTokenCount tercapai. Secara default adalah false. |
| maxTokenCount |
integer (int32) |
1 |
Jumlah maksimum token yang akan diproduksi. Pengaturan awal adalah 1. |
| name |
string |
Nama filter token. Itu hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
LuceneStandardAnalyzer
Penganalisis Apache Lucene standar; Terdiri dari tokenizer standar, filter huruf kecil, dan filter berhenti.
| Nama | Jenis | Nilai default | Deskripsi |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis penganalisis. |
|
| maxTokenLength |
integer (int32) maximum: 300 |
255 |
Panjang token maksimum. Defaultnya adalah 255. Token yang lebih panjang dari panjang maksimum dibagi. Panjang token maksimum yang dapat digunakan adalah 300 karakter. |
| name |
string |
Nama penganalisis. Itu hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
|
| stopwords |
string[] |
Daftar kata henti. |
LuceneStandardTokenizer
Memutus teks mengikuti aturan Segmentasi Teks Unicode. Tokenizer ini diimplementasikan menggunakan Apache Lucene.
| Nama | Jenis | Nilai default | Deskripsi |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis tokenizer. |
|
| maxTokenLength |
integer (int32) |
255 |
Panjang token maksimum. Defaultnya adalah 255. Token yang lebih panjang dari panjang maksimum dibagi. |
| name |
string |
Nama tokenizer. Itu hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
LuceneStandardTokenizerV2
Memutus teks mengikuti aturan Segmentasi Teks Unicode. Tokenizer ini diimplementasikan menggunakan Apache Lucene.
| Nama | Jenis | Nilai default | Deskripsi |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis tokenizer. |
|
| maxTokenLength |
integer (int32) maximum: 300 |
255 |
Panjang token maksimum. Defaultnya adalah 255. Token yang lebih panjang dari panjang maksimum dibagi. Panjang token maksimum yang dapat digunakan adalah 300 karakter. |
| name |
string |
Nama tokenizer. Itu hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
MagnitudeScoringFunction
Menentukan fungsi yang meningkatkan skor berdasarkan besarnya bidang numerik.
| Nama | Jenis | Deskripsi |
|---|---|---|
| boost |
number (double) |
Pengganda untuk skor mentah. Harus berupa angka positif tidak sama dengan 1.0. |
| fieldName |
string |
Nama bidang yang digunakan sebagai input ke fungsi penilaian. |
| interpolation |
Nilai yang menunjukkan bagaimana peningkatan akan diinterpolasi di seluruh skor dokumen; default ke "Linear". |
|
| magnitude |
Nilai parameter untuk fungsi penilaian besar. |
|
| type |
string:
magnitude |
Menunjukkan jenis fungsi yang akan digunakan. Nilai yang valid termasuk besaran, kesegaran, jarak, dan tag. Jenis fungsi harus huruf kecil. |
MagnitudeScoringParameters
Memberikan nilai parameter ke fungsi penilaian besar.
| Nama | Jenis | Deskripsi |
|---|---|---|
| boostingRangeEnd |
number (double) |
Nilai bidang di mana peningkatan berakhir. |
| boostingRangeStart |
number (double) |
Nilai bidang di mana peningkatan dimulai. |
| constantBoostBeyondRange |
boolean |
Nilai yang menunjukkan apakah akan menerapkan peningkatan konstan untuk nilai bidang di luar nilai akhir rentang; default adalah false. |
MappingCharFilter
Filter karakter yang menerapkan pemetaan yang ditentukan dengan opsi pemetaan. Pencocokan itu serakah (pencocokan pola terpanjang pada titik tertentu menang). Penggantian diperbolehkan menjadi string kosong. Filter karakter ini diimplementasikan menggunakan Apache Lucene.
| Nama | Jenis | Deskripsi |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis filter char. |
| mappings |
string[] |
Daftar pemetaan dengan format berikut: "a=>b" (semua kemunculan karakter "a" akan diganti dengan karakter "b"). |
| name |
string |
Nama filter char. Itu hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
MicrosoftLanguageStemmingTokenizer
Membagi teks menggunakan aturan khusus bahasa dan mengurangi kata-kata ke bentuk dasarnya.
| Nama | Jenis | Nilai default | Deskripsi |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis tokenizer. |
|
| isSearchTokenizer |
boolean |
False |
Nilai yang menunjukkan bagaimana tokenizer digunakan. Atur ke true jika digunakan sebagai tokenizer pencarian, atur ke false jika digunakan sebagai tokenizer pengindeksan. Secara default adalah false. |
| language |
Bahasa yang akan digunakan. Defaultnya adalah bahasa Inggris. |
||
| maxTokenLength |
integer (int32) maximum: 300 |
255 |
Panjang token maksimum. Token yang lebih panjang dari panjang maksimum dibagi. Panjang token maksimum yang dapat digunakan adalah 300 karakter. Token yang lebih panjang dari 300 karakter pertama-tama dibagi menjadi token dengan panjang 300 dan kemudian masing-masing token tersebut dibagi berdasarkan panjang token maksimum yang ditetapkan. Defaultnya adalah 255. |
| name |
string |
Nama tokenizer. Itu hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
MicrosoftLanguageTokenizer
Membagi teks menggunakan aturan khusus bahasa.
| Nama | Jenis | Nilai default | Deskripsi |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis tokenizer. |
|
| isSearchTokenizer |
boolean |
False |
Nilai yang menunjukkan bagaimana tokenizer digunakan. Atur ke true jika digunakan sebagai tokenizer pencarian, atur ke false jika digunakan sebagai tokenizer pengindeksan. Secara default adalah false. |
| language |
Bahasa yang akan digunakan. Defaultnya adalah bahasa Inggris. |
||
| maxTokenLength |
integer (int32) maximum: 300 |
255 |
Panjang token maksimum. Token yang lebih panjang dari panjang maksimum dibagi. Panjang token maksimum yang dapat digunakan adalah 300 karakter. Token yang lebih panjang dari 300 karakter pertama-tama dibagi menjadi token dengan panjang 300 dan kemudian masing-masing token tersebut dibagi berdasarkan panjang token maksimum yang ditetapkan. Defaultnya adalah 255. |
| name |
string |
Nama tokenizer. Itu hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
MicrosoftStemmingTokenizerLanguage
Mencantumkan bahasa yang didukung oleh tokenizer stem bahasa Microsoft.
| Nilai | Deskripsi |
|---|---|
| arabic |
Memilih tokenizer stem Microsoft untuk bahasa Arab. |
| bangla |
Memilih tokenizer stem Microsoft untuk Bangla. |
| bulgarian |
Memilih tokenizer stem Microsoft untuk bahasa Bulgaria. |
| catalan |
Memilih tokenizer stem Microsoft untuk Catalan. |
| croatian |
Memilih tokenizer stem Microsoft untuk bahasa Kroasia. |
| czech |
Memilih tokenizer stem Microsoft untuk bahasa Ceko. |
| danish |
Memilih tokenizer stem Microsoft untuk bahasa Denmark. |
| dutch |
Memilih tokenizer stem Microsoft untuk bahasa Belanda. |
| english |
Memilih tokenizer stem Microsoft untuk bahasa Inggris. |
| estonian |
Memilih tokenizer stem Microsoft untuk bahasa Estonia. |
| finnish |
Memilih tokenizer stem Microsoft untuk bahasa Finlandia. |
| french |
Memilih tokenizer stem Microsoft untuk bahasa Prancis. |
| german |
Memilih tokenizer stem Microsoft untuk bahasa Jerman. |
| greek |
Memilih tokenizer stem Microsoft untuk bahasa Yunani. |
| gujarati |
Memilih tokenizer stem Microsoft untuk Gujarati. |
| hebrew |
Memilih tokenizer stem Microsoft untuk bahasa Ibrani. |
| hindi |
Memilih tokenizer stem Microsoft untuk bahasa Hindi. |
| hungarian |
Memilih tokenizer stem Microsoft untuk bahasa Hongaria. |
| icelandic |
Memilih tokenizer stem Microsoft untuk bahasa Islandia. |
| indonesian |
Memilih tokenizer stem Microsoft untuk bahasa Indonesia. |
| italian |
Memilih tokenizer stem Microsoft untuk bahasa Italia. |
| kannada |
Memilih tokenizer stem Microsoft untuk Kannada. |
| latvian |
Memilih tokenizer stem Microsoft untuk bahasa Latvia. |
| lithuanian |
Memilih tokenizer stem Microsoft untuk bahasa Lituania. |
| malay |
Memilih tokenizer stem Microsoft untuk bahasa Melayu. |
| malayalam |
Memilih tokenizer stem Microsoft untuk Malayalam. |
| marathi |
Memilih tokenizer stem Microsoft untuk Marathi. |
| norwegianBokmaal |
Memilih tokenizer stem Microsoft untuk bahasa Norwegia (Bokmål). |
| polish |
Memilih tokenizer stem Microsoft untuk bahasa Polandia. |
| portuguese |
Memilih tokenizer stem Microsoft untuk bahasa Portugis. |
| portugueseBrazilian |
Memilih tokenizer stem Microsoft untuk bahasa Portugis (Brasil). |
| punjabi |
Memilih tokenizer stem Microsoft untuk Punjabi. |
| romanian |
Memilih tokenizer stem Microsoft untuk bahasa Rumania. |
| russian |
Memilih tokenizer stem Microsoft untuk bahasa Rusia. |
| serbianCyrillic |
Memilih tokenizer stem Microsoft untuk bahasa Serbia (Cyrillic). |
| serbianLatin |
Memilih tokenizer stem Microsoft untuk bahasa Serbia (Latin). |
| slovak |
Memilih tokenizer stem Microsoft untuk bahasa Slovakia. |
| slovenian |
Memilih tokenizer stem Microsoft untuk bahasa Slovenia. |
| spanish |
Memilih tokenizer stem Microsoft untuk bahasa Spanyol. |
| swedish |
Memilih tokenizer stem Microsoft untuk bahasa Swedia. |
| tamil |
Memilih tokenizer stem Microsoft untuk bahasa Tamil. |
| telugu |
Memilih tokenizer stem Microsoft untuk Telugu. |
| turkish |
Memilih tokenizer stem Microsoft untuk bahasa Turki. |
| ukrainian |
Memilih tokenizer stem Microsoft untuk bahasa Ukraina. |
| urdu |
Memilih tokenizer stem Microsoft untuk bahasa Urdu. |
MicrosoftTokenizerLanguage
Mencantumkan bahasa yang didukung oleh tokenizer bahasa Microsoft.
| Nilai | Deskripsi |
|---|---|
| bangla |
Memilih tokenizer Microsoft untuk Bangla. |
| bulgarian |
Memilih tokenizer Microsoft untuk bahasa Bulgaria. |
| catalan |
Memilih tokenizer Microsoft untuk Catalan. |
| chineseSimplified |
Memilih tokenizer Microsoft untuk bahasa Mandarin (Sederhana). |
| chineseTraditional |
Memilih tokenizer Microsoft untuk bahasa Cina (Tradisional). |
| croatian |
Memilih tokenizer Microsoft untuk bahasa Kroasia. |
| czech |
Memilih tokenizer Microsoft untuk bahasa Ceko. |
| danish |
Memilih tokenizer Microsoft untuk bahasa Denmark. |
| dutch |
Memilih tokenizer Microsoft untuk bahasa Belanda. |
| english |
Memilih tokenizer Microsoft untuk bahasa Inggris. |
| french |
Memilih tokenizer Microsoft untuk bahasa Prancis. |
| german |
Memilih tokenizer Microsoft untuk bahasa Jerman. |
| greek |
Memilih tokenizer Microsoft untuk bahasa Yunani. |
| gujarati |
Memilih tokenizer Microsoft untuk Gujarati. |
| hindi |
Memilih tokenizer Microsoft untuk bahasa Hindi. |
| icelandic |
Memilih tokenizer Microsoft untuk bahasa Islandia. |
| indonesian |
Memilih tokenizer Microsoft untuk bahasa Indonesia. |
| italian |
Memilih tokenizer Microsoft untuk bahasa Italia. |
| japanese |
Memilih tokenizer Microsoft untuk bahasa Jepang. |
| kannada |
Memilih tokenizer Microsoft untuk Kannada. |
| korean |
Memilih tokenizer Microsoft untuk bahasa Korea. |
| malay |
Memilih tokenizer Microsoft untuk bahasa Melayu. |
| malayalam |
Memilih tokenizer Microsoft untuk Malayalam. |
| marathi |
Memilih tokenizer Microsoft untuk Marathi. |
| norwegianBokmaal |
Memilih tokenizer Microsoft untuk bahasa Norwegia (Bokmål). |
| polish |
Memilih tokenizer Microsoft untuk bahasa Polandia. |
| portuguese |
Memilih tokenizer Microsoft untuk bahasa Portugis. |
| portugueseBrazilian |
Memilih tokenizer Microsoft untuk bahasa Portugis (Brasil). |
| punjabi |
Memilih tokenizer Microsoft untuk Punjabi. |
| romanian |
Memilih tokenizer Microsoft untuk bahasa Rumania. |
| russian |
Memilih tokenizer Microsoft untuk bahasa Rusia. |
| serbianCyrillic |
Memilih tokenizer Microsoft untuk bahasa Serbia (Cyrillic). |
| serbianLatin |
Memilih tokenizer Microsoft untuk bahasa Serbia (Latin). |
| slovenian |
Memilih tokenizer Microsoft untuk bahasa Slovenia. |
| spanish |
Memilih tokenizer Microsoft untuk bahasa Spanyol. |
| swedish |
Memilih tokenizer Microsoft untuk bahasa Swedia. |
| tamil |
Memilih tokenizer Microsoft untuk bahasa Tamil. |
| telugu |
Memilih tokenizer Microsoft untuk Telugu. |
| thai |
Memilih tokenizer Microsoft untuk bahasa Thailand. |
| ukrainian |
Memilih tokenizer Microsoft untuk bahasa Ukraina. |
| urdu |
Memilih tokenizer Microsoft untuk bahasa Urdu. |
| vietnamese |
Memilih tokenizer Microsoft untuk bahasa Vietnam. |
NGramTokenFilter
Menghasilkan n-gram dari ukuran yang diberikan. Filter token ini diimplementasikan menggunakan Apache Lucene.
| Nama | Jenis | Nilai default | Deskripsi |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis filter token. |
|
| maxGram |
integer (int32) |
2 |
Panjang n-gram maksimum. Defaultnya adalah 2. |
| minGram |
integer (int32) |
1 |
Panjang minimum n-gram. Pengaturan awal adalah 1. Harus kurang dari nilai maxGram. |
| name |
string |
Nama filter token. Itu hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
NGramTokenFilterV2
Menghasilkan n-gram dari ukuran yang diberikan. Filter token ini diimplementasikan menggunakan Apache Lucene.
| Nama | Jenis | Nilai default | Deskripsi |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis filter token. |
|
| maxGram |
integer (int32) maximum: 300 |
2 |
Panjang n-gram maksimum. Defaultnya adalah 2. Maksimum adalah 300. |
| minGram |
integer (int32) maximum: 300 |
1 |
Panjang minimum n-gram. Pengaturan awal adalah 1. Maksimum adalah 300. Harus kurang dari nilai maxGram. |
| name |
string |
Nama filter token. Itu hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
NGramTokenizer
Tokenisasi input ke dalam n-gram dari ukuran yang diberikan. Tokenizer ini diimplementasikan menggunakan Apache Lucene.
| Nama | Jenis | Nilai default | Deskripsi |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis tokenizer. |
|
| maxGram |
integer (int32) maximum: 300 |
2 |
Panjang n-gram maksimum. Defaultnya adalah 2. Maksimum adalah 300. |
| minGram |
integer (int32) maximum: 300 |
1 |
Panjang minimum n-gram. Pengaturan awal adalah 1. Maksimum adalah 300. Harus kurang dari nilai maxGram. |
| name |
string |
Nama tokenizer. Itu hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
|
| tokenChars |
Kelas karakter untuk disimpan dalam token. |
OutputFieldMappingEntry
Pemetaan bidang keluaran untuk keterampilan.
| Nama | Jenis | Deskripsi |
|---|---|---|
| name |
string |
Nama output yang ditentukan oleh keterampilan. |
| targetName |
string |
Nama target output. Ini opsional dan default untuk bernama. |
PathHierarchyTokenizerV2
Tokenizer untuk hierarki seperti jalur. Tokenizer ini diimplementasikan menggunakan Apache Lucene.
| Nama | Jenis | Nilai default | Deskripsi |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis tokenizer. |
|
| delimiter |
string (char) |
/ |
Karakter pembatas yang akan digunakan. Defaultnya adalah "/". |
| maxTokenLength |
integer (int32) maximum: 300 |
300 |
Panjang token maksimum. Default dan maksimum adalah 300. |
| name |
string |
Nama tokenizer. Itu hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
|
| replacement |
string (char) |
/ |
Nilai yang, jika ditetapkan, menggantikan karakter pembatas. Defaultnya adalah "/". |
| reverse |
boolean |
False |
Nilai yang menunjukkan apakah akan menghasilkan token dalam urutan terbalik. Secara default adalah false. |
| skip |
integer (int32) |
0 |
Jumlah token awal yang harus dilewati. Nilai bawaan adalah 0. |
PatternAnalyzer
Secara fleksibel memisahkan teks menjadi istilah melalui pola ekspresi reguler. Penganalisis ini diimplementasikan menggunakan Apache Lucene.
| Nama | Jenis | Nilai default | Deskripsi |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis penganalisis. |
|
| flags |
Bendera ekspresi reguler. |
||
| lowercase |
boolean |
True |
Nilai yang menunjukkan apakah istilah harus huruf kecil. Nilai default adalah benar. |
| name |
string |
Nama penganalisis. Itu hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
|
| pattern |
string |
\W+ |
Pola ekspresi reguler untuk mencocokkan pemisah token. Default adalah ekspresi yang cocok dengan satu atau beberapa karakter non-kata. |
| stopwords |
string[] |
Daftar kata henti. |
PatternCaptureTokenFilter
Menggunakan regex Java untuk memancarkan beberapa token - satu untuk setiap grup pengambilan dalam satu atau beberapa pola. Filter token ini diimplementasikan menggunakan Apache Lucene.
| Nama | Jenis | Nilai default | Deskripsi |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis filter token. |
|
| name |
string |
Nama filter token. Itu hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
|
| patterns |
string[] |
Daftar pola yang akan dicocokkan dengan setiap token. |
|
| preserveOriginal |
boolean |
True |
Nilai yang menunjukkan apakah akan mengembalikan token asli meskipun salah satu pola cocok. Nilai default adalah benar. |
PatternReplaceCharFilter
Filter karakter yang menggantikan karakter dalam string input. Ini menggunakan ekspresi reguler untuk mengidentifikasi urutan karakter yang akan dipertahankan dan pola pengganti untuk mengidentifikasi karakter yang akan diganti. Misalnya, mengingat teks input "aa bb aa bb", pola "(aa)\s+(bb)", dan penggantian "$1#$2", hasilnya adalah "aa#bb aa#bb". Filter karakter ini diimplementasikan menggunakan Apache Lucene.
| Nama | Jenis | Deskripsi |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis filter char. |
| name |
string |
Nama filter char. Itu hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
| pattern |
string |
Pola ekspresi reguler. |
| replacement |
string |
Teks pengganti. |
PatternReplaceTokenFilter
Filter karakter yang menggantikan karakter dalam string input. Ini menggunakan ekspresi reguler untuk mengidentifikasi urutan karakter yang akan dipertahankan dan pola pengganti untuk mengidentifikasi karakter yang akan diganti. Misalnya, mengingat teks input "aa bb aa bb", pola "(aa)\s+(bb)", dan penggantian "$1#$2", hasilnya adalah "aa#bb aa#bb". Filter token ini diimplementasikan menggunakan Apache Lucene.
| Nama | Jenis | Deskripsi |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis filter token. |
| name |
string |
Nama filter token. Itu hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
| pattern |
string |
Pola ekspresi reguler. |
| replacement |
string |
Teks pengganti. |
PatternTokenizer
Tokenizer yang menggunakan pencocokan pola ekspresi reguler untuk membuat token yang berbeda. Tokenizer ini diimplementasikan menggunakan Apache Lucene.
| Nama | Jenis | Nilai default | Deskripsi |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis tokenizer. |
|
| flags |
Bendera ekspresi reguler. |
||
| group |
integer (int32) |
-1 |
Ordinal berbasis nol dari grup yang cocok dalam pola ekspresi reguler untuk diekstrak ke dalam token. Gunakan -1 jika Anda ingin menggunakan seluruh pola untuk membagi input menjadi token, terlepas dari grup yang cocok. Defaultnya adalah -1. |
| name |
string |
Nama tokenizer. Itu hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
|
| pattern |
string |
\W+ |
Pola ekspresi reguler untuk mencocokkan pemisah token. Default adalah ekspresi yang cocok dengan satu atau beberapa karakter non-kata. |
PhoneticEncoder
Mengidentifikasi jenis encoder fonetik yang akan digunakan dengan PhoneticTokenFilter.
| Nilai | Deskripsi |
|---|---|
| metaphone |
Mengkodekan token ke dalam nilai Metaphone. |
| doubleMetaphone |
Mengkodekan token menjadi nilai metafon ganda. |
| soundex |
Mengkodekan token ke dalam nilai Soundex. |
| refinedSoundex |
Mengkodekan token ke dalam nilai Soundex Refined. |
| caverphone1 |
Mengkodekan token ke dalam nilai Caverphone 1.0. |
| caverphone2 |
Mengkodekan token ke dalam nilai Caverphone 2.0. |
| cologne |
Mengkodekan token menjadi nilai Fonetik Cologne. |
| nysiis |
Mengkodekan token ke dalam nilai NYSIIS. |
| koelnerPhonetik |
Mengkodekan token menggunakan algoritma Kölner Phonetik. |
| haasePhonetik |
Mengkodekan token menggunakan penyempurnaan Haase dari algoritma Kölner Phonetik. |
| beiderMorse |
Mengkodekan token menjadi nilai Beider-Morse. |
PhoneticTokenFilter
Buat token untuk kecocokan fonetik. Filter token ini diimplementasikan menggunakan Apache Lucene.
| Nama | Jenis | Nilai default | Deskripsi |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis filter token. |
|
| encoder | metaphone |
Encoder fonetik yang akan digunakan. Defaultnya adalah "metaphone". |
|
| name |
string |
Nama filter token. Itu hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
|
| replace |
boolean |
True |
Nilai yang menunjukkan apakah token yang dikodekan harus menggantikan token asli. Jika salah, token yang dikodekan ditambahkan sebagai sinonim. Nilai default adalah benar. |
PrioritizedFields
Menjelaskan bidang judul, konten, dan kata kunci yang akan digunakan untuk peringkat semantik, teks, sorotan, dan jawaban.
| Nama | Jenis | Deskripsi |
|---|---|---|
| prioritizedContentFields |
Menentukan bidang konten yang akan digunakan untuk peringkat semantik, teks, sorotan, dan jawaban. Untuk hasil terbaik, bidang yang dipilih harus berisi teks dalam bentuk bahasa alami. Urutan bidang dalam array mewakili prioritasnya. Kolom dengan prioritas yang lebih rendah dapat terpotong jika kontennya panjang. |
|
| prioritizedKeywordsFields |
Menentukan bidang kata kunci yang akan digunakan untuk peringkat semantik, teks, sorotan, dan jawaban. Untuk hasil terbaik, bidang yang dipilih harus berisi daftar kata kunci. Urutan bidang dalam array mewakili prioritasnya. Kolom dengan prioritas yang lebih rendah dapat terpotong jika kontennya panjang. |
|
| titleField |
Menentukan bidang judul yang akan digunakan untuk peringkat semantik, teks, sorotan, dan jawaban. Jika Anda tidak memiliki kolom judul di indeks, kosongkan kolom ini. |
RankingOrder
Mewakili skor untuk digunakan untuk urutan pengurutan dokumen.
| Nilai | Deskripsi |
|---|---|
| BoostedRerankerScore |
Mengatur urutan pengurutan sebagai BoostedRerankerScore |
| RerankerScore |
Mengatur urutan pengurutan sebagai ReRankerScore |
RegexFlags
Menentukan bendera yang dapat digabungkan untuk mengontrol bagaimana ekspresi reguler digunakan dalam penganalisis pola dan tokenizer pola.
| Nilai | Deskripsi |
|---|---|
| CANON_EQ |
Memungkinkan kesetaraan kanonik. |
| CASE_INSENSITIVE |
Memungkinkan pencocokan yang tidak peka huruf besar/kecil. |
| COMMENTS |
Mengizinkan spasi kosong dan komentar dalam pola. |
| DOTALL |
Mengaktifkan mode titik. |
| LITERAL |
Mengaktifkan penguraian pola secara harfiah. |
| MULTILINE |
Mengaktifkan mode multibaris. |
| UNICODE_CASE |
Memungkinkan pelipatan casing sadar Unicode. |
| UNIX_LINES |
Mengaktifkan mode garis Unix. |
RescoringOptions
Berisi opsi untuk memulihkan.
| Nama | Jenis | Nilai default | Deskripsi |
|---|---|---|---|
| defaultOversampling |
number (double) |
Faktor oversampling default. Oversampling mengambil serangkaian dokumen potensial yang lebih besar untuk mengimbangi kehilangan resolusi akibat kuantisasi. Ini meningkatkan serangkaian hasil yang akan dinilai ulang pada vektor presisi penuh. Nilai minimum adalah 1, artinya tidak ada oversampling (1x). Parameter ini hanya dapat diatur jika 'enableRescoring' benar. Nilai yang lebih tinggi meningkatkan penarikan dengan mengorbankan latensi. |
|
| enableRescoring |
boolean |
True |
Jika diatur ke true, setelah pencarian awal pada vektor terkompresi, skor kesamaan dihitung ulang menggunakan vektor presisi penuh. Ini akan meningkatkan penarikan dengan mengorbankan latensi. |
| rescoreStorageMethod | preserveOriginals |
Mengontrol metode penyimpanan untuk vektor asli. Pengaturan ini tidak dapat diubah. |
ScalarQuantizationParameters
Berisi parameter khusus untuk Kuantisasi Skalar.
| Nama | Jenis | Deskripsi |
|---|---|---|
| quantizedDataType |
Jenis data terkuantisasi dari nilai vektor terkompresi. |
ScalarQuantizationVectorSearchCompressionConfiguration
Berisi opsi konfigurasi khusus untuk metode kompresi kuantisasi skalar yang digunakan selama pengindeksan dan kueri.
| Nama | Jenis | Deskripsi |
|---|---|---|
| kind |
string:
scalar |
Nama jenis metode kompresi yang dikonfigurasi untuk digunakan dengan pencarian vektor. |
| name |
string |
Nama yang akan dikaitkan dengan konfigurasi khusus ini. |
| rescoringOptions |
Berisi opsi untuk memulihkan. |
|
| scalarQuantizationParameters |
Berisi parameter khusus untuk Kuantisasi Skalar. |
|
| truncationDimension |
integer (int32) |
Jumlah dimensi untuk memotong vektor. Memotong vektor mengurangi ukuran vektor dan jumlah data yang perlu ditransfer selama pencarian. Ini dapat menghemat biaya penyimpanan dan meningkatkan kinerja pencarian dengan mengorbankan penarikan. Ini hanya boleh digunakan untuk penyematan yang dilatih dengan Matryoshka Representation Learning (MRL) seperti OpenAI text-embedding-3-large (kecil). Nilai defaultnya adalah null, yang berarti tidak ada pemotongan. |
ScoringFunctionAggregation
Menentukan fungsi agregasi yang digunakan untuk menggabungkan hasil semua fungsi penilaian dalam profil penilaian.
| Nilai | Deskripsi |
|---|---|
| sum |
Tingkatkan skor dengan jumlah semua hasil fungsi penilaian. |
| average |
Tingkatkan skor dengan rata-rata semua hasil fungsi penilaian. |
| minimum |
Tingkatkan skor minimal dari semua hasil fungsi penilaian. |
| maximum |
Tingkatkan skor dengan maksimum dari semua hasil fungsi penilaian. |
| firstMatching |
Tingkatkan skor menggunakan fungsi penilaian pertama yang berlaku di profil penilaian. |
ScoringFunctionInterpolation
Menentukan fungsi yang digunakan untuk menginterpolasi peningkatan skor di berbagai dokumen.
| Nilai | Deskripsi |
|---|---|
| linear |
Meningkatkan skor dengan jumlah yang menurun secara linier. Ini adalah interpolasi default untuk fungsi penilaian. |
| constant |
Meningkatkan skor dengan faktor konstan. |
| quadratic |
Meningkatkan skor dengan jumlah yang menurun secara kuadrat. Peningkatan berkurang perlahan untuk skor yang lebih tinggi, dan lebih cepat saat skor menurun. Opsi interpolasi ini tidak diizinkan dalam fungsi penilaian tag. |
| logarithmic |
Meningkatkan skor dengan jumlah yang menurun secara logaritma. Peningkatan berkurang dengan cepat untuk skor yang lebih tinggi, dan lebih lambat saat skor menurun. Opsi interpolasi ini tidak diizinkan dalam fungsi penilaian tag. |
ScoringProfile
Menentukan parameter untuk indeks pencarian yang memengaruhi penilaian dalam kueri pencarian.
| Nama | Jenis | Deskripsi |
|---|---|---|
| functionAggregation |
Nilai yang menunjukkan bagaimana hasil fungsi penilaian individu harus digabungkan. Default ke "Jumlah". Diabaikan jika tidak ada fungsi penilaian. |
|
| functions | ScoringFunction[]: |
Pengumpulan fungsi yang mempengaruhi penilaian dokumen. |
| name |
string |
Nama profil penilaian. |
| text |
Parameter yang meningkatkan penilaian berdasarkan kecocokan teks di bidang indeks tertentu. |
SearchField
Mewakili bidang dalam definisi indeks, yang menjelaskan nama, jenis data, dan perilaku pencarian bidang.
| Nama | Jenis | Deskripsi |
|---|---|---|
| analyzer |
Nama penganalisis yang akan digunakan untuk bidang. Opsi ini hanya dapat digunakan dengan bidang yang dapat dicari dan tidak dapat diatur bersama dengan searchAnalyzer atau indexAnalyzer. Setelah penganalisis dipilih, itu tidak dapat diubah untuk bidang. Harus null untuk bidang kompleks. |
|
| dimensions |
integer (int32) minimum: 2maximum: 4096 |
Dimensi bidang vektor. |
| facetable |
boolean |
Nilai yang menunjukkan apakah akan mengaktifkan bidang untuk direferensikan dalam kueri aspek. Biasanya digunakan dalam presentasi hasil pencarian yang mencakup hit hit berdasarkan kategori (misalnya, mencari kamera digital dan melihat hit berdasarkan merek, berdasarkan megapiksel, berdasarkan harga, dan sebagainya). Properti ini harus null untuk bidang kompleks. Bidang jenis Edm.GeographyPoint atau Collection(Edm.GeographyPoint) tidak dapat disesuaikan. Default berlaku untuk semua bidang sederhana lainnya. |
| fields |
Daftar sub-bidang jika ini adalah bidang jenis Edm.ComplexType atau Collection(Edm.ComplexType). Harus null atau kosong untuk bidang sederhana. |
|
| filterable |
boolean |
Nilai yang menunjukkan apakah akan mengaktifkan bidang untuk direferensikan dalam kueri $filter. Dapat difilter berbeda dari yang dapat dicari dalam cara string ditangani. Bidang jenis Edm.String atau Collection(Edm.String) yang dapat difilter tidak mengalami pemisahan kata, jadi perbandingan hanya untuk pencocokan persis. Misalnya, jika Anda mengatur bidang f seperti itu ke "hari cerah", $filter=f eq 'cerah' tidak akan menemukan kecocokan, tetapi $filter=f eq 'hari cerah' akan menemukan kecocokan. Properti ini harus null untuk bidang kompleks. Default adalah true untuk bidang sederhana dan null untuk bidang kompleks. |
| indexAnalyzer |
Nama penganalisis yang digunakan pada waktu pengindeksan untuk bidang. Opsi ini hanya dapat digunakan dengan bidang yang dapat dicari. Itu harus diatur bersama dengan searchAnalyzer dan tidak dapat diatur bersama dengan opsi analyzer. Properti ini tidak dapat diatur ke nama penganalisis bahasa; Gunakan properti Analyzer sebagai gantinya jika Anda memerlukan penganalisis bahasa. Setelah penganalisis dipilih, itu tidak dapat diubah untuk bidang. Harus null untuk bidang kompleks. |
|
| key |
boolean |
Nilai yang menunjukkan apakah bidang secara unik mengidentifikasi dokumen dalam indeks. Tepat satu bidang tingkat atas di setiap indeks harus dipilih sebagai bidang kunci dan harus berjenis Edm.String. Bidang kunci dapat digunakan untuk mencari dokumen secara langsung dan memperbarui atau menghapus dokumen tertentu. Default adalah false untuk bidang sederhana dan null untuk bidang kompleks. |
| name |
string |
Nama bidang, yang harus unik dalam kumpulan bidang indeks atau bidang induk. |
| normalizer |
Nama normalizer yang akan digunakan untuk lapangan. Opsi ini hanya dapat digunakan dengan bidang dengan diaktifkan yang dapat difilter, dapat diurutkan, atau dapat disesuaikan. Setelah normalizer dipilih, itu tidak dapat diubah untuk bidang. Harus null untuk bidang kompleks. |
|
| retrievable |
boolean |
Nilai yang menunjukkan apakah bidang dapat ditampilkan dalam hasil pencarian. Anda dapat menonaktifkan opsi ini jika ingin menggunakan bidang (misalnya, margin) sebagai mekanisme filter, pengurutan, atau penilaian tetapi tidak ingin bidang tersebut terlihat oleh pengguna akhir. Properti ini harus benar untuk bidang kunci, dan harus null untuk bidang kompleks. Properti ini dapat diubah pada bidang yang ada. Mengaktifkan properti ini tidak menyebabkan peningkatan persyaratan penyimpanan indeks. Default adalah true untuk bidang sederhana, false untuk bidang vektor, dan null untuk bidang kompleks. |
| searchAnalyzer |
Nama penganalisis yang digunakan pada waktu pencarian untuk bidang. Opsi ini hanya dapat digunakan dengan bidang yang dapat dicari. Ini harus diatur bersama dengan indexAnalyzer dan tidak dapat diatur bersama dengan opsi penganalisis. Properti ini tidak dapat diatur ke nama penganalisis bahasa; Gunakan properti Analyzer sebagai gantinya jika Anda memerlukan penganalisis bahasa. Penganalisis ini dapat diperbarui pada bidang yang ada. Harus null untuk bidang kompleks. |
|
| searchable |
boolean |
Nilai yang menunjukkan apakah bidang dapat ditelusuri teks lengkap. Ini berarti akan menjalani analisis seperti pemecahan kata selama pengindeksan. Jika Anda mengatur bidang yang dapat dicari ke nilai seperti "hari cerah", secara internal bidang tersebut akan dibagi menjadi masing-masing token "cerah" dan "hari". Ini memungkinkan pencarian teks lengkap untuk istilah-istilah ini. Bidang jenis Edm.String atau Collection(Edm.String) dapat dicari secara default. Properti ini harus false untuk bidang sederhana dari tipe data non-string lainnya, dan harus null untuk bidang kompleks. Catatan: bidang yang dapat dicari menggunakan ruang ekstra dalam indeks Anda untuk mengakomodasi versi token tambahan dari nilai kolom untuk penelusuran teks lengkap. Jika Anda ingin menghemat ruang di indeks dan tidak memerlukan bidang untuk disertakan dalam pencarian, atur dapat dicari ke false. |
| sortable |
boolean |
Nilai yang menunjukkan apakah akan mengaktifkan bidang untuk direferensikan dalam ekspresi $orderby. Secara default, mesin pencari mengurutkan hasil berdasarkan skor, tetapi dalam banyak pengalaman pengguna ingin mengurutkan berdasarkan bidang dalam dokumen. Bidang sederhana hanya dapat diurutkan jika bernilai tunggal (memiliki nilai tunggal dalam cakupan dokumen induk). Bidang koleksi sederhana tidak dapat diurutkan, karena bernilai banyak. Sub-bidang sederhana dari koleksi kompleks juga multi-nilai, dan oleh karena itu tidak dapat diurutkan. Ini benar apakah itu bidang induk langsung, atau bidang leluhur, itulah koleksi kompleks. Bidang kompleks tidak dapat diurutkan dan properti yang dapat diurutkan harus null untuk bidang tersebut. Default untuk dapat diurutkan adalah true untuk bidang sederhana bernilai tunggal, false untuk bidang sederhana multi-nilai, dan null untuk bidang kompleks. |
| stored |
boolean |
Nilai yang tidak dapat diubah yang menunjukkan apakah bidang akan dipertahankan secara terpisah pada disk untuk dikembalikan dalam hasil pencarian. Anda dapat menonaktifkan opsi ini jika Anda tidak berencana untuk mengembalikan konten bidang dalam respons pencarian untuk menghemat overhead penyimpanan. Ini hanya dapat diatur selama pembuatan indeks dan hanya untuk bidang vektor. Properti ini tidak dapat diubah untuk bidang yang ada atau diatur sebagai false untuk bidang baru. Jika properti ini diatur sebagai false, properti 'retrievable' juga harus diatur ke false. Properti ini harus benar atau tidak diatur untuk bidang kunci, untuk bidang baru, dan untuk bidang non-vektor, dan harus null untuk bidang kompleks. Menonaktifkan properti ini akan mengurangi persyaratan penyimpanan indeks. Defaultnya berlaku untuk bidang vektor. |
| synonymMaps |
string[] |
Daftar nama peta sinonim untuk dikaitkan dengan bidang ini. Opsi ini hanya dapat digunakan dengan bidang yang dapat dicari. Saat ini hanya satu peta sinonim per bidang yang didukung. Menetapkan peta sinonim ke bidang memastikan bahwa istilah kueri yang menargetkan bidang tersebut diperluas pada waktu kueri menggunakan aturan di peta sinonim. Atribut ini dapat diubah pada bidang yang ada. Harus null atau koleksi kosong untuk bidang kompleks. |
| type |
Jenis data bidang. |
|
| vectorEncoding |
Format pengkodean untuk menafsirkan konten bidang. |
|
| vectorSearchProfile |
string |
Nama profil pencarian vektor yang menentukan algoritma dan vectorizer yang akan digunakan saat mencari bidang vektor. |
SearchFieldDataType
Menentukan jenis data bidang dalam indeks pencarian.
| Nilai | Deskripsi |
|---|---|
| Edm.String |
Menunjukkan bahwa bidang berisi string. |
| Edm.Int32 |
Menunjukkan bahwa bidang berisi bilangan bulat bertanda 32-bit. |
| Edm.Int64 |
Menunjukkan bahwa bidang berisi bilangan bulat bertanda 64-bit. |
| Edm.Double |
Menunjukkan bahwa bidang berisi nomor floating point presisi ganda IEEE. |
| Edm.Boolean |
Menunjukkan bahwa bidang berisi nilai Boolean (benar atau salah). |
| Edm.DateTimeOffset |
Menunjukkan bahwa bidang berisi nilai tanggal/waktu, termasuk informasi zona waktu. |
| Edm.GeographyPoint |
Menunjukkan bahwa bidang berisi geo-lokasi dalam hal bujur dan lintang. |
| Edm.ComplexType |
Menunjukkan bahwa bidang berisi satu atau beberapa objek kompleks yang pada gilirannya memiliki sub-bidang dari jenis lain. |
| Edm.Single |
Menunjukkan bahwa bidang berisi angka floating point presisi tunggal. Ini hanya berlaku jika digunakan dengan Collection(Edm.Single). |
| Edm.Half |
Menunjukkan bahwa bidang berisi bilangan floating point setengah presisi. Ini hanya berlaku jika digunakan dengan Collection(Edm.Half). |
| Edm.Int16 |
Menunjukkan bahwa bidang berisi bilangan bulat bertanda 16-bit. Ini hanya berlaku jika digunakan dengan Collection(Edm.Int16). |
| Edm.SByte |
Menunjukkan bahwa bidang berisi bilangan bulat bertanda 8-bit. Ini hanya berlaku jika digunakan dengan Collection(Edm.SByte). |
| Edm.Byte |
Menunjukkan bahwa bidang berisi bilangan bulat 8-bit yang tidak ditandatangani. Ini hanya berlaku jika digunakan dengan Collection(Edm.Byte). |
SearchIndex
Mewakili definisi indeks pencarian, yang menjelaskan bidang dan perilaku pencarian indeks.
| Nama | Jenis | Deskripsi |
|---|---|---|
| @odata.etag |
string |
ETag indeks. |
| analyzers | LexicalAnalyzer[]: |
Penganalisis untuk indeks. |
| charFilters | CharFilter[]: |
Filter karakter untuk indeks. |
| corsOptions |
Opsi untuk mengontrol Berbagi Sumber Daya Lintas Asal (CORS) untuk indeks. |
|
| defaultScoringProfile |
string |
Nama profil penilaian yang akan digunakan jika tidak ada yang ditentukan dalam kueri. Jika properti ini tidak diatur dan tidak ada profil penilaian yang ditentukan dalam kueri, maka penilaian default (tf-idf) akan digunakan. |
| description |
string |
Deskripsi indeks. |
| encryptionKey |
Deskripsi kunci enkripsi yang Anda buat di Azure Key Vault. Kunci ini digunakan untuk memberikan tingkat enkripsi tambahan untuk data Anda ketika Anda menginginkan jaminan penuh bahwa tidak ada seorang pun, bahkan Microsoft, yang dapat mendekripsi data Anda. Setelah Anda mengenkripsi data Anda, itu akan selalu terenkripsi. Layanan pencarian akan mengabaikan upaya untuk mengatur properti ini ke null. Anda dapat mengubah properti ini sesuai kebutuhan jika Anda ingin memutar kunci enkripsi Anda; Data Anda tidak akan terpengaruh. Enkripsi dengan kunci yang dikelola pelanggan tidak tersedia untuk layanan penelusuran gratis, dan hanya tersedia untuk layanan berbayar yang dibuat pada atau setelah 1 Januari 2019. |
|
| fields |
Bidang indeks. |
|
| name |
string |
Nama indeks. |
| normalizers | LexicalNormalizer[]: |
Normalisasi untuk indeks. |
| scoringProfiles |
Profil penilaian untuk indeks. |
|
| semantic |
Menentukan parameter untuk indeks pencarian yang memengaruhi kemampuan semantik. |
|
| similarity | Similarity: |
Jenis algoritma kesamaan yang akan digunakan saat menilai dan memberi peringkat dokumen yang cocok dengan kueri pencarian. Algoritma kesamaan hanya dapat didefinisikan pada waktu pembuatan indeks dan tidak dapat dimodifikasi pada indeks yang ada. Jika null, algoritma ClassicSimilarity digunakan. |
| suggesters |
Saran untuk indeks. |
|
| tokenFilters |
TokenFilter[]:
|
Filter token untuk indeks. |
| tokenizers | LexicalTokenizer[]: |
Tokenizer untuk indeks. |
| vectorSearch |
Berisi opsi konfigurasi yang terkait dengan pencarian vektor. |
SearchIndexerDataNoneIdentity
Menghapus properti identitas sumber data.
| Nama | Jenis | Deskripsi |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis identitas. |
SearchIndexerDataUserAssignedIdentity
Menentukan identitas untuk digunakan sumber data.
| Nama | Jenis | Deskripsi |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis identitas. |
| userAssignedIdentity |
string |
Id sumber daya Azure yang memenuhi syarat penuh dari identitas terkelola yang ditetapkan pengguna biasanya dalam bentuk "/subscriptions/12345678-1234-1234-1234567890ab/resourceGroups/rg/providers/Microsoft.ManagedIdentity/userAssignedIdentities/myId" yang seharusnya ditetapkan ke layanan pencarian. |
SearchResourceEncryptionKey
Kunci enkripsi yang dikelola pelanggan di Azure Key Vault. Kunci yang Anda buat dan kelola dapat digunakan untuk mengenkripsi atau mendekripsi data-at-rest, seperti indeks dan peta sinonim.
| Nama | Jenis | Deskripsi |
|---|---|---|
| accessCredentials |
Kredensial Azure Active Directory opsional yang digunakan untuk mengakses Azure Key Vault Anda. Tidak diperlukan jika menggunakan identitas terkelola sebagai gantinya. |
|
| keyVaultKeyName |
string |
Nama kunci Azure Key Vault Anda yang akan digunakan untuk mengenkripsi data Anda saat tidak aktif. |
| keyVaultKeyVersion |
string |
Versi kunci Azure Key Vault Anda yang akan digunakan untuk mengenkripsi data Anda saat tidak aktif. |
| keyVaultUri |
string |
URI Azure Key Vault Anda, juga disebut sebagai nama DNS, yang berisi kunci yang akan digunakan untuk mengenkripsi data Anda saat tidak aktif. Contoh URI mungkin . |
SemanticConfiguration
Mendefinisikan konfigurasi tertentu yang akan digunakan dalam konteks kemampuan semantik.
| Nama | Jenis | Deskripsi |
|---|---|---|
| name |
string |
Nama konfigurasi semantik. |
| prioritizedFields |
Menjelaskan bidang judul, konten, dan kata kunci yang akan digunakan untuk peringkat semantik, teks, sorotan, dan jawaban. Setidaknya satu dari tiga sub properti (titleField, prioritizedKeywordsFields dan prioritasContentFields) perlu diatur. |
|
| rankingOrder |
Menentukan jenis skor yang akan digunakan untuk urutan pengurutan hasil pencarian. |
SemanticField
Bidang yang digunakan sebagai bagian dari konfigurasi semantik.
| Nama | Jenis | Deskripsi |
|---|---|---|
| fieldName |
string |
SemanticSettings
Menentukan parameter untuk indeks pencarian yang memengaruhi kemampuan semantik.
| Nama | Jenis | Deskripsi |
|---|---|---|
| configurations |
Konfigurasi semantik untuk indeks. |
|
| defaultConfiguration |
string |
Memungkinkan Anda mengatur nama konfigurasi semantik default dalam indeks Anda, menjadikannya opsional untuk meneruskannya sebagai parameter kueri setiap saat. |
ShingleTokenFilter
Membuat kombinasi token sebagai satu token. Filter token ini diimplementasikan menggunakan Apache Lucene.
| Nama | Jenis | Nilai default | Deskripsi |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis filter token. |
|
| filterToken |
string |
_ |
String yang akan disisipkan untuk setiap posisi di mana tidak ada token. Default adalah garis bawah ("_"). |
| maxShingleSize |
integer (int32) minimum: 2 |
2 |
Ukuran sirap maksimum. Nilai default dan minimum adalah 2. |
| minShingleSize |
integer (int32) minimum: 2 |
2 |
Ukuran sirap minimum. Nilai default dan minimum adalah 2. Harus kurang dari nilai maxShingleSize. |
| name |
string |
Nama filter token. Itu hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
|
| outputUnigrams |
boolean |
True |
Nilai yang menunjukkan apakah aliran keluaran akan berisi token input (unigram) serta herpes zoster. Nilai default adalah benar. |
| outputUnigramsIfNoShingles |
boolean |
False |
Nilai yang menunjukkan apakah akan mengeluarkan unigram untuk saat-saat ketika tidak ada sirap yang tersedia. Properti ini diutamakan ketika outputUnigrams diatur ke false. Secara default adalah false. |
| tokenSeparator |
string |
String yang akan digunakan saat menggabungkan token yang berdekatan untuk membentuk sirap. Default adalah spasi tunggal (" "). |
SnowballTokenFilter
Filter yang membela kata-kata menggunakan stemmer yang dihasilkan Snowball. Filter token ini diimplementasikan menggunakan Apache Lucene.
| Nama | Jenis | Deskripsi |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis filter token. |
| language |
Bahasa yang akan digunakan. |
|
| name |
string |
Nama filter token. Itu hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
SnowballTokenFilterLanguage
Bahasa yang akan digunakan untuk filter token Snowball.
| Nilai | Deskripsi |
|---|---|
| armenian |
Memilih tokenizer steming Lucene Snowball untuk bahasa Armenia. |
| basque |
Memilih tokenizer stem Lucene Snowball untuk Basque. |
| catalan |
Memilih tokenizer steming Lucene Snowball untuk Catalan. |
| danish |
Memilih tokenizer stem Lucene Snowball untuk bahasa Denmark. |
| dutch |
Memilih tokenizer steming Lucene Snowball untuk bahasa Belanda. |
| english |
Memilih tokenizer stem Lucene Snowball untuk bahasa Inggris. |
| finnish |
Memilih tokenizer steming Lucene Snowball untuk bahasa Finlandia. |
| french |
Memilih tokenizer stem Lucene Snowball untuk bahasa Prancis. |
| german |
Memilih tokenizer stem Lucene Snowball untuk bahasa Jerman. |
| german2 |
Memilih tokenizer steming Lucene Snowball yang menggunakan algoritma varian Jerman. |
| hungarian |
Memilih tokenizer stem Lucene Snowball untuk bahasa Hongaria. |
| italian |
Memilih tokenizer stem Lucene Snowball untuk bahasa Italia. |
| kp |
Memilih tokenizer steming Lucene Snowball untuk bahasa Belanda yang menggunakan algoritma stem Kraaij-Pohlmann. |
| lovins |
Memilih tokenizer stem Lucene Snowball untuk bahasa Inggris yang menggunakan algoritma stemming Lovins. |
| norwegian |
Memilih tokenizer batang Lucene Snowball untuk bahasa Norwegia. |
| porter |
Memilih tokenizer stem Lucene Snowball untuk bahasa Inggris yang menggunakan algoritma stem Porter. |
| portuguese |
Memilih tokenizer steming Lucene Snowball untuk bahasa Portugis. |
| romanian |
Memilih tokenizer steming Lucene Snowball untuk bahasa Rumania. |
| russian |
Memilih tokenizer stem Lucene Snowball untuk bahasa Rusia. |
| spanish |
Memilih tokenizer stem Lucene Snowball untuk bahasa Spanyol. |
| swedish |
Memilih tokenizer steming Lucene Snowball untuk bahasa Swedia. |
| turkish |
Memilih tokenizer stem Lucene Snowball untuk bahasa Turki. |
StemmerOverrideTokenFilter
Menyediakan kemampuan untuk mengganti filter stem lainnya dengan stemming berbasis kamus kustom. Setiap istilah berbatang kamus akan ditandai sebagai kata kunci sehingga tidak akan dibendung dengan stemmer di bawah rantai. Harus ditempatkan sebelum filter steming. Filter token ini diimplementasikan menggunakan Apache Lucene.
| Nama | Jenis | Deskripsi |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis filter token. |
| name |
string |
Nama filter token. Itu hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
| rules |
string[] |
Daftar aturan steming dalam format berikut: "word => stem", misalnya: "ran => run". |
StemmerTokenFilter
Filter stem khusus bahasa. Filter token ini diimplementasikan menggunakan Apache Lucene.
| Nama | Jenis | Deskripsi |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis filter token. |
| language |
Bahasa yang akan digunakan. |
|
| name |
string |
Nama filter token. Itu hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
StemmerTokenFilterLanguage
Bahasa yang akan digunakan untuk filter token stemmer.
| Nilai | Deskripsi |
|---|---|
| arabic |
Memilih tokenizer stem Lucene untuk bahasa Arab. |
| armenian |
Memilih tokenizer steming Lucene untuk bahasa Armenia. |
| basque |
Memilih tokenizer stem Lucene untuk Basque. |
| brazilian |
Memilih tokenizer steming Lucene untuk Portugis (Brasil). |
| bulgarian |
Memilih tokenizer steming Lucene untuk bahasa Bulgaria. |
| catalan |
Memilih tokenizer stem Lucene untuk Catalan. |
| czech |
Memilih tokenizer steming Lucene untuk bahasa Ceko. |
| danish |
Memilih tokenizer steming Lucene untuk bahasa Denmark. |
| dutch |
Memilih tokenizer stem Lucene untuk bahasa Belanda. |
| dutchKp |
Memilih tokenizer steming Lucene untuk bahasa Belanda yang menggunakan algoritma steming Kraaij-Pohlmann. |
| english |
Memilih tokenizer steming Lucene untuk bahasa Inggris. |
| lightEnglish |
Memilih tokenizer steming Lucene untuk bahasa Inggris yang melakukan stem ringan. |
| minimalEnglish |
Memilih token steming Lucene untuk bahasa Inggris yang melakukan stemming. |
| possessiveEnglish |
Memilih penandaan steming Lucene untuk bahasa Inggris yang menghapus posesif trailing dari kata-kata. |
| porter2 |
Memilih tokenizer stem Lucene untuk bahasa Inggris yang menggunakan algoritma steming Porter2. |
| lovins |
Memilih tokenizer steming Lucene untuk bahasa Inggris yang menggunakan algoritma steming Lovins. |
| finnish |
Memilih tokenizer steming Lucene untuk bahasa Finlandia. |
| lightFinnish |
Memilih tokenizer steming Lucene untuk bahasa Finlandia yang melakukan stem ringan. |
| french |
Memilih tokenizer stem Lucene untuk bahasa Prancis. |
| lightFrench |
Memilih penandaan steming Lucene untuk bahasa Prancis yang melakukan stem ringan. |
| minimalFrench |
Memilih penandaan steming Lucene untuk bahasa Prancis yang melakukan stemming. |
| galician |
Memilih tokenizer stem Lucene untuk bahasa Galicia. |
| minimalGalician |
Memilih tokenizer stem Lucene untuk bahasa Galicia yang melakukan stemming minimal. |
| german |
Memilih tokenizer steming Lucene untuk bahasa Jerman. |
| german2 |
Memilih tokenizer stem Lucene yang menggunakan algoritma varian Jerman. |
| lightGerman |
Memilih tokenizer stem Lucene untuk bahasa Jerman yang melakukan stem ringan. |
| minimalGerman |
Memilih tokenizer stem Lucene untuk bahasa Jerman yang melakukan stemming. |
| greek |
Memilih tokenizer steming Lucene untuk bahasa Yunani. |
| hindi |
Memilih tokenizer stem Lucene untuk bahasa Hindi. |
| hungarian |
Memilih tokenizer stem Lucene untuk bahasa Hongaria. |
| lightHungarian |
Memilih penandaan steming Lucene untuk bahasa Hongaria yang melakukan batang ringan. |
| indonesian |
Memilih tokenizer steming Lucene untuk bahasa Indonesia. |
| irish |
Memilih tokenizer stem Lucene untuk Irlandia. |
| italian |
Memilih tokenizer stem Lucene untuk bahasa Italia. |
| lightItalian |
Memilih tokenizer stem Lucene untuk bahasa Italia yang melakukan stem ringan. |
| sorani |
Memilih tokenizer stem Lucene untuk Sorani. |
| latvian |
Memilih tokenizer batang Lucene untuk bahasa Latvia. |
| norwegian |
Memilih penandaan steming Lucene untuk bahasa Norwegia (Bokmål). |
| lightNorwegian |
Memilih penandaan batang Lucene untuk bahasa Norwegia (Bokmål) yang melakukan batang ringan. |
| minimalNorwegian |
Memilih penandaan batang Lucene untuk bahasa Norwegia (Bokmål) yang melakukan penghentian minimal. |
| lightNynorsk |
Memilih penandaan batang Lucene untuk bahasa Norwegia (Nynorsk) yang melakukan penghentian ringan. |
| minimalNynorsk |
Memilih penandaan steming Lucene untuk Norwegia (Nynorsk) yang melakukan stemming. |
| portuguese |
Memilih tokenizer steming Lucene untuk bahasa Portugis. |
| lightPortuguese |
Memilih penandaan batang Lucene untuk bahasa Portugis yang melakukan penghentian ringan. |
| minimalPortuguese |
Memilih tokenizer stem Lucene untuk bahasa Portugis yang melakukan stemming minimal. |
| portugueseRslp |
Memilih tokenizer stem Lucene untuk bahasa Portugis yang menggunakan algoritma stemming RSLP. |
| romanian |
Memilih tokenizer steming Lucene untuk bahasa Rumania. |
| russian |
Memilih tokenizer stem Lucene untuk bahasa Rusia. |
| lightRussian |
Memilih tokenizer batang Lucene untuk bahasa Rusia yang melakukan batang ringan. |
| spanish |
Memilih tokenizer steming Lucene untuk bahasa Spanyol. |
| lightSpanish |
Memilih penandaan batang Lucene untuk bahasa Spanyol yang melakukan penghentian ringan. |
| swedish |
Memilih tokenizer batang Lucene untuk bahasa Swedia. |
| lightSwedish |
Memilih tokenizer stem Lucene untuk bahasa Swedia yang melakukan stem ringan. |
| turkish |
Memilih tokenizer steming Lucene untuk bahasa Turki. |
StopAnalyzer
Membagi teks pada non-huruf; Menerapkan filter token huruf kecil dan kata henti. Penganalisis ini diimplementasikan menggunakan Apache Lucene.
| Nama | Jenis | Deskripsi |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis penganalisis. |
| name |
string |
Nama penganalisis. Itu hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
| stopwords |
string[] |
Daftar kata henti. |
StopwordsList
Mengidentifikasi daftar kata henti khusus bahasa yang telah ditentukan sebelumnya.
| Nilai | Deskripsi |
|---|---|
| arabic |
Memilih daftar kata henti untuk bahasa Arab. |
| armenian |
Memilih daftar kata henti untuk bahasa Armenia. |
| basque |
Memilih daftar kata henti untuk bahasa Basque. |
| brazilian |
Memilih daftar kata henti untuk bahasa Portugis (Brasil). |
| bulgarian |
Memilih daftar kata henti untuk bahasa Bulgaria. |
| catalan |
Memilih daftar kata henti untuk bahasa Catalan. |
| czech |
Memilih daftar kata henti untuk bahasa Ceko. |
| danish |
Memilih daftar kata henti untuk bahasa Denmark. |
| dutch |
Memilih daftar kata henti untuk bahasa Belanda. |
| english |
Memilih daftar kata henti untuk bahasa Inggris. |
| finnish |
Memilih daftar kata henti untuk bahasa Finlandia. |
| french |
Memilih daftar kata henti untuk bahasa Prancis. |
| galician |
Memilih daftar kata ganti untuk bahasa Galicia. |
| german |
Memilih daftar kata henti untuk bahasa Jerman. |
| greek |
Memilih daftar kata henti untuk bahasa Yunani. |
| hindi |
Memilih daftar kata henti untuk bahasa Hindi. |
| hungarian |
Memilih daftar kata henti untuk bahasa Hongaria. |
| indonesian |
Memilih daftar kata henti untuk bahasa Indonesia. |
| irish |
Memilih daftar kata henti untuk bahasa Irlandia. |
| italian |
Memilih daftar kata henti untuk bahasa Italia. |
| latvian |
Memilih daftar kata henti untuk bahasa Latvia. |
| norwegian |
Memilih daftar kata henti untuk bahasa Norwegia. |
| persian |
Memilih daftar kata henti untuk bahasa Persia. |
| portuguese |
Memilih daftar kata henti untuk bahasa Portugis. |
| romanian |
Memilih daftar kata henti untuk bahasa Rumania. |
| russian |
Memilih daftar kata henti untuk bahasa Rusia. |
| sorani |
Memilih daftar kata henti untuk Sorani. |
| spanish |
Memilih daftar kata henti untuk bahasa Spanyol. |
| swedish |
Memilih daftar kata henti untuk bahasa Swedia. |
| thai |
Memilih daftar kata henti untuk bahasa Thailand. |
| turkish |
Memilih daftar kata henti untuk bahasa Turki. |
StopwordsTokenFilter
Menghapus kata berhenti dari aliran token. Filter token ini diimplementasikan menggunakan Apache Lucene.
| Nama | Jenis | Nilai default | Deskripsi |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis filter token. |
|
| ignoreCase |
boolean |
False |
Nilai yang menunjukkan apakah akan mengabaikan huruf besar/kecil. Jika benar, semua kata diubah menjadi huruf kecil terlebih dahulu. Secara default adalah false. |
| name |
string |
Nama filter token. Itu hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
|
| removeTrailing |
boolean |
True |
Nilai yang menunjukkan apakah akan mengabaikan istilah pencarian terakhir jika itu adalah kata henti. Nilai default adalah benar. |
| stopwords |
string[] |
Daftar kata henti. Properti ini dan properti daftar kata henti tidak dapat diatur. |
|
| stopwordsList | english |
Daftar kata henti yang telah ditentukan sebelumnya untuk digunakan. Properti ini dan properti kata henti tidak dapat diatur. Defaultnya adalah bahasa Inggris. |
Suggester
Menentukan bagaimana Suggest API harus diterapkan ke grup bidang dalam indeks.
| Nama | Jenis | Deskripsi |
|---|---|---|
| name |
string |
Nama penasaran. |
| searchMode |
Nilai yang menunjukkan kemampuan pemberan. |
|
| sourceFields |
string[] |
Daftar nama bidang yang diterapkan oleh pemberan. Setiap bidang harus dapat dicari. |
SuggesterSearchMode
Nilai yang menunjukkan kemampuan pemberan.
| Nilai | Deskripsi |
|---|---|
| analyzingInfixMatching |
Mencocokkan seluruh suku dan awalan berturut-turut dalam bidang. Misalnya, untuk bidang 'Rubah coklat tercepat', kueri 'cepat' dan 'alis tercepat' keduanya akan cocok. |
SynonymTokenFilter
Mencocokkan sinonim satu atau multi-kata dalam aliran token. Filter token ini diimplementasikan menggunakan Apache Lucene.
| Nama | Jenis | Nilai default | Deskripsi |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis filter token. |
|
| expand |
boolean |
True |
Nilai yang menunjukkan apakah semua kata dalam daftar sinonim (jika => notasi tidak digunakan) akan dipetakan satu sama lain. Jika benar, semua kata dalam daftar sinonim (jika => notasi tidak digunakan) akan memetakan satu sama lain. Daftar berikut: luar biasa, luar biasa, luar biasa, luar biasa setara dengan: luar biasa, luar biasa, luar biasa, luar biasa => luar biasa, luar biasa. Jika salah, daftar berikut: luar biasa, luar biasa akan setara dengan: luar biasa, luar biasa, luar biasa, luar biasa => luar biasa. Nilai default adalah benar. |
| ignoreCase |
boolean |
False |
Nilai yang menunjukkan apakah input lipatan huruf besar untuk pencocokan. Secara default adalah false. |
| name |
string |
Nama filter token. Itu hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
|
| synonyms |
string[] |
Daftar sinonim dalam salah satu dari dua format berikut: 1. luar biasa, luar biasa, luar biasa => menakjubkan - semua istilah di sisi kiri => simbol akan diganti dengan semua istilah di sisi kanannya; 2. Luar biasa, luar biasa, luar biasa, menakjubkan - daftar kata yang setara dipisahkan koma. Atur opsi perluasan untuk mengubah cara daftar ini ditafsirkan. |
TagScoringFunction
Menentukan fungsi yang meningkatkan skor dokumen dengan nilai string yang cocok dengan daftar tag tertentu.
| Nama | Jenis | Deskripsi |
|---|---|---|
| boost |
number (double) |
Pengganda untuk skor mentah. Harus berupa angka positif tidak sama dengan 1.0. |
| fieldName |
string |
Nama bidang yang digunakan sebagai input ke fungsi penilaian. |
| interpolation |
Nilai yang menunjukkan bagaimana peningkatan akan diinterpolasi di seluruh skor dokumen; default ke "Linear". |
|
| tag |
Nilai parameter untuk fungsi penilaian tag. |
|
| type |
string:
tag |
Menunjukkan jenis fungsi yang akan digunakan. Nilai yang valid termasuk besaran, kesegaran, jarak, dan tag. Jenis fungsi harus huruf kecil. |
TagScoringParameters
Memberikan nilai parameter ke fungsi penilaian tag.
| Nama | Jenis | Deskripsi |
|---|---|---|
| tagsParameter |
string |
Nama parameter yang diteruskan dalam kueri pencarian untuk menentukan daftar tag yang akan dibandingkan dengan bidang target. |
TextWeights
Menentukan bobot pada bidang indeks yang kecocokan harus meningkatkan penilaian dalam kueri pencarian.
| Nama | Jenis | Deskripsi |
|---|---|---|
| weights |
object |
Kamus bobot per bidang untuk meningkatkan penilaian dokumen. Kuncinya adalah nama bidang dan nilainya adalah bobot untuk setiap bidang. |
TokenCharacterKind
Mewakili kelas karakter tempat filter token dapat beroperasi.
| Nilai | Deskripsi |
|---|---|
| letter |
Menyimpan huruf dalam token. |
| digit |
Menyimpan digit dalam token. |
| whitespace |
Menyimpan spasi kosong dalam token. |
| punctuation |
Menyimpan tanda baca dalam token. |
| symbol |
Menyimpan simbol dalam token. |
TokenFilterName
Menentukan nama semua filter token yang didukung oleh mesin pencari.
TruncateTokenFilter
Memotong istilah ke panjang tertentu. Filter token ini diimplementasikan menggunakan Apache Lucene.
| Nama | Jenis | Nilai default | Deskripsi |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis filter token. |
|
| length |
integer (int32) maximum: 300 |
300 |
Panjang di mana istilah akan dipotong. Default dan maksimum adalah 300. |
| name |
string |
Nama filter token. Itu hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
UaxUrlEmailTokenizer
Mentokenisasi url dan email sebagai satu token. Tokenizer ini diimplementasikan menggunakan Apache Lucene.
| Nama | Jenis | Nilai default | Deskripsi |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis tokenizer. |
|
| maxTokenLength |
integer (int32) maximum: 300 |
255 |
Panjang token maksimum. Defaultnya adalah 255. Token yang lebih panjang dari panjang maksimum dibagi. Panjang token maksimum yang dapat digunakan adalah 300 karakter. |
| name |
string |
Nama tokenizer. Itu hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
UniqueTokenFilter
Memfilter token dengan teks yang sama dengan token sebelumnya. Filter token ini diimplementasikan menggunakan Apache Lucene.
| Nama | Jenis | Nilai default | Deskripsi |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis filter token. |
|
| name |
string |
Nama filter token. Itu hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
|
| onlyOnSamePosition |
boolean |
False |
Nilai yang menunjukkan apakah akan menghapus duplikat hanya pada posisi yang sama. Secara default adalah false. |
VectorEncodingFormat
Format pengkodean untuk menafsirkan konten bidang vektor.
| Nilai | Deskripsi |
|---|---|
| packedBit |
Format pengkodean yang mewakili bit yang dikemas ke dalam tipe data yang lebih luas. |
VectorSearch
Berisi opsi konfigurasi yang terkait dengan pencarian vektor.
| Nama | Jenis | Deskripsi |
|---|---|---|
| algorithms | VectorSearchAlgorithmConfiguration[]: |
Berisi opsi konfigurasi khusus untuk algoritme yang digunakan selama pengindeksan atau kueri. |
| compressions | VectorSearchCompressionConfiguration[]: |
Berisi opsi konfigurasi khusus untuk metode kompresi yang digunakan selama pengindeksan atau kueri. |
| profiles |
Menentukan kombinasi konfigurasi yang akan digunakan dengan pencarian vektor. |
|
| vectorizers | VectorSearchVectorizer[]: |
Berisi opsi konfigurasi tentang cara vektorisasi kueri vektor teks. |
VectorSearchAlgorithmKind
Algoritma yang digunakan untuk pengindeksan dan kueri.
| Nilai | Deskripsi |
|---|---|
| hnsw |
HNSW (Hierarchical Navigable Small World), sejenis algoritma perkiraan tetangga terdekat. |
| exhaustiveKnn |
Algoritma KNN lengkap yang akan melakukan pencarian brute-force. |
VectorSearchAlgorithmMetric
Metrik kesamaan yang digunakan untuk perbandingan vektor. Disarankan untuk memilih metrik kesamaan yang sama dengan model penyematan yang dilatih.
| Nilai | Deskripsi |
|---|---|
| cosine |
Mengukur sudut antar vektor untuk mengukur kesamaannya, mengabaikan besarnya. Semakin kecil sudutnya, semakin dekat kesamaannya. |
| euclidean |
Menghitung jarak garis lurus antara vektor dalam ruang multi-dimensi. Semakin kecil jaraknya, semakin dekat kesamaannya. |
| dotProduct |
Menghitung jumlah produk berdasarkan elemen untuk mengukur keselarasan dan kesamaan besarnya. Semakin besar dan lebih positif, semakin dekat kesamaannya. |
| hamming |
Hanya berlaku untuk tipe data biner yang dikemas bit. Menentukan perbedaan dengan menghitung posisi yang berbeda dalam vektor biner. Semakin sedikit perbedaan, semakin dekat kesamaannya. |
VectorSearchCompressionKind
Metode kompresi yang digunakan untuk pengindeksan dan kueri.
| Nilai | Deskripsi |
|---|---|
| scalarQuantization |
Kuantisasi Skalar, sejenis metode kompresi. Dalam kuantisasi skalar, nilai vektor asli dikompresi ke tipe yang lebih sempit dengan diskrit dan mewakili setiap komponen vektor menggunakan sekumpulan nilai kuantisasi yang dikurangi, sehingga mengurangi ukuran data secara keseluruhan. |
| binaryQuantization |
Kuantisasi Biner, sejenis metode kompresi. Dalam kuantisasi biner, nilai vektor asli dikompresi ke tipe biner yang lebih sempit dengan diskrit dan mewakili setiap komponen vektor menggunakan nilai biner, sehingga mengurangi ukuran data secara keseluruhan. |
VectorSearchCompressionRescoreStorageMethod
Metode penyimpanan untuk vektor presisi penuh asli yang digunakan untuk penilaian ulang dan operasi indeks internal.
| Nilai | Deskripsi |
|---|---|
| preserveOriginals |
Opsi ini mempertahankan vektor presisi penuh asli. Pilih opsi ini untuk fleksibilitas maksimum dan kualitas hasil pencarian terkompresi tertinggi. Ini menghabiskan lebih banyak penyimpanan tetapi memungkinkan penilaian ulang dan pengambilan sampel berlebihan. |
| discardOriginals |
Opsi ini membuang vektor presisi penuh asli. Pilih opsi ini untuk penghematan penyimpanan maksimum. Karena opsi ini tidak memungkinkan untuk menilai ulang dan oversampling, seringkali akan menyebabkan sedikit hingga sedangnya penurunan kualitas. |
VectorSearchCompressionTargetDataType
Jenis data terkuantisasi dari nilai vektor terkompresi.
| Nilai | Deskripsi |
|---|---|
| int8 |
VectorSearchProfile
Menentukan kombinasi konfigurasi yang akan digunakan dengan pencarian vektor.
| Nama | Jenis | Deskripsi |
|---|---|---|
| algorithm |
string |
Nama konfigurasi algoritma pencarian vektor yang menentukan algoritme dan parameter opsional. |
| compression |
string |
Nama konfigurasi metode kompresi yang menentukan metode kompresi dan parameter opsional. |
| name |
string |
Nama yang akan dikaitkan dengan profil pencarian vektor khusus ini. |
| vectorizer |
string |
Nama vektorisasi yang sedang dikonfigurasi untuk digunakan dengan pencarian vektor. |
VectorSearchVectorizerKind
Metode vektorisasi yang akan digunakan selama waktu kueri.
| Nilai | Deskripsi |
|---|---|
| azureOpenAI |
Hasilkan penyematan menggunakan sumber daya Azure OpenAI pada waktu kueri. |
| customWebApi |
Hasilkan penyematan menggunakan titik akhir web kustom pada waktu kueri. |
WebApiParameters
Menentukan properti untuk menyambungkan ke vektor yang ditentukan pengguna.
| Nama | Jenis | Deskripsi |
|---|---|---|
| authIdentity | SearchIndexerDataIdentity: |
Identitas terkelola yang ditetapkan pengguna yang digunakan untuk koneksi keluar. Jika authResourceId disediakan dan tidak ditentukan, identitas terkelola yang ditetapkan sistem akan digunakan. Pada pembaruan pada pengindeks, jika identitas tidak ditentukan, nilainya tetap tidak berubah. Jika diatur ke "none", nilai properti ini akan dihapus. |
| authResourceId |
string |
Berlaku untuk titik akhir kustom yang terhubung ke kode eksternal dalam fungsi Azure atau beberapa aplikasi lain yang menyediakan transformasi. Nilai ini harus berupa ID aplikasi yang dibuat untuk fungsi atau aplikasi saat terdaftar di Azure Active Directory. Saat ditentukan, vektorisasi terhubung ke fungsi atau aplikasi menggunakan ID terkelola (baik sistem atau yang ditetapkan pengguna) dari layanan pencarian dan token akses fungsi atau aplikasi, menggunakan nilai ini sebagai ID sumber daya untuk membuat cakupan token akses. |
| httpHeaders |
object |
Header yang diperlukan untuk membuat permintaan HTTP. |
| httpMethod |
string |
Metode untuk permintaan HTTP. |
| timeout |
string (duration) |
Batas waktu yang diinginkan untuk permintaan. Secara default, waktunya adalah 30 detik. |
| uri |
string (uri) |
URI API Web yang menyediakan vektorisasi. |
WebApiVectorizer
Menentukan vektor yang ditentukan pengguna untuk menghasilkan penyematan vektor string kueri. Integrasi vektor eksternal dicapai menggunakan antarmuka API Web khusus dari set keterampilan.
| Nama | Jenis | Deskripsi |
|---|---|---|
| customWebApiParameters |
Menentukan properti vektor yang ditentukan pengguna. |
|
| kind |
string:
custom |
Nama jenis metode vektorisasi yang dikonfigurasi untuk digunakan dengan pencarian vektor. |
| name |
string |
Nama untuk dikaitkan dengan metode vektorisasi khusus ini. |
WordDelimiterTokenFilter
Membagi kata menjadi subkata dan melakukan transformasi opsional pada grup subkata. Filter token ini diimplementasikan menggunakan Apache Lucene.
| Nama | Jenis | Nilai default | Deskripsi |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
Fragmen URI yang menentukan jenis filter token. |
|
| catenateAll |
boolean |
False |
Nilai yang menunjukkan apakah semua bagian subkata akan dicatenasi. Misalnya, jika ini diatur ke true, "Azure-Search-1" menjadi "AzureSearch1". Secara default adalah false. |
| catenateNumbers |
boolean |
False |
Nilai yang menunjukkan apakah eksekusi maksimum bagian nomor akan dikatakenasi. Misalnya, jika ini diatur ke true, "1-2" menjadi "12". Secara default adalah false. |
| catenateWords |
boolean |
False |
Nilai yang menunjukkan apakah eksekusi maksimum bagian kata akan dikatakenasi. Misalnya, jika ini diatur ke true, "Azure-Search" menjadi "AzureSearch". Secara default adalah false. |
| generateNumberParts |
boolean |
True |
Nilai yang menunjukkan apakah akan menghasilkan subkata angka. Nilai default adalah benar. |
| generateWordParts |
boolean |
True |
Nilai yang menunjukkan apakah akan menghasilkan kata bagian. Jika diatur, menyebabkan bagian-bagian kata dihasilkan; misalnya "AzureSearch" menjadi "Azure", "Pencarian". Nilai default adalah benar. |
| name |
string |
Nama filter token. Itu hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. |
|
| preserveOriginal |
boolean |
False |
Nilai yang menunjukkan apakah kata-kata asli akan dipertahankan dan ditambahkan ke daftar subkata. Secara default adalah false. |
| protectedWords |
string[] |
Daftar token yang harus dilindungi agar tidak dibatasi. |
|
| splitOnCaseChange |
boolean |
True |
Nilai yang menunjukkan apakah akan membagi kata di caseChange. Misalnya, jika ini diatur ke true, "AzureSearch" menjadi "Azure" "Search". Nilai default adalah benar. |
| splitOnNumerics |
boolean |
True |
Nilai yang menunjukkan apakah akan membagi angka. Misalnya, jika ini diatur ke true, "Azure1Search" menjadi "Azure" "1" "Search". Nilai default adalah benar. |
| stemEnglishPossessive |
boolean |
True |
Nilai yang menunjukkan apakah akan menghapus "'s" di belakang untuk setiap subkata. Nilai default adalah benar. |