Bagikan melalui


Indexes - Create

Membuat indeks pencarian baru.

POST {endpoint}/indexes?api-version=2025-09-01

Parameter URI

Nama Dalam Diperlukan Jenis Deskripsi
endpoint
path True

string

URL titik akhir layanan pencarian.

api-version
query True

string

Versi Api Klien.

Header Permintaan

Nama Diperlukan Jenis Deskripsi
x-ms-client-request-id

string (uuid)

ID pelacakan yang dikirim dengan permintaan untuk membantu penelusuran kesalahan.

Isi Permintaan

Nama Diperlukan Jenis Deskripsi
fields True

SearchField[]

Bidang indeks.

name True

string

Nama indeks.

@odata.etag

string

ETag indeks.

analyzers LexicalAnalyzer[]:

Penganalisis untuk indeks.

charFilters CharFilter[]:

Filter karakter untuk indeks.

corsOptions

CorsOptions

Opsi untuk mengontrol Berbagi Sumber Daya Lintas Asal (CORS) untuk indeks.

defaultScoringProfile

string

Nama profil penilaian yang akan digunakan jika tidak ada yang ditentukan dalam kueri. Jika properti ini tidak diatur dan tidak ada profil penilaian yang ditentukan dalam kueri, maka penilaian default (tf-idf) akan digunakan.

description

string

Deskripsi indeks.

encryptionKey

SearchResourceEncryptionKey

Deskripsi kunci enkripsi yang Anda buat di Azure Key Vault. Kunci ini digunakan untuk memberikan tingkat enkripsi tambahan untuk data Anda ketika Anda menginginkan jaminan penuh bahwa tidak ada seorang pun, bahkan Microsoft, yang dapat mendekripsi data Anda. Setelah Anda mengenkripsi data Anda, itu akan selalu terenkripsi. Layanan pencarian akan mengabaikan upaya untuk mengatur properti ini ke null. Anda dapat mengubah properti ini sesuai kebutuhan jika Anda ingin memutar kunci enkripsi Anda; Data Anda tidak akan terpengaruh. Enkripsi dengan kunci yang dikelola pelanggan tidak tersedia untuk layanan penelusuran gratis, dan hanya tersedia untuk layanan berbayar yang dibuat pada atau setelah 1 Januari 2019.

normalizers LexicalNormalizer[]:

CustomNormalizer[]

Normalisasi untuk indeks.

scoringProfiles

ScoringProfile[]

Profil penilaian untuk indeks.

semantic

SemanticSettings

Menentukan parameter untuk indeks pencarian yang memengaruhi kemampuan semantik.

similarity Similarity:

Jenis algoritma kesamaan yang akan digunakan saat menilai dan memberi peringkat dokumen yang cocok dengan kueri pencarian. Algoritma kesamaan hanya dapat didefinisikan pada waktu pembuatan indeks dan tidak dapat dimodifikasi pada indeks yang ada. Jika null, algoritma ClassicSimilarity digunakan.

suggesters

Suggester[]

Saran untuk indeks.

tokenFilters TokenFilter[]:

Filter token untuk indeks.

tokenizers LexicalTokenizer[]:

Tokenizer untuk indeks.

vectorSearch

VectorSearch

Berisi opsi konfigurasi yang terkait dengan pencarian vektor.

Respons

Nama Jenis Deskripsi
201 Created

SearchIndex

Other Status Codes

ErrorResponse

Respons kesalahan.

Contoh

SearchServiceCreateIndex

Permintaan sampel

POST https://stableexampleservice.search.windows.net/indexes?api-version=2025-09-01


{
  "name": "temp-stable-test",
  "description": "description",
  "fields": [
    {
      "name": "id",
      "type": "Edm.String",
      "key": true,
      "sortable": true
    },
    {
      "name": "vector1",
      "type": "Collection(Edm.Single)",
      "retrievable": true,
      "searchable": true,
      "dimensions": 20,
      "vectorSearchProfile": "config1"
    },
    {
      "name": "vector1b",
      "type": "Collection(Edm.Single)",
      "retrievable": true,
      "searchable": true,
      "dimensions": 10,
      "vectorSearchProfile": "config2"
    },
    {
      "name": "vector2",
      "type": "Collection(Edm.Single)",
      "retrievable": true,
      "searchable": true,
      "dimensions": 5,
      "vectorSearchProfile": "config3"
    },
    {
      "name": "vector3",
      "type": "Collection(Edm.Single)",
      "retrievable": true,
      "searchable": true,
      "dimensions": 5,
      "vectorSearchProfile": "config3"
    },
    {
      "name": "vector22",
      "type": "Collection(Edm.Single)",
      "retrievable": true,
      "searchable": true,
      "dimensions": 10,
      "vectorSearchProfile": "config2"
    },
    {
      "name": "name",
      "type": "Edm.String",
      "retrievable": true,
      "searchable": true,
      "filterable": true,
      "sortable": true,
      "facetable": true,
      "analyzer": "en.lucene"
    },
    {
      "name": "description",
      "type": "Edm.String",
      "retrievable": true,
      "searchable": true,
      "filterable": true,
      "sortable": true,
      "facetable": true,
      "analyzer": "standard.lucene"
    },
    {
      "name": "category",
      "type": "Edm.String",
      "retrievable": true,
      "searchable": true,
      "filterable": true,
      "sortable": true,
      "facetable": true,
      "analyzer": "en.lucene",
      "normalizer": "standard"
    },
    {
      "name": "ownerId",
      "type": "Edm.String",
      "retrievable": true,
      "searchable": true,
      "filterable": true,
      "sortable": true,
      "facetable": true,
      "analyzer": "en.lucene"
    }
  ],
  "scoringProfiles": [
    {
      "name": "stringFieldBoost",
      "text": {
        "weights": {
          "name": 3,
          "description": 1,
          "category": 2,
          "ownerId": 1
        }
      },
      "functions": [
        {
          "tag": {
            "tagsParameter": "categoryTag"
          },
          "type": "tag",
          "fieldName": "category",
          "boost": 2
        }
      ]
    }
  ],
  "defaultScoringProfile": "stringFieldBoost",
  "corsOptions": {
    "allowedOrigins": [
      "https://www.example.com/foo"
    ],
    "maxAgeInSeconds": 10
  },
  "suggesters": [
    {
      "name": "sg",
      "searchMode": "analyzingInfixMatching",
      "sourceFields": [
        "category",
        "ownerId"
      ]
    }
  ],
  "analyzers": [
    {
      "tokenizer": "standard_v2",
      "tokenFilters": [
        "common_grams"
      ],
      "charFilters": [
        "html_strip"
      ],
      "@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
      "name": "tagsAnalyzer"
    }
  ],
  "tokenizers": [
    {
      "maxTokenLength": 100,
      "@odata.type": "#Microsoft.Azure.Search.StandardTokenizerV2",
      "name": "my_tokenizer"
    }
  ],
  "tokenFilters": [
    {
      "preserveOriginal": false,
      "@odata.type": "#Microsoft.Azure.Search.AsciiFoldingTokenFilter",
      "name": "my_tokenFilter"
    }
  ],
  "charFilters": [
    {
      "mappings": [
        ".=>,",
        "_=>-"
      ],
      "@odata.type": "#Microsoft.Azure.Search.MappingCharFilter",
      "name": "my_mapping"
    }
  ],
  "normalizers": [
    {
      "tokenFilters": [
        "asciifolding"
      ],
      "charFilters": [
        "my_mapping"
      ],
      "@odata.type": "#Microsoft.Azure.Search.CustomNormalizer",
      "name": "tagsNormalizer"
    }
  ],
  "similarity": {
    "k1": 10,
    "b": 0.1,
    "@odata.type": "#Microsoft.Azure.Search.BM25Similarity"
  },
  "semantic": {
    "defaultConfiguration": "testconfig",
    "configurations": [
      {
        "name": "testconfig",
        "prioritizedFields": {
          "titleField": {
            "fieldName": "category"
          },
          "prioritizedContentFields": [
            {
              "fieldName": "description"
            }
          ],
          "prioritizedKeywordsFields": [
            {
              "fieldName": "ownerId"
            }
          ]
        },
        "rankingOrder": "BoostedRerankerScore"
      }
    ]
  },
  "vectorSearch": {
    "profiles": [
      {
        "name": "config1",
        "algorithm": "cosine",
        "vectorizer": "openai",
        "compression": "mySQ8"
      },
      {
        "name": "config2",
        "algorithm": "euclidean",
        "vectorizer": "custom-web-api",
        "compression": "mySQ8"
      },
      {
        "name": "config3",
        "algorithm": "dotProduct",
        "vectorizer": "custom-web-api",
        "compression": "myBQC"
      }
    ],
    "algorithms": [
      {
        "hnswParameters": {
          "metric": "cosine"
        },
        "name": "cosine",
        "kind": "hnsw"
      },
      {
        "hnswParameters": {
          "metric": "euclidean"
        },
        "name": "euclidean",
        "kind": "hnsw"
      },
      {
        "hnswParameters": {
          "metric": "dotProduct"
        },
        "name": "dotProduct",
        "kind": "hnsw"
      }
    ],
    "vectorizers": [
      {
        "azureOpenAIParameters": {
          "resourceUri": "https://test-sample.openai.azure.com/",
          "deploymentId": "model",
          "apiKey": "api-key",
          "modelName": "text-embedding-3-large"
        },
        "name": "openai",
        "kind": "azureOpenAI"
      },
      {
        "customWebApiParameters": {
          "uri": "https://my-custom-endpoint.org/",
          "httpHeaders": {
            "header1": "value1",
            "header2": "value2"
          },
          "httpMethod": "POST",
          "timeout": "PT1M",
          "authResourceId": "api://f89d1c93-58a7-4b07-9a5b-5f89048b927b",
          "authIdentity": {
            "@odata.type": "#Microsoft.Azure.Search.DataNoneIdentity"
          }
        },
        "name": "custom-web-api",
        "kind": "customWebApi"
      }
    ],
    "compressions": [
      {
        "scalarQuantizationParameters": {
          "quantizedDataType": "int8"
        },
        "name": "mySQ8",
        "kind": "scalarQuantization",
        "truncationDimension": 2
      },
      {
        "name": "myBQC",
        "kind": "binaryQuantization",
        "truncationDimension": 2
      }
    ]
  },
  "@odata.etag": "0x1234568AE7E58A1"
}

Respon sampel

{
  "@odata.etag": "0x1234568AE7E58A1",
  "name": "temp-stable-test",
  "description": "description",
  "defaultScoringProfile": "stringFieldBoost",
  "fields": [
    {
      "name": "id",
      "type": "Edm.String",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "stored": true,
      "sortable": true,
      "facetable": true,
      "key": true,
      "synonymMaps": []
    },
    {
      "name": "vector1",
      "type": "Collection(Edm.Single)",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "stored": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "dimensions": 20,
      "vectorSearchProfile": "config1",
      "synonymMaps": []
    },
    {
      "name": "vector1b",
      "type": "Collection(Edm.Single)",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "stored": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "dimensions": 10,
      "vectorSearchProfile": "config2",
      "synonymMaps": []
    },
    {
      "name": "vector2",
      "type": "Collection(Edm.Single)",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "stored": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "dimensions": 5,
      "vectorSearchProfile": "config3",
      "synonymMaps": []
    },
    {
      "name": "vector3",
      "type": "Collection(Edm.Single)",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "stored": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "dimensions": 5,
      "vectorSearchProfile": "config3",
      "synonymMaps": []
    },
    {
      "name": "vector22",
      "type": "Collection(Edm.Single)",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "stored": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "dimensions": 10,
      "vectorSearchProfile": "config2",
      "synonymMaps": []
    },
    {
      "name": "name",
      "type": "Edm.String",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "stored": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "analyzer": "en.lucene",
      "synonymMaps": []
    },
    {
      "name": "description",
      "type": "Edm.String",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "stored": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "analyzer": "standard.lucene",
      "synonymMaps": []
    },
    {
      "name": "category",
      "type": "Edm.String",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "stored": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "analyzer": "en.lucene",
      "normalizer": "standard",
      "synonymMaps": []
    },
    {
      "name": "ownerId",
      "type": "Edm.String",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "stored": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "analyzer": "en.lucene",
      "synonymMaps": []
    }
  ],
  "scoringProfiles": [
    {
      "name": "stringFieldBoost",
      "functionAggregation": "sum",
      "text": {
        "weights": {
          "name": 3,
          "description": 1,
          "category": 2,
          "ownerId": 1
        }
      },
      "functions": [
        {
          "fieldName": "category",
          "interpolation": "linear",
          "type": "tag",
          "boost": 2,
          "tag": {
            "tagsParameter": "categoryTag"
          }
        }
      ]
    }
  ],
  "corsOptions": {
    "allowedOrigins": [
      "https://www.example.com/foo"
    ],
    "maxAgeInSeconds": 10
  },
  "suggesters": [
    {
      "name": "sg",
      "searchMode": "analyzingInfixMatching",
      "sourceFields": [
        "category",
        "ownerId"
      ]
    }
  ],
  "analyzers": [
    {
      "@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
      "name": "tagsAnalyzer",
      "tokenizer": "standard_v2",
      "tokenFilters": [
        "common_grams"
      ],
      "charFilters": [
        "html_strip"
      ]
    }
  ],
  "normalizers": [
    {
      "@odata.type": "#Microsoft.Azure.Search.CustomNormalizer",
      "name": "tagsNormalizer",
      "tokenFilters": [
        "asciifolding"
      ],
      "charFilters": [
        "my_mapping"
      ]
    }
  ],
  "tokenizers": [
    {
      "@odata.type": "#Microsoft.Azure.Search.StandardTokenizerV2",
      "name": "my_tokenizer",
      "maxTokenLength": 100
    }
  ],
  "tokenFilters": [
    {
      "@odata.type": "#Microsoft.Azure.Search.AsciiFoldingTokenFilter",
      "name": "my_tokenFilter",
      "preserveOriginal": false
    }
  ],
  "charFilters": [
    {
      "@odata.type": "#Microsoft.Azure.Search.MappingCharFilter",
      "name": "my_mapping",
      "mappings": [
        ".=>,",
        "_=>-"
      ]
    }
  ],
  "similarity": {
    "@odata.type": "#Microsoft.Azure.Search.BM25Similarity",
    "k1": 10,
    "b": 0.1
  },
  "semantic": {
    "defaultConfiguration": "testconfig",
    "configurations": [
      {
        "name": "testconfig",
        "rankingOrder": "BoostedRerankerScore",
        "prioritizedFields": {
          "titleField": {
            "fieldName": "category"
          },
          "prioritizedContentFields": [
            {
              "fieldName": "description"
            }
          ],
          "prioritizedKeywordsFields": [
            {
              "fieldName": "ownerId"
            }
          ]
        }
      }
    ]
  },
  "vectorSearch": {
    "algorithms": [
      {
        "name": "cosine",
        "kind": "hnsw",
        "hnswParameters": {
          "metric": "cosine",
          "m": 4,
          "efConstruction": 400,
          "efSearch": 500
        }
      },
      {
        "name": "euclidean",
        "kind": "hnsw",
        "hnswParameters": {
          "metric": "euclidean",
          "m": 4,
          "efConstruction": 400,
          "efSearch": 500
        }
      },
      {
        "name": "dotProduct",
        "kind": "hnsw",
        "hnswParameters": {
          "metric": "dotProduct",
          "m": 4,
          "efConstruction": 400,
          "efSearch": 500
        }
      }
    ],
    "profiles": [
      {
        "name": "config1",
        "algorithm": "cosine",
        "vectorizer": "openai",
        "compression": "mySQ8"
      },
      {
        "name": "config2",
        "algorithm": "euclidean",
        "vectorizer": "custom-web-api",
        "compression": "mySQ8"
      },
      {
        "name": "config3",
        "algorithm": "dotProduct",
        "vectorizer": "custom-web-api",
        "compression": "myBQC"
      }
    ],
    "vectorizers": [
      {
        "name": "openai",
        "kind": "azureOpenAI",
        "azureOpenAIParameters": {
          "resourceUri": "https://test-sample.openai.azure.com",
          "deploymentId": "model",
          "apiKey": "api-key",
          "modelName": "text-embedding-3-large"
        }
      },
      {
        "name": "custom-web-api",
        "kind": "customWebApi",
        "customWebApiParameters": {
          "httpMethod": "POST",
          "uri": "https://my-custom-endpoint.org/",
          "timeout": "PT1M",
          "authResourceId": "api://f89d1c93-58a7-4b07-9a5b-5f89048b927b",
          "httpHeaders": {
            "header1": "value1",
            "header2": "value2"
          },
          "authIdentity": {
            "@odata.type": "#Microsoft.Azure.Search.DataNoneIdentity"
          }
        }
      }
    ],
    "compressions": [
      {
        "name": "mySQ8",
        "kind": "scalarQuantization",
        "truncationDimension": 2,
        "scalarQuantizationParameters": {
          "quantizedDataType": "int8"
        },
        "rescoringOptions": {
          "enableRescoring": true,
          "defaultOversampling": 4,
          "rescoreStorageMethod": "preserveOriginals"
        }
      },
      {
        "name": "myBQC",
        "kind": "binaryQuantization",
        "truncationDimension": 2,
        "rescoringOptions": {
          "enableRescoring": true,
          "defaultOversampling": 4,
          "rescoreStorageMethod": "preserveOriginals"
        }
      }
    ]
  }
}

Definisi

Nama Deskripsi
AsciiFoldingTokenFilter

Mengonversi karakter Unicode alfabet, numerik, dan simbolis yang tidak ada dalam 127 karakter ASCII pertama (blok Unicode "Latin Dasar") menjadi padanan ASCII, jika ada padanan tersebut. Filter token ini diimplementasikan menggunakan Apache Lucene.

AzureActiveDirectoryApplicationCredentials

Kredensial aplikasi terdaftar yang dibuat untuk layanan pencarian Anda, digunakan untuk akses terautentikasi ke kunci enkripsi yang disimpan di Azure Key Vault.

AzureOpenAIEmbeddingSkill

Memungkinkan Anda membuat penyematan vektor untuk input teks tertentu menggunakan sumber daya Azure OpenAI.

AzureOpenAIModelName

Nama model Azure Open AI yang akan dipanggil.

AzureOpenAIParameters

Menentukan parameter untuk menyambungkan ke sumber daya Azure OpenAI.

AzureOpenAIVectorizer

Menentukan sumber daya Azure OpenAI yang digunakan untuk mengvektorkan string kueri.

BinaryQuantizationVectorSearchCompressionConfiguration

Berisi opsi konfigurasi khusus untuk metode kompresi kuantisasi biner yang digunakan selama pengindeksan dan kueri.

BM25Similarity

Fungsi peringkat berdasarkan algoritma kesamaan Okapi BM25. BM25 adalah algoritma mirip TF-IDF yang mencakup normalisasi panjang (dikendalikan oleh parameter 'b') serta saturasi frekuensi istilah (dikendalikan oleh parameter 'k1').

CharFilterName

Menentukan nama semua filter karakter yang didukung oleh mesin pencari.

CjkBigramTokenFilter

Membentuk bigram istilah CJK yang dihasilkan dari tokenizer standar. Filter token ini diimplementasikan menggunakan Apache Lucene.

CjkBigramTokenFilterScripts

Skrip yang dapat diabaikan oleh CjkBigramTokenFilter.

ClassicSimilarity

Algoritma kesamaan warisan yang menggunakan implementasi Lucene TFIDFSimilarity dari TF-IDF. Variasi TF-IDF ini memperkenalkan normalisasi panjang dokumen statis serta faktor koordinasi yang menghukum dokumen yang hanya sebagian cocok dengan kueri yang dicari.

ClassicTokenizer

Tokenizer berbasis tata bahasa yang cocok untuk memproses sebagian besar dokumen berbahasa Eropa. Tokenizer ini diimplementasikan menggunakan Apache Lucene.

CommonGramTokenFilter

Buat bigram untuk istilah yang sering terjadi saat mengindeks. Istilah tunggal juga masih diindeks, dengan bigram dilapisi. Filter token ini diimplementasikan menggunakan Apache Lucene.

CorsOptions

Menentukan opsi untuk mengontrol Berbagi Sumber Daya Lintas Asal (CORS) untuk indeks.

CustomAnalyzer

Memungkinkan Anda untuk mengambil kendali atas proses konversi teks menjadi token yang dapat diindeks/dicari. Ini adalah konfigurasi yang ditentukan pengguna yang terdiri dari satu tokenizer yang telah ditentukan sebelumnya dan satu atau beberapa filter. Tokenizer bertanggung jawab untuk memecah teks menjadi token, dan filter untuk memodifikasi token yang dipancarkan oleh tokenizer.

CustomNormalizer

Memungkinkan Anda mengonfigurasi normalisasi untuk bidang yang dapat difilter, dapat diurutkan, dan dapat dimuka, yang secara default beroperasi dengan pencocokan yang ketat. Ini adalah konfigurasi yang ditentukan pengguna yang terdiri dari setidaknya satu atau lebih filter, yang memodifikasi token yang disimpan.

DictionaryDecompounderTokenFilter

Menguraikan kata-kata majemuk yang ditemukan dalam banyak bahasa Jermanik. Filter token ini diimplementasikan menggunakan Apache Lucene.

DistanceScoringFunction

Menentukan fungsi yang meningkatkan skor berdasarkan jarak dari lokasi geografis.

DistanceScoringParameters

Memberikan nilai parameter ke fungsi penilaian jarak.

EdgeNGramTokenFilter

Menghasilkan n-gram dari ukuran yang diberikan mulai dari depan atau belakang token input. Filter token ini diimplementasikan menggunakan Apache Lucene.

EdgeNGramTokenFilterSide

Menentukan sisi input mana yang harus dihasilkan dari n-gram.

EdgeNGramTokenFilterV2

Menghasilkan n-gram dari ukuran yang diberikan mulai dari depan atau belakang token input. Filter token ini diimplementasikan menggunakan Apache Lucene.

EdgeNGramTokenizer

Tokenisasi input dari tepi ke n-gram dari ukuran yang diberikan. Tokenizer ini diimplementasikan menggunakan Apache Lucene.

ElisionTokenFilter

Menghilangkan elisi. Misalnya, "l'avion" (pesawat) akan diubah menjadi "avion" (pesawat). Filter token ini diimplementasikan menggunakan Apache Lucene.

ErrorAdditionalInfo

Info tambahan kesalahan manajemen sumber daya.

ErrorDetail

Detail kesalahan.

ErrorResponse

Tanggapan kesalahan

ExhaustiveKnnParameters

Berisi parameter khusus untuk algoritma KNN yang lengkap.

ExhaustiveKnnVectorSearchAlgorithmConfiguration

Berisi opsi konfigurasi khusus untuk algoritma KNN lengkap yang digunakan selama kueri, yang akan melakukan pencarian brute-force di seluruh indeks vektor.

FreshnessScoringFunction

Menentukan fungsi yang meningkatkan skor berdasarkan nilai bidang tanggal-waktu.

FreshnessScoringParameters

Memberikan nilai parameter ke fungsi penilaian kesegaran.

HnswParameters

Berisi parameter khusus untuk algoritma HNSW.

HnswVectorSearchAlgorithmConfiguration

Berisi opsi konfigurasi khusus untuk algoritma perkiraan tetangga terdekat HNSW yang digunakan selama pengindeksan dan kueri. Algoritma HNSW menawarkan trade-off yang dapat disetel antara kecepatan dan akurasi pencarian.

InputFieldMappingEntry

Pemetaan bidang input untuk keterampilan.

KeepTokenFilter

Filter token yang hanya menyimpan token dengan teks yang terkandung dalam daftar kata tertentu. Filter token ini diimplementasikan menggunakan Apache Lucene.

KeywordMarkerTokenFilter

Menandai istilah sebagai kata kunci. Filter token ini diimplementasikan menggunakan Apache Lucene.

KeywordTokenizer

Memancarkan seluruh input sebagai satu token. Tokenizer ini diimplementasikan menggunakan Apache Lucene.

KeywordTokenizerV2

Memancarkan seluruh input sebagai satu token. Tokenizer ini diimplementasikan menggunakan Apache Lucene.

LengthTokenFilter

Menghapus kata-kata yang terlalu panjang atau terlalu pendek. Filter token ini diimplementasikan menggunakan Apache Lucene.

LexicalAnalyzerName

Menentukan nama semua penganalisis teks yang didukung oleh mesin pencari.

LexicalNormalizerName

Menentukan nama semua normalisasi teks yang didukung oleh mesin pencari.

LexicalTokenizerName

Menentukan nama semua tokenizer yang didukung oleh mesin pencari.

LimitTokenFilter

Membatasi jumlah token saat mengindeks. Filter token ini diimplementasikan menggunakan Apache Lucene.

LuceneStandardAnalyzer

Penganalisis Apache Lucene standar; Terdiri dari tokenizer standar, filter huruf kecil, dan filter berhenti.

LuceneStandardTokenizer

Memutus teks mengikuti aturan Segmentasi Teks Unicode. Tokenizer ini diimplementasikan menggunakan Apache Lucene.

LuceneStandardTokenizerV2

Memutus teks mengikuti aturan Segmentasi Teks Unicode. Tokenizer ini diimplementasikan menggunakan Apache Lucene.

MagnitudeScoringFunction

Menentukan fungsi yang meningkatkan skor berdasarkan besarnya bidang numerik.

MagnitudeScoringParameters

Memberikan nilai parameter ke fungsi penilaian besar.

MappingCharFilter

Filter karakter yang menerapkan pemetaan yang ditentukan dengan opsi pemetaan. Pencocokan itu serakah (pencocokan pola terpanjang pada titik tertentu menang). Penggantian diperbolehkan menjadi string kosong. Filter karakter ini diimplementasikan menggunakan Apache Lucene.

MicrosoftLanguageStemmingTokenizer

Membagi teks menggunakan aturan khusus bahasa dan mengurangi kata-kata ke bentuk dasarnya.

MicrosoftLanguageTokenizer

Membagi teks menggunakan aturan khusus bahasa.

MicrosoftStemmingTokenizerLanguage

Mencantumkan bahasa yang didukung oleh tokenizer stem bahasa Microsoft.

MicrosoftTokenizerLanguage

Mencantumkan bahasa yang didukung oleh tokenizer bahasa Microsoft.

NGramTokenFilter

Menghasilkan n-gram dari ukuran yang diberikan. Filter token ini diimplementasikan menggunakan Apache Lucene.

NGramTokenFilterV2

Menghasilkan n-gram dari ukuran yang diberikan. Filter token ini diimplementasikan menggunakan Apache Lucene.

NGramTokenizer

Tokenisasi input ke dalam n-gram dari ukuran yang diberikan. Tokenizer ini diimplementasikan menggunakan Apache Lucene.

OutputFieldMappingEntry

Pemetaan bidang keluaran untuk keterampilan.

PathHierarchyTokenizerV2

Tokenizer untuk hierarki seperti jalur. Tokenizer ini diimplementasikan menggunakan Apache Lucene.

PatternAnalyzer

Secara fleksibel memisahkan teks menjadi istilah melalui pola ekspresi reguler. Penganalisis ini diimplementasikan menggunakan Apache Lucene.

PatternCaptureTokenFilter

Menggunakan regex Java untuk memancarkan beberapa token - satu untuk setiap grup pengambilan dalam satu atau beberapa pola. Filter token ini diimplementasikan menggunakan Apache Lucene.

PatternReplaceCharFilter

Filter karakter yang menggantikan karakter dalam string input. Ini menggunakan ekspresi reguler untuk mengidentifikasi urutan karakter yang akan dipertahankan dan pola pengganti untuk mengidentifikasi karakter yang akan diganti. Misalnya, mengingat teks input "aa bb aa bb", pola "(aa)\s+(bb)", dan penggantian "$1#$2", hasilnya adalah "aa#bb aa#bb". Filter karakter ini diimplementasikan menggunakan Apache Lucene.

PatternReplaceTokenFilter

Filter karakter yang menggantikan karakter dalam string input. Ini menggunakan ekspresi reguler untuk mengidentifikasi urutan karakter yang akan dipertahankan dan pola pengganti untuk mengidentifikasi karakter yang akan diganti. Misalnya, mengingat teks input "aa bb aa bb", pola "(aa)\s+(bb)", dan penggantian "$1#$2", hasilnya adalah "aa#bb aa#bb". Filter token ini diimplementasikan menggunakan Apache Lucene.

PatternTokenizer

Tokenizer yang menggunakan pencocokan pola ekspresi reguler untuk membuat token yang berbeda. Tokenizer ini diimplementasikan menggunakan Apache Lucene.

PhoneticEncoder

Mengidentifikasi jenis encoder fonetik yang akan digunakan dengan PhoneticTokenFilter.

PhoneticTokenFilter

Buat token untuk kecocokan fonetik. Filter token ini diimplementasikan menggunakan Apache Lucene.

PrioritizedFields

Menjelaskan bidang judul, konten, dan kata kunci yang akan digunakan untuk peringkat semantik, teks, sorotan, dan jawaban.

RankingOrder

Mewakili skor untuk digunakan untuk urutan pengurutan dokumen.

RegexFlags

Menentukan bendera yang dapat digabungkan untuk mengontrol bagaimana ekspresi reguler digunakan dalam penganalisis pola dan tokenizer pola.

RescoringOptions

Berisi opsi untuk memulihkan.

ScalarQuantizationParameters

Berisi parameter khusus untuk Kuantisasi Skalar.

ScalarQuantizationVectorSearchCompressionConfiguration

Berisi opsi konfigurasi khusus untuk metode kompresi kuantisasi skalar yang digunakan selama pengindeksan dan kueri.

ScoringFunctionAggregation

Menentukan fungsi agregasi yang digunakan untuk menggabungkan hasil semua fungsi penilaian dalam profil penilaian.

ScoringFunctionInterpolation

Menentukan fungsi yang digunakan untuk menginterpolasi peningkatan skor di berbagai dokumen.

ScoringProfile

Menentukan parameter untuk indeks pencarian yang memengaruhi penilaian dalam kueri pencarian.

SearchField

Mewakili bidang dalam definisi indeks, yang menjelaskan nama, jenis data, dan perilaku pencarian bidang.

SearchFieldDataType

Menentukan jenis data bidang dalam indeks pencarian.

SearchIndex

Mewakili definisi indeks pencarian, yang menjelaskan bidang dan perilaku pencarian indeks.

SearchIndexerDataNoneIdentity

Menghapus properti identitas sumber data.

SearchIndexerDataUserAssignedIdentity

Menentukan identitas untuk digunakan sumber data.

SearchResourceEncryptionKey

Kunci enkripsi yang dikelola pelanggan di Azure Key Vault. Kunci yang Anda buat dan kelola dapat digunakan untuk mengenkripsi atau mendekripsi data-at-rest, seperti indeks dan peta sinonim.

SemanticConfiguration

Mendefinisikan konfigurasi tertentu yang akan digunakan dalam konteks kemampuan semantik.

SemanticField

Bidang yang digunakan sebagai bagian dari konfigurasi semantik.

SemanticSettings

Menentukan parameter untuk indeks pencarian yang memengaruhi kemampuan semantik.

ShingleTokenFilter

Membuat kombinasi token sebagai satu token. Filter token ini diimplementasikan menggunakan Apache Lucene.

SnowballTokenFilter

Filter yang membela kata-kata menggunakan stemmer yang dihasilkan Snowball. Filter token ini diimplementasikan menggunakan Apache Lucene.

SnowballTokenFilterLanguage

Bahasa yang akan digunakan untuk filter token Snowball.

StemmerOverrideTokenFilter

Menyediakan kemampuan untuk mengganti filter stem lainnya dengan stemming berbasis kamus kustom. Setiap istilah berbatang kamus akan ditandai sebagai kata kunci sehingga tidak akan dibendung dengan stemmer di bawah rantai. Harus ditempatkan sebelum filter steming. Filter token ini diimplementasikan menggunakan Apache Lucene.

StemmerTokenFilter

Filter stem khusus bahasa. Filter token ini diimplementasikan menggunakan Apache Lucene.

StemmerTokenFilterLanguage

Bahasa yang akan digunakan untuk filter token stemmer.

StopAnalyzer

Membagi teks pada non-huruf; Menerapkan filter token huruf kecil dan kata henti. Penganalisis ini diimplementasikan menggunakan Apache Lucene.

StopwordsList

Mengidentifikasi daftar kata henti khusus bahasa yang telah ditentukan sebelumnya.

StopwordsTokenFilter

Menghapus kata berhenti dari aliran token. Filter token ini diimplementasikan menggunakan Apache Lucene.

Suggester

Menentukan bagaimana Suggest API harus diterapkan ke grup bidang dalam indeks.

SuggesterSearchMode

Nilai yang menunjukkan kemampuan pemberan.

SynonymTokenFilter

Mencocokkan sinonim satu atau multi-kata dalam aliran token. Filter token ini diimplementasikan menggunakan Apache Lucene.

TagScoringFunction

Menentukan fungsi yang meningkatkan skor dokumen dengan nilai string yang cocok dengan daftar tag tertentu.

TagScoringParameters

Memberikan nilai parameter ke fungsi penilaian tag.

TextWeights

Menentukan bobot pada bidang indeks yang kecocokan harus meningkatkan penilaian dalam kueri pencarian.

TokenCharacterKind

Mewakili kelas karakter tempat filter token dapat beroperasi.

TokenFilterName

Menentukan nama semua filter token yang didukung oleh mesin pencari.

TruncateTokenFilter

Memotong istilah ke panjang tertentu. Filter token ini diimplementasikan menggunakan Apache Lucene.

UaxUrlEmailTokenizer

Mentokenisasi url dan email sebagai satu token. Tokenizer ini diimplementasikan menggunakan Apache Lucene.

UniqueTokenFilter

Memfilter token dengan teks yang sama dengan token sebelumnya. Filter token ini diimplementasikan menggunakan Apache Lucene.

VectorEncodingFormat

Format pengkodean untuk menafsirkan konten bidang vektor.

VectorSearch

Berisi opsi konfigurasi yang terkait dengan pencarian vektor.

VectorSearchAlgorithmKind

Algoritma yang digunakan untuk pengindeksan dan kueri.

VectorSearchAlgorithmMetric

Metrik kesamaan yang digunakan untuk perbandingan vektor. Disarankan untuk memilih metrik kesamaan yang sama dengan model penyematan yang dilatih.

VectorSearchCompressionKind

Metode kompresi yang digunakan untuk pengindeksan dan kueri.

VectorSearchCompressionRescoreStorageMethod

Metode penyimpanan untuk vektor presisi penuh asli yang digunakan untuk penilaian ulang dan operasi indeks internal.

VectorSearchCompressionTargetDataType

Jenis data terkuantisasi dari nilai vektor terkompresi.

VectorSearchProfile

Menentukan kombinasi konfigurasi yang akan digunakan dengan pencarian vektor.

VectorSearchVectorizerKind

Metode vektorisasi yang akan digunakan selama waktu kueri.

WebApiParameters

Menentukan properti untuk menyambungkan ke vektor yang ditentukan pengguna.

WebApiVectorizer

Menentukan vektor yang ditentukan pengguna untuk menghasilkan penyematan vektor string kueri. Integrasi vektor eksternal dicapai menggunakan antarmuka API Web khusus dari set keterampilan.

WordDelimiterTokenFilter

Membagi kata menjadi subkata dan melakukan transformasi opsional pada grup subkata. Filter token ini diimplementasikan menggunakan Apache Lucene.

AsciiFoldingTokenFilter

Mengonversi karakter Unicode alfabet, numerik, dan simbolis yang tidak ada dalam 127 karakter ASCII pertama (blok Unicode "Latin Dasar") menjadi padanan ASCII, jika ada padanan tersebut. Filter token ini diimplementasikan menggunakan Apache Lucene.

Nama Jenis Nilai default Deskripsi
@odata.type string:

#Microsoft.Azure.Search.AsciiFoldingTokenFilter

Fragmen URI yang menentukan jenis filter token.

name

string

Nama filter token. Itu hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter.

preserveOriginal

boolean

False

Nilai yang menunjukkan apakah token asli akan dipertahankan. Secara default adalah false.

AzureActiveDirectoryApplicationCredentials

Kredensial aplikasi terdaftar yang dibuat untuk layanan pencarian Anda, digunakan untuk akses terautentikasi ke kunci enkripsi yang disimpan di Azure Key Vault.

Nama Jenis Deskripsi
applicationId

string

ID Aplikasi AAD yang diberikan izin akses yang diperlukan ke Azure Key Vault yang akan digunakan saat mengenkripsi data Anda saat tidak aktif. ID Aplikasi tidak boleh disamakan dengan ID Objek untuk Aplikasi AAD Anda.

applicationSecret

string

Kunci otentikasi dari aplikasi AAD yang ditentukan.

AzureOpenAIEmbeddingSkill

Memungkinkan Anda membuat penyematan vektor untuk input teks tertentu menggunakan sumber daya Azure OpenAI.

Nama Jenis Deskripsi
@odata.type string:

#Microsoft.Skills.Text.AzureOpenAIEmbeddingSkill

Fragmen URI yang menentukan jenis keterampilan.

apiKey

string

Kunci API dari sumber daya Azure OpenAI yang ditunjuk.

authIdentity SearchIndexerDataIdentity:

Identitas terkelola yang ditetapkan pengguna yang digunakan untuk koneksi keluar.

context

string

Mewakili tingkat di mana operasi berlangsung, seperti akar dokumen atau konten dokumen (misalnya, /document atau /document/content). Defaultnya adalah /document.

deploymentId

string

ID penyebaran model Azure OpenAI pada sumber daya yang ditentukan.

description

string

Deskripsi keterampilan yang menggambarkan input, output, dan penggunaan keterampilan.

dimensions

integer (int32)

Jumlah dimensi yang harus dimiliki oleh embedding output yang dihasilkan. Hanya didukung dalam text-embedding-3 dan model yang lebih baru.

inputs

InputFieldMappingEntry[]

Input keterampilan dapat berupa kolom dalam kumpulan data sumber, atau output dari keterampilan hulu.

modelName

AzureOpenAIModelName

Nama model penyematan yang disebarkan di jalur deploymentId yang disediakan.

name

string

Nama keterampilan yang secara unik mengidentifikasinya dalam keahlian. Keterampilan tanpa nama yang ditentukan akan diberi nama default dari indeks berbasis 1 dalam array keterampilan, diawali dengan karakter '#'.

outputs

OutputFieldMappingEntry[]

Output keterampilan adalah bidang dalam indeks pencarian, atau nilai yang dapat digunakan sebagai input oleh keterampilan lain.

resourceUri

string (uri)

URI sumber daya sumber daya Azure OpenAI.

AzureOpenAIModelName

Nama model Azure Open AI yang akan dipanggil.

Nilai Deskripsi
text-embedding-ada-002
text-embedding-3-large
text-embedding-3-small

AzureOpenAIParameters

Menentukan parameter untuk menyambungkan ke sumber daya Azure OpenAI.

Nama Jenis Deskripsi
apiKey

string

Kunci API dari sumber daya Azure OpenAI yang ditunjuk.

authIdentity SearchIndexerDataIdentity:

Identitas terkelola yang ditetapkan pengguna yang digunakan untuk koneksi keluar.

deploymentId

string

ID penyebaran model Azure OpenAI pada sumber daya yang ditentukan.

modelName

AzureOpenAIModelName

Nama model penyematan yang disebarkan di jalur deploymentId yang disediakan.

resourceUri

string (uri)

URI sumber daya sumber daya Azure OpenAI.

AzureOpenAIVectorizer

Menentukan sumber daya Azure OpenAI yang digunakan untuk mengvektorkan string kueri.

Nama Jenis Deskripsi
azureOpenAIParameters AzureOpenAIParameters:

AzureOpenAIEmbeddingSkill

Berisi parameter khusus untuk vektorisasi penyematan Azure OpenAI.

kind string:

azureOpenAI

Nama jenis metode vektorisasi yang dikonfigurasi untuk digunakan dengan pencarian vektor.

name

string

Nama untuk dikaitkan dengan metode vektorisasi khusus ini.

BinaryQuantizationVectorSearchCompressionConfiguration

Berisi opsi konfigurasi khusus untuk metode kompresi kuantisasi biner yang digunakan selama pengindeksan dan kueri.

Nama Jenis Deskripsi
kind string:

binaryQuantization

Nama jenis metode kompresi yang dikonfigurasi untuk digunakan dengan pencarian vektor.

name

string

Nama yang akan dikaitkan dengan konfigurasi khusus ini.

rescoringOptions

RescoringOptions

Berisi opsi untuk memulihkan.

truncationDimension

integer (int32)

Jumlah dimensi untuk memotong vektor. Memotong vektor mengurangi ukuran vektor dan jumlah data yang perlu ditransfer selama pencarian. Ini dapat menghemat biaya penyimpanan dan meningkatkan kinerja pencarian dengan mengorbankan penarikan. Ini hanya boleh digunakan untuk penyematan yang dilatih dengan Matryoshka Representation Learning (MRL) seperti OpenAI text-embedding-3-large (kecil). Nilai defaultnya adalah null, yang berarti tidak ada pemotongan.

BM25Similarity

Fungsi peringkat berdasarkan algoritma kesamaan Okapi BM25. BM25 adalah algoritma mirip TF-IDF yang mencakup normalisasi panjang (dikendalikan oleh parameter 'b') serta saturasi frekuensi istilah (dikendalikan oleh parameter 'k1').

Nama Jenis Deskripsi
@odata.type string:

#Microsoft.Azure.Search.BM25Similarity

b

number (double)

Properti ini mengontrol bagaimana panjang dokumen memengaruhi skor relevansi. Secara default, nilai 0,75 digunakan. Nilai 0,0 berarti tidak ada normalisasi panjang yang diterapkan, sedangkan nilai 1,0 berarti skor sepenuhnya dinormalisasi oleh panjang dokumen.

k1

number (double)

Properti ini mengontrol fungsi penskalaan antara frekuensi istilah setiap istilah yang cocok dan skor relevansi akhir dari pasangan kueri dokumen. Secara default, nilai 1.2 digunakan. Nilai 0,0 berarti skor tidak diskalakan dengan peningkatan frekuensi istilah.

CharFilterName

Menentukan nama semua filter karakter yang didukung oleh mesin pencari.

Nilai Deskripsi
html_strip

Filter karakter yang mencoba menghapus konstruksi HTML. Lihat https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html

CjkBigramTokenFilter

Membentuk bigram istilah CJK yang dihasilkan dari tokenizer standar. Filter token ini diimplementasikan menggunakan Apache Lucene.

Nama Jenis Nilai default Deskripsi
@odata.type string:

#Microsoft.Azure.Search.CjkBigramTokenFilter

Fragmen URI yang menentukan jenis filter token.

ignoreScripts

CjkBigramTokenFilterScripts[]

Skrip yang harus diabaikan.

name

string

Nama filter token. Itu hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter.

outputUnigrams

boolean

False

Nilai yang menunjukkan apakah akan menampilkan unigram dan bigram (jika benar), atau hanya bigram (jika salah). Secara default adalah false.

CjkBigramTokenFilterScripts

Skrip yang dapat diabaikan oleh CjkBigramTokenFilter.

Nilai Deskripsi
han

Abaikan aksara Han saat membentuk bigram istilah CJK.

hiragana

Abaikan aksara Hiragana saat membentuk bigram istilah CJK.

katakana

Abaikan aksara Katakana saat membentuk bigram istilah CJK.

hangul

Abaikan aksara Hangul saat membentuk bigram istilah CJK.

ClassicSimilarity

Algoritma kesamaan warisan yang menggunakan implementasi Lucene TFIDFSimilarity dari TF-IDF. Variasi TF-IDF ini memperkenalkan normalisasi panjang dokumen statis serta faktor koordinasi yang menghukum dokumen yang hanya sebagian cocok dengan kueri yang dicari.

Nama Jenis Deskripsi
@odata.type string:

#Microsoft.Azure.Search.ClassicSimilarity

ClassicTokenizer

Tokenizer berbasis tata bahasa yang cocok untuk memproses sebagian besar dokumen berbahasa Eropa. Tokenizer ini diimplementasikan menggunakan Apache Lucene.

Nama Jenis Nilai default Deskripsi
@odata.type string:

#Microsoft.Azure.Search.ClassicTokenizer

Fragmen URI yang menentukan jenis tokenizer.

maxTokenLength

integer (int32)

maximum: 300
255

Panjang token maksimum. Defaultnya adalah 255. Token yang lebih panjang dari panjang maksimum dibagi. Panjang token maksimum yang dapat digunakan adalah 300 karakter.

name

string

Nama tokenizer. Itu hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter.

CommonGramTokenFilter

Buat bigram untuk istilah yang sering terjadi saat mengindeks. Istilah tunggal juga masih diindeks, dengan bigram dilapisi. Filter token ini diimplementasikan menggunakan Apache Lucene.

Nama Jenis Nilai default Deskripsi
@odata.type string:

#Microsoft.Azure.Search.CommonGramTokenFilter

Fragmen URI yang menentukan jenis filter token.

commonWords

string[]

Kumpulan kata-kata umum.

ignoreCase

boolean

False

Nilai yang menunjukkan apakah pencocokan kata umum tidak akan peka huruf besar/kecil. Secara default adalah false.

name

string

Nama filter token. Itu hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter.

queryMode

boolean

False

Nilai yang menunjukkan apakah filter token dalam mode kueri. Saat dalam mode kueri, filter token menghasilkan bigram dan kemudian menghapus kata umum dan istilah tunggal diikuti dengan kata umum. Secara default adalah false.

CorsOptions

Menentukan opsi untuk mengontrol Berbagi Sumber Daya Lintas Asal (CORS) untuk indeks.

Nama Jenis Deskripsi
allowedOrigins

string[]

Daftar asal dari mana kode JavaScript akan diberikan akses ke indeks Anda. Dapat berisi daftar host dari bentuk {protocol}://{fully-qualified-domain-name}[:{port#}], atau satu '*' untuk mengizinkan semua asal (tidak disarankan).

maxAgeInSeconds

integer (int64)

Durasi browser harus menyimpan respons prapenerbangan CORS dalam cache. Default ke 5 menit.

CustomAnalyzer

Memungkinkan Anda untuk mengambil kendali atas proses konversi teks menjadi token yang dapat diindeks/dicari. Ini adalah konfigurasi yang ditentukan pengguna yang terdiri dari satu tokenizer yang telah ditentukan sebelumnya dan satu atau beberapa filter. Tokenizer bertanggung jawab untuk memecah teks menjadi token, dan filter untuk memodifikasi token yang dipancarkan oleh tokenizer.

Nama Jenis Deskripsi
@odata.type string:

#Microsoft.Azure.Search.CustomAnalyzer

Fragmen URI yang menentukan jenis penganalisis.

charFilters

CharFilterName[]

Daftar filter karakter yang digunakan untuk menyiapkan teks input sebelum diproses oleh tokenizer. Misalnya, mereka dapat menggantikan karakter atau simbol tertentu. Filter dijalankan dalam urutan di mana mereka tercantum.

name

string

Nama penganalisis. Itu hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter.

tokenFilters

TokenFilterName[]

Daftar filter token yang digunakan untuk memfilter atau memodifikasi token yang dihasilkan oleh tokenizer. Misalnya, Anda dapat menentukan filter huruf kecil yang mengubah semua karakter menjadi huruf kecil. Filter dijalankan dalam urutan di mana mereka tercantum.

tokenizer

LexicalTokenizerName

Nama tokenizer yang akan digunakan untuk membagi teks kontinu menjadi urutan token, seperti memecah kalimat menjadi kata-kata.

CustomNormalizer

Memungkinkan Anda mengonfigurasi normalisasi untuk bidang yang dapat difilter, dapat diurutkan, dan dapat dimuka, yang secara default beroperasi dengan pencocokan yang ketat. Ini adalah konfigurasi yang ditentukan pengguna yang terdiri dari setidaknya satu atau lebih filter, yang memodifikasi token yang disimpan.

Nama Jenis Deskripsi
@odata.type string:

#Microsoft.Azure.Search.CustomNormalizer

Fragmen URI yang menentukan jenis normalisasi.

charFilters

CharFilterName[]

Daftar filter karakter yang digunakan untuk menyiapkan teks input sebelum diproses. Misalnya, mereka dapat menggantikan karakter atau simbol tertentu. Filter dijalankan dalam urutan di mana mereka tercantum.

name

string

Nama normalisasi. Itu hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter. Itu tidak dapat diakhiri dengan '.microsoft' atau '.lucene', atau diberi nama 'asciifolding', 'standard', 'huruf kecil', 'huruf besar', atau 'elision'.

tokenFilters

TokenFilterName[]

Daftar filter token yang digunakan untuk memfilter atau memodifikasi token input. Misalnya, Anda dapat menentukan filter huruf kecil yang mengubah semua karakter menjadi huruf kecil. Filter dijalankan dalam urutan di mana mereka tercantum.

DictionaryDecompounderTokenFilter

Menguraikan kata-kata majemuk yang ditemukan dalam banyak bahasa Jermanik. Filter token ini diimplementasikan menggunakan Apache Lucene.

Nama Jenis Nilai default Deskripsi
@odata.type string:

#Microsoft.Azure.Search.DictionaryDecompounderTokenFilter

Fragmen URI yang menentukan jenis filter token.

maxSubwordSize

integer (int32)

maximum: 300
15

Ukuran subkata maksimum. Hanya subkata yang lebih pendek dari ini yang dikeluarkan. Defaultnya adalah 15. Maksimum adalah 300.

minSubwordSize

integer (int32)

maximum: 300
2

Ukuran subkata minimum. Hanya subkata yang lebih panjang dari ini yang dikeluarkan. Defaultnya adalah 2. Maksimum adalah 300.

minWordSize

integer (int32)

maximum: 300
5

Ukuran kata minimum. Hanya kata-kata yang lebih panjang dari ini yang diproses. Pengaturan awal adalah 5. Maksimum adalah 300.

name

string

Nama filter token. Itu hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter.

onlyLongestMatch

boolean

False

Nilai yang menunjukkan apakah hanya akan menambahkan subkata pencocokan terpanjang ke output. Secara default adalah false.

wordList

string[]

Daftar kata-kata yang harus dicocokkan.

DistanceScoringFunction

Menentukan fungsi yang meningkatkan skor berdasarkan jarak dari lokasi geografis.

Nama Jenis Deskripsi
boost

number (double)

Pengganda untuk skor mentah. Harus berupa angka positif tidak sama dengan 1.0.

distance

DistanceScoringParameters

Nilai parameter untuk fungsi penilaian jarak.

fieldName

string

Nama bidang yang digunakan sebagai input ke fungsi penilaian.

interpolation

ScoringFunctionInterpolation

Nilai yang menunjukkan bagaimana peningkatan akan diinterpolasi di seluruh skor dokumen; default ke "Linear".

type string:

distance

Menunjukkan jenis fungsi yang akan digunakan. Nilai yang valid termasuk besaran, kesegaran, jarak, dan tag. Jenis fungsi harus huruf kecil.

DistanceScoringParameters

Memberikan nilai parameter ke fungsi penilaian jarak.

Nama Jenis Deskripsi
boostingDistance

number (double)

Jarak dalam kilometer dari lokasi referensi tempat jangkauan boosting berakhir.

referencePointParameter

string

Nama parameter yang diteruskan dalam kueri pencarian untuk menentukan lokasi referensi.

EdgeNGramTokenFilter

Menghasilkan n-gram dari ukuran yang diberikan mulai dari depan atau belakang token input. Filter token ini diimplementasikan menggunakan Apache Lucene.

Nama Jenis Nilai default Deskripsi
@odata.type string:

#Microsoft.Azure.Search.EdgeNGramTokenFilter

Fragmen URI yang menentukan jenis filter token.

maxGram

integer (int32)

2

Panjang n-gram maksimum. Defaultnya adalah 2.

minGram

integer (int32)

1

Panjang minimum n-gram. Pengaturan awal adalah 1. Harus kurang dari nilai maxGram.

name

string

Nama filter token. Itu hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter.

side

EdgeNGramTokenFilterSide

front

Menentukan sisi input mana yang harus dihasilkan dari n-gram. Defaultnya adalah "depan".

EdgeNGramTokenFilterSide

Menentukan sisi input mana yang harus dihasilkan dari n-gram.

Nilai Deskripsi
front

Menentukan bahwa n-gram harus dihasilkan dari bagian depan input.

back

Menentukan bahwa n-gram harus dihasilkan dari bagian belakang input.

EdgeNGramTokenFilterV2

Menghasilkan n-gram dari ukuran yang diberikan mulai dari depan atau belakang token input. Filter token ini diimplementasikan menggunakan Apache Lucene.

Nama Jenis Nilai default Deskripsi
@odata.type string:

#Microsoft.Azure.Search.EdgeNGramTokenFilterV2

Fragmen URI yang menentukan jenis filter token.

maxGram

integer (int32)

maximum: 300
2

Panjang n-gram maksimum. Defaultnya adalah 2. Maksimum adalah 300.

minGram

integer (int32)

maximum: 300
1

Panjang minimum n-gram. Pengaturan awal adalah 1. Maksimum adalah 300. Harus kurang dari nilai maxGram.

name

string

Nama filter token. Itu hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter.

side

EdgeNGramTokenFilterSide

front

Menentukan sisi input mana yang harus dihasilkan dari n-gram. Defaultnya adalah "depan".

EdgeNGramTokenizer

Tokenisasi input dari tepi ke n-gram dari ukuran yang diberikan. Tokenizer ini diimplementasikan menggunakan Apache Lucene.

Nama Jenis Nilai default Deskripsi
@odata.type string:

#Microsoft.Azure.Search.EdgeNGramTokenizer

Fragmen URI yang menentukan jenis tokenizer.

maxGram

integer (int32)

maximum: 300
2

Panjang n-gram maksimum. Defaultnya adalah 2. Maksimum adalah 300.

minGram

integer (int32)

maximum: 300
1

Panjang minimum n-gram. Pengaturan awal adalah 1. Maksimum adalah 300. Harus kurang dari nilai maxGram.

name

string

Nama tokenizer. Itu hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter.

tokenChars

TokenCharacterKind[]

Kelas karakter untuk disimpan dalam token.

ElisionTokenFilter

Menghilangkan elisi. Misalnya, "l'avion" (pesawat) akan diubah menjadi "avion" (pesawat). Filter token ini diimplementasikan menggunakan Apache Lucene.

Nama Jenis Deskripsi
@odata.type string:

#Microsoft.Azure.Search.ElisionTokenFilter

Fragmen URI yang menentukan jenis filter token.

articles

string[]

Kumpulan artikel yang akan dihapus.

name

string

Nama filter token. Itu hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter.

ErrorAdditionalInfo

Info tambahan kesalahan manajemen sumber daya.

Nama Jenis Deskripsi
info

object

Info tambahan.

type

string

Jenis info tambahan.

ErrorDetail

Detail kesalahan.

Nama Jenis Deskripsi
additionalInfo

ErrorAdditionalInfo[]

Info tambahan kesalahan.

code

string

Kode kesalahan.

details

ErrorDetail[]

Detail kesalahan.

message

string

Pesan kesalahan.

target

string

Target kesalahan.

ErrorResponse

Tanggapan kesalahan

Nama Jenis Deskripsi
error

ErrorDetail

Objek kesalahan.

ExhaustiveKnnParameters

Berisi parameter khusus untuk algoritma KNN yang lengkap.

Nama Jenis Deskripsi
metric

VectorSearchAlgorithmMetric

Metrik kesamaan yang digunakan untuk perbandingan vektor.

ExhaustiveKnnVectorSearchAlgorithmConfiguration

Berisi opsi konfigurasi khusus untuk algoritma KNN lengkap yang digunakan selama kueri, yang akan melakukan pencarian brute-force di seluruh indeks vektor.

Nama Jenis Deskripsi
exhaustiveKnnParameters

ExhaustiveKnnParameters

Berisi parameter khusus untuk algoritma KNN yang lengkap.

kind string:

exhaustiveKnn

Nama jenis algoritma yang dikonfigurasi untuk digunakan dengan pencarian vektor.

name

string

Nama yang akan dikaitkan dengan konfigurasi khusus ini.

FreshnessScoringFunction

Menentukan fungsi yang meningkatkan skor berdasarkan nilai bidang tanggal-waktu.

Nama Jenis Deskripsi
boost

number (double)

Pengganda untuk skor mentah. Harus berupa angka positif tidak sama dengan 1.0.

fieldName

string

Nama bidang yang digunakan sebagai input ke fungsi penilaian.

freshness

FreshnessScoringParameters

Nilai parameter untuk fungsi penilaian kesegaran.

interpolation

ScoringFunctionInterpolation

Nilai yang menunjukkan bagaimana peningkatan akan diinterpolasi di seluruh skor dokumen; default ke "Linear".

type string:

freshness

Menunjukkan jenis fungsi yang akan digunakan. Nilai yang valid termasuk besaran, kesegaran, jarak, dan tag. Jenis fungsi harus huruf kecil.

FreshnessScoringParameters

Memberikan nilai parameter ke fungsi penilaian kesegaran.

Nama Jenis Deskripsi
boostingDuration

string (duration)

Periode kedaluwarsa setelah itu peningkatan akan berhenti untuk dokumen tertentu.

HnswParameters

Berisi parameter khusus untuk algoritma HNSW.

Nama Jenis Nilai default Deskripsi
efConstruction

integer (int32)

minimum: 100
maximum: 1000
400

Ukuran daftar dinamis yang berisi tetangga terdekat, yang digunakan selama waktu indeks. Meningkatkan parameter ini dapat meningkatkan kualitas indeks, dengan mengorbankan peningkatan waktu pengindeksan. Pada titik tertentu, meningkatkan parameter ini menyebabkan pengembalian yang berkurang.

efSearch

integer (int32)

minimum: 100
maximum: 1000
500

Ukuran daftar dinamis yang berisi tetangga terdekat, yang digunakan selama waktu pencarian. Meningkatkan parameter ini dapat meningkatkan hasil pencarian, dengan mengorbankan pencarian yang lebih lambat. Pada titik tertentu, meningkatkan parameter ini menyebabkan pengembalian yang berkurang.

m

integer (int32)

minimum: 4
maximum: 10
4

Jumlah tautan dua arah yang dibuat untuk setiap elemen baru selama konstruksi. Meningkatkan nilai parameter ini dapat meningkatkan penarikan dan mengurangi waktu pengambilan untuk himpunan data dengan dimensi intrinsik tinggi dengan mengorbankan peningkatan konsumsi memori dan waktu pengindeksan yang lebih lama.

metric

VectorSearchAlgorithmMetric

Metrik kesamaan yang digunakan untuk perbandingan vektor.

HnswVectorSearchAlgorithmConfiguration

Berisi opsi konfigurasi khusus untuk algoritma perkiraan tetangga terdekat HNSW yang digunakan selama pengindeksan dan kueri. Algoritma HNSW menawarkan trade-off yang dapat disetel antara kecepatan dan akurasi pencarian.

Nama Jenis Deskripsi
hnswParameters

HnswParameters

Berisi parameter khusus untuk algoritma HNSW.

kind string:

hnsw

Nama jenis algoritma yang dikonfigurasi untuk digunakan dengan pencarian vektor.

name

string

Nama yang akan dikaitkan dengan konfigurasi khusus ini.

InputFieldMappingEntry

Pemetaan bidang input untuk keterampilan.

Nama Jenis Deskripsi
inputs

InputFieldMappingEntry[]

Input rekursif yang digunakan saat membuat jenis yang kompleks.

name

string

Nama input.

source

string

Sumber input.

sourceContext

string

Konteks sumber yang digunakan untuk memilih input rekursif.

KeepTokenFilter

Filter token yang hanya menyimpan token dengan teks yang terkandung dalam daftar kata tertentu. Filter token ini diimplementasikan menggunakan Apache Lucene.

Nama Jenis Nilai default Deskripsi
@odata.type string:

#Microsoft.Azure.Search.KeepTokenFilter

Fragmen URI yang menentukan jenis filter token.

keepWords

string[]

Daftar kata-kata yang harus disimpan.

keepWordsCase

boolean

False

Nilai yang menunjukkan apakah akan mengecilkan semua kata dengan huruf kecil terlebih dahulu. Secara default adalah false.

name

string

Nama filter token. Itu hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter.

KeywordMarkerTokenFilter

Menandai istilah sebagai kata kunci. Filter token ini diimplementasikan menggunakan Apache Lucene.

Nama Jenis Nilai default Deskripsi
@odata.type string:

#Microsoft.Azure.Search.KeywordMarkerTokenFilter

Fragmen URI yang menentukan jenis filter token.

ignoreCase

boolean

False

Nilai yang menunjukkan apakah akan mengabaikan huruf besar/kecil. Jika benar, semua kata diubah menjadi huruf kecil terlebih dahulu. Secara default adalah false.

keywords

string[]

Daftar kata yang akan ditandai sebagai kata kunci.

name

string

Nama filter token. Itu hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter.

KeywordTokenizer

Memancarkan seluruh input sebagai satu token. Tokenizer ini diimplementasikan menggunakan Apache Lucene.

Nama Jenis Nilai default Deskripsi
@odata.type string:

#Microsoft.Azure.Search.KeywordTokenizer

Fragmen URI yang menentukan jenis tokenizer.

bufferSize

integer (int32)

256

Ukuran buffer baca dalam byte. Defaultnya adalah 256.

name

string

Nama tokenizer. Itu hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter.

KeywordTokenizerV2

Memancarkan seluruh input sebagai satu token. Tokenizer ini diimplementasikan menggunakan Apache Lucene.

Nama Jenis Nilai default Deskripsi
@odata.type string:

#Microsoft.Azure.Search.KeywordTokenizerV2

Fragmen URI yang menentukan jenis tokenizer.

maxTokenLength

integer (int32)

maximum: 300
256

Panjang token maksimum. Defaultnya adalah 256. Token yang lebih panjang dari panjang maksimum dibagi. Panjang token maksimum yang dapat digunakan adalah 300 karakter.

name

string

Nama tokenizer. Itu hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter.

LengthTokenFilter

Menghapus kata-kata yang terlalu panjang atau terlalu pendek. Filter token ini diimplementasikan menggunakan Apache Lucene.

Nama Jenis Nilai default Deskripsi
@odata.type string:

#Microsoft.Azure.Search.LengthTokenFilter

Fragmen URI yang menentukan jenis filter token.

max

integer (int32)

maximum: 300
300

Panjang maksimum dalam karakter. Default dan maksimum adalah 300.

min

integer (int32)

maximum: 300
0

Panjang minimum dalam karakter. Nilai bawaan adalah 0. Maksimum adalah 300. Harus kurang dari nilai maks.

name

string

Nama filter token. Itu hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter.

LexicalAnalyzerName

Menentukan nama semua penganalisis teks yang didukung oleh mesin pencari.

Nilai Deskripsi
ar.microsoft

Penganalisis Microsoft untuk bahasa Arab.

ar.lucene

Lucene analyzer untuk bahasa Arab.

hy.lucene

Penganalisis Lucene untuk Armenia.

bn.microsoft

Microsoft analyzer untuk Bangla.

eu.lucene

Penganalisis Lucene untuk Basque.

bg.microsoft

Penganalisis Microsoft untuk bahasa Bulgaria.

bg.lucene

Penganalisis Lucene untuk bahasa Bulgaria.

ca.microsoft

Penganalisis Microsoft untuk bahasa Catalan.

ca.lucene

Penganalisis Lucene untuk bahasa Catalan.

zh-Hans.microsoft

Penganalisis Microsoft untuk bahasa Cina (Sederhana).

zh-Hans.lucene

Penganalisis Lucene untuk Cina (Sederhana).

zh-Hant.microsoft

Penganalisis Microsoft untuk bahasa Cina (Tradisional).

zh-Hant.lucene

Lucene analyzer untuk Cina (Tradisional).

hr.microsoft

Penganalisis Microsoft untuk bahasa Kroasia.

cs.microsoft

Penganalisis Microsoft untuk Ceko.

cs.lucene

Penganalisis Lucene untuk Ceko.

da.microsoft

Penganalisis Microsoft untuk Denmark.

da.lucene

Penganalisis Lucene untuk Denmark.

nl.microsoft

Penganalisis Microsoft untuk bahasa Belanda.

nl.lucene

Lucene analyzer untuk bahasa Belanda.

en.microsoft

Penganalisis Microsoft untuk bahasa Inggris.

en.lucene

Penganalisis Lucene untuk bahasa Inggris.

et.microsoft

Penganalisis Microsoft untuk bahasa Estonia.

fi.microsoft

Penganalisis Microsoft untuk bahasa Finlandia.

fi.lucene

Penganalisis Lucene untuk bahasa Finlandia.

fr.microsoft

Penganalisis Microsoft untuk bahasa Prancis.

fr.lucene

Penganalisis Lucene untuk bahasa Prancis.

gl.lucene

Penganalisis Lucene untuk Galicia.

de.microsoft

Penganalisis Microsoft untuk bahasa Jerman.

de.lucene

Penganalisis Lucene untuk bahasa Jerman.

el.microsoft

Penganalisis Microsoft untuk bahasa Yunani.

el.lucene

Penganalisis Lucene untuk bahasa Yunani.

gu.microsoft

Penganalisis Microsoft untuk Gujarati.

he.microsoft

Penganalisis Microsoft untuk bahasa Ibrani.

hi.microsoft

Penganalisis Microsoft untuk bahasa Hindi.

hi.lucene

Penganalisis Lucene untuk bahasa Hindi.

hu.microsoft

Penganalisis Microsoft untuk bahasa Hongaria.

hu.lucene

Penganalisis Lucene untuk bahasa Hongaria.

is.microsoft

Penganalisis Microsoft untuk bahasa Islandia.

id.microsoft

Microsoft analyzer untuk bahasa Indonesia (Bahasa).

id.lucene

Lucene analyzer untuk bahasa Indonesia.

ga.lucene

Penganalisis Lucene untuk Irlandia.

it.microsoft

Penganalisis Microsoft untuk bahasa Italia.

it.lucene

Penganalisis Lucene untuk bahasa Italia.

ja.microsoft

Penganalisis Microsoft untuk bahasa Jepang.

ja.lucene

Penganalisis Lucene untuk bahasa Jepang.

kn.microsoft

Penganalisis Microsoft untuk Kannada.

ko.microsoft

Penganalisis Microsoft untuk bahasa Korea.

ko.lucene

Penganalisis Lucene untuk bahasa Korea.

lv.microsoft

Penganalisis Microsoft untuk bahasa Latvia.

lv.lucene

Penganalisis Lucene untuk bahasa Latvia.

lt.microsoft

Penganalisis Microsoft untuk bahasa Lituania.

ml.microsoft

Penganalisis Microsoft untuk Malayalam.

ms.microsoft

Penganalisis Microsoft untuk bahasa Melayu (Latin).

mr.microsoft

Penganalisis Microsoft untuk Marathi.

nb.microsoft

Penganalisis Microsoft untuk Norwegia (Bokmål).

no.lucene

Penganalisis Lucene untuk Norwegia.

fa.lucene

Penganalisis Lucene untuk Persia.

pl.microsoft

Penganalisis Microsoft untuk bahasa Polandia.

pl.lucene

Lucene analyzer untuk Polandia.

pt-BR.microsoft

Penganalisis Microsoft untuk Portugis (Brasil).

pt-BR.lucene

Penganalisis Lucene untuk Portugis (Brasil).

pt-PT.microsoft

Penganalisis Microsoft untuk Portugis (Portugal).

pt-PT.lucene

Penganalisis Lucene untuk Portugis (Portugal).

pa.microsoft

Penganalisis Microsoft untuk Punjabi.

ro.microsoft

Penganalisis Microsoft untuk bahasa Rumania.

ro.lucene

Penganalisis Lucene untuk Rumania.

ru.microsoft

Penganalisis Microsoft untuk bahasa Rusia.

ru.lucene

Penganalisis Lucene untuk Rusia.

sr-cyrillic.microsoft

Penganalisis Microsoft untuk bahasa Serbia (Cyrillic).

sr-latin.microsoft

Penganalisis Microsoft untuk bahasa Serbia (Latin).

sk.microsoft

Penganalisis Microsoft untuk bahasa Slovakia.

sl.microsoft

Penganalisis Microsoft untuk bahasa Slovenia.

es.microsoft

Penganalisis Microsoft untuk bahasa Spanyol.

es.lucene

Lucene analyzer untuk bahasa Spanyol.

sv.microsoft

Penganalisis Microsoft untuk bahasa Swedia.

sv.lucene

Penganalisis Lucene untuk bahasa Swedia.

ta.microsoft

Penganalisis Microsoft untuk bahasa Tamil.

te.microsoft

Penganalisis Microsoft untuk Telugu.

th.microsoft

Penganalisis Microsoft untuk bahasa Thailand.

th.lucene

Penganalisis Lucene untuk Thailand.

tr.microsoft

Penganalisis Microsoft untuk bahasa Turki.

tr.lucene

Penganalisis Lucene untuk Turki.

uk.microsoft

Penganalisis Microsoft untuk bahasa Ukraina.

ur.microsoft

Penganalisis Microsoft untuk bahasa Urdu.

vi.microsoft

Penganalisis Microsoft untuk bahasa Vietnam.

standard.lucene

Penganalisis Lucene standar.

standardasciifolding.lucene

Alat analisis Lucene Lipat ASCII Standar. Lihat https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers

keyword

Memperlakukan seluruh konten bidang sebagai satu token. Ini berguna untuk data seperti kode pos, id, dan beberapa nama produk. Lihat http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html

pattern

Secara fleksibel memisahkan teks menjadi istilah melalui pola ekspresi reguler. Lihat http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html

simple

Membagi teks pada non-huruf dan mengubahnya menjadi huruf kecil. Lihat http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html

stop

Membagi teks pada non-huruf; Menerapkan filter token huruf kecil dan kata henti. Lihat http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html

whitespace

Penganalisis yang menggunakan tokenizer spasi putih. Lihat http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html

LexicalNormalizerName

Menentukan nama semua normalisasi teks yang didukung oleh mesin pencari.

Nilai Deskripsi
asciifolding

Mengonversi karakter Unicode alfabet, numerik, dan simbolis yang tidak ada dalam 127 karakter ASCII pertama (blok Unicode "Latin Dasar") menjadi padanan ASCII, jika ada padanan tersebut. Lihat http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html

elision

Menghilangkan elisi. Misalnya, "l'avion" (pesawat) akan diubah menjadi "avion" (pesawat). Lihat http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html

lowercase

Menormalkan teks token menjadi huruf kecil. Lihat https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html

standard

Normalizer standar, yang terdiri dari huruf kecil dan asciifolding. Lihat http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html

uppercase

Menormalkan teks token ke huruf besar. Lihat https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html

LexicalTokenizerName

Menentukan nama semua tokenizer yang didukung oleh mesin pencari.

Nilai Deskripsi
classic

Tokenizer berbasis tata bahasa yang cocok untuk memproses sebagian besar dokumen berbahasa Eropa. Lihat http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html

edgeNGram

Tokenisasi input dari tepi ke n-gram dari ukuran yang diberikan. Lihat https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html

keyword_v2

Memancarkan seluruh input sebagai satu token. Lihat http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html

letter

Membagi teks dalam non-huruf. Lihat http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html

lowercase

Membagi teks pada non-huruf dan mengubahnya menjadi huruf kecil. Lihat http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html

microsoft_language_tokenizer

Membagi teks menggunakan aturan khusus bahasa.

microsoft_language_stemming_tokenizer

Membagi teks menggunakan aturan khusus bahasa dan mengurangi kata-kata ke bentuk dasarnya.

nGram

Tokenisasi input ke dalam n-gram dari ukuran yang diberikan. Lihat http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html

path_hierarchy_v2

Tokenizer untuk hierarki seperti jalur. Lihat http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html

pattern

Tokenizer yang menggunakan pencocokan pola ekspresi reguler untuk membuat token yang berbeda. Lihat http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html

standard_v2

Penganalisis Lucene standar; Terdiri dari tokenizer standar, filter huruf kecil, dan filter berhenti. Lihat http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html

uax_url_email

Mentokenisasi url dan email sebagai satu token. Lihat http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html

whitespace

Membagi teks di spasi kosong. Lihat http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html

LimitTokenFilter

Membatasi jumlah token saat mengindeks. Filter token ini diimplementasikan menggunakan Apache Lucene.

Nama Jenis Nilai default Deskripsi
@odata.type string:

#Microsoft.Azure.Search.LimitTokenFilter

Fragmen URI yang menentukan jenis filter token.

consumeAllTokens

boolean

False

Nilai yang menunjukkan apakah semua token dari input harus digunakan bahkan jika maxTokenCount tercapai. Secara default adalah false.

maxTokenCount

integer (int32)

1

Jumlah maksimum token yang akan diproduksi. Pengaturan awal adalah 1.

name

string

Nama filter token. Itu hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter.

LuceneStandardAnalyzer

Penganalisis Apache Lucene standar; Terdiri dari tokenizer standar, filter huruf kecil, dan filter berhenti.

Nama Jenis Nilai default Deskripsi
@odata.type string:

#Microsoft.Azure.Search.StandardAnalyzer

Fragmen URI yang menentukan jenis penganalisis.

maxTokenLength

integer (int32)

maximum: 300
255

Panjang token maksimum. Defaultnya adalah 255. Token yang lebih panjang dari panjang maksimum dibagi. Panjang token maksimum yang dapat digunakan adalah 300 karakter.

name

string

Nama penganalisis. Itu hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter.

stopwords

string[]

Daftar kata henti.

LuceneStandardTokenizer

Memutus teks mengikuti aturan Segmentasi Teks Unicode. Tokenizer ini diimplementasikan menggunakan Apache Lucene.

Nama Jenis Nilai default Deskripsi
@odata.type string:

#Microsoft.Azure.Search.StandardTokenizer

Fragmen URI yang menentukan jenis tokenizer.

maxTokenLength

integer (int32)

255

Panjang token maksimum. Defaultnya adalah 255. Token yang lebih panjang dari panjang maksimum dibagi.

name

string

Nama tokenizer. Itu hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter.

LuceneStandardTokenizerV2

Memutus teks mengikuti aturan Segmentasi Teks Unicode. Tokenizer ini diimplementasikan menggunakan Apache Lucene.

Nama Jenis Nilai default Deskripsi
@odata.type string:

#Microsoft.Azure.Search.StandardTokenizerV2

Fragmen URI yang menentukan jenis tokenizer.

maxTokenLength

integer (int32)

maximum: 300
255

Panjang token maksimum. Defaultnya adalah 255. Token yang lebih panjang dari panjang maksimum dibagi. Panjang token maksimum yang dapat digunakan adalah 300 karakter.

name

string

Nama tokenizer. Itu hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter.

MagnitudeScoringFunction

Menentukan fungsi yang meningkatkan skor berdasarkan besarnya bidang numerik.

Nama Jenis Deskripsi
boost

number (double)

Pengganda untuk skor mentah. Harus berupa angka positif tidak sama dengan 1.0.

fieldName

string

Nama bidang yang digunakan sebagai input ke fungsi penilaian.

interpolation

ScoringFunctionInterpolation

Nilai yang menunjukkan bagaimana peningkatan akan diinterpolasi di seluruh skor dokumen; default ke "Linear".

magnitude

MagnitudeScoringParameters

Nilai parameter untuk fungsi penilaian besar.

type string:

magnitude

Menunjukkan jenis fungsi yang akan digunakan. Nilai yang valid termasuk besaran, kesegaran, jarak, dan tag. Jenis fungsi harus huruf kecil.

MagnitudeScoringParameters

Memberikan nilai parameter ke fungsi penilaian besar.

Nama Jenis Deskripsi
boostingRangeEnd

number (double)

Nilai bidang di mana peningkatan berakhir.

boostingRangeStart

number (double)

Nilai bidang di mana peningkatan dimulai.

constantBoostBeyondRange

boolean

Nilai yang menunjukkan apakah akan menerapkan peningkatan konstan untuk nilai bidang di luar nilai akhir rentang; default adalah false.

MappingCharFilter

Filter karakter yang menerapkan pemetaan yang ditentukan dengan opsi pemetaan. Pencocokan itu serakah (pencocokan pola terpanjang pada titik tertentu menang). Penggantian diperbolehkan menjadi string kosong. Filter karakter ini diimplementasikan menggunakan Apache Lucene.

Nama Jenis Deskripsi
@odata.type string:

#Microsoft.Azure.Search.MappingCharFilter

Fragmen URI yang menentukan jenis filter char.

mappings

string[]

Daftar pemetaan dengan format berikut: "a=>b" (semua kemunculan karakter "a" akan diganti dengan karakter "b").

name

string

Nama filter char. Itu hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter.

MicrosoftLanguageStemmingTokenizer

Membagi teks menggunakan aturan khusus bahasa dan mengurangi kata-kata ke bentuk dasarnya.

Nama Jenis Nilai default Deskripsi
@odata.type string:

#Microsoft.Azure.Search.MicrosoftLanguageStemmingTokenizer

Fragmen URI yang menentukan jenis tokenizer.

isSearchTokenizer

boolean

False

Nilai yang menunjukkan bagaimana tokenizer digunakan. Atur ke true jika digunakan sebagai tokenizer pencarian, atur ke false jika digunakan sebagai tokenizer pengindeksan. Secara default adalah false.

language

MicrosoftStemmingTokenizerLanguage

Bahasa yang akan digunakan. Defaultnya adalah bahasa Inggris.

maxTokenLength

integer (int32)

maximum: 300
255

Panjang token maksimum. Token yang lebih panjang dari panjang maksimum dibagi. Panjang token maksimum yang dapat digunakan adalah 300 karakter. Token yang lebih panjang dari 300 karakter pertama-tama dibagi menjadi token dengan panjang 300 dan kemudian masing-masing token tersebut dibagi berdasarkan panjang token maksimum yang ditetapkan. Defaultnya adalah 255.

name

string

Nama tokenizer. Itu hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter.

MicrosoftLanguageTokenizer

Membagi teks menggunakan aturan khusus bahasa.

Nama Jenis Nilai default Deskripsi
@odata.type string:

#Microsoft.Azure.Search.MicrosoftLanguageTokenizer

Fragmen URI yang menentukan jenis tokenizer.

isSearchTokenizer

boolean

False

Nilai yang menunjukkan bagaimana tokenizer digunakan. Atur ke true jika digunakan sebagai tokenizer pencarian, atur ke false jika digunakan sebagai tokenizer pengindeksan. Secara default adalah false.

language

MicrosoftTokenizerLanguage

Bahasa yang akan digunakan. Defaultnya adalah bahasa Inggris.

maxTokenLength

integer (int32)

maximum: 300
255

Panjang token maksimum. Token yang lebih panjang dari panjang maksimum dibagi. Panjang token maksimum yang dapat digunakan adalah 300 karakter. Token yang lebih panjang dari 300 karakter pertama-tama dibagi menjadi token dengan panjang 300 dan kemudian masing-masing token tersebut dibagi berdasarkan panjang token maksimum yang ditetapkan. Defaultnya adalah 255.

name

string

Nama tokenizer. Itu hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter.

MicrosoftStemmingTokenizerLanguage

Mencantumkan bahasa yang didukung oleh tokenizer stem bahasa Microsoft.

Nilai Deskripsi
arabic

Memilih tokenizer stem Microsoft untuk bahasa Arab.

bangla

Memilih tokenizer stem Microsoft untuk Bangla.

bulgarian

Memilih tokenizer stem Microsoft untuk bahasa Bulgaria.

catalan

Memilih tokenizer stem Microsoft untuk Catalan.

croatian

Memilih tokenizer stem Microsoft untuk bahasa Kroasia.

czech

Memilih tokenizer stem Microsoft untuk bahasa Ceko.

danish

Memilih tokenizer stem Microsoft untuk bahasa Denmark.

dutch

Memilih tokenizer stem Microsoft untuk bahasa Belanda.

english

Memilih tokenizer stem Microsoft untuk bahasa Inggris.

estonian

Memilih tokenizer stem Microsoft untuk bahasa Estonia.

finnish

Memilih tokenizer stem Microsoft untuk bahasa Finlandia.

french

Memilih tokenizer stem Microsoft untuk bahasa Prancis.

german

Memilih tokenizer stem Microsoft untuk bahasa Jerman.

greek

Memilih tokenizer stem Microsoft untuk bahasa Yunani.

gujarati

Memilih tokenizer stem Microsoft untuk Gujarati.

hebrew

Memilih tokenizer stem Microsoft untuk bahasa Ibrani.

hindi

Memilih tokenizer stem Microsoft untuk bahasa Hindi.

hungarian

Memilih tokenizer stem Microsoft untuk bahasa Hongaria.

icelandic

Memilih tokenizer stem Microsoft untuk bahasa Islandia.

indonesian

Memilih tokenizer stem Microsoft untuk bahasa Indonesia.

italian

Memilih tokenizer stem Microsoft untuk bahasa Italia.

kannada

Memilih tokenizer stem Microsoft untuk Kannada.

latvian

Memilih tokenizer stem Microsoft untuk bahasa Latvia.

lithuanian

Memilih tokenizer stem Microsoft untuk bahasa Lituania.

malay

Memilih tokenizer stem Microsoft untuk bahasa Melayu.

malayalam

Memilih tokenizer stem Microsoft untuk Malayalam.

marathi

Memilih tokenizer stem Microsoft untuk Marathi.

norwegianBokmaal

Memilih tokenizer stem Microsoft untuk bahasa Norwegia (Bokmål).

polish

Memilih tokenizer stem Microsoft untuk bahasa Polandia.

portuguese

Memilih tokenizer stem Microsoft untuk bahasa Portugis.

portugueseBrazilian

Memilih tokenizer stem Microsoft untuk bahasa Portugis (Brasil).

punjabi

Memilih tokenizer stem Microsoft untuk Punjabi.

romanian

Memilih tokenizer stem Microsoft untuk bahasa Rumania.

russian

Memilih tokenizer stem Microsoft untuk bahasa Rusia.

serbianCyrillic

Memilih tokenizer stem Microsoft untuk bahasa Serbia (Cyrillic).

serbianLatin

Memilih tokenizer stem Microsoft untuk bahasa Serbia (Latin).

slovak

Memilih tokenizer stem Microsoft untuk bahasa Slovakia.

slovenian

Memilih tokenizer stem Microsoft untuk bahasa Slovenia.

spanish

Memilih tokenizer stem Microsoft untuk bahasa Spanyol.

swedish

Memilih tokenizer stem Microsoft untuk bahasa Swedia.

tamil

Memilih tokenizer stem Microsoft untuk bahasa Tamil.

telugu

Memilih tokenizer stem Microsoft untuk Telugu.

turkish

Memilih tokenizer stem Microsoft untuk bahasa Turki.

ukrainian

Memilih tokenizer stem Microsoft untuk bahasa Ukraina.

urdu

Memilih tokenizer stem Microsoft untuk bahasa Urdu.

MicrosoftTokenizerLanguage

Mencantumkan bahasa yang didukung oleh tokenizer bahasa Microsoft.

Nilai Deskripsi
bangla

Memilih tokenizer Microsoft untuk Bangla.

bulgarian

Memilih tokenizer Microsoft untuk bahasa Bulgaria.

catalan

Memilih tokenizer Microsoft untuk Catalan.

chineseSimplified

Memilih tokenizer Microsoft untuk bahasa Mandarin (Sederhana).

chineseTraditional

Memilih tokenizer Microsoft untuk bahasa Cina (Tradisional).

croatian

Memilih tokenizer Microsoft untuk bahasa Kroasia.

czech

Memilih tokenizer Microsoft untuk bahasa Ceko.

danish

Memilih tokenizer Microsoft untuk bahasa Denmark.

dutch

Memilih tokenizer Microsoft untuk bahasa Belanda.

english

Memilih tokenizer Microsoft untuk bahasa Inggris.

french

Memilih tokenizer Microsoft untuk bahasa Prancis.

german

Memilih tokenizer Microsoft untuk bahasa Jerman.

greek

Memilih tokenizer Microsoft untuk bahasa Yunani.

gujarati

Memilih tokenizer Microsoft untuk Gujarati.

hindi

Memilih tokenizer Microsoft untuk bahasa Hindi.

icelandic

Memilih tokenizer Microsoft untuk bahasa Islandia.

indonesian

Memilih tokenizer Microsoft untuk bahasa Indonesia.

italian

Memilih tokenizer Microsoft untuk bahasa Italia.

japanese

Memilih tokenizer Microsoft untuk bahasa Jepang.

kannada

Memilih tokenizer Microsoft untuk Kannada.

korean

Memilih tokenizer Microsoft untuk bahasa Korea.

malay

Memilih tokenizer Microsoft untuk bahasa Melayu.

malayalam

Memilih tokenizer Microsoft untuk Malayalam.

marathi

Memilih tokenizer Microsoft untuk Marathi.

norwegianBokmaal

Memilih tokenizer Microsoft untuk bahasa Norwegia (Bokmål).

polish

Memilih tokenizer Microsoft untuk bahasa Polandia.

portuguese

Memilih tokenizer Microsoft untuk bahasa Portugis.

portugueseBrazilian

Memilih tokenizer Microsoft untuk bahasa Portugis (Brasil).

punjabi

Memilih tokenizer Microsoft untuk Punjabi.

romanian

Memilih tokenizer Microsoft untuk bahasa Rumania.

russian

Memilih tokenizer Microsoft untuk bahasa Rusia.

serbianCyrillic

Memilih tokenizer Microsoft untuk bahasa Serbia (Cyrillic).

serbianLatin

Memilih tokenizer Microsoft untuk bahasa Serbia (Latin).

slovenian

Memilih tokenizer Microsoft untuk bahasa Slovenia.

spanish

Memilih tokenizer Microsoft untuk bahasa Spanyol.

swedish

Memilih tokenizer Microsoft untuk bahasa Swedia.

tamil

Memilih tokenizer Microsoft untuk bahasa Tamil.

telugu

Memilih tokenizer Microsoft untuk Telugu.

thai

Memilih tokenizer Microsoft untuk bahasa Thailand.

ukrainian

Memilih tokenizer Microsoft untuk bahasa Ukraina.

urdu

Memilih tokenizer Microsoft untuk bahasa Urdu.

vietnamese

Memilih tokenizer Microsoft untuk bahasa Vietnam.

NGramTokenFilter

Menghasilkan n-gram dari ukuran yang diberikan. Filter token ini diimplementasikan menggunakan Apache Lucene.

Nama Jenis Nilai default Deskripsi
@odata.type string:

#Microsoft.Azure.Search.NGramTokenFilter

Fragmen URI yang menentukan jenis filter token.

maxGram

integer (int32)

2

Panjang n-gram maksimum. Defaultnya adalah 2.

minGram

integer (int32)

1

Panjang minimum n-gram. Pengaturan awal adalah 1. Harus kurang dari nilai maxGram.

name

string

Nama filter token. Itu hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter.

NGramTokenFilterV2

Menghasilkan n-gram dari ukuran yang diberikan. Filter token ini diimplementasikan menggunakan Apache Lucene.

Nama Jenis Nilai default Deskripsi
@odata.type string:

#Microsoft.Azure.Search.NGramTokenFilterV2

Fragmen URI yang menentukan jenis filter token.

maxGram

integer (int32)

maximum: 300
2

Panjang n-gram maksimum. Defaultnya adalah 2. Maksimum adalah 300.

minGram

integer (int32)

maximum: 300
1

Panjang minimum n-gram. Pengaturan awal adalah 1. Maksimum adalah 300. Harus kurang dari nilai maxGram.

name

string

Nama filter token. Itu hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter.

NGramTokenizer

Tokenisasi input ke dalam n-gram dari ukuran yang diberikan. Tokenizer ini diimplementasikan menggunakan Apache Lucene.

Nama Jenis Nilai default Deskripsi
@odata.type string:

#Microsoft.Azure.Search.NGramTokenizer

Fragmen URI yang menentukan jenis tokenizer.

maxGram

integer (int32)

maximum: 300
2

Panjang n-gram maksimum. Defaultnya adalah 2. Maksimum adalah 300.

minGram

integer (int32)

maximum: 300
1

Panjang minimum n-gram. Pengaturan awal adalah 1. Maksimum adalah 300. Harus kurang dari nilai maxGram.

name

string

Nama tokenizer. Itu hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter.

tokenChars

TokenCharacterKind[]

Kelas karakter untuk disimpan dalam token.

OutputFieldMappingEntry

Pemetaan bidang keluaran untuk keterampilan.

Nama Jenis Deskripsi
name

string

Nama output yang ditentukan oleh keterampilan.

targetName

string

Nama target output. Ini opsional dan default untuk bernama.

PathHierarchyTokenizerV2

Tokenizer untuk hierarki seperti jalur. Tokenizer ini diimplementasikan menggunakan Apache Lucene.

Nama Jenis Nilai default Deskripsi
@odata.type string:

#Microsoft.Azure.Search.PathHierarchyTokenizerV2

Fragmen URI yang menentukan jenis tokenizer.

delimiter

string (char)

/

Karakter pembatas yang akan digunakan. Defaultnya adalah "/".

maxTokenLength

integer (int32)

maximum: 300
300

Panjang token maksimum. Default dan maksimum adalah 300.

name

string

Nama tokenizer. Itu hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter.

replacement

string (char)

/

Nilai yang, jika ditetapkan, menggantikan karakter pembatas. Defaultnya adalah "/".

reverse

boolean

False

Nilai yang menunjukkan apakah akan menghasilkan token dalam urutan terbalik. Secara default adalah false.

skip

integer (int32)

0

Jumlah token awal yang harus dilewati. Nilai bawaan adalah 0.

PatternAnalyzer

Secara fleksibel memisahkan teks menjadi istilah melalui pola ekspresi reguler. Penganalisis ini diimplementasikan menggunakan Apache Lucene.

Nama Jenis Nilai default Deskripsi
@odata.type string:

#Microsoft.Azure.Search.PatternAnalyzer

Fragmen URI yang menentukan jenis penganalisis.

flags

RegexFlags

Bendera ekspresi reguler.

lowercase

boolean

True

Nilai yang menunjukkan apakah istilah harus huruf kecil. Nilai default adalah benar.

name

string

Nama penganalisis. Itu hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter.

pattern

string

\W+

Pola ekspresi reguler untuk mencocokkan pemisah token. Default adalah ekspresi yang cocok dengan satu atau beberapa karakter non-kata.

stopwords

string[]

Daftar kata henti.

PatternCaptureTokenFilter

Menggunakan regex Java untuk memancarkan beberapa token - satu untuk setiap grup pengambilan dalam satu atau beberapa pola. Filter token ini diimplementasikan menggunakan Apache Lucene.

Nama Jenis Nilai default Deskripsi
@odata.type string:

#Microsoft.Azure.Search.PatternCaptureTokenFilter

Fragmen URI yang menentukan jenis filter token.

name

string

Nama filter token. Itu hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter.

patterns

string[]

Daftar pola yang akan dicocokkan dengan setiap token.

preserveOriginal

boolean

True

Nilai yang menunjukkan apakah akan mengembalikan token asli meskipun salah satu pola cocok. Nilai default adalah benar.

PatternReplaceCharFilter

Filter karakter yang menggantikan karakter dalam string input. Ini menggunakan ekspresi reguler untuk mengidentifikasi urutan karakter yang akan dipertahankan dan pola pengganti untuk mengidentifikasi karakter yang akan diganti. Misalnya, mengingat teks input "aa bb aa bb", pola "(aa)\s+(bb)", dan penggantian "$1#$2", hasilnya adalah "aa#bb aa#bb". Filter karakter ini diimplementasikan menggunakan Apache Lucene.

Nama Jenis Deskripsi
@odata.type string:

#Microsoft.Azure.Search.PatternReplaceCharFilter

Fragmen URI yang menentukan jenis filter char.

name

string

Nama filter char. Itu hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter.

pattern

string

Pola ekspresi reguler.

replacement

string

Teks pengganti.

PatternReplaceTokenFilter

Filter karakter yang menggantikan karakter dalam string input. Ini menggunakan ekspresi reguler untuk mengidentifikasi urutan karakter yang akan dipertahankan dan pola pengganti untuk mengidentifikasi karakter yang akan diganti. Misalnya, mengingat teks input "aa bb aa bb", pola "(aa)\s+(bb)", dan penggantian "$1#$2", hasilnya adalah "aa#bb aa#bb". Filter token ini diimplementasikan menggunakan Apache Lucene.

Nama Jenis Deskripsi
@odata.type string:

#Microsoft.Azure.Search.PatternReplaceTokenFilter

Fragmen URI yang menentukan jenis filter token.

name

string

Nama filter token. Itu hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter.

pattern

string

Pola ekspresi reguler.

replacement

string

Teks pengganti.

PatternTokenizer

Tokenizer yang menggunakan pencocokan pola ekspresi reguler untuk membuat token yang berbeda. Tokenizer ini diimplementasikan menggunakan Apache Lucene.

Nama Jenis Nilai default Deskripsi
@odata.type string:

#Microsoft.Azure.Search.PatternTokenizer

Fragmen URI yang menentukan jenis tokenizer.

flags

RegexFlags

Bendera ekspresi reguler.

group

integer (int32)

-1

Ordinal berbasis nol dari grup yang cocok dalam pola ekspresi reguler untuk diekstrak ke dalam token. Gunakan -1 jika Anda ingin menggunakan seluruh pola untuk membagi input menjadi token, terlepas dari grup yang cocok. Defaultnya adalah -1.

name

string

Nama tokenizer. Itu hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter.

pattern

string

\W+

Pola ekspresi reguler untuk mencocokkan pemisah token. Default adalah ekspresi yang cocok dengan satu atau beberapa karakter non-kata.

PhoneticEncoder

Mengidentifikasi jenis encoder fonetik yang akan digunakan dengan PhoneticTokenFilter.

Nilai Deskripsi
metaphone

Mengkodekan token ke dalam nilai Metaphone.

doubleMetaphone

Mengkodekan token menjadi nilai metafon ganda.

soundex

Mengkodekan token ke dalam nilai Soundex.

refinedSoundex

Mengkodekan token ke dalam nilai Soundex Refined.

caverphone1

Mengkodekan token ke dalam nilai Caverphone 1.0.

caverphone2

Mengkodekan token ke dalam nilai Caverphone 2.0.

cologne

Mengkodekan token menjadi nilai Fonetik Cologne.

nysiis

Mengkodekan token ke dalam nilai NYSIIS.

koelnerPhonetik

Mengkodekan token menggunakan algoritma Kölner Phonetik.

haasePhonetik

Mengkodekan token menggunakan penyempurnaan Haase dari algoritma Kölner Phonetik.

beiderMorse

Mengkodekan token menjadi nilai Beider-Morse.

PhoneticTokenFilter

Buat token untuk kecocokan fonetik. Filter token ini diimplementasikan menggunakan Apache Lucene.

Nama Jenis Nilai default Deskripsi
@odata.type string:

#Microsoft.Azure.Search.PhoneticTokenFilter

Fragmen URI yang menentukan jenis filter token.

encoder

PhoneticEncoder

metaphone

Encoder fonetik yang akan digunakan. Defaultnya adalah "metaphone".

name

string

Nama filter token. Itu hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter.

replace

boolean

True

Nilai yang menunjukkan apakah token yang dikodekan harus menggantikan token asli. Jika salah, token yang dikodekan ditambahkan sebagai sinonim. Nilai default adalah benar.

PrioritizedFields

Menjelaskan bidang judul, konten, dan kata kunci yang akan digunakan untuk peringkat semantik, teks, sorotan, dan jawaban.

Nama Jenis Deskripsi
prioritizedContentFields

SemanticField[]

Menentukan bidang konten yang akan digunakan untuk peringkat semantik, teks, sorotan, dan jawaban. Untuk hasil terbaik, bidang yang dipilih harus berisi teks dalam bentuk bahasa alami. Urutan bidang dalam array mewakili prioritasnya. Kolom dengan prioritas yang lebih rendah dapat terpotong jika kontennya panjang.

prioritizedKeywordsFields

SemanticField[]

Menentukan bidang kata kunci yang akan digunakan untuk peringkat semantik, teks, sorotan, dan jawaban. Untuk hasil terbaik, bidang yang dipilih harus berisi daftar kata kunci. Urutan bidang dalam array mewakili prioritasnya. Kolom dengan prioritas yang lebih rendah dapat terpotong jika kontennya panjang.

titleField

SemanticField

Menentukan bidang judul yang akan digunakan untuk peringkat semantik, teks, sorotan, dan jawaban. Jika Anda tidak memiliki kolom judul di indeks, kosongkan kolom ini.

RankingOrder

Mewakili skor untuk digunakan untuk urutan pengurutan dokumen.

Nilai Deskripsi
BoostedRerankerScore

Mengatur urutan pengurutan sebagai BoostedRerankerScore

RerankerScore

Mengatur urutan pengurutan sebagai ReRankerScore

RegexFlags

Menentukan bendera yang dapat digabungkan untuk mengontrol bagaimana ekspresi reguler digunakan dalam penganalisis pola dan tokenizer pola.

Nilai Deskripsi
CANON_EQ

Memungkinkan kesetaraan kanonik.

CASE_INSENSITIVE

Memungkinkan pencocokan yang tidak peka huruf besar/kecil.

COMMENTS

Mengizinkan spasi kosong dan komentar dalam pola.

DOTALL

Mengaktifkan mode titik.

LITERAL

Mengaktifkan penguraian pola secara harfiah.

MULTILINE

Mengaktifkan mode multibaris.

UNICODE_CASE

Memungkinkan pelipatan casing sadar Unicode.

UNIX_LINES

Mengaktifkan mode garis Unix.

RescoringOptions

Berisi opsi untuk memulihkan.

Nama Jenis Nilai default Deskripsi
defaultOversampling

number (double)

Faktor oversampling default. Oversampling mengambil serangkaian dokumen potensial yang lebih besar untuk mengimbangi kehilangan resolusi akibat kuantisasi. Ini meningkatkan serangkaian hasil yang akan dinilai ulang pada vektor presisi penuh. Nilai minimum adalah 1, artinya tidak ada oversampling (1x). Parameter ini hanya dapat diatur jika 'enableRescoring' benar. Nilai yang lebih tinggi meningkatkan penarikan dengan mengorbankan latensi.

enableRescoring

boolean

True

Jika diatur ke true, setelah pencarian awal pada vektor terkompresi, skor kesamaan dihitung ulang menggunakan vektor presisi penuh. Ini akan meningkatkan penarikan dengan mengorbankan latensi.

rescoreStorageMethod

VectorSearchCompressionRescoreStorageMethod

preserveOriginals

Mengontrol metode penyimpanan untuk vektor asli. Pengaturan ini tidak dapat diubah.

ScalarQuantizationParameters

Berisi parameter khusus untuk Kuantisasi Skalar.

Nama Jenis Deskripsi
quantizedDataType

VectorSearchCompressionTargetDataType

Jenis data terkuantisasi dari nilai vektor terkompresi.

ScalarQuantizationVectorSearchCompressionConfiguration

Berisi opsi konfigurasi khusus untuk metode kompresi kuantisasi skalar yang digunakan selama pengindeksan dan kueri.

Nama Jenis Deskripsi
kind string:

scalarQuantization

Nama jenis metode kompresi yang dikonfigurasi untuk digunakan dengan pencarian vektor.

name

string

Nama yang akan dikaitkan dengan konfigurasi khusus ini.

rescoringOptions

RescoringOptions

Berisi opsi untuk memulihkan.

scalarQuantizationParameters

ScalarQuantizationParameters

Berisi parameter khusus untuk Kuantisasi Skalar.

truncationDimension

integer (int32)

Jumlah dimensi untuk memotong vektor. Memotong vektor mengurangi ukuran vektor dan jumlah data yang perlu ditransfer selama pencarian. Ini dapat menghemat biaya penyimpanan dan meningkatkan kinerja pencarian dengan mengorbankan penarikan. Ini hanya boleh digunakan untuk penyematan yang dilatih dengan Matryoshka Representation Learning (MRL) seperti OpenAI text-embedding-3-large (kecil). Nilai defaultnya adalah null, yang berarti tidak ada pemotongan.

ScoringFunctionAggregation

Menentukan fungsi agregasi yang digunakan untuk menggabungkan hasil semua fungsi penilaian dalam profil penilaian.

Nilai Deskripsi
sum

Tingkatkan skor dengan jumlah semua hasil fungsi penilaian.

average

Tingkatkan skor dengan rata-rata semua hasil fungsi penilaian.

minimum

Tingkatkan skor minimal dari semua hasil fungsi penilaian.

maximum

Tingkatkan skor dengan maksimum dari semua hasil fungsi penilaian.

firstMatching

Tingkatkan skor menggunakan fungsi penilaian pertama yang berlaku di profil penilaian.

ScoringFunctionInterpolation

Menentukan fungsi yang digunakan untuk menginterpolasi peningkatan skor di berbagai dokumen.

Nilai Deskripsi
linear

Meningkatkan skor dengan jumlah yang menurun secara linier. Ini adalah interpolasi default untuk fungsi penilaian.

constant

Meningkatkan skor dengan faktor konstan.

quadratic

Meningkatkan skor dengan jumlah yang menurun secara kuadrat. Peningkatan berkurang perlahan untuk skor yang lebih tinggi, dan lebih cepat saat skor menurun. Opsi interpolasi ini tidak diizinkan dalam fungsi penilaian tag.

logarithmic

Meningkatkan skor dengan jumlah yang menurun secara logaritma. Peningkatan berkurang dengan cepat untuk skor yang lebih tinggi, dan lebih lambat saat skor menurun. Opsi interpolasi ini tidak diizinkan dalam fungsi penilaian tag.

ScoringProfile

Menentukan parameter untuk indeks pencarian yang memengaruhi penilaian dalam kueri pencarian.

Nama Jenis Deskripsi
functionAggregation

ScoringFunctionAggregation

Nilai yang menunjukkan bagaimana hasil fungsi penilaian individu harus digabungkan. Default ke "Jumlah". Diabaikan jika tidak ada fungsi penilaian.

functions ScoringFunction[]:

Pengumpulan fungsi yang mempengaruhi penilaian dokumen.

name

string

Nama profil penilaian.

text

TextWeights

Parameter yang meningkatkan penilaian berdasarkan kecocokan teks di bidang indeks tertentu.

SearchField

Mewakili bidang dalam definisi indeks, yang menjelaskan nama, jenis data, dan perilaku pencarian bidang.

Nama Jenis Deskripsi
analyzer

LexicalAnalyzerName

Nama penganalisis yang akan digunakan untuk bidang. Opsi ini hanya dapat digunakan dengan bidang yang dapat dicari dan tidak dapat diatur bersama dengan searchAnalyzer atau indexAnalyzer. Setelah penganalisis dipilih, itu tidak dapat diubah untuk bidang. Harus null untuk bidang kompleks.

dimensions

integer (int32)

minimum: 2
maximum: 4096

Dimensi bidang vektor.

facetable

boolean

Nilai yang menunjukkan apakah akan mengaktifkan bidang untuk direferensikan dalam kueri aspek. Biasanya digunakan dalam presentasi hasil pencarian yang mencakup hit hit berdasarkan kategori (misalnya, mencari kamera digital dan melihat hit berdasarkan merek, berdasarkan megapiksel, berdasarkan harga, dan sebagainya). Properti ini harus null untuk bidang kompleks. Bidang jenis Edm.GeographyPoint atau Collection(Edm.GeographyPoint) tidak dapat disesuaikan. Default berlaku untuk semua bidang sederhana lainnya.

fields

SearchField[]

Daftar sub-bidang jika ini adalah bidang jenis Edm.ComplexType atau Collection(Edm.ComplexType). Harus null atau kosong untuk bidang sederhana.

filterable

boolean

Nilai yang menunjukkan apakah akan mengaktifkan bidang untuk direferensikan dalam kueri $filter. Dapat difilter berbeda dari yang dapat dicari dalam cara string ditangani. Bidang jenis Edm.String atau Collection(Edm.String) yang dapat difilter tidak mengalami pemisahan kata, jadi perbandingan hanya untuk pencocokan persis. Misalnya, jika Anda mengatur bidang f seperti itu ke "hari cerah", $filter=f eq 'cerah' tidak akan menemukan kecocokan, tetapi $filter=f eq 'hari cerah' akan menemukan kecocokan. Properti ini harus null untuk bidang kompleks. Default adalah true untuk bidang sederhana dan null untuk bidang kompleks.

indexAnalyzer

LexicalAnalyzerName

Nama penganalisis yang digunakan pada waktu pengindeksan untuk bidang. Opsi ini hanya dapat digunakan dengan bidang yang dapat dicari. Itu harus diatur bersama dengan searchAnalyzer dan tidak dapat diatur bersama dengan opsi analyzer. Properti ini tidak dapat diatur ke nama penganalisis bahasa; Gunakan properti Analyzer sebagai gantinya jika Anda memerlukan penganalisis bahasa. Setelah penganalisis dipilih, itu tidak dapat diubah untuk bidang. Harus null untuk bidang kompleks.

key

boolean

Nilai yang menunjukkan apakah bidang secara unik mengidentifikasi dokumen dalam indeks. Tepat satu bidang tingkat atas di setiap indeks harus dipilih sebagai bidang kunci dan harus berjenis Edm.String. Bidang kunci dapat digunakan untuk mencari dokumen secara langsung dan memperbarui atau menghapus dokumen tertentu. Default adalah false untuk bidang sederhana dan null untuk bidang kompleks.

name

string

Nama bidang, yang harus unik dalam kumpulan bidang indeks atau bidang induk.

normalizer

LexicalNormalizerName

Nama normalizer yang akan digunakan untuk lapangan. Opsi ini hanya dapat digunakan dengan bidang dengan diaktifkan yang dapat difilter, dapat diurutkan, atau dapat disesuaikan. Setelah normalizer dipilih, itu tidak dapat diubah untuk bidang. Harus null untuk bidang kompleks.

retrievable

boolean

Nilai yang menunjukkan apakah bidang dapat ditampilkan dalam hasil pencarian. Anda dapat menonaktifkan opsi ini jika ingin menggunakan bidang (misalnya, margin) sebagai mekanisme filter, pengurutan, atau penilaian tetapi tidak ingin bidang tersebut terlihat oleh pengguna akhir. Properti ini harus benar untuk bidang kunci, dan harus null untuk bidang kompleks. Properti ini dapat diubah pada bidang yang ada. Mengaktifkan properti ini tidak menyebabkan peningkatan persyaratan penyimpanan indeks. Default adalah true untuk bidang sederhana, false untuk bidang vektor, dan null untuk bidang kompleks.

searchAnalyzer

LexicalAnalyzerName

Nama penganalisis yang digunakan pada waktu pencarian untuk bidang. Opsi ini hanya dapat digunakan dengan bidang yang dapat dicari. Ini harus diatur bersama dengan indexAnalyzer dan tidak dapat diatur bersama dengan opsi penganalisis. Properti ini tidak dapat diatur ke nama penganalisis bahasa; Gunakan properti Analyzer sebagai gantinya jika Anda memerlukan penganalisis bahasa. Penganalisis ini dapat diperbarui pada bidang yang ada. Harus null untuk bidang kompleks.

searchable

boolean

Nilai yang menunjukkan apakah bidang dapat ditelusuri teks lengkap. Ini berarti akan menjalani analisis seperti pemecahan kata selama pengindeksan. Jika Anda mengatur bidang yang dapat dicari ke nilai seperti "hari cerah", secara internal bidang tersebut akan dibagi menjadi masing-masing token "cerah" dan "hari". Ini memungkinkan pencarian teks lengkap untuk istilah-istilah ini. Bidang jenis Edm.String atau Collection(Edm.String) dapat dicari secara default. Properti ini harus false untuk bidang sederhana dari tipe data non-string lainnya, dan harus null untuk bidang kompleks. Catatan: bidang yang dapat dicari menggunakan ruang ekstra dalam indeks Anda untuk mengakomodasi versi token tambahan dari nilai kolom untuk penelusuran teks lengkap. Jika Anda ingin menghemat ruang di indeks dan tidak memerlukan bidang untuk disertakan dalam pencarian, atur dapat dicari ke false.

sortable

boolean

Nilai yang menunjukkan apakah akan mengaktifkan bidang untuk direferensikan dalam ekspresi $orderby. Secara default, mesin pencari mengurutkan hasil berdasarkan skor, tetapi dalam banyak pengalaman pengguna ingin mengurutkan berdasarkan bidang dalam dokumen. Bidang sederhana hanya dapat diurutkan jika bernilai tunggal (memiliki nilai tunggal dalam cakupan dokumen induk). Bidang koleksi sederhana tidak dapat diurutkan, karena bernilai banyak. Sub-bidang sederhana dari koleksi kompleks juga multi-nilai, dan oleh karena itu tidak dapat diurutkan. Ini benar apakah itu bidang induk langsung, atau bidang leluhur, itulah koleksi kompleks. Bidang kompleks tidak dapat diurutkan dan properti yang dapat diurutkan harus null untuk bidang tersebut. Default untuk dapat diurutkan adalah true untuk bidang sederhana bernilai tunggal, false untuk bidang sederhana multi-nilai, dan null untuk bidang kompleks.

stored

boolean

Nilai yang tidak dapat diubah yang menunjukkan apakah bidang akan dipertahankan secara terpisah pada disk untuk dikembalikan dalam hasil pencarian. Anda dapat menonaktifkan opsi ini jika Anda tidak berencana untuk mengembalikan konten bidang dalam respons pencarian untuk menghemat overhead penyimpanan. Ini hanya dapat diatur selama pembuatan indeks dan hanya untuk bidang vektor. Properti ini tidak dapat diubah untuk bidang yang ada atau diatur sebagai false untuk bidang baru. Jika properti ini diatur sebagai false, properti 'retrievable' juga harus diatur ke false. Properti ini harus benar atau tidak diatur untuk bidang kunci, untuk bidang baru, dan untuk bidang non-vektor, dan harus null untuk bidang kompleks. Menonaktifkan properti ini akan mengurangi persyaratan penyimpanan indeks. Defaultnya berlaku untuk bidang vektor.

synonymMaps

string[]

Daftar nama peta sinonim untuk dikaitkan dengan bidang ini. Opsi ini hanya dapat digunakan dengan bidang yang dapat dicari. Saat ini hanya satu peta sinonim per bidang yang didukung. Menetapkan peta sinonim ke bidang memastikan bahwa istilah kueri yang menargetkan bidang tersebut diperluas pada waktu kueri menggunakan aturan di peta sinonim. Atribut ini dapat diubah pada bidang yang ada. Harus null atau koleksi kosong untuk bidang kompleks.

type

SearchFieldDataType

Jenis data bidang.

vectorEncoding

VectorEncodingFormat

Format pengkodean untuk menafsirkan konten bidang.

vectorSearchProfile

string

Nama profil pencarian vektor yang menentukan algoritma dan vectorizer yang akan digunakan saat mencari bidang vektor.

SearchFieldDataType

Menentukan jenis data bidang dalam indeks pencarian.

Nilai Deskripsi
Edm.String

Menunjukkan bahwa bidang berisi string.

Edm.Int32

Menunjukkan bahwa bidang berisi bilangan bulat bertanda 32-bit.

Edm.Int64

Menunjukkan bahwa bidang berisi bilangan bulat bertanda 64-bit.

Edm.Double

Menunjukkan bahwa bidang berisi nomor floating point presisi ganda IEEE.

Edm.Boolean

Menunjukkan bahwa bidang berisi nilai Boolean (benar atau salah).

Edm.DateTimeOffset

Menunjukkan bahwa bidang berisi nilai tanggal/waktu, termasuk informasi zona waktu.

Edm.GeographyPoint

Menunjukkan bahwa bidang berisi geo-lokasi dalam hal bujur dan lintang.

Edm.ComplexType

Menunjukkan bahwa bidang berisi satu atau beberapa objek kompleks yang pada gilirannya memiliki sub-bidang dari jenis lain.

Edm.Single

Menunjukkan bahwa bidang berisi angka floating point presisi tunggal. Ini hanya berlaku jika digunakan dengan Collection(Edm.Single).

Edm.Half

Menunjukkan bahwa bidang berisi bilangan floating point setengah presisi. Ini hanya berlaku jika digunakan dengan Collection(Edm.Half).

Edm.Int16

Menunjukkan bahwa bidang berisi bilangan bulat bertanda 16-bit. Ini hanya berlaku jika digunakan dengan Collection(Edm.Int16).

Edm.SByte

Menunjukkan bahwa bidang berisi bilangan bulat bertanda 8-bit. Ini hanya berlaku jika digunakan dengan Collection(Edm.SByte).

Edm.Byte

Menunjukkan bahwa bidang berisi bilangan bulat 8-bit yang tidak ditandatangani. Ini hanya berlaku jika digunakan dengan Collection(Edm.Byte).

SearchIndex

Mewakili definisi indeks pencarian, yang menjelaskan bidang dan perilaku pencarian indeks.

Nama Jenis Deskripsi
@odata.etag

string

ETag indeks.

analyzers LexicalAnalyzer[]:

Penganalisis untuk indeks.

charFilters CharFilter[]:

Filter karakter untuk indeks.

corsOptions

CorsOptions

Opsi untuk mengontrol Berbagi Sumber Daya Lintas Asal (CORS) untuk indeks.

defaultScoringProfile

string

Nama profil penilaian yang akan digunakan jika tidak ada yang ditentukan dalam kueri. Jika properti ini tidak diatur dan tidak ada profil penilaian yang ditentukan dalam kueri, maka penilaian default (tf-idf) akan digunakan.

description

string

Deskripsi indeks.

encryptionKey

SearchResourceEncryptionKey

Deskripsi kunci enkripsi yang Anda buat di Azure Key Vault. Kunci ini digunakan untuk memberikan tingkat enkripsi tambahan untuk data Anda ketika Anda menginginkan jaminan penuh bahwa tidak ada seorang pun, bahkan Microsoft, yang dapat mendekripsi data Anda. Setelah Anda mengenkripsi data Anda, itu akan selalu terenkripsi. Layanan pencarian akan mengabaikan upaya untuk mengatur properti ini ke null. Anda dapat mengubah properti ini sesuai kebutuhan jika Anda ingin memutar kunci enkripsi Anda; Data Anda tidak akan terpengaruh. Enkripsi dengan kunci yang dikelola pelanggan tidak tersedia untuk layanan penelusuran gratis, dan hanya tersedia untuk layanan berbayar yang dibuat pada atau setelah 1 Januari 2019.

fields

SearchField[]

Bidang indeks.

name

string

Nama indeks.

normalizers LexicalNormalizer[]:

CustomNormalizer[]

Normalisasi untuk indeks.

scoringProfiles

ScoringProfile[]

Profil penilaian untuk indeks.

semantic

SemanticSettings

Menentukan parameter untuk indeks pencarian yang memengaruhi kemampuan semantik.

similarity Similarity:

Jenis algoritma kesamaan yang akan digunakan saat menilai dan memberi peringkat dokumen yang cocok dengan kueri pencarian. Algoritma kesamaan hanya dapat didefinisikan pada waktu pembuatan indeks dan tidak dapat dimodifikasi pada indeks yang ada. Jika null, algoritma ClassicSimilarity digunakan.

suggesters

Suggester[]

Saran untuk indeks.

tokenFilters TokenFilter[]:

Filter token untuk indeks.

tokenizers LexicalTokenizer[]:

Tokenizer untuk indeks.

vectorSearch

VectorSearch

Berisi opsi konfigurasi yang terkait dengan pencarian vektor.

SearchIndexerDataNoneIdentity

Menghapus properti identitas sumber data.

Nama Jenis Deskripsi
@odata.type string:

#Microsoft.Azure.Search.DataNoneIdentity

Fragmen URI yang menentukan jenis identitas.

SearchIndexerDataUserAssignedIdentity

Menentukan identitas untuk digunakan sumber data.

Nama Jenis Deskripsi
@odata.type string:

#Microsoft.Azure.Search.DataUserAssignedIdentity

Fragmen URI yang menentukan jenis identitas.

userAssignedIdentity

string

Id sumber daya Azure yang memenuhi syarat penuh dari identitas terkelola yang ditetapkan pengguna biasanya dalam bentuk "/subscriptions/12345678-1234-1234-1234567890ab/resourceGroups/rg/providers/Microsoft.ManagedIdentity/userAssignedIdentities/myId" yang seharusnya ditetapkan ke layanan pencarian.

SearchResourceEncryptionKey

Kunci enkripsi yang dikelola pelanggan di Azure Key Vault. Kunci yang Anda buat dan kelola dapat digunakan untuk mengenkripsi atau mendekripsi data-at-rest, seperti indeks dan peta sinonim.

Nama Jenis Deskripsi
accessCredentials

AzureActiveDirectoryApplicationCredentials

Kredensial Azure Active Directory opsional yang digunakan untuk mengakses Azure Key Vault Anda. Tidak diperlukan jika menggunakan identitas terkelola sebagai gantinya.

keyVaultKeyName

string

Nama kunci Azure Key Vault Anda yang akan digunakan untuk mengenkripsi data Anda saat tidak aktif.

keyVaultKeyVersion

string

Versi kunci Azure Key Vault Anda yang akan digunakan untuk mengenkripsi data Anda saat tidak aktif.

keyVaultUri

string

URI Azure Key Vault Anda, juga disebut sebagai nama DNS, yang berisi kunci yang akan digunakan untuk mengenkripsi data Anda saat tidak aktif. Contoh URI mungkin .https://my-keyvault-name.vault.azure.net

SemanticConfiguration

Mendefinisikan konfigurasi tertentu yang akan digunakan dalam konteks kemampuan semantik.

Nama Jenis Deskripsi
name

string

Nama konfigurasi semantik.

prioritizedFields

PrioritizedFields

Menjelaskan bidang judul, konten, dan kata kunci yang akan digunakan untuk peringkat semantik, teks, sorotan, dan jawaban. Setidaknya satu dari tiga sub properti (titleField, prioritizedKeywordsFields dan prioritasContentFields) perlu diatur.

rankingOrder

RankingOrder

Menentukan jenis skor yang akan digunakan untuk urutan pengurutan hasil pencarian.

SemanticField

Bidang yang digunakan sebagai bagian dari konfigurasi semantik.

Nama Jenis Deskripsi
fieldName

string

SemanticSettings

Menentukan parameter untuk indeks pencarian yang memengaruhi kemampuan semantik.

Nama Jenis Deskripsi
configurations

SemanticConfiguration[]

Konfigurasi semantik untuk indeks.

defaultConfiguration

string

Memungkinkan Anda mengatur nama konfigurasi semantik default dalam indeks Anda, menjadikannya opsional untuk meneruskannya sebagai parameter kueri setiap saat.

ShingleTokenFilter

Membuat kombinasi token sebagai satu token. Filter token ini diimplementasikan menggunakan Apache Lucene.

Nama Jenis Nilai default Deskripsi
@odata.type string:

#Microsoft.Azure.Search.ShingleTokenFilter

Fragmen URI yang menentukan jenis filter token.

filterToken

string

_

String yang akan disisipkan untuk setiap posisi di mana tidak ada token. Default adalah garis bawah ("_").

maxShingleSize

integer (int32)

minimum: 2
2

Ukuran sirap maksimum. Nilai default dan minimum adalah 2.

minShingleSize

integer (int32)

minimum: 2
2

Ukuran sirap minimum. Nilai default dan minimum adalah 2. Harus kurang dari nilai maxShingleSize.

name

string

Nama filter token. Itu hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter.

outputUnigrams

boolean

True

Nilai yang menunjukkan apakah aliran keluaran akan berisi token input (unigram) serta herpes zoster. Nilai default adalah benar.

outputUnigramsIfNoShingles

boolean

False

Nilai yang menunjukkan apakah akan mengeluarkan unigram untuk saat-saat ketika tidak ada sirap yang tersedia. Properti ini diutamakan ketika outputUnigrams diatur ke false. Secara default adalah false.

tokenSeparator

string

String yang akan digunakan saat menggabungkan token yang berdekatan untuk membentuk sirap. Default adalah spasi tunggal (" ").

SnowballTokenFilter

Filter yang membela kata-kata menggunakan stemmer yang dihasilkan Snowball. Filter token ini diimplementasikan menggunakan Apache Lucene.

Nama Jenis Deskripsi
@odata.type string:

#Microsoft.Azure.Search.SnowballTokenFilter

Fragmen URI yang menentukan jenis filter token.

language

SnowballTokenFilterLanguage

Bahasa yang akan digunakan.

name

string

Nama filter token. Itu hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter.

SnowballTokenFilterLanguage

Bahasa yang akan digunakan untuk filter token Snowball.

Nilai Deskripsi
armenian

Memilih tokenizer steming Lucene Snowball untuk bahasa Armenia.

basque

Memilih tokenizer stem Lucene Snowball untuk Basque.

catalan

Memilih tokenizer steming Lucene Snowball untuk Catalan.

danish

Memilih tokenizer stem Lucene Snowball untuk bahasa Denmark.

dutch

Memilih tokenizer steming Lucene Snowball untuk bahasa Belanda.

english

Memilih tokenizer stem Lucene Snowball untuk bahasa Inggris.

finnish

Memilih tokenizer steming Lucene Snowball untuk bahasa Finlandia.

french

Memilih tokenizer stem Lucene Snowball untuk bahasa Prancis.

german

Memilih tokenizer stem Lucene Snowball untuk bahasa Jerman.

german2

Memilih tokenizer steming Lucene Snowball yang menggunakan algoritma varian Jerman.

hungarian

Memilih tokenizer stem Lucene Snowball untuk bahasa Hongaria.

italian

Memilih tokenizer stem Lucene Snowball untuk bahasa Italia.

kp

Memilih tokenizer steming Lucene Snowball untuk bahasa Belanda yang menggunakan algoritma stem Kraaij-Pohlmann.

lovins

Memilih tokenizer stem Lucene Snowball untuk bahasa Inggris yang menggunakan algoritma stemming Lovins.

norwegian

Memilih tokenizer batang Lucene Snowball untuk bahasa Norwegia.

porter

Memilih tokenizer stem Lucene Snowball untuk bahasa Inggris yang menggunakan algoritma stem Porter.

portuguese

Memilih tokenizer steming Lucene Snowball untuk bahasa Portugis.

romanian

Memilih tokenizer steming Lucene Snowball untuk bahasa Rumania.

russian

Memilih tokenizer stem Lucene Snowball untuk bahasa Rusia.

spanish

Memilih tokenizer stem Lucene Snowball untuk bahasa Spanyol.

swedish

Memilih tokenizer steming Lucene Snowball untuk bahasa Swedia.

turkish

Memilih tokenizer stem Lucene Snowball untuk bahasa Turki.

StemmerOverrideTokenFilter

Menyediakan kemampuan untuk mengganti filter stem lainnya dengan stemming berbasis kamus kustom. Setiap istilah berbatang kamus akan ditandai sebagai kata kunci sehingga tidak akan dibendung dengan stemmer di bawah rantai. Harus ditempatkan sebelum filter steming. Filter token ini diimplementasikan menggunakan Apache Lucene.

Nama Jenis Deskripsi
@odata.type string:

#Microsoft.Azure.Search.StemmerOverrideTokenFilter

Fragmen URI yang menentukan jenis filter token.

name

string

Nama filter token. Itu hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter.

rules

string[]

Daftar aturan steming dalam format berikut: "word => stem", misalnya: "ran => run".

StemmerTokenFilter

Filter stem khusus bahasa. Filter token ini diimplementasikan menggunakan Apache Lucene.

Nama Jenis Deskripsi
@odata.type string:

#Microsoft.Azure.Search.StemmerTokenFilter

Fragmen URI yang menentukan jenis filter token.

language

StemmerTokenFilterLanguage

Bahasa yang akan digunakan.

name

string

Nama filter token. Itu hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter.

StemmerTokenFilterLanguage

Bahasa yang akan digunakan untuk filter token stemmer.

Nilai Deskripsi
arabic

Memilih tokenizer stem Lucene untuk bahasa Arab.

armenian

Memilih tokenizer steming Lucene untuk bahasa Armenia.

basque

Memilih tokenizer stem Lucene untuk Basque.

brazilian

Memilih tokenizer steming Lucene untuk Portugis (Brasil).

bulgarian

Memilih tokenizer steming Lucene untuk bahasa Bulgaria.

catalan

Memilih tokenizer stem Lucene untuk Catalan.

czech

Memilih tokenizer steming Lucene untuk bahasa Ceko.

danish

Memilih tokenizer steming Lucene untuk bahasa Denmark.

dutch

Memilih tokenizer stem Lucene untuk bahasa Belanda.

dutchKp

Memilih tokenizer steming Lucene untuk bahasa Belanda yang menggunakan algoritma steming Kraaij-Pohlmann.

english

Memilih tokenizer steming Lucene untuk bahasa Inggris.

lightEnglish

Memilih tokenizer steming Lucene untuk bahasa Inggris yang melakukan stem ringan.

minimalEnglish

Memilih token steming Lucene untuk bahasa Inggris yang melakukan stemming.

possessiveEnglish

Memilih penandaan steming Lucene untuk bahasa Inggris yang menghapus posesif trailing dari kata-kata.

porter2

Memilih tokenizer stem Lucene untuk bahasa Inggris yang menggunakan algoritma steming Porter2.

lovins

Memilih tokenizer steming Lucene untuk bahasa Inggris yang menggunakan algoritma steming Lovins.

finnish

Memilih tokenizer steming Lucene untuk bahasa Finlandia.

lightFinnish

Memilih tokenizer steming Lucene untuk bahasa Finlandia yang melakukan stem ringan.

french

Memilih tokenizer stem Lucene untuk bahasa Prancis.

lightFrench

Memilih penandaan steming Lucene untuk bahasa Prancis yang melakukan stem ringan.

minimalFrench

Memilih penandaan steming Lucene untuk bahasa Prancis yang melakukan stemming.

galician

Memilih tokenizer stem Lucene untuk bahasa Galicia.

minimalGalician

Memilih tokenizer stem Lucene untuk bahasa Galicia yang melakukan stemming minimal.

german

Memilih tokenizer steming Lucene untuk bahasa Jerman.

german2

Memilih tokenizer stem Lucene yang menggunakan algoritma varian Jerman.

lightGerman

Memilih tokenizer stem Lucene untuk bahasa Jerman yang melakukan stem ringan.

minimalGerman

Memilih tokenizer stem Lucene untuk bahasa Jerman yang melakukan stemming.

greek

Memilih tokenizer steming Lucene untuk bahasa Yunani.

hindi

Memilih tokenizer stem Lucene untuk bahasa Hindi.

hungarian

Memilih tokenizer stem Lucene untuk bahasa Hongaria.

lightHungarian

Memilih penandaan steming Lucene untuk bahasa Hongaria yang melakukan batang ringan.

indonesian

Memilih tokenizer steming Lucene untuk bahasa Indonesia.

irish

Memilih tokenizer stem Lucene untuk Irlandia.

italian

Memilih tokenizer stem Lucene untuk bahasa Italia.

lightItalian

Memilih tokenizer stem Lucene untuk bahasa Italia yang melakukan stem ringan.

sorani

Memilih tokenizer stem Lucene untuk Sorani.

latvian

Memilih tokenizer batang Lucene untuk bahasa Latvia.

norwegian

Memilih penandaan steming Lucene untuk bahasa Norwegia (Bokmål).

lightNorwegian

Memilih penandaan batang Lucene untuk bahasa Norwegia (Bokmål) yang melakukan batang ringan.

minimalNorwegian

Memilih penandaan batang Lucene untuk bahasa Norwegia (Bokmål) yang melakukan penghentian minimal.

lightNynorsk

Memilih penandaan batang Lucene untuk bahasa Norwegia (Nynorsk) yang melakukan penghentian ringan.

minimalNynorsk

Memilih penandaan steming Lucene untuk Norwegia (Nynorsk) yang melakukan stemming.

portuguese

Memilih tokenizer steming Lucene untuk bahasa Portugis.

lightPortuguese

Memilih penandaan batang Lucene untuk bahasa Portugis yang melakukan penghentian ringan.

minimalPortuguese

Memilih tokenizer stem Lucene untuk bahasa Portugis yang melakukan stemming minimal.

portugueseRslp

Memilih tokenizer stem Lucene untuk bahasa Portugis yang menggunakan algoritma stemming RSLP.

romanian

Memilih tokenizer steming Lucene untuk bahasa Rumania.

russian

Memilih tokenizer stem Lucene untuk bahasa Rusia.

lightRussian

Memilih tokenizer batang Lucene untuk bahasa Rusia yang melakukan batang ringan.

spanish

Memilih tokenizer steming Lucene untuk bahasa Spanyol.

lightSpanish

Memilih penandaan batang Lucene untuk bahasa Spanyol yang melakukan penghentian ringan.

swedish

Memilih tokenizer batang Lucene untuk bahasa Swedia.

lightSwedish

Memilih tokenizer stem Lucene untuk bahasa Swedia yang melakukan stem ringan.

turkish

Memilih tokenizer steming Lucene untuk bahasa Turki.

StopAnalyzer

Membagi teks pada non-huruf; Menerapkan filter token huruf kecil dan kata henti. Penganalisis ini diimplementasikan menggunakan Apache Lucene.

Nama Jenis Deskripsi
@odata.type string:

#Microsoft.Azure.Search.StopAnalyzer

Fragmen URI yang menentukan jenis penganalisis.

name

string

Nama penganalisis. Itu hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter.

stopwords

string[]

Daftar kata henti.

StopwordsList

Mengidentifikasi daftar kata henti khusus bahasa yang telah ditentukan sebelumnya.

Nilai Deskripsi
arabic

Memilih daftar kata henti untuk bahasa Arab.

armenian

Memilih daftar kata henti untuk bahasa Armenia.

basque

Memilih daftar kata henti untuk bahasa Basque.

brazilian

Memilih daftar kata henti untuk bahasa Portugis (Brasil).

bulgarian

Memilih daftar kata henti untuk bahasa Bulgaria.

catalan

Memilih daftar kata henti untuk bahasa Catalan.

czech

Memilih daftar kata henti untuk bahasa Ceko.

danish

Memilih daftar kata henti untuk bahasa Denmark.

dutch

Memilih daftar kata henti untuk bahasa Belanda.

english

Memilih daftar kata henti untuk bahasa Inggris.

finnish

Memilih daftar kata henti untuk bahasa Finlandia.

french

Memilih daftar kata henti untuk bahasa Prancis.

galician

Memilih daftar kata ganti untuk bahasa Galicia.

german

Memilih daftar kata henti untuk bahasa Jerman.

greek

Memilih daftar kata henti untuk bahasa Yunani.

hindi

Memilih daftar kata henti untuk bahasa Hindi.

hungarian

Memilih daftar kata henti untuk bahasa Hongaria.

indonesian

Memilih daftar kata henti untuk bahasa Indonesia.

irish

Memilih daftar kata henti untuk bahasa Irlandia.

italian

Memilih daftar kata henti untuk bahasa Italia.

latvian

Memilih daftar kata henti untuk bahasa Latvia.

norwegian

Memilih daftar kata henti untuk bahasa Norwegia.

persian

Memilih daftar kata henti untuk bahasa Persia.

portuguese

Memilih daftar kata henti untuk bahasa Portugis.

romanian

Memilih daftar kata henti untuk bahasa Rumania.

russian

Memilih daftar kata henti untuk bahasa Rusia.

sorani

Memilih daftar kata henti untuk Sorani.

spanish

Memilih daftar kata henti untuk bahasa Spanyol.

swedish

Memilih daftar kata henti untuk bahasa Swedia.

thai

Memilih daftar kata henti untuk bahasa Thailand.

turkish

Memilih daftar kata henti untuk bahasa Turki.

StopwordsTokenFilter

Menghapus kata berhenti dari aliran token. Filter token ini diimplementasikan menggunakan Apache Lucene.

Nama Jenis Nilai default Deskripsi
@odata.type string:

#Microsoft.Azure.Search.StopwordsTokenFilter

Fragmen URI yang menentukan jenis filter token.

ignoreCase

boolean

False

Nilai yang menunjukkan apakah akan mengabaikan huruf besar/kecil. Jika benar, semua kata diubah menjadi huruf kecil terlebih dahulu. Secara default adalah false.

name

string

Nama filter token. Itu hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter.

removeTrailing

boolean

True

Nilai yang menunjukkan apakah akan mengabaikan istilah pencarian terakhir jika itu adalah kata henti. Nilai default adalah benar.

stopwords

string[]

Daftar kata henti. Properti ini dan properti daftar kata henti tidak dapat diatur.

stopwordsList

StopwordsList

english

Daftar kata henti yang telah ditentukan sebelumnya untuk digunakan. Properti ini dan properti kata henti tidak dapat diatur. Defaultnya adalah bahasa Inggris.

Suggester

Menentukan bagaimana Suggest API harus diterapkan ke grup bidang dalam indeks.

Nama Jenis Deskripsi
name

string

Nama penasaran.

searchMode

SuggesterSearchMode

Nilai yang menunjukkan kemampuan pemberan.

sourceFields

string[]

Daftar nama bidang yang diterapkan oleh pemberan. Setiap bidang harus dapat dicari.

SuggesterSearchMode

Nilai yang menunjukkan kemampuan pemberan.

Nilai Deskripsi
analyzingInfixMatching

Mencocokkan seluruh suku dan awalan berturut-turut dalam bidang. Misalnya, untuk bidang 'Rubah coklat tercepat', kueri 'cepat' dan 'alis tercepat' keduanya akan cocok.

SynonymTokenFilter

Mencocokkan sinonim satu atau multi-kata dalam aliran token. Filter token ini diimplementasikan menggunakan Apache Lucene.

Nama Jenis Nilai default Deskripsi
@odata.type string:

#Microsoft.Azure.Search.SynonymTokenFilter

Fragmen URI yang menentukan jenis filter token.

expand

boolean

True

Nilai yang menunjukkan apakah semua kata dalam daftar sinonim (jika => notasi tidak digunakan) akan dipetakan satu sama lain. Jika benar, semua kata dalam daftar sinonim (jika => notasi tidak digunakan) akan memetakan satu sama lain. Daftar berikut: luar biasa, luar biasa, luar biasa, luar biasa setara dengan: luar biasa, luar biasa, luar biasa, luar biasa => luar biasa, luar biasa. Jika salah, daftar berikut: luar biasa, luar biasa akan setara dengan: luar biasa, luar biasa, luar biasa, luar biasa => luar biasa. Nilai default adalah benar.

ignoreCase

boolean

False

Nilai yang menunjukkan apakah input lipatan huruf besar untuk pencocokan. Secara default adalah false.

name

string

Nama filter token. Itu hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter.

synonyms

string[]

Daftar sinonim dalam salah satu dari dua format berikut: 1. luar biasa, luar biasa, luar biasa => menakjubkan - semua istilah di sisi kiri => simbol akan diganti dengan semua istilah di sisi kanannya; 2. Luar biasa, luar biasa, luar biasa, menakjubkan - daftar kata yang setara dipisahkan koma. Atur opsi perluasan untuk mengubah cara daftar ini ditafsirkan.

TagScoringFunction

Menentukan fungsi yang meningkatkan skor dokumen dengan nilai string yang cocok dengan daftar tag tertentu.

Nama Jenis Deskripsi
boost

number (double)

Pengganda untuk skor mentah. Harus berupa angka positif tidak sama dengan 1.0.

fieldName

string

Nama bidang yang digunakan sebagai input ke fungsi penilaian.

interpolation

ScoringFunctionInterpolation

Nilai yang menunjukkan bagaimana peningkatan akan diinterpolasi di seluruh skor dokumen; default ke "Linear".

tag

TagScoringParameters

Nilai parameter untuk fungsi penilaian tag.

type string:

tag

Menunjukkan jenis fungsi yang akan digunakan. Nilai yang valid termasuk besaran, kesegaran, jarak, dan tag. Jenis fungsi harus huruf kecil.

TagScoringParameters

Memberikan nilai parameter ke fungsi penilaian tag.

Nama Jenis Deskripsi
tagsParameter

string

Nama parameter yang diteruskan dalam kueri pencarian untuk menentukan daftar tag yang akan dibandingkan dengan bidang target.

TextWeights

Menentukan bobot pada bidang indeks yang kecocokan harus meningkatkan penilaian dalam kueri pencarian.

Nama Jenis Deskripsi
weights

object

Kamus bobot per bidang untuk meningkatkan penilaian dokumen. Kuncinya adalah nama bidang dan nilainya adalah bobot untuk setiap bidang.

TokenCharacterKind

Mewakili kelas karakter tempat filter token dapat beroperasi.

Nilai Deskripsi
letter

Menyimpan huruf dalam token.

digit

Menyimpan digit dalam token.

whitespace

Menyimpan spasi kosong dalam token.

punctuation

Menyimpan tanda baca dalam token.

symbol

Menyimpan simbol dalam token.

TokenFilterName

Menentukan nama semua filter token yang didukung oleh mesin pencari.

Nilai Deskripsi
arabic_normalization

Filter token yang menerapkan normalisasi Arab untuk menormalkan ortografi. Lihat http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ar/ArabicNormalizationFilter.html

apostrophe

Melucuti semua karakter setelah apostrof (termasuk apostrof itu sendiri). Lihat http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/tr/ApostropheFilter.html

asciifolding

Mengonversi karakter Unicode alfabet, numerik, dan simbolis yang tidak ada dalam 127 karakter ASCII pertama (blok Unicode "Latin Dasar") menjadi padanan ASCII, jika ada padanan tersebut. Lihat http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html

cjk_bigram

Membentuk bigram istilah CJK yang dihasilkan dari tokenizer standar. Lihat http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKBigramFilter.html

cjk_width

Menormalkan perbedaan lebar CJK. Melipat varian ASCII lebar penuh menjadi Latin dasar yang setara, dan varian Katakana setengah lebar ke dalam Kana yang setara. Lihat http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKWidthFilter.html

classic

Menghapus posesif bahasa Inggris, dan titik dari akronim. Lihat http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicFilter.html

common_grams

Buat bigram untuk istilah yang sering terjadi saat mengindeks. Istilah tunggal juga masih diindeks, dengan bigram dilapisi. Lihat http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/commongrams/CommonGramsFilter.html

edgeNGram_v2

Menghasilkan n-gram dari ukuran yang diberikan mulai dari depan atau belakang token input. Lihat http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenFilter.html

elision

Menghilangkan elisi. Misalnya, "l'avion" (pesawat) akan diubah menjadi "avion" (pesawat). Lihat http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html

german_normalization

Menormalkan karakter Jerman sesuai dengan heuristik algoritma bola salju Jerman2. Lihat http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/de/GermanNormalizationFilter.html

hindi_normalization

Menormalkan teks dalam bahasa Hindi untuk menghilangkan beberapa perbedaan variasi ejaan. Lihat http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/hi/HindiNormalizationFilter.html

indic_normalization

Menormalkan representasi teks Unicode dalam bahasa India. Lihat http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/in/IndicNormalizationFilter.html

keyword_repeat

Memancarkan setiap token masuk dua kali, sekali sebagai kata kunci dan sekali sebagai non-kata kunci. Lihat http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/KeywordRepeatFilter.html

kstem

Filter kstem berkinerja tinggi untuk bahasa Inggris. Lihat http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/en/KStemFilter.html

length

Menghapus kata-kata yang terlalu panjang atau terlalu pendek. Lihat http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LengthFilter.html

limit

Membatasi jumlah token saat mengindeks. Lihat http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LimitTokenCountFilter.html

lowercase

Menormalkan teks token ke huruf kecil. Lihat https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html

nGram_v2

Menghasilkan n-gram dari ukuran yang diberikan. Lihat http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenFilter.html

persian_normalization

Menerapkan normalisasi untuk bahasa Persia. Lihat http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/fa/PersianNormalizationFilter.html

phonetic

Buat token untuk kecocokan fonetik. Lihat https://lucene.apache.org/core/4_10_3/analyzers-phonetic/org/apache/lucene/analysis/phonetic/package-tree.html

porter_stem

Menggunakan algoritma stemming Porter untuk mengubah aliran token. Lihat http://tartarus.org/~martin/PorterStemmer

reverse

Membalikkan string token. Lihat http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html

scandinavian_normalization

Menormalkan penggunaan karakter Skandinavia yang dapat dipertukarkan. Lihat http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianNormalizationFilter.html

scandinavian_folding

Melipat karakter Skandinavia åÅäæÄÆ-a> dan öÖøØ-o>. Ini juga membedakan penggunaan vokal ganda aa, ae, ao, oe dan oo, hanya menyisakan yang pertama. Lihat http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianFoldingFilter.html

shingle

Membuat kombinasi token sebagai satu token. Lihat http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/shingle/ShingleFilter.html

snowball

Filter yang membela kata-kata menggunakan stemmer yang dihasilkan Snowball. Lihat http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/snowball/SnowballFilter.html

sorani_normalization

Menormalkan representasi Unicode teks Sorani. Lihat http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ckb/SoraniNormalizationFilter.html

stemmer

Filter stem khusus bahasa. Lihat https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#TokenFilters

stopwords

Menghapus kata berhenti dari aliran token. Lihat http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html

trim

Memangkas spasi kosong depan dan belakang dari token. Lihat http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TrimFilter.html

truncate

Memotong istilah ke panjang tertentu. Lihat http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TruncateTokenFilter.html

unique

Memfilter token dengan teks yang sama dengan token sebelumnya. Lihat http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/RemoveDuplicatesTokenFilter.html

uppercase

Menormalkan teks token ke huruf besar. Lihat https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html

word_delimiter

Membagi kata menjadi subkata dan melakukan transformasi opsional pada grup subkata.

TruncateTokenFilter

Memotong istilah ke panjang tertentu. Filter token ini diimplementasikan menggunakan Apache Lucene.

Nama Jenis Nilai default Deskripsi
@odata.type string:

#Microsoft.Azure.Search.TruncateTokenFilter

Fragmen URI yang menentukan jenis filter token.

length

integer (int32)

maximum: 300
300

Panjang di mana istilah akan dipotong. Default dan maksimum adalah 300.

name

string

Nama filter token. Itu hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter.

UaxUrlEmailTokenizer

Mentokenisasi url dan email sebagai satu token. Tokenizer ini diimplementasikan menggunakan Apache Lucene.

Nama Jenis Nilai default Deskripsi
@odata.type string:

#Microsoft.Azure.Search.UaxUrlEmailTokenizer

Fragmen URI yang menentukan jenis tokenizer.

maxTokenLength

integer (int32)

maximum: 300
255

Panjang token maksimum. Defaultnya adalah 255. Token yang lebih panjang dari panjang maksimum dibagi. Panjang token maksimum yang dapat digunakan adalah 300 karakter.

name

string

Nama tokenizer. Itu hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter.

UniqueTokenFilter

Memfilter token dengan teks yang sama dengan token sebelumnya. Filter token ini diimplementasikan menggunakan Apache Lucene.

Nama Jenis Nilai default Deskripsi
@odata.type string:

#Microsoft.Azure.Search.UniqueTokenFilter

Fragmen URI yang menentukan jenis filter token.

name

string

Nama filter token. Itu hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter.

onlyOnSamePosition

boolean

False

Nilai yang menunjukkan apakah akan menghapus duplikat hanya pada posisi yang sama. Secara default adalah false.

VectorEncodingFormat

Format pengkodean untuk menafsirkan konten bidang vektor.

Nilai Deskripsi
packedBit

Format pengkodean yang mewakili bit yang dikemas ke dalam tipe data yang lebih luas.

VectorSearch

Berisi opsi konfigurasi yang terkait dengan pencarian vektor.

Nama Jenis Deskripsi
algorithms VectorSearchAlgorithmConfiguration[]:

Berisi opsi konfigurasi khusus untuk algoritme yang digunakan selama pengindeksan atau kueri.

compressions VectorSearchCompressionConfiguration[]:

Berisi opsi konfigurasi khusus untuk metode kompresi yang digunakan selama pengindeksan atau kueri.

profiles

VectorSearchProfile[]

Menentukan kombinasi konfigurasi yang akan digunakan dengan pencarian vektor.

vectorizers VectorSearchVectorizer[]:

Berisi opsi konfigurasi tentang cara vektorisasi kueri vektor teks.

VectorSearchAlgorithmKind

Algoritma yang digunakan untuk pengindeksan dan kueri.

Nilai Deskripsi
hnsw

HNSW (Hierarchical Navigable Small World), sejenis algoritma perkiraan tetangga terdekat.

exhaustiveKnn

Algoritma KNN lengkap yang akan melakukan pencarian brute-force.

VectorSearchAlgorithmMetric

Metrik kesamaan yang digunakan untuk perbandingan vektor. Disarankan untuk memilih metrik kesamaan yang sama dengan model penyematan yang dilatih.

Nilai Deskripsi
cosine

Mengukur sudut antar vektor untuk mengukur kesamaannya, mengabaikan besarnya. Semakin kecil sudutnya, semakin dekat kesamaannya.

euclidean

Menghitung jarak garis lurus antara vektor dalam ruang multi-dimensi. Semakin kecil jaraknya, semakin dekat kesamaannya.

dotProduct

Menghitung jumlah produk berdasarkan elemen untuk mengukur keselarasan dan kesamaan besarnya. Semakin besar dan lebih positif, semakin dekat kesamaannya.

hamming

Hanya berlaku untuk tipe data biner yang dikemas bit. Menentukan perbedaan dengan menghitung posisi yang berbeda dalam vektor biner. Semakin sedikit perbedaan, semakin dekat kesamaannya.

VectorSearchCompressionKind

Metode kompresi yang digunakan untuk pengindeksan dan kueri.

Nilai Deskripsi
scalarQuantization

Kuantisasi Skalar, sejenis metode kompresi. Dalam kuantisasi skalar, nilai vektor asli dikompresi ke tipe yang lebih sempit dengan diskrit dan mewakili setiap komponen vektor menggunakan sekumpulan nilai kuantisasi yang dikurangi, sehingga mengurangi ukuran data secara keseluruhan.

binaryQuantization

Kuantisasi Biner, sejenis metode kompresi. Dalam kuantisasi biner, nilai vektor asli dikompresi ke tipe biner yang lebih sempit dengan diskrit dan mewakili setiap komponen vektor menggunakan nilai biner, sehingga mengurangi ukuran data secara keseluruhan.

VectorSearchCompressionRescoreStorageMethod

Metode penyimpanan untuk vektor presisi penuh asli yang digunakan untuk penilaian ulang dan operasi indeks internal.

Nilai Deskripsi
preserveOriginals

Opsi ini mempertahankan vektor presisi penuh asli. Pilih opsi ini untuk fleksibilitas maksimum dan kualitas hasil pencarian terkompresi tertinggi. Ini menghabiskan lebih banyak penyimpanan tetapi memungkinkan penilaian ulang dan pengambilan sampel berlebihan.

discardOriginals

Opsi ini membuang vektor presisi penuh asli. Pilih opsi ini untuk penghematan penyimpanan maksimum. Karena opsi ini tidak memungkinkan untuk menilai ulang dan oversampling, seringkali akan menyebabkan sedikit hingga sedangnya penurunan kualitas.

VectorSearchCompressionTargetDataType

Jenis data terkuantisasi dari nilai vektor terkompresi.

Nilai Deskripsi
int8

VectorSearchProfile

Menentukan kombinasi konfigurasi yang akan digunakan dengan pencarian vektor.

Nama Jenis Deskripsi
algorithm

string

Nama konfigurasi algoritma pencarian vektor yang menentukan algoritme dan parameter opsional.

compression

string

Nama konfigurasi metode kompresi yang menentukan metode kompresi dan parameter opsional.

name

string

Nama yang akan dikaitkan dengan profil pencarian vektor khusus ini.

vectorizer

string

Nama vektorisasi yang sedang dikonfigurasi untuk digunakan dengan pencarian vektor.

VectorSearchVectorizerKind

Metode vektorisasi yang akan digunakan selama waktu kueri.

Nilai Deskripsi
azureOpenAI

Hasilkan penyematan menggunakan sumber daya Azure OpenAI pada waktu kueri.

customWebApi

Hasilkan penyematan menggunakan titik akhir web kustom pada waktu kueri.

WebApiParameters

Menentukan properti untuk menyambungkan ke vektor yang ditentukan pengguna.

Nama Jenis Deskripsi
authIdentity SearchIndexerDataIdentity:

Identitas terkelola yang ditetapkan pengguna yang digunakan untuk koneksi keluar. Jika authResourceId disediakan dan tidak ditentukan, identitas terkelola yang ditetapkan sistem akan digunakan. Pada pembaruan pada pengindeks, jika identitas tidak ditentukan, nilainya tetap tidak berubah. Jika diatur ke "none", nilai properti ini akan dihapus.

authResourceId

string

Berlaku untuk titik akhir kustom yang terhubung ke kode eksternal dalam fungsi Azure atau beberapa aplikasi lain yang menyediakan transformasi. Nilai ini harus berupa ID aplikasi yang dibuat untuk fungsi atau aplikasi saat terdaftar di Azure Active Directory. Saat ditentukan, vektorisasi terhubung ke fungsi atau aplikasi menggunakan ID terkelola (baik sistem atau yang ditetapkan pengguna) dari layanan pencarian dan token akses fungsi atau aplikasi, menggunakan nilai ini sebagai ID sumber daya untuk membuat cakupan token akses.

httpHeaders

object

Header yang diperlukan untuk membuat permintaan HTTP.

httpMethod

string

Metode untuk permintaan HTTP.

timeout

string (duration)

Batas waktu yang diinginkan untuk permintaan. Secara default, waktunya adalah 30 detik.

uri

string (uri)

URI API Web yang menyediakan vektorisasi.

WebApiVectorizer

Menentukan vektor yang ditentukan pengguna untuk menghasilkan penyematan vektor string kueri. Integrasi vektor eksternal dicapai menggunakan antarmuka API Web khusus dari set keterampilan.

Nama Jenis Deskripsi
customWebApiParameters

WebApiParameters

Menentukan properti vektor yang ditentukan pengguna.

kind string:

customWebApi

Nama jenis metode vektorisasi yang dikonfigurasi untuk digunakan dengan pencarian vektor.

name

string

Nama untuk dikaitkan dengan metode vektorisasi khusus ini.

WordDelimiterTokenFilter

Membagi kata menjadi subkata dan melakukan transformasi opsional pada grup subkata. Filter token ini diimplementasikan menggunakan Apache Lucene.

Nama Jenis Nilai default Deskripsi
@odata.type string:

#Microsoft.Azure.Search.WordDelimiterTokenFilter

Fragmen URI yang menentukan jenis filter token.

catenateAll

boolean

False

Nilai yang menunjukkan apakah semua bagian subkata akan dicatenasi. Misalnya, jika ini diatur ke true, "Azure-Search-1" menjadi "AzureSearch1". Secara default adalah false.

catenateNumbers

boolean

False

Nilai yang menunjukkan apakah eksekusi maksimum bagian nomor akan dikatakenasi. Misalnya, jika ini diatur ke true, "1-2" menjadi "12". Secara default adalah false.

catenateWords

boolean

False

Nilai yang menunjukkan apakah eksekusi maksimum bagian kata akan dikatakenasi. Misalnya, jika ini diatur ke true, "Azure-Search" menjadi "AzureSearch". Secara default adalah false.

generateNumberParts

boolean

True

Nilai yang menunjukkan apakah akan menghasilkan subkata angka. Nilai default adalah benar.

generateWordParts

boolean

True

Nilai yang menunjukkan apakah akan menghasilkan kata bagian. Jika diatur, menyebabkan bagian-bagian kata dihasilkan; misalnya "AzureSearch" menjadi "Azure", "Pencarian". Nilai default adalah benar.

name

string

Nama filter token. Itu hanya boleh berisi huruf, digit, spasi, tanda hubung atau garis bawah, hanya dapat dimulai dan diakhiri dengan karakter alfanumerik, dan dibatasi hingga 128 karakter.

preserveOriginal

boolean

False

Nilai yang menunjukkan apakah kata-kata asli akan dipertahankan dan ditambahkan ke daftar subkata. Secara default adalah false.

protectedWords

string[]

Daftar token yang harus dilindungi agar tidak dibatasi.

splitOnCaseChange

boolean

True

Nilai yang menunjukkan apakah akan membagi kata di caseChange. Misalnya, jika ini diatur ke true, "AzureSearch" menjadi "Azure" "Search". Nilai default adalah benar.

splitOnNumerics

boolean

True

Nilai yang menunjukkan apakah akan membagi angka. Misalnya, jika ini diatur ke true, "Azure1Search" menjadi "Azure" "1" "Search". Nilai default adalah benar.

stemEnglishPossessive

boolean

True

Nilai yang menunjukkan apakah akan menghapus "'s" di belakang untuk setiap subkata. Nilai default adalah benar.