Catatan
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba masuk atau mengubah direktori.
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba mengubah direktori.
Berlaku untuk: Pengindeks Blob, Pengindeks file
Saat menggunakan pengindeks untuk mengekstrak teks blob atau konten file yang dapat dicari untuk pencarian teks lengkap, Anda dapat menetapkan mode penguraian untuk mendapatkan hasil pengindeksan yang lebih baik. Secara default, pengindeks mengurai properti blob content sebagai potongan teks tunggal. Namun, jika semua blob dan file berisi teks biasa dalam pengodean yang sama, Anda dapat secara signifikan meningkatkan performa pengindeksan dengan menggunakan text mode penguraian.
Rekomendasi untuk penguraian text meliputi salah satu dari karakteristik berikut:
- Jenis file adalah
.txt - File memiliki jenis apa pun, tetapi konten itu sendiri adalah teks (misalnya, kode sumber program, HTML, XML, dan sebagainya). Untuk file dalam bahasa markup, karakter sintaksis muncul sebagai teks statis.
Ingat bahwa semua pengindeks menserialisasikan ke JSON. Secara default, konten seluruh file teks diindeks dalam satu bidang besar sebagai "content": "<file-contents>". Instruksi garis baru dan pengembalian disematkan di bidang konten dan dinyatakan sebagai \r\n\.
Jika Anda menginginkan hasil yang lebih halus atau terperinci, dan jika jenis file kompatibel, pertimbangkan solusi berikut:
-
delimitedTextmode penguraian, jika sumbernya adalah CSV -
jsonArrayataujsonLines, jika sumbernya adalah JSON
Opsi ketiga alternatif untuk memecah konten menjadi beberapa bagian memerlukan fitur canggih dalam bentuk pengayaan AI. Ini menambahkan analisis yang mengidentifikasi dan menetapkan potongan file ke bidang pencarian yang berbeda. Anda mungkin menemukan solusi lengkap atau parsial melalui keterampilan bawaan seperti pengenalan entitas atau ekstraksi kata kunci, tetapi solusi yang lebih mungkin adalah model pembelajaran kustom yang memahami konten Anda, dibungkus dalam keterampilan kustom.
Menyiapkan pengindeksan teks biasa
Untuk mengindeks blob teks biasa, buat atau perbarui definisi pengindeks dengan parsingMode properti konfigurasi yang diatur ke text pada permintaan Buat Pengindeks :
PUT https://[service name].search.windows.net/indexers/[indexer name]?api-version=2025-09-01
Content-Type: application/json
api-key: [admin key]
{
... other parts of indexer definition
"parameters" : { "configuration" : { "parsingMode" : "text" } }
}
Secara default, pengodean UTF-8 diasumsikan. Untuk menggunakan pengodean yang berbeda, tentukan properti konfigurasi encoding.
Daftar pengodean yang didukung berada di bawah kolom dukungan .NET 5 dan yang lebih baru.
{
... other parts of indexer definition
"parameters" : { "configuration" : { "parsingMode" : "text", "encoding" : "iso-8859-1" } }
}
Permintaan contoh
Mode penguraian ditentukan dalam definisi pengindeks.
POST https://[service name].search.windows.net/indexers?api-version=2025-09-01
Content-Type: application/json
api-key: [admin key]
{
"name" : "my-plaintext-indexer",
"dataSourceName" : "my-blob-datasource",
"targetIndexName" : "my-target-index",
"parameters" : { "configuration" : { "parsingMode" : "delimitedText", "delimitedTextHeaders" : "id,datePublished,tags" } }
}