Mengindeks blob teks biasa dan file di Azure AI Search

Berlaku untuk: Pengindeks Blob, Pengindeks file

Saat menggunakan pengindeks untuk mengekstrak teks blob atau konten file yang dapat dicari untuk pencarian teks lengkap, Anda dapat menetapkan mode penguraian untuk mendapatkan hasil pengindeksan yang lebih baik. Secara default, pengindeks mengurai properti blob content sebagai potongan teks tunggal. Namun, jika semua blob dan file berisi teks biasa dalam pengodean yang sama, Anda dapat secara signifikan meningkatkan performa pengindeksan dengan menggunakan text mode penguraian.

Rekomendasi untuk text penguraian mencakup salah satu karakteristik berikut:

  • Jenis file adalah .txt
  • File berdasarkan tipe apa pun, tetapi konten itu sendiri adalah teks (misalnya, kode sumber program, HTML, XML, dan sebagainya). Untuk file dalam bahasa markup, karakter sintaksis muncul sebagai teks statis.

Ingat bahwa semua pengindeks diserialisasi ke JSON. Secara default, konten seluruh file teks diindeks dalam satu bidang besar sebagai "content": "<file-contents>". Instruksi baris dan pengembalian baru disematkan di bidang konten dan dinyatakan sebagai \r\n\.

Jika Anda menginginkan hasil yang lebih halus atau terperinci, dan jika jenis file kompatibel, pertimbangkan solusi berikut:

Opsi ketiga alternatif untuk memecah konten menjadi beberapa bagian memerlukan fitur canggih dalam bentuk pengayaan AI. Ini menambahkan analisis yang mengidentifikasi dan menetapkan potongan file ke bidang pencarian yang berbeda. Anda mungkin menemukan solusi lengkap atau parsial melalui keterampilan bawaan seperti pengenalan entitas atau ekstraksi kata kunci, tetapi solusi yang lebih mungkin adalah model pembelajaran kustom yang memahami konten Anda, dibungkus dalam keterampilan kustom.

Menyiapkan pengindeksan teks biasa

Untuk mengindeks blob teks biasa, buat atau perbarui definisi pengindeks dengan parsingMode properti konfigurasi yang diatur ke text pada permintaan Buat Pengindeks:

PUT https://[service name].search.windows.net/indexers/[indexer name]?api-version=2023-11-01
Content-Type: application/json
api-key: [admin key]

{
  ... other parts of indexer definition
  "parameters" : { "configuration" : { "parsingMode" : "text" } }
}

Secara default, pengodean UTF-8 diasumsikan. Untuk menentukan pengkodean yang berbeda, gunakan properti konfigurasi encoding:

{
  ... other parts of indexer definition
  "parameters" : { "configuration" : { "parsingMode" : "text", "encoding" : "windows-1252" } }
}

Contoh permintaan

Mode penguraian ditentukan dalam definisi pengindeks.

POST https://[service name].search.windows.net/indexers?api-version=2023-11-01
Content-Type: application/json
api-key: [admin key]

{
  "name" : "my-plaintext-indexer",
  "dataSourceName" : "my-blob-datasource",
  "targetIndexName" : "my-target-index",
  "parameters" : { "configuration" : { "parsingMode" : "delimitedText", "delimitedTextHeaders" : "id,datePublished,tags" } }
}

Langkah berikutnya