Catatan
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba masuk atau mengubah direktori.
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba mengubah direktori.
Setelah Anda mengumpulkan dokumen dan kueri pengujian dan melakukan analisis dokumen selama fase persiapan, fase berikutnya adalah pemotongan. Memecah dokumen menjadi potongan berukuran tepat yang masing-masing berisi konten yang relevan secara semantik sangat penting untuk keberhasilan implementasi Retrieval-Augmented Generation (RAG) Anda. Mengirim seluruh dokumen atau potongan yang terlalu besar biayanya mahal, mungkin membebani batas token model, dan tidak menghasilkan hasil terbaik. Meneruskan informasi ke model bahasa yang tidak relevan dengan kueri dapat mengakibatkan respons yang tidak akurat atau tidak terkait. Anda perlu mengoptimalkan proses meneruskan informasi yang relevan dan menghapus informasi yang tidak relevan dengan menggunakan strategi penggugusan dan pencarian yang efektif. Pendekatan ini meminimalkan positif palsu dan negatif palsu, dan memaksimalkan positif sejati dan negatif sejati.
Potongan yang terlalu kecil dan tidak berisi konteks yang memadai untuk mengatasi kueri dapat mengakibatkan hasil yang buruk. Konteks relevan yang ada di beberapa bagian mungkin tidak tertangkap. Kuncinya adalah menerapkan pendekatan penggugusan yang efektif untuk jenis dokumen spesifik Anda dan struktur dan konten spesifiknya. Ada berbagai pendekatan pemotongan yang perlu dipertimbangkan, masing-masing dengan implikasi dan efektivitas biaya mereka sendiri, tergantung pada jenis dan struktur dokumen yang diterapkan.
Artikel ini menjelaskan berbagai pendekatan pengelompokan dan memeriksa bagaimana struktur dokumen Anda dapat memengaruhi pendekatan pengelompokan yang Anda pilih.
Artikel ini adalah bagian dari seri. Baca pengantar sebelum Anda melanjutkan.
Potongan ekonomi
Saat Anda menentukan strategi pemecahan secara keseluruhan, Anda harus mempertimbangkan anggaran serta persyaratan kualitas dan throughput untuk koleksi dokumen Anda. Ada biaya rekayasa untuk desain dan implementasi setiap implementasi potongan unik dan biaya pemrosesan per dokumen yang berbeda tergantung pada pendekatannya. Jika dokumen Anda telah disematkan atau ditautkan media, Anda harus mempertimbangkan ekonomi pemrosesan elemen-elemen tersebut. Untuk pemotongan, pemrosesan ini umumnya menggunakan model bahasa untuk menghasilkan deskripsi media. Deskripsi tersebut kemudian dipotong. Pendekatan alternatif untuk beberapa media adalah meneruskannya as-is ke model multi-modal pada waktu inferensi. Namun, pendekatan ini tidak memengaruhi potongan ekonomi.
Bagian berikut memeriksa ekonomi pemotongan gambar dan solusi secara keseluruhan.
Ekonomi segmentasi citra
Ada biaya untuk menggunakan model bahasa untuk menghasilkan deskripsi gambar yang Anda guguskan. Misalnya, layanan berbasis cloud seperti Azure OpenAI Service dikenakan biaya per transaksi atau berdasarkan provisi prabayar. Gambar yang lebih besar dikenakan biaya yang lebih besar. Melalui analisis dokumen, Anda harus menentukan gambar mana yang berharga untuk dipotong dan gambar mana yang harus Anda abaikan. Dari sana, Anda perlu memahami jumlah dan ukuran gambar dalam solusi Anda. Kemudian Anda harus menimbang nilai potongan deskripsi gambar terhadap biaya untuk menghasilkan deskripsi tersebut.
Salah satu cara untuk menentukan gambar mana yang akan diproses adalah dengan menggunakan layanan seperti Azure AI Vision untuk mengklasifikasikan gambar, menandai gambar, atau melakukan deteksi logo. Anda kemudian dapat menggunakan hasil dan indikator keyakinan untuk menentukan apakah gambar menambahkan nilai kontekstual yang bermakna dan harus diproses. Panggilan ke Visi mungkin lebih murah daripada panggilan ke model bahasa, sehingga pendekatan ini dapat mengakibatkan penghematan biaya. Eksperimen untuk menentukan tingkat keyakinan apa dan klasifikasi atau tag apa yang memberikan hasil terbaik untuk data Anda. Opsi lain adalah membangun model penggollong Anda sendiri. Jika Anda mengambil pendekatan ini, pastikan untuk mempertimbangkan biaya untuk membangun, menghosting, dan memelihara model Anda sendiri.
Strategi pengoptimalan biaya lainnya adalah cache dengan menggunakan polaCache-Aside. Anda dapat menghasilkan kunci berdasarkan hash gambar. Sebagai langkah pertama, periksa untuk melihat apakah Anda memiliki hasil cache dari dokumen yang dijalankan sebelumnya atau yang diproses sebelumnya. Jika demikian, Anda dapat menggunakan hasil tersebut. Pendekatan ini menghilangkan biaya panggilan pengklasifikasi atau model bahasa. Jika tidak ada cache, saat Anda memanggil pengklasifikasi atau model bahasa, Anda menyimpan cache hasilnya. Panggilan mendatang untuk gambar ini menggunakan cache.
Alur kerja sederhana berikut mengintegrasikan semua proses pengoptimalan biaya ini:
Periksa untuk melihat apakah pemrosesan gambar di-cache. Jika demikian, gunakan hasil yang di-cache.
Jalankan pengklasifikasi Anda untuk menentukan apakah Anda harus memproses gambar. Simpan cache hasil klasifikasi. Jika logika klasifikasi Anda menentukan bahwa gambar menambahkan nilai, lanjutkan ke langkah berikutnya.
Hasilkan deskripsi untuk gambar Anda. Simpan sementara hasilnya.
Ekonomi solusi keseluruhan
Pertimbangkan faktor-faktor berikut saat Anda menilai biaya solusi Keseluruhan Anda:
Jumlah implementasi potongan unik: Setiap implementasi unik memiliki biaya rekayasa dan pemeliharaan. Pastikan untuk mempertimbangkan jumlah jenis dokumen unik dalam koleksi Anda dan biaya versus trade-off kualitas implementasi unik untuk masing-masing.
Biaya per dokumen dari setiap implementasi: Beberapa pendekatan potongan dapat mengakibatkan potongan kualitas yang lebih baik tetapi memiliki biaya keuangan dan temporal yang lebih tinggi untuk menghasilkan potongan-potongan tersebut. Misalnya, menggunakan model bawaan di Azure AI Document Intelligence kemungkinan memiliki biaya per dokumen yang lebih tinggi daripada implementasi penguraian teks murni, tetapi dapat menghasilkan gugus yang lebih baik.
Jumlah dokumen awal: Jumlah dokumen awal yang perlu Anda proses untuk meluncurkan solusi Anda.
Jumlah dokumen inkremental: Jumlah dan tingkat dokumen baru yang harus Anda proses untuk pemeliharaan sistem yang sedang berlangsung.
Memuat dan memotong
Selama pemotongan, Anda harus terlebih dahulu memuat dokumen ke dalam memori dalam beberapa format. Kode penggugusan kemudian beroperasi terhadap representasi dalam memori dokumen. Anda dapat menggabungkan kode pemuatan dengan pembagian dalam bagian, atau memisahkan pemuatan ke dalam fase tersendiri. Pendekatan yang Anda pilih sebagian besar harus didasarkan pada batasan arsitektur dan preferensi Anda. Bagian berikut ini secara singkat menjelajahi kedua opsi dan memberikan rekomendasi umum.
Pemuatan dan penggugusan terpisah
Ada beberapa alasan mengapa Anda dapat memilih untuk memisahkan fase pemuatan dan penggugusan. Anda mungkin ingin merangkum logika dalam kode pemuatan. Anda mungkin ingin mempertahankan hasil kode pemuatan sebelum memotong, terutama ketika Anda bereksperimen dengan berbagai permutasi penggugusan untuk menghemat waktu atau biaya pemrosesan. Terakhir, Anda mungkin ingin menjalankan kode pemuatan dan penggugusan dalam proses terpisah untuk alasan arsitektur seperti proses sekat atau segmentasi keamanan yang melibatkan penghapusan data pribadi.
Merangkum logika dalam kode pemuatan
Anda dapat memilih untuk merangkum logika pra-pemrosesan dalam fase pemuatan. Pendekatan ini menyederhanakan kode penggugusan karena tidak memerlukan pra-pemrosesan. Pra-pemrosesan bisa sesingkat menghapus atau menganotasi bagian dokumen yang ingin Anda abaikan dalam analisis dokumen, seperti marka air, header, dan footer, untuk tugas yang lebih kompleks seperti memformat ulang dokumen. Misalnya, Anda dapat menyertakan tugas praproses berikut dalam fase pemuatan:
Hapus atau anotasi item yang ingin Anda abaikan.
Ganti referensi gambar dengan deskripsi gambar. Selama fase ini, Anda menggunakan model bahasa besar untuk menghasilkan deskripsi untuk gambar dan memperbarui dokumen dengan deskripsi tersebut. Jika Anda menentukan dalam fase analisis dokumen bahwa ada teks di sekitarnya yang menyediakan konteks berharga untuk gambar, lalu teruskan teks tersebut, bersama dengan gambar, ke model bahasa besar.
Unduh atau salin gambar ke penyimpanan file seperti Azure Data Lake Storage untuk diproses secara terpisah dari teks dokumen. Jika Anda menentukan dalam analisis dokumen bahwa ada teks di sekitarnya yang menyediakan konteks berharga untuk gambar, simpan teks ini bersama dengan gambar dalam penyimpanan file.
Format ulang tabel sehingga lebih mudah diproses.
Mempertahankan hasil kode pemuatan
Ada beberapa alasan yang mungkin Anda pilih untuk mempertahankan hasil kode pemuatan. Salah satu alasannya adalah jika Anda ingin dapat memeriksa dokumen setelah dimuat dan diproses sebelumnya, tetapi sebelum logika pengelompokan dijalankan. Alasan lainnya adalah Anda mungkin ingin menjalankan logika pemotongan yang berbeda pada kode yang telah diproses sebelumnya yang sama, baik saat dalam tahap pengembangan maupun produksi. Mempertahankan kode yang dimuat mempercepat proses ini.
Jalankan pemuatan dan penggugusan kode dalam proses terpisah
Pisahkan kode pemuatan dan pemertelan ke dalam proses terpisah untuk membantu menjalankan beberapa implementasi pemertelan terhadap kode pra-diproses yang sama. Pemisahan ini juga memungkinkan Anda menjalankan pemuatan dan penggugusan kode di lingkungan komputasi yang berbeda dan pada perangkat keras yang berbeda. Anda dapat menggunakan desain ini untuk menskalakan komputasi yang digunakan secara independen untuk memuat dan memotong.
Menggabungkan pemuatan dan pembagian
Menggabungkan kode pemuatan dan pengelompokan adalah implementasi yang lebih sederhana dalam banyak kasus. Banyak operasi yang mungkin Anda pertimbangkan untuk melakukan pemrosesan awal dalam fase pemuatan terpisah dapat dicapai dalam fase pencacahan. Misalnya, alih-alih mengganti URL gambar dengan deskripsi dalam fase pemuatan, logika penggugusan dapat melakukan panggilan ke model bahasa besar untuk mendapatkan deskripsi teks dan memotong deskripsi.
Ketika Anda memiliki format dokumen seperti HTML yang memiliki tag dengan referensi ke gambar, pastikan bahwa pembaca atau pengurai yang digunakan kode penggugusan tidak menghapus tag. Kode chunking harus dapat mengidentifikasi referensi gambar.
Rekomendasi
Pertimbangkan rekomendasi berikut saat Anda menentukan apakah Anda harus menggabungkan atau memisahkan logika pemecahan Anda.
Mulailah dengan menggabungkan logika pemuatan dan penggugusan. Pisahkan ketika solusi Anda memerlukannya.
Hindari mengonversi dokumen ke format menengah jika Anda memilih untuk memisahkan proses. Jenis operasi ini dapat mengakibatkan kehilangan data.
Pendekatan pemotongan
Bagian ini memberikan gambaran umum tentang pendekatan pemotongan umum. Anda dapat menggunakan beberapa pendekatan dalam implementasi, seperti menggabungkan penggunaan model bahasa untuk mendapatkan representasi teks gambar dengan banyak pendekatan yang tercantum.
Setiap pendekatan disertai dengan matriks pengambilan keputusan ringkasan yang menyoroti alat, biaya terkait, dan banyak lagi. Upaya rekayasa dan biaya pemrosesan bersifat subjektif dan disertakan untuk perbandingan relatif.
Penguraian berbasis kalimat
Pendekatan langsung ini memecah dokumen teks menjadi potongan-potongan yang terdiri dari kalimat lengkap. Keuntungan dari pendekatan ini termasuk biaya implementasinya yang rendah, biaya pemrosesan yang rendah, dan penerapannya terhadap dokumen berbasis teks apa pun yang ditulis dalam prosa atau kalimat lengkap. Salah satu kelemahan dari pendekatan ini adalah bahwa setiap gugus mungkin tidak menangkap konteks lengkap ide atau makna. Beberapa kalimat sering harus diambil bersama-sama untuk menangkap makna semantik.
Alat:spaCy kalimat tokenizer, pemisah teks rekursif LangChain, tokenizer kalimat NLTK
Upaya teknik: Rendah
Biaya pemrosesan: Rendah
Penggunaan kasus: dokumen tidak terstruktur yang ditulis dalam bentuk prosa atau kalimat lengkap, dan kumpulan dokumen Anda berisi jumlah yang sangat banyak dari berbagai jenis dokumen yang memerlukan strategi pemotongan individu.
Contoh: Konten yang dihasilkan pengguna seperti umpan balik terbuka dari survei, posting forum, ulasan, pesan email, novel, atau esai
Penguraian dengan ukuran tetap, dengan tumpang tindih
Pendekatan ini memecah dokumen menjadi potongan berdasarkan jumlah karakter atau token tetap dan memungkinkan beberapa tumpang tindih karakter di antara gugus. Pendekatan ini memiliki banyak kelebihan dan kekurangan yang sama dengan penguraian berbasis kalimat. Salah satu keuntungan dari pendekatan ini daripada penguraian berbasis kalimat adalah kemampuan untuk mendapatkan gugus dengan makna semantik yang mencakup beberapa kalimat.
Anda harus memilih ukuran tetap potongan dan jumlah tumpang tindih. Karena hasilnya bervariasi untuk jenis dokumen yang berbeda, yang terbaik adalah menggunakan alat seperti visualizer gugus Wajah Hugging untuk melakukan analisis eksploratif. Anda dapat menggunakan alat seperti ini untuk memvisualisasikan bagaimana dokumen Anda dipotong berdasarkan keputusan Anda. Anda harus menggunakan token BERT alih-alih jumlah karakter saat Anda menggunakan penguraian dengan ukuran tetap. Token BERT didasarkan pada unit bahasa yang bermakna, sehingga mempertahankan informasi yang lebih semantik daripada jumlah karakter.
Alat:Pemisah teks rekursif LangChain, visualizer potongan Hugging Face
Upaya teknik: Rendah
Biaya pemrosesan: Rendah
Kasus penggunaan: Dokumen tidak terstruktur yang ditulis dalam prosa atau non-prosa dengan kalimat lengkap atau tidak lengkap. Kumpulan dokumen Anda berisi jumlah jenis dokumen yang berlebihan yang memerlukan strategi pemecahan individual.
Contoh: Konten yang dihasilkan pengguna seperti umpan balik terbuka dari survei, posting forum, ulasan, pesan email, catatan pribadi, catatan penelitian, daftar
Kode khusus
Pendekatan ini mengurai dokumen dengan menggunakan kode kustom untuk membuat gugus. Pendekatan ini paling berhasil untuk dokumen berbasis teks di mana struktur diketahui atau dapat disimpulkan dan tingkat kontrol yang tinggi atas pembuatan gugus diperlukan. Anda dapat menggunakan teknik penguraian teks seperti ekspresi reguler untuk membuat gugus berdasarkan pola dalam struktur dokumen. Tujuannya adalah untuk membuat gugus yang memiliki ukuran serupa dalam panjang dan gugus yang memiliki konten berbeda. Banyak bahasa pemrograman memberikan dukungan untuk ekspresi reguler, dan beberapa memiliki pustaka atau paket yang menyediakan fitur manipulasi string yang lebih elegan.
Alat:Python (re, regex, BeautifulSoup, lxml, html5lib, marko), R (stringr, xml2), Julia (Gumbo.jl)
Upaya teknik: Sedang
Biaya pemrosesan: Rendah
Kasus penggunaan: Dokumen semi terstruktur tempat struktur dapat disimpulkan
Contoh: Pengajuan paten, makalah penelitian, kebijakan asuransi, skrip, dan skenario
Augmentasi model bahasa
Anda dapat menggunakan model bahasa untuk membuat potongan. Misalnya, Anda dapat menggunakan model bahasa besar, seperti GPT-4, untuk menghasilkan representasi tekstual gambar atau ringkasan tabel yang dapat digunakan sebagai gugus. Augmentasi model bahasa digunakan dengan pendekatan segmentasi lain seperti kode khusus.
Jika analisis dokumen Anda menentukan bahwa teks sebelum atau sesudah gambar membantu menjawab beberapa pertanyaan persyaratan, teruskan konteks tambahan ini ke model bahasa. Penting untuk bereksperimen untuk menentukan apakah konteks tambahan ini meningkatkan performa solusi Anda.
Jika logika potongan Anda membagi deskripsi gambar menjadi beberapa gugus, pastikan Anda menyertakan URL gambar di setiap gugus. Sertakan URL gambar di setiap gugus untuk memastikan bahwa metadata dikembalikan untuk semua kueri yang dilayani gambar. Langkah ini sangat penting untuk skenario di mana pengguna akhir perlu mengakses gambar sumber melalui URL tersebut atau menggunakan gambar mentah selama waktu inferensi.
Alat:Azure OpenAI, OpenAI
Upaya teknik: Sedang
Biaya pemrosesan: Tinggi
Kasus penggunaan: Gambar, tabel
Contoh: Membuat representasi teks tabel dan gambar, meringkas transkrip dari rapat, ucapan, wawancara, atau podcast
Analisis tata letak dokumen
Pustaka dan layanan analisis tata letak dokumen menggabungkan kemampuan pengenalan karakter optik dengan model pembelajaran mendalam untuk mengekstrak struktur dan teks dokumen. Elemen struktural dapat mencakup header, footer, judul, judul bagian, tabel, dan gambar. Tujuannya adalah untuk memberikan makna semantik yang lebih baik untuk konten yang terkandung dalam dokumen.
Pustaka dan layanan analisis tata letak dokumen mengekspos model yang mewakili konten struktural dan tekstual dokumen. Anda masih harus menulis kode yang berinteraksi dengan model.
Nota
Kecerdasan Dokumen adalah layanan berbasis cloud yang mengharuskan Anda mengunggah dokumen Anda. Anda perlu memastikan bahwa peraturan keamanan dan kepatuhan memungkinkan Anda mengunggah dokumen ke layanan tersebut.
Alat:Model analisis dokumen Kecerdasan Dokumen, Donat, Pengurai Tata Letak
Upaya teknik: Sedang
Biaya pemrosesan: Sedang
Kasus penggunaan: Dokumen semi terstruktur
Contoh: Artikel berita, halaman web, resume
Model bawaan
Layanan seperti Kecerdasan Dokumen menyediakan model bawaan yang dapat Anda manfaatkan untuk berbagai jenis dokumen. Beberapa model dilatih untuk jenis dokumen tertentu, seperti formulir pajak W-2 AS, sementara yang lain menargetkan genre jenis dokumen yang lebih luas seperti faktur.
Alat:Model bawaan Kecerdasan Dokumen, pemrosesan dokumen cerdas Power Automate, LayoutLMv3
Upaya teknik: Rendah
Biaya pemrosesan: Sedang/Tinggi
Kasus penggunaan: Dokumen terstruktur tempat model bawaan ada
Contoh spesifik: Faktur, tanda terima, kartu asuransi kesehatan, formulir W-2
Model kustom
Untuk dokumen yang sangat terstruktur di mana tidak ada model bawaan, Anda mungkin harus membangun model kustom. Pendekatan ini dapat efektif untuk gambar atau dokumen yang sangat terstruktur, yang membuat penggunaan teknik penguraian teks sulit.
Alat:Model kustom Kecerdasan Dokumen, Tesseract
Upaya teknik: Tinggi
Biaya pemrosesan: Sedang/Tinggi
Kasus penggunaan: Dokumen terstruktur di mana model bawaan tidak ada
Contoh: Jadwal perbaikan dan pemeliharaan otomotif, transkrip akademik, catatan, manual teknis, prosedur operasional, panduan pemeliharaan
Struktur dokumen
Dokumen bervariasi dalam jumlah struktur yang mereka miliki. Beberapa dokumen, seperti formulir pemerintah, memiliki struktur yang kompleks dan terkenal, seperti formulir pajak W-2 AS. Di ujung lain spektrum adalah dokumen yang tidak terstruktur seperti catatan bentuk bebas. Tingkat struktur dari jenis dokumen adalah titik awal yang baik untuk menentukan pendekatan segmentasi yang efektif. Meskipun tidak ada aturan khusus, bagian ini memberi Anda beberapa panduan untuk diikuti.
Dokumen terstruktur
Dokumen terstruktur, terkadang disebut sebagai dokumen format tetap, memiliki tata letak yang ditentukan. Data dalam dokumen ini terletak di lokasi tetap. Misalnya, tanggal, atau nama keluarga pelanggan, ditemukan di lokasi yang sama di setiap dokumen dengan format tetap yang sama. Contoh dokumen format tetap adalah dokumen pajak W-2 A.S.
Dokumen berformat tetap mungkin berupa gambar dokumen asli yang dipindai, diisi dengan pengisian tangan, atau memiliki struktur tata letak yang kompleks. Format ini membuatnya sulit diproses dengan menggunakan pendekatan penguraian teks dasar. Pendekatan umum untuk memproses struktur dokumen yang kompleks adalah menggunakan model pembelajaran mesin untuk mengekstrak data dan menerapkan makna semantik pada data tersebut, jika memungkinkan.
Contoh: Formulir W-2, kartu asuransi
Pendekatan umum: Model bawaan, model kustom
Dokumen yang Setengah Terstruktur
Dokumen semi terstruktur tidak memiliki format atau skema tetap, seperti formulir W-2, tetapi memberikan konsistensi mengenai format atau skema. Misalnya, semua faktur tidak ditata sama. Namun, mereka umumnya memiliki skema yang konsisten. Anda dapat mengharapkan faktur memiliki nomor faktur dan beberapa bentuk tagihan ke dan dikirim ke nama dan alamat, di antara data lainnya. Halaman web mungkin tidak memiliki konsistensi skema, tetapi memiliki elemen struktural atau tata letak yang serupa, seperti isi, judul, H1, dan p yang dapat menambahkan makna semantik ke teks di sekitarnya.
Seperti dokumen terstruktur, dokumen semi terstruktur yang memiliki struktur tata letak kompleks sulit diproses dengan menggunakan penguraian teks. Untuk jenis dokumen ini, model pembelajaran mesin adalah pendekatan yang baik. Ada model bawaan untuk domain tertentu yang memiliki skema konsisten seperti faktur, kontrak, atau dokumen asuransi kesehatan. Pertimbangkan untuk membangun model kustom untuk struktur kompleks di mana tidak ada model bawaan.
Contoh: Faktur, tanda terima, halaman web, file markdown
Pendekatan umum: Model analisis dokumen
Struktur yang disimpulkan
Beberapa dokumen memiliki struktur tetapi tidak ditulis dalam markup. Untuk dokumen-dokumen ini, struktur harus disimpulkan. Contoh yang baik adalah dokumen peraturan Uni Eropa berikut.
Karena Anda dapat dengan jelas memahami struktur dokumen, dan tidak ada model yang diketahui untuk dokumen tersebut, Anda dapat menentukan bahwa Anda dapat menulis kode kustom. Format dokumen seperti ini mungkin tidak menjamin upaya untuk membuat model kustom, tergantung pada jumlah dokumen yang berbeda dari jenis ini yang sedang Anda kerjakan. Misalnya, jika koleksi Anda berisi semua peraturan UE atau undang-undang negara bagian AS, model kustom mungkin merupakan pendekatan yang baik. Jika Anda bekerja dengan satu dokumen, seperti peraturan UE dalam contoh, kode kustom mungkin lebih hemat biaya.
Contoh: Dokumen hukum, skrip, spesifikasi manufaktur
Pendekatan umum: Kode kustom, model kustom
Dokumen yang tidak terstruktur
Pendekatan yang baik untuk dokumen yang memiliki sedikit atau tidak ada struktur adalah pendekatan berbasis kalimat, atau berbasis ukuran tetap dengan tumpang tindih.
Contoh: Konten yang dihasilkan pengguna seperti umpan balik terbuka dari survei, posting forum, ulasan, pesan email, catatan pribadi, catatan penelitian
Pendekatan umum: Berbasis kalimat atau berbasis batas dengan tumpang tindih
Eksperimen
Artikel ini menjelaskan pendekatan pemotongan yang paling cocok untuk setiap jenis dokumen, tetapi dalam praktiknya, salah satu pendekatan mungkin sesuai untuk jenis dokumen apa pun. Misalnya, penguraian berbasis kalimat mungkin sesuai untuk dokumen yang sangat terstruktur, atau model kustom mungkin sesuai untuk dokumen yang tidak terstruktur. Salah satu cara mengoptimalkan solusi RAG Anda adalah bereksperimen dengan berbagai pendekatan pemecahan. Pertimbangkan jumlah sumber daya yang Anda miliki, keterampilan teknis sumber daya Anda, dan volume dokumen yang harus Anda proses. Untuk mencapai strategi penggugusan yang optimal, amati keuntungan dan kompromi dari setiap pendekatan yang Anda uji untuk memastikan bahwa Anda memilih pendekatan yang sesuai untuk kasus penggunaan Anda.
Langkah berikutnya
Fase pengayaan gugus
Sumber daya terkait
- Memotong dokumen besar untuk solusi pencarian vektor di Azure AI Search
- Pemotongan dan penyematan data terintegrasi di Azure AI Search