Sekarang setelah Anda mengumpulkan dokumen dan kueri pengujian, dan melakukan analisis dokumen dalam fase persiapan, fase berikutnya adalah pemotongan. Memecah dokumen menjadi kumpulan gugus berukuran kanan, masing-masing berisi konten yang relevan secara semantik, adalah faktor kunci dalam keberhasilan implementasi Retrieval-Augmented Generation (RAG) Anda. Meneruskan seluruh dokumen atau potongan besar mahal, mungkin membangi batas token model, dan tidak menghasilkan hasil terbaik. Meneruskan informasi ke model bahasa besar yang tidak relevan dengan kueri dapat menyebabkan halusinasi. Anda perlu mengoptimalkan proses meneruskan informasi yang relevan dan menghapus informasi yang tidak relevan. Anda melakukan pengoptimalan ini dengan menggunakan strategi pemotongan dan pencarian yang efektif untuk meminimalkan positif palsu dan negatif palsu, dan memaksimalkan positif sejati dan negatif sejati.
Meneruskan potongan yang terlalu kecil dan tidak berisi konteks yang memadai untuk mengatasi kueri juga menyebabkan hasil yang buruk. Konteks relevan yang ada di beberapa gugus mungkin tidak ditangkap. Seni ini menerapkan pendekatan pemotongan yang efektif untuk jenis dokumen spesifik Anda dan struktur dan kontennya. Ada berbagai pendekatan pemotongan yang perlu dipertimbangkan, masing-masing dengan implikasi dan efektivitas biaya mereka sendiri, tergantung pada jenis dan struktur dokumen yang diterapkan.
Artikel ini menjelaskan berbagai pendekatan penggugusan, dan memeriksa bagaimana struktur dokumen Anda dapat memengaruhi pendekatan penggugusan yang Anda pilih.
Artikel ini adalah bagian dari beberapa seri. Baca pengantar.
Potongan ekonomi
Saat menentukan strategi pemotongan keseluruhan, Anda harus mempertimbangkan anggaran Anda bersama dengan persyaratan kualitas dan throughput untuk korpus dokumen Anda. Ada biaya rekayasa untuk desain dan implementasi setiap implementasi potongan unik dan biaya pemrosesan per dokumen yang berbeda tergantung pada pendekatan. Jika dokumen Anda telah disematkan atau ditautkan media, Anda harus mempertimbangkan ekonomi pemrosesan elemen-elemen tersebut. Untuk pemotongan, pemrosesan ini umumnya menggunakan model bahasa untuk menghasilkan deskripsi media, dan deskripsi tersebut kemudian dipotong. Pendekatan alternatif dengan beberapa media adalah meneruskannya apa adanya ke model multi-modal pada waktu inferensi, tetapi pendekatan itu tidak akan memengaruhi ekonomi potongan.
Bagian ini memeriksa ekonomi dari gambar potongan dan solusi keseluruhan.
Ekonomi potongan gambar
Ada biaya untuk menggunakan model bahasa untuk menghasilkan deskripsi gambar yang kemudian dipotong. Misalnya, layanan berbasis cloud seperti Azure OpenAI dikenakan biaya per transaksi dasar atau dengan basis provisi prabayar. Gambar yang lebih besar dikenakan biaya yang lebih besar. Melalui analisis dokumen, Anda harus menentukan gambar apa yang berharga untuk dipotong dan gambar apa yang harus Anda abaikan. Dari sana, Anda perlu memahami jumlah dan ukuran gambar dalam solusi Anda dan Anda harus menimbang nilai potongan deskripsi gambar terhadap biaya pembuatan deskripsi tersebut.
Salah satu cara untuk menentukan gambar apa yang akan diproses adalah dengan menggunakan layanan seperti Azure AI Vision untuk mengklasifikasikan gambar, menandai gambar, atau melakukan deteksi logo. Anda kemudian dapat menggunakan hasil dan indikator keyakinan untuk menentukan apakah gambar menambahkan nilai kontekstual yang bermakna dan harus diproses. Panggilan ke Azure AI Vision mungkin lebih murah daripada panggilan ke model bahasa, sehingga pendekatan ini dapat menyebabkan penghematan biaya. Anda perlu bereksperimen untuk menentukan tingkat keyakinan apa dan klasifikasi atau tag apa yang memberikan hasil terbaik untuk data Anda. Opsi lain adalah membangun model penggollong Anda sendiri. Anda perlu memperhitungkan biaya membangun, menghosting, dan memelihara model pengklasifikasi Anda sendiri.
Pengoptimalan biaya lainnya adalah penembolokan menggunakan pola cache-aside. Anda dapat menghasilkan kunci berdasarkan hash gambar. Sebagai langkah pertama, Anda dapat memeriksa untuk melihat apakah Anda memiliki hasil cache dari dokumen yang dijalankan sebelumnya atau yang diproses sebelumnya. Jika demikian, Anda dapat menggunakan hasil tersebut. Pendekatan itu mencegah Anda dari biaya panggilan pengklasifikasi atau model bahasa. Jika tidak ada cache, saat Anda memanggil pengklasifikasi atau model bahasa, Anda akan menyimpan hasilnya. Panggilan mendatang untuk gambar ini akan menggunakan cache.
Alur kerja sederhana yang mengintegrasikan semua proses pengoptimalan biaya ini adalah:
- Periksa untuk melihat apakah pemrosesan gambar di-cache. Jika demikian, gunakan hasil yang di-cache.
- Jalankan pengklasifikasi Anda untuk menentukan apakah Anda harus memproses gambar. Cache hasil klasifikasi. Hanya lanjutkan jika logika klasifikasi Anda memberi tahu Anda untuk melakukannya.
- Hasilkan deskripsi untuk gambar Anda. Cache hasilnya.
Ekonomi solusi keseluruhan
Berikut ini adalah faktor-faktor yang perlu dipertimbangkan saat melihat biaya solusi Anda secara keseluruhan:
- Jumlah implementasi potongan unik - Setiap implementasi unik memiliki biaya rekayasa dan pemeliharaan. Anda perlu mempertimbangkan jumlah jenis dokumen unik di korpus Anda dan biaya vs. pertukaran kualitas implementasi unik untuk masing-masing.
- Biaya per dokumen dari setiap implementasi - Beberapa pendekatan potongan dapat menyebabkan potongan kualitas yang lebih baik tetapi memiliki biaya keuangan dan temporal yang lebih tinggi untuk menghasilkan potongan-potongan tersebut. Misalnya, menggunakan model bawaan di Azure AI Document Intelligence kemungkinan memiliki biaya per dokumen yang lebih tinggi daripada implementasi penguraian teks murni, tetapi dapat menyebabkan gugus yang lebih baik.
- Jumlah dokumen awal - Jumlah dokumen awal yang perlu Anda proses untuk meluncurkan solusi Anda.
- Jumlah dokumen inkremental - Jumlah dan tingkat dokumen baru yang harus Anda proses untuk pemeliharaan sistem yang sedang berlangsung.
Memuat dan memotong
Secara logis, selama pemotongan, Anda harus terlebih dahulu memuat dokumen ke dalam memori dalam beberapa format. Kode penggugusan kemudian beroperasi terhadap representasi dalam memori dokumen. Anda dapat memilih untuk menggabungkan kode pemuatan dengan potongan, atau Anda dapat memisahkan pemuatan ke dalam fasenya sendiri. Pendekatan yang Anda pilih sebagian besar harus didasarkan pada batasan arsitektur dan preferensi Anda. Bagian ini secara singkat menjelajahi kedua opsi dan kemudian memberi Anda beberapa rekomendasi umum.
Pemuatan dan penggugusan terpisah
Ada beberapa alasan Anda dapat memilih untuk memisahkan fase pemuatan dan penggugusan. Anda mungkin ingin merangkum logika dalam kode pemuatan. Anda mungkin ingin mempertahankan hasil kode pemuatan sebelum memotong, terutama ketika bereksperimen dengan berbagai permutasi penggugusan untuk menghemat waktu atau biaya pemrosesan. Terakhir, Anda mungkin ingin menjalankan kode pemuatan dan penggugusan dalam proses terpisah karena alasan arsitektur seperti proses sekat atau segmentasi keamanan yang melibatkan penghapusan PII.
Merangkum logika dalam kode pemuatan
Anda dapat memilih untuk merangkum logika pra-pemrosesan dalam fase pemuatan. Hal ini menyederhanakan kode penggugusan karena tidak perlu melakukan pra-pemrosesan apa pun. Pra-pemrosesan bisa sesingkat menghapus atau menganotasi bagian dokumen yang Anda tentukan ingin Anda abaikan dalam analisis dokumen, seperti marka air, header, dan footer atau serumit memformat ulang dokumen. Berikut ini adalah beberapa contoh praproses yang mungkin Anda pilih untuk merangkum dalam fase pemuatan:
- Hapus atau anotasi item yang ingin Anda abaikan.
- Ganti referensi gambar dengan deskripsi gambar. Selama fase ini, Anda menggunakan LLM untuk menghasilkan deskripsi untuk gambar dan memperbarui dokumen dengan deskripsi tersebut. Jika Anda menentukan dalam analisis dokumen bahwa ada teks di sekitarnya yang menyediakan konteks berharga untuk gambar, teruskan itu, bersama dengan gambar, ke LLM.
- Unduh atau salin gambar ke penyimpanan file seperti Azure Data Lake untuk diproses secara terpisah dari teks dokumen. Jika Anda menentukan dalam analisis dokumen bahwa ada teks di sekitarnya yang menyediakan konteks berharga untuk gambar, Anda perlu menyimpan teks ini bersama dengan gambar dalam penyimpanan file.
- Format ulang tabel sehingga lebih mudah diproses.
Mempertahankan hasil kode pemuatan
Ada beberapa alasan yang mungkin Anda pilih untuk mempertahankan hasil kode pemuatan. Salah satu alasannya adalah jika Anda ingin kemampuan untuk memeriksa dokumen setelah dimuat dan diproses sebelumnya, tetapi sebelum logika penggugusan dijalankan. Alasan lain adalah Anda mungkin ingin menjalankan logika penggugusan yang berbeda terhadap kode yang telah diproses sebelumnya yang sama saat dalam pengembangan atau dalam produksi. Mempertahankan kode yang dimuat mempercepat proses ini.
Jalankan pemuatan dan penggugusan kode dalam proses terpisah
Memisahkan kode pemuatan dan penggugusan ke dalam proses terpisah membantu memungkinkan menjalankan beberapa implementasi penggugusan terhadap kode yang telah diproses yang sama. Pemisahan ini juga memungkinkan Anda menjalankan pemuatan dan penggugusan kode di lingkungan komputasi yang berbeda dan pada perangkat keras yang berbeda. Selanjutnya, desain ini memungkinkan Anda untuk menskalakan komputasi yang digunakan secara independen untuk memuat dan memotong.
Menggabungkan pemuatan dan penggugusan
Menggabungkan kode pemuatan dan penggugusan adalah implementasi yang lebih sederhana dalam banyak kasus. Banyak operasi yang mungkin Anda pertimbangkan untuk melakukan pra-pemrosesan dalam fase pemuatan terpisah dapat dicapai dalam fase penggugusan. Misalnya, alih-alih mengganti URL gambar dengan deskripsi dalam fase pemuatan, logika penggugusan dapat melakukan panggilan ke LLM untuk mendapatkan deskripsi teks dan memotong deskripsi.
Ketika Anda memiliki format dokumen seperti HTML yang memiliki tag dengan referensi ke gambar, Anda perlu memastikan bahwa pembaca atau pengurai yang digunakan kode penggugusan tidak menghapus tag. Kode penggugusan harus dapat mengidentifikasi referensi gambar.
Rekomendasi
Berikut ini adalah beberapa rekomendasi yang perlu dipertimbangkan saat menentukan apakah Anda menggabungkan atau memisahkan logika potongan Anda.
- Mulailah dengan menggabungkan logika pemuatan dan penggugusan. Pisahkan ketika solusi Anda memerlukannya.
- Hindari mengonversi dokumen ke format menengah jika Anda memilih untuk memisahkan proses. Operasi seperti itu bisa rugi.
Pendekatan pemotongan
Bagian ini memberi Anda gambaran umum tentang beberapa pendekatan potongan umum. Daftar ini tidak dimaksudkan untuk lengkap, melainkan beberapa pendekatan perwakilan umum. Anda dapat menggunakan beberapa pendekatan dalam implementasi, seperti menggabungkan penggunaan model bahasa besar untuk mendapatkan representasi teks gambar dengan banyak pendekatan yang tercantum.
Setiap pendekatan disertai dengan matriks pengambilan keputusan ringkasan yang menyoroti alat, biaya terkait, dan banyak lagi. Upaya rekayasa dan biaya pemrosesan bersifat subjektif dan disertakan untuk perbandingan relatif.
Penguraian berbasis kalimat
Pendekatan langsung ini memecah dokumen teks menjadi potongan-potongan yang terdiri dari kalimat lengkap. Manfaat dari pendekatan ini termasuk bahwa itu murah untuk diimplementasikan, memiliki biaya pemrosesan yang rendah, dan dapat diterapkan ke dokumen berbasis teks apa pun yang ditulis dalam prosa, atau kalimat lengkap. Tantangan dengan pendekatan ini adalah bahwa setiap gugus mungkin tidak menangkap konteks lengkap pemikiran atau makna. Seringkali, beberapa kalimat harus diambil bersama-sama untuk menangkap makna semantik.
Alat: Tokenizer kalimat SpaCy, pemisah teks rekursif LangChain, tokenizer kalimat NLTK
Upaya teknik: Rendah
Biaya pemrosesan: Rendah
Kasus penggunaan: Dokumen tidak terstruktur yang ditulis dalam prosa, atau kalimat lengkap, dan korpus dokumen Anda berisi sejumlah jenis dokumen yang dilarang untuk membangun strategi potongan individu untuk
Contoh: Konten yang dihasilkan pengguna seperti umpan balik terbuka dari survei, posting forum, ulasan, pesan email, novel, atau esai
Penguraian ukuran tetap (dengan tumpang tindih)
Pendekatan ini memecah dokumen menjadi potongan berdasarkan jumlah karakter atau token tetap dan memungkinkan beberapa tumpang tindih karakter di antara gugus. Pendekatan ini memiliki banyak kelebihan dan kekurangan yang sama dengan penguraian berbasis kalimat. Keuntungan pendekatan ini memiliki lebih dari penguraian berbasis kalimat adalah mungkin untuk mendapatkan potongan dengan arti semantik yang mencakup beberapa kalimat.
Anda harus memilih ukuran tetap gugus dan jumlah tumpang tindih. Karena hasilnya berbeda untuk berbagai jenis dokumen, yang terbaik adalah menggunakan alat seperti pengvisualisasi gugus HuggingFace untuk melakukan analisis eksploratif. Alat seperti ini memungkinkan Anda memvisualisasikan bagaimana dokumen Anda dipotong, mengingat keputusan Anda. Praktik terbaik untuk menggunakan token BERT atas jumlah karakter saat menggunakan penguraian berukuran tetap. Token BERT didasarkan pada unit bahasa yang bermakna, sehingga mempertahankan informasi yang lebih semantik daripada jumlah karakter.
Alat: Pemisah teks rekursif LangChain, memeluk visualizer gugus Wajah
Upaya teknik: Rendah
Biaya pemrosesan: Rendah
Kasus penggunaan: Dokumen tidak terstruktur yang ditulis dalam prosa atau non-prosa dengan kalimat lengkap atau tidak lengkap. Korpus dokumen Anda berisi sejumlah besar jenis dokumen yang berbeda untuk membangun strategi potongan individu untuk
Contoh: Konten yang dihasilkan pengguna seperti umpan balik terbuka dari survei, posting forum, ulasan, pesan email, catatan atau daftar pribadi, atau penelitian
Kode kustom
Pendekatan ini mengurai dokumen menggunakan kode kustom untuk membuat gugus. Pendekatan ini paling berhasil untuk dokumen berbasis teks di mana struktur diketahui atau dapat disimpulkan dan tingkat kontrol yang tinggi atas pembuatan gugus diperlukan. Anda dapat menggunakan teknik penguraian teks seperti ekspresi reguler untuk membuat gugus berdasarkan pola dalam struktur dokumen. Tujuannya adalah untuk membuat gugus yang memiliki ukuran serupa dalam panjang dan gugus yang memiliki konten berbeda. Banyak bahasa pemrograman memberikan dukungan untuk ekspresi reguler, dan beberapa memiliki pustaka atau paket yang menawarkan fitur manipulasi string yang lebih elegan.
Alat: Python (re, regex, BeautifulSoup, lxml, html5lib, marko), R (stringr, xml2), Julia (Gumbo.jl)
Upaya teknik: Sedang
Biaya pemrosesan: Rendah
Kasus penggunaan: Dokumen semi terstruktur di mana struktur dapat disimpulkan
Contoh: Pengajuan paten, makalah penelitian, kebijakan asuransi, skrip, dan skenario
Augmentasi model bahasa besar
Model bahasa besar dapat digunakan untuk membuat gugus. Kasus penggunaan umum adalah menggunakan model bahasa besar, seperti GPT-4, untuk menghasilkan representasi tekstual gambar atau ringkasan tabel yang dapat digunakan sebagai gugus. Augmentasi model bahasa besar digunakan dengan pendekatan potongan lain seperti kode kustom.
Jika Anda menentukan di bagian gambar dari bagian analisis dokumen yang teks sebelum atau sesudah gambar diperlukan untuk menjawab beberapa pertanyaan, Anda perlu meneruskan konteks tambahan ini ke model bahasa besar. Penting untuk bereksperimen untuk menentukan apakah konteks tambahan ini tidak atau tidak meningkatkan performa solusi Anda.
Jika logika potongan Anda membagi deskripsi gambar menjadi beberapa gugus, pastikan Anda menyertakan URL gambar di setiap gugus. Termasuk URL gambar di setiap gugus memastikan bahwa metadata dikembalikan untuk semua kueri yang dilayani gambar, terutama untuk skenario di mana pengguna akhir memerlukan kemampuan untuk mengakses gambar sumber melalui URL tersebut atau ingin menggunakan gambar mentah selama waktu inferensi.
Alat: Azure OpenAI, OpenAI
Upaya teknik: Sedang
Biaya pemrosesan: Tinggi
Kasus penggunaan: Gambar, tabel
Contoh: Menghasilkan representasi teks tabel, dan gambar, meringkas transkrip dari rapat, ucapan, wawancara, atau podcast
Analisis tata letak dokumen
Pustaka dan layanan analisis tata letak dokumen menggabungkan kemampuan pengenalan karakter optik (OCR) dengan model pembelajaran mendalam untuk mengekstrak struktur dokumen, dan teks. Elemen struktural dapat mencakup header, footer, judul, judul bagian, tabel, dan gambar. Tujuannya adalah untuk memberikan makna semantik yang lebih baik untuk konten yang terkandung dalam dokumen.
Pustaka dan layanan analisis tata letak dokumen mengekspos model yang mewakili konten, baik struktural maupun teks, dari dokumen. Anda masih harus menulis kode yang berinteraksi dengan model.
Catatan
Azure AI Document Intelligence adalah layanan berbasis cloud yang mengharuskan Anda mengunggah dokumen ke layanan. Anda perlu memastikan peraturan keamanan dan kepatuhan memungkinkan Anda mengunggah dokumen ke layanan seperti ini.
Alat: Model analisis dokumen Azure AI Document Intelligence, Donut, Layout Parser
Upaya teknik: Sedang
Biaya pemrosesan: Sedang
Kasus penggunaan: Dokumen semi terstruktur
Contoh: Artikel berita, halaman web, resume
Model bawaan
Ada layanan, seperti Kecerdasan Dokumen Azure AI, yang menawarkan model bawaan yang dapat Anda manfaatkan untuk berbagai jenis dokumen. Beberapa model dilatih untuk jenis dokumen tertentu, seperti formulir Pajak AS W-2, sementara yang lain menargetkan genre jenis dokumen yang lebih luas seperti faktur.
Alat: Model bawaan Kecerdasan Dokumen Azure AI, Pemrosesan Dokumen Cerdas Power Automate, LayoutLMv3
Upaya teknik: Rendah
Biaya pemrosesan: Sedang/Tinggi
Kasus penggunaan: Dokumen terstruktur tempat model bawaan ada
Contoh spesifik: Faktur, tanda terima, kartu asuransi kesehatan, formulir W-2
Model kustom
Untuk dokumen yang sangat terstruktur di mana tidak ada model bawaan, Anda mungkin harus membangun model kustom. Pendekatan ini dapat efektif untuk gambar atau dokumen yang sangat terstruktur, membuatnya sulit menggunakan teknik penguraian teks.
Alat: Model kustom Azure AI Document Intelligence, Tesseract
Upaya teknik: Tinggi
Biaya pemrosesan: Sedang/Tinggi
Kasus penggunaan: Dokumen terstruktur di mana model bawaan tidak ada
Contoh: Jadwal perbaikan dan pemeliharaan otomotif, transkrip akademik, dan catatan, manual teknis, prosedur operasional, panduan pemeliharaan
Struktur dokumen
Dokumen bervariasi dalam jumlah struktur yang mereka miliki. Beberapa dokumen, seperti formulir pemerintah memiliki struktur yang kompleks dan terkenal, seperti dokumen pajak W-2 AS. Di ujung lain spektrum adalah dokumen yang tidak terstruktur seperti catatan bentuk bebas. Tingkat struktur ke jenis dokumen adalah titik awal yang baik untuk menentukan pendekatan potongan yang efektif. Meskipun tidak ada aturan yang sulit dan cepat, bagian ini memberi Anda beberapa panduan untuk diikuti.
Gambar 1. Pendekatan pemotongan pas dengan struktur dokumen
Dokumen terstruktur
Dokumen terstruktur, terkadang disebut sebagai dokumen format tetap, memiliki tata letak yang ditentukan. Data dalam dokumen ini terletak di lokasi tetap. Misalnya, tanggal, atau nama keluarga pelanggan, ditemukan di lokasi yang sama di setiap dokumen dengan format tetap yang sama. Contoh dokumen format tetap adalah dokumen pajak W-2 A.S.
Dokumen format tetap mungkin dipindai gambar dokumen asli yang diisi tangan atau memiliki struktur tata letak yang kompleks, membuatnya sulit diproses dengan pendekatan penguraian teks dasar. Pendekatan umum untuk memproses struktur dokumen yang kompleks adalah menggunakan model pembelajaran mesin untuk mengekstrak data dan menerapkan makna semantik pada data tersebut, jika memungkinkan.
Contoh: Formulir W-2, Kartu asuransi
Pendekatan umum: Model bawaan, model kustom
Dokumen semi terstruktur
Dokumen semi-terstruktur tidak memiliki format atau skema tetap, seperti formulir W-2, tetapi dokumen tersebut menawarkan konsistensi mengenai format atau skema. Misalnya, semua faktur tidak ditata sama, namun, secara umum faktur memiliki skema yang konsisten. Anda dapat mengharapkan faktur memiliki invoice number
dan beberapa bentuk bill to
serta ship to
nama dan alamat, di antara data lainnya. Halaman web mungkin tidak memiliki konsistensi skema, tetapi memiliki elemen struktural atau tata letak yang serupa, seperti body
, , title
H1
, dan p
yang dapat digunakan untuk menambahkan makna semantik ke teks di sekitarnya.
Seperti dokumen terstruktur, dokumen semi terstruktur yang memiliki struktur tata letak kompleks sulit diproses dengan penguraian teks. Untuk jenis dokumen ini, model pembelajaran mesin adalah pendekatan yang baik. Ada model bawaan untuk domain tertentu yang memiliki skema konsisten seperti faktur, kontrak, atau asuransi kesehatan. Pertimbangkan untuk membangun model kustom untuk struktur kompleks di mana tidak ada model bawaan.
Contoh: Faktur, tanda terima, halaman web, file markdown
Pendekatan umum: Model analisis dokumen
Struktur yang disimpulkan
Beberapa dokumen memiliki struktur tetapi tidak ditulis dalam markup. Untuk dokumen-dokumen ini, struktur harus disimpulkan. Contoh yang baik adalah dokumen peraturan Uni Eropa berikut.
Gambar 2. Peraturan UE yang menunjukkan struktur yang disimpulkan
Karena Anda dapat dengan jelas memahami struktur dokumen, dan tidak ada model yang diketahui untuk dokumen tersebut, Anda dapat menentukan bahwa Anda dapat menulis kode kustom. Format dokumen seperti ini mungkin tidak menjamin upaya untuk membuat model kustom, tergantung pada jumlah dokumen yang berbeda dari jenis ini yang sedang Anda kerjakan. Misalnya, jika korpus Anda adalah semua peraturan UE atau undang-undang negara bagian AS, model kustom mungkin merupakan pendekatan yang baik. Jika Anda bekerja dengan satu dokumen, seperti peraturan UE dalam contoh, kode kustom mungkin lebih hemat biaya.
Contoh: Dokumen hukum, skrip, spesifikasi manufaktur
Pendekatan umum: Kode kustom, model kustom
Dokumen yang tidak terstruktur
Pendekatan yang baik untuk dokumen dengan sedikit atau tanpa struktur berbasis kalimat atau ukuran tetap dengan pendekatan tumpang tindih.
Contoh: Konten yang dihasilkan pengguna seperti umpan balik terbuka dari survei, posting forum, atau ulasan, pesan email, dan catatan pribadi atau penelitian
Pendekatan umum: Berbasis kalimat atau berbasis batas dengan tumpang tindih
Percobaan
Meskipun yang paling cocok untuk setiap pendekatan pemotongan tercantum, dalam praktiknya, salah satu pendekatan mungkin sesuai untuk jenis dokumen apa pun. Misalnya, penguraian berbasis kalimat mungkin sesuai untuk dokumen yang sangat terstruktur, atau model kustom mungkin sesuai untuk dokumen yang tidak terstruktur. Bagian dari mengoptimalkan solusi RAG Anda adalah bereksperimen dengan berbagai pendekatan penggugusan, dengan mempertimbangkan jumlah sumber daya yang Anda miliki, keterampilan teknis sumber daya Anda, dan volume dokumen yang harus Anda proses. Untuk mencapai strategi penggugusan yang optimal, Anda perlu mengamati keuntungan dan tradeoff dari setiap pendekatan yang Anda uji untuk memastikan Anda memilih pendekatan yang sesuai untuk kasus penggunaan Anda.