Düzenle

Aracılığıyla paylaş


Parçalama

Azure AI services
Azure AI Arama
Azure OpenAI Service
Azure Machine Learning

Artık test belgelerinizi ve sorgularınızı topladığınıza ve hazırlık aşamasında bir belge analizi gerçekleştirdiğinize göre, sonraki aşama öbeklemedir. Belgeleri doğru boyutlu, anlamlı olarak ilgili öbeklerden oluşan bir koleksiyona ayırmak, Alma Artırılmış Nesil (RAG) uygulamanızın başarısında önemli bir faktördür. Belgelerin tamamının veya büyük harfli öbeklerin geçirilmesi pahalıdır, modelin belirteç sınırlarını zorlayabilir ve en iyi sonuçları vermez. Bilgileri sorguyla ilgisiz büyük bir dil modeline geçirmek halüsinasyonlara yol açabilir. Belgenin hangi bölümlerinin ilgili olduğunu ve hangi bölümlerin ilgisiz olduğunu ve yoksayılması gerektiğini belirlemeniz gerekir.

Çok küçük olan ve sorguyu ele almak için yeterli bağlam içermeyen öbeklerin geçirilmesi de kötü sonuçlara yol açar. Birden çok öbek arasında var olan ilgili bağlam yakalanamayabilir. Bu resim, belirli belge türleriniz ve bunların yapıları ve içeriği için etkili öbekleme yaklaşımları uyguluyor. Uygulandıkları belgenin türüne ve yapısına bağlı olarak, her biri kendi maliyet etkilerine ve etkinliğine sahip olan, dikkate alınması gereken çeşitli öbekleme yaklaşımları vardır.

Bu makalede çeşitli öbekleme yaklaşımları açıklanır ve belgelerinizin yapısının seçtiğiniz öbekleme yaklaşımını nasıl etkilediği incelenebilir.

Bu makale, bir serinin bir parçasıdır. Tanıtımı okuyun.

Öbekleme ekonomisi

Genel öbekleme stratejinizi belirlerken, metin kuruluşunuz için kalite ve aktarım hızı gereksinimlerinizle birlikte bütçenizi de dikkate almanız gerekir. Her benzersiz öbekleme uygulamasının tasarımı ve uygulanması için mühendislik maliyetleri ve yaklaşıma bağlı olarak farklılık gösteren belge başına işleme maliyetleri vardır.

Genel çözümünüzün maliyetine bakarken göz önünde bulundurmanız gereken faktörler şunlardır:

  • Benzersiz öbek uygulama sayısı - Her benzersiz uygulamanın hem mühendislik hem de bakım maliyeti vardır. Corpus'unuzda benzersiz belge türlerinin sayısını ve her biri için benzersiz uygulamaların maliyet ve kalite dengelerini göz önünde bulundurmanız gerekir.
  • Her uygulamanın belge başına maliyeti - Bazı öbekleme yaklaşımları daha kaliteli öbeklere yol açabilir, ancak bu öbekleri oluşturmak için daha yüksek finansal ve zamansal maliyete sahip olabilir. Örneğin, Azure AI Belge Zekası'nda önceden oluşturulmuş bir model kullanmanın belge başına maliyeti büyük olasılıkla saf metin ayrıştırma uygulamasından daha yüksektir, ancak daha iyi öbeklere yol açabilir.
  • İlk belge sayısı - Çözümünüzü başlatmak için işlemeniz gereken ilk belge sayısı.
  • Artımlı belge sayısı - Sistemin sürekli bakımı için işlemeniz gereken yeni belgelerin sayısı ve oranı.

Öbekleme yaklaşımları

Bu bölüm, bazı yaygın öbekleme yaklaşımlarına genel bir bakış sağlar. Bu liste, bazı ortak temsil yaklaşımları yerine kapsamlı olması amaçlanmamıştır. Uygulamada, bir görüntünün metin gösterimini almak için büyük dil modelinin kullanımını bir araya getirerek listelenen yaklaşımların birçoğuyla birlikte birden çok yaklaşım kullanabilirsiniz.

Her yaklaşıma araçları, ilişkili maliyetleri ve daha fazlasını vurgulayan özetlenmiş bir karar verme matrisi eşlik eder. Mühendislik çalışmaları ve işleme maliyetleri özneldir ve göreli karşılaştırma için dahil edilir.

Cümle tabanlı ayrıştırma

Bu basit yaklaşım, metin belgelerini tümcelerden oluşan öbeklere ayırır. Bu yaklaşımın avantajları, uygulamanın uygun maliyetli olması, düşük işleme maliyetine sahip olması ve düz yazı veya tüm cümlelerle yazılmış herhangi bir metin tabanlı belgeye uygulanabilmesidir. Bu yaklaşımın bir zorluğu, her öbek bir düşüncenin veya anlamın tam bağlamını yakalamayabilir. Anlamsal anlamı yakalamak için genellikle birden çok cümlenin bir araya alınması gerekir.

Araçlar: SpaCy cümle belirteci, LangChain özyinelemeli metin bölücü, NLTK cümle belirteci
Mühendislik çalışması: Düşük
İşleme maliyeti: Düşük
Kullanım örnekleri: Prose veya tam cümlelerle yazılmış yapılandırılmamış belgeler ve belgeleriniz için ayrı ayrı öbekleme stratejileri oluşturmak için yasaklayıcı sayıda farklı belge türü içeriyor
Örnekler: Anketlerden, forum gönderilerinden, incelemelerden, e-posta iletilerinden, bir romandan veya denemeden gelen açık uçlu geri bildirim gibi kullanıcı tarafından oluşturulan içerik

Sabit boyutlu ayrıştırma (örtüşme ile)

Bu yaklaşım, bir belgeyi sabit sayıda karakter veya belirteç temelinde öbeklere ayırır ve öbekler arasında bazı karakterlerin çakışmasına olanak tanır. Bu yaklaşım, cümle tabanlı ayrıştırma ile aynı avantaj ve dezavantajlara sahiptir. Bu yaklaşımın cümle tabanlı ayrıştırmaya kıyasla sağladığı avantajlardan biri, birden çok cümleyi kapsayan anlamsal anlamı olan öbekler elde etmek mümkündür.

Öbeklerin sabit boyutunu ve çakışma miktarını seçmeniz gerekir. Sonuçlar farklı belge türleri için farklı olduğundan, keşif analizi yapmak için HuggingFace öbek görselleştiricisi gibi bir araç kullanmak en iyisidir. Bunun gibi araçlar, kararlarınız göz önünde bulundurulduğunda belgelerinizin nasıl öbeklendiğini görselleştirmenize olanak sağlar. Sabit boyutlu ayrıştırma kullanılırken karakter sayıları üzerinden BERT belirteçleri kullanmak en iyi yöntemdir. BERT belirteçleri anlamlı dil birimlerini temel alır, bu nedenle karakter sayılarından daha fazla anlam bilgisi korur.

Araçlar: LangChain özyinelemeli metin bölücü, Yüz öbek görselleştiricisini kucaklama
Mühendislik çalışması: Düşük
İşleme maliyeti: Düşük
Kullanım örnekleri: Tam veya tamamlanmamış cümlelerle, prose veya prose olmayan yazılmış yapılandırılmamış belgeler. Belge kuruluşunuz için ayrı ayrı öbekleme stratejileri oluşturmak için yasaklayıcı sayıda farklı belge türü içeriyor
Örnekler: Anketlerden, forum gönderilerinden, incelemelerden, e-posta iletilerinden, kişisel veya araştırma notlarından veya listelerinden gelen açık uçlu geri bildirim gibi kullanıcı tarafından oluşturulan içerik

Özel kod

Bu yaklaşım, öbek oluşturmak için özel kod kullanarak belgeleri ayrıştırıyor. Bu yaklaşım, yapının bilindiği veya çıkarılabildiği ve öbek oluşturma üzerinde yüksek düzeyde denetim gerektiren metin tabanlı belgeler için en başarılı yöntemdir. Belgenin yapısındaki desenleri temel alan öbekler oluşturmak için normal ifadeler gibi metin ayrıştırma tekniklerini kullanabilirsiniz. Amaç, uzunluğu benzer olan öbekler ve ayrı içeriğe sahip öbekler oluşturmaktır. Birçok programlama dili normal ifadeler için destek sağlar ve bazılarında daha zarif dize işleme özellikleri sunan kitaplıklar veya paketler vardır.

Araçlar: Python (re, regex, BeautifulSoup, lxml, html5lib, marko), R (stringr, xml2), Julia (Gumbo.jl)
Mühendislik çalışması: Orta
İşleme maliyeti: Düşük
Kullanım örnekleri: Yapının çıkarılabildiği yarı yapılandırılmış belgeler
Örnekler: Patent belgeleri, araştırma belgeleri, sigorta poliçeleri, betikler ve senaryolar

Büyük dil modeli artırma

Öbek oluşturmak için büyük dil modelleri kullanılabilir. Yaygın kullanım örnekleri, öbek olarak kullanılabilecek görüntülerin metinsel gösterimlerini veya tabloların özetlerini oluşturmak için GPT-4 gibi büyük bir dil modeli kullanmaktır. Büyük dil modeli artırma, özel kod gibi diğer öbekleme yaklaşımlarıyla birlikte kullanılır.

Araçlar: Azure OpenAI, OpenAI
Mühendislik çalışması: Orta
İşleme maliyeti: Yüksek
Kullanım örnekleri: Görüntüler, tablolar
Örnekler: Tabloların ve resimlerin metin gösterimlerini oluşturma, toplantılardan, konuşmalardan, görüşmelerden veya pod yayınlarından dökümleri özetleme

Belge düzeni analizi

Belge düzeni çözümleme kitaplıkları ve hizmetleri, hem belge yapısını hem de metni ayıklamak için optik karakter tanıma (OCR) özelliklerini derin öğrenme modelleriyle birleştirir. Yapısal öğeler üst bilgileri, alt bilgileri, başlıkları, bölüm başlıklarını, tabloları ve şekilleri içerebilir. Amaç, belgelerde yer alan içeriğe daha iyi anlam ifade etmektir.

Belge düzeni çözümleme kitaplıkları ve hizmetleri, belgenin hem yapısal hem de metin içeriğini temsil eden bir modeli kullanıma sunar. Yine de modelle etkileşim kuran bir kod yazmanız gerekir.

Not

Azure AI Document Intelligence, belgenizi hizmete yüklemenizi gerektiren bulut tabanlı bir hizmettir. Güvenlik ve uyumluluk düzenlemelerinizin belgeleri bu gibi hizmetlere yüklemenize izin olduğundan emin olmanız gerekir.

Araçlar: Azure AI Belge Zekası belge analizi modelleri, Halka, Düzen Ayrıştırıcısı
Mühendislik çalışması: Orta
İşleme maliyeti: Orta
Kullanım örnekleri: Yarı yapılandırılmış belgeler
Örnekler: Haber makaleleri, web sayfaları, özgeçmişler

Önceden oluşturulmuş model

Çeşitli belge türleri için yararlanabileceğiniz önceden oluşturulmuş modeller sunan Azure AI Belge Zekası gibi hizmetler vardır. Bazı modeller ABD Vergisi W-2 formu gibi belirli belge türleri için eğitilirken, diğerleri fatura gibi daha geniş bir türdeki belge türlerini hedefler.

Araçlar: Azure AI Belge Zekası önceden oluşturulmuş modeller, Power Automate Akıllı Belge İşleme, LayoutLMv3
Mühendislik çalışması: Düşük
İşleme maliyeti: Orta/Yüksek
Kullanım örnekleri: Önceden oluşturulmuş bir modelin bulunduğu yapılandırılmış belgeler
Belirli örnekler: Faturalar, makbuzlar, sağlık sigortası kartı, W-2 formu

Özel model

Önceden oluşturulmuş modelin bulunmadığı yüksek oranda yapılandırılmış belgeler için özel bir model oluşturmanız gerekebilir. Bu yaklaşım, yüksek oranda yapılandırılmış resimler veya belgeler için etkili olabilir ve bu da metin ayrıştırma tekniklerinin kullanılmasını zorlaştırabilir.

Araçlar: Azure AI Belge Zekası özel modelleri, Tesseract
Mühendislik çalışması: Yüksek
İşleme maliyeti: Orta/Yüksek
Kullanım örnekleri: Önceden oluşturulmuş bir modelin mevcut olmadığı yapılandırılmış belgeler
Örnekler: Otomotiv onarım ve bakım zamanlamaları, akademik transkriptler ve kayıtlar, teknik kılavuzlar, operasyonel prosedürler, bakım yönergeleri

Belge yapısı

Belgeler, sahip oldukları yapı miktarına göre farklılık gösterir. Kamu formları gibi bazı belgeler W-2 ABD vergi belgesi gibi karmaşık ve iyi bilinen bir yapıya sahiptir. Spektrumun diğer ucunda serbest biçimli notlar gibi yapılandırılmamış belgeler bulunur. Belge türünün yapı derecesi, etkili bir öbekleme yaklaşımını belirlemek için iyi bir başlangıç noktasıdır. Sabit ve hızlı kurallar olmasa da, bu bölüm size uymanız gereken bazı yönergeler sağlar.

Belge yapısına göre öbekleme yaklaşımlarını gösteren diyagram.

Şekil 1. Öbekleme yaklaşımı belge yapısına uygun

Yapılandırılmış belgeler

Bazen sabit biçimli belgeler olarak da adlandırılan yapılandırılmış belgeler, tanımlı düzenlere sahiptir. Bu belgelerdeki veriler sabit konumlarda bulunur. Örneğin, tarih veya müşteri soyadı, aynı sabit biçimdeki her belgede aynı konumda bulunur. W-2 ABD vergi belgesi, sabit biçimli belgelere örnek olarak verilebilir.

Sabit biçimli belgeler, el ile doldurulmuş veya karmaşık düzen yapılarına sahip özgün belgelerin taranmış görüntüleri olabilir ve bu da temel metin ayrıştırma yaklaşımıyla işlenmesini zorlaştırabilir. Karmaşık belge yapılarını işlemeye yaygın bir yaklaşım, makine öğrenmesi modellerini kullanarak verileri ayıklamak ve mümkün olduğunca bu verilere anlamsal anlam uygulamaktır.

Örnekler: W-2 formu, Sigorta kartı
Yaygın yaklaşımlar: Önceden oluşturulmuş modeller, özel modeller

Yarı yapılandırılmış belgeler

Yarı yapılandırılmış belgelerin W-2 formu gibi sabit bir biçimi veya şeması yoktur, ancak biçim veya şemayla ilgili tutarlılık sunarlar. Örneğin, tüm faturalar aynı şekilde düzenlenmemiştir, ancak genel olarak tutarlı bir şemaya sahiptir. Bir faturanın, diğer veriler arasında bir invoice number ve bir tür bill to ile ship to ad ve adrese sahip olmasını bekleyebilirsiniz. Web sayfasının şema tutarlılıkları olmayabilir, ancak çevresindeki metne anlamsal anlam eklemek için kullanılabilen , title, H1ve p gibi bodybenzer yapısal veya düzen öğelerine sahiptir.

Yapılandırılmış belgeler gibi, karmaşık düzen yapılarına sahip yarı yapılandırılmış belgelerin de metin ayrıştırma ile işlenmesi zordur. Bu belge türleri için makine öğrenmesi modelleri iyi bir yaklaşımdır. Faturalar, sözleşmeler veya sağlık sigortası gibi tutarlı şemalara sahip belirli etki alanları için önceden oluşturulmuş modeller vardır. Önceden oluşturulmuş modelin olmadığı karmaşık yapılar için özel modeller oluşturmayı göz önünde bulundurun.

Örnekler: Faturalar, makbuzlar, web sayfaları, markdown dosyaları
Yaygın yaklaşımlar: Belge çözümleme modelleri

Çıkarsanan yapı

Bazı belgelerin bir yapısı vardır ancak işaretlemeyle yazılamaz. Bu belgeler için yapı çıkarılmalıdır. Aşağıdaki AB düzenleme belgesi iyi bir örnektir.

Çıkarsanan yapıya sahip bir belgenin örneği olarak AB düzenlemesini gösteren diyagram.

Şekil 2. Çıkarım yapılan bir yapıyı gösteren AB yönetmeliği

Belgenin yapısını net bir şekilde anlayabileceğinizden ve belge için bilinen bir model olmadığından, özel kod yazabileceğinizi belirleyebilirsiniz. Bunun gibi bir belge biçimi, üzerinde çalıştığınız bu türdeki farklı belgelerin sayısına bağlı olarak özel model oluşturma çabasını garanti etmeyebilir. Örneğin, corpus'unuz tüm AB düzenlemeleri veya ABD eyalet yasalarıysa, özel bir model iyi bir yaklaşım olabilir. Örnekteki AB düzenlemesi gibi tek bir belgeyle çalışıyorsanız özel kod daha uygun maliyetli olabilir.

Örnekler: Hukuk belgeleri, betikler, üretim belirtimleri
Yaygın yaklaşımlar: Özel kod, özel modeller

Yapılandırılmamış belgeler

Yapısı çok az veya hiç olmayan belgeler için iyi bir yaklaşım, örtüşme yaklaşımlarıyla cümle tabanlı veya sabit boyutlu olabilir.

Örnekler: Anketlerden, forum gönderilerinden veya incelemelerden, e-posta iletilerinden ve kişisel veya araştırma notlarından gelen açık uçlu geri bildirim gibi kullanıcı tarafından oluşturulan içerik
Yaygın yaklaşımlar: Tümce tabanlı veya çakışmalı sınır tabanlı

Deneme

Öbekleme yaklaşımının her biri için en uygun olan listelenmiş olsa da, pratikte yaklaşımlardan herhangi biri herhangi bir belge türü için uygun olabilir. Örneğin, son derece yapılandırılmış belgeler için cümle tabanlı ayrıştırma uygun olabilir veya yapılandırılmamış belgeler için özel bir model uygun olabilir. RAG çözümünüzü iyileştirmenin bir parçası, sahip olduğunuz kaynak sayısını, kaynaklarınızın teknik becerisini ve işlemeniz gereken belge hacmini dikkate alarak çeşitli öbekleme yaklaşımlarıyla denemeler yapmak olacaktır. En uygun öbekleme stratejisini elde etmek için, kullanım örneğiniz için uygun yaklaşımı seçtiğinizden emin olmak için test ettiğiniz her yaklaşımın avantajlarını ve dezavantajlarını gözlemlemeniz gerekir.

Sonraki adımlar