التقسيم

Azure AI services
Azure الذكاء الاصطناعي Search
Azure OpenAI Service
Azure Machine Learning

الآن بعد أن جمعت مستندات الاختبار والاستعلامات الخاصة بك، وقمت بتحليل مستند في مرحلة الإعداد، فإن المرحلة التالية هي التقسيم. يعد تقسيم المستندات إلى مجموعة من المجموعات ذات الحجم الصحيح، والتي تحتوي كل منها على محتوى ذي صلة دلالية، عاملا رئيسيا في نجاح تنفيذ Retrieval-Augmented Generation (RAG). يعد تمرير مستندات كاملة أو مجموعات كبيرة الحجم أمرا مكلفا، وقد يطغى على حدود الرمز المميز للنموذج، ولا ينتج عنه أفضل النتائج. يمكن أن يؤدي تمرير المعلومات إلى نموذج لغة كبير غير ذي صلة بالاستعلام إلى هلوسات. تحتاج إلى تحسين عملية تمرير المعلومات ذات الصلة وإزالة المعلومات غير ذات الصلة. يمكنك القيام بهذا التحسين باستخدام مجموعات فعالة واستراتيجيات البحث لتقليل الإيجابيات الزائفة والسلبيات الكاذبة، وزيادة الإيجابيات الحقيقية والسلبيات الحقيقية إلى أقصى حد.

يؤدي تمرير مجموعات صغيرة جدا ولا تحتوي على سياق كاف لمعالجة الاستعلام أيضا إلى نتائج ضعيفة. قد لا يتم التقاط السياق ذي الصلة الموجود عبر مجموعات متعددة. يقوم الفن بتنفيذ نهج تقسيم فعالة لنوع المستندات الخاصة بك وبنياتها ومحتواها. هناك نهج تقسيم مختلفة يجب مراعاتها، ولكل منها آثارها وفعاليتها من حيث التكلفة، اعتمادا على نوع المستند الذي يتم تطبيقه عليه وهيكله.

توضح هذه المقالة أساليب التقسيم المختلفة، وتدرس كيف يمكن أن تؤثر بنية مستنداتك على نهج التقسيم الذي تختاره.

هذا المقال جزء من سلسلة. اقرأ المقدمة.

تقسيم الاقتصاد

عند تحديد استراتيجية التقسيم الإجمالية، يجب مراعاة ميزانيتك إلى جانب متطلبات الجودة ومعدل النقل لمجموعة المستندات. هناك تكاليف هندسية لتصميم وتنفيذ كل تنفيذ مجموعة فريدة وتكاليف المعالجة لكل مستند تختلف اعتمادا على النهج. إذا كانت مستنداتك تحتوي على وسائط مضمنة أو مرتبطة، فيجب مراعاة اقتصاديات معالجة هذه العناصر. بالنسبة إلى التقسيم، تستخدم هذه المعالجة بشكل عام نماذج اللغة لإنشاء أوصاف للوسائط، ثم يتم تقسيم هذه الأوصاف. والنهج البديل مع بعض وسائل الإعلام هو تمريرها كما هي إلى نموذج متعدد الوسائط في وقت الاستدلال، ولكن هذا النهج لن يؤثر على اقتصاديات التقسيم.

يفحص هذا القسم اقتصاديات كل من الصور المقسمة والحل الشامل.

اقتصاديات تقسيم الصور

هناك تكلفة لاستخدام نموذج لغة لإنشاء وصف للصورة التي يتم تقسيمها بعد ذلك. على سبيل المثال، الخدمات المستندة إلى السحابة مثل Azure OpenAI إما أن تفرض رسوما على أساس كل معاملة أساسية أو على أساس توفير مدفوع مسبقا. تتكبد الصور الأكبر تكلفة أكبر. من خلال تحليل المستند، يجب عليك تحديد الصور القيمة التي يجب تقسيمها والصور التي يجب تجاهلها. من هناك، تحتاج إلى فهم عدد الصور وأحجامها في الحل الخاص بك ويجب أن تزن قيمة تقسيم أوصاف الصور مقابل تكلفة إنشاء هذه الأوصاف.

إحدى الطرق لتحديد الصور التي يجب معالجتها هي استخدام خدمة مثل Azure الذكاء الاصطناعي Vision لتصنيف الصور أو وضع علامة على الصور أو القيام بالكشف عن الشعار. يمكنك بعد ذلك استخدام مؤشرات النتائج والثقة لتحديد ما إذا كانت الصورة تضيف قيمة سياقية ذات معنى ويجب معالجتها. قد تكون المكالمات إلى Azure الذكاء الاصطناعي Vision أقل تكلفة من المكالمات إلى نماذج اللغة، لذلك يمكن أن يؤدي هذا النهج إلى توفير التكاليف. تحتاج إلى التجربة لتحديد مستويات الثقة والتصنيفات أو العلامات التي توفر أفضل النتائج لبياناتك. خيار آخر هو بناء نموذج المصنف الخاص بك. تحتاج إلى مراعاة تكاليف بناء نموذج المصنف الخاص بك واستضافته وصيانته.

تحسين التكلفة آخر هو التخزين المؤقت باستخدام نمط ذاكرة التخزين المؤقت المصاحبة. يمكنك إنشاء مفتاح استنادا إلى تجزئة الصورة. كخطوة أولى، يمكنك التحقق لمعرفة ما إذا كان لديك نتيجة مخزنة مؤقتا من تشغيل سابق أو مستند تمت معالجته مسبقا. إذا قمت بذلك، يمكنك استخدام هذه النتيجة. هذا النهج يمنعك من تكاليف استدعاء مصنف أو نموذج لغة. إذا لم يكن هناك ذاكرة تخزين مؤقت، عند استدعاء المصنف أو نموذج اللغة، يمكنك تخزين النتيجة مؤقتا. ستستخدم الاستدعاءات المستقبلية لهذه الصورة ذاكرة التخزين المؤقت.

سيكون سير العمل البسيط الذي يدمج جميع عمليات تحسين التكلفة هذه:

  1. تحقق لمعرفة ما إذا كانت معالجة الصور مخزنة مؤقتا. إذا كان الأمر كذلك، فاستخدم النتائج المخزنة مؤقتا.
  2. قم بتشغيل المصنف لتحديد ما إذا كان يجب عليك معالجة الصورة. تخزين نتيجة التصنيف مؤقتا. تابع فقط إذا كان منطق التصنيف الخاص بك يخبرك بذلك.
  3. إنشاء وصف للصورة. تخزين النتيجة مؤقتا.

اقتصاديات الحل الشامل

فيما يلي عوامل يجب مراعاتها عند النظر في تكلفة الحل الشامل:

  • عدد عمليات تنفيذ التقسيم الفريدة - كل تنفيذ فريد له تكلفة هندسية وصيانة. تحتاج إلى النظر في عدد أنواع المستندات الفريدة في المجموعة الخاصة بك والمفاضلات التكلفة مقابل الجودة للتطبيقات الفريدة لكل منها.
  • التكلفة لكل مستند لكل تنفيذ - قد تؤدي بعض نهج التقسيم إلى مجموعات ذات جودة أفضل ولكن لها تكلفة مالية وزمنية أعلى لتوليد تلك المجموعات. على سبيل المثال، من المحتمل أن يكون استخدام نموذج تم إنشاؤه مسبقا في Azure الذكاء الاصطناعي Document Intelligence تكلفة أعلى لكل مستند من تنفيذ تحليل النص النقي، ولكنه قد يؤدي إلى مجموعات أفضل.
  • عدد المستندات الأولية - عدد المستندات الأولية التي تحتاج إلى معالجتها لتشغيل الحل الخاص بك.
  • عدد المستندات التزايدية - عدد المستندات الجديدة التي يجب معالجتها للصيانة المستمرة للنظام ومعدلها.

التحميل والتقسيم

منطقيا، أثناء التقسيم، يجب أولا تحميل المستند في الذاكرة بتنسيق ما. ثم تعمل التعليمات البرمجية للتقسيم مقابل التمثيل في الذاكرة للمستند. يمكنك اختيار دمج رمز التحميل مع التقسيم، أو يمكنك فصل التحميل إلى مرحلته الخاصة. يجب أن يستند النهج الذي تختاره إلى حد كبير إلى القيود المعمارية وتفضيلاتك. يستكشف هذا القسم بإيجاز كلا الخيارين ثم يوفر لك بعض التوصيات العامة.

تحميل منفصل وتقسيم

هناك عدة أسباب قد تختارها لفصل مرحلتي التحميل والتقسيم. قد تحتاج إلى تغليف المنطق في رمز التحميل. قد ترغب في الاحتفاظ بنتيجة رمز التحميل قبل التقسيم، خاصة عند تجربة التقسيمات المختلفة لتوفير وقت المعالجة أو التكلفة. وأخيرا، قد تحتاج إلى تشغيل التعليمات البرمجية للتحميل والتقسيم في عمليات منفصلة لأسباب معمارية مثل تجميع العمليات أو تجزئة الأمان التي تتضمن إزالة PII.

تغليف المنطق في رمز التحميل

قد تختار تغليف منطق المعالجة المسبقة في مرحلة التحميل. هذا يبسط التعليمات البرمجية للتقسيم لأنه لا يحتاج إلى القيام بأي معالجة مسبقة. يمكن أن تكون المعالجة المسبقة بسيطة مثل إزالة أجزاء من المستند أو إضافة تعليقات توضيحية إليها التي حددت أنك تريد تجاهلها في تحليل المستند، مثل العلامات المائية والرؤوس والتذييلات أو معقدة مثل إعادة تنسيق المستند. فيما يلي بعض الأمثلة على المعالجة المسبقة التي قد تختار تغليفها في مرحلة التحميل:

  • قم بإزالة العناصر التي تريد تجاهلها أو إضافة تعليق توضيحي إليها.
  • استبدل مراجع الصور بأوصاف الصور. أثناء هذه المرحلة، يمكنك استخدام LLM لإنشاء وصف للصورة وتحديث المستند بهذا الوصف. إذا حددت في تحليل المستند أن هناك نصا محيطا يوفر سياقا قيما للصورة، فمرر ذلك، إلى جانب الصورة، إلى LLM.
  • قم بتنزيل الصور أو نسخها إلى تخزين الملفات مثل Azure Data Lake ليتم معالجتها بشكل منفصل عن نص المستند. إذا حددت في تحليل المستند أن هناك نصا محيطا يوفر سياقا قيما للصورة، فستحتاج إلى تخزين هذا النص مع الصورة في تخزين الملفات.
  • أعد تنسيق الجداول بحيث تتم معالجتها بسهولة أكبر.

استمرار نتيجة تحميل التعليمات البرمجية

هناك أسباب متعددة قد تختارها للاستمرار في نتيجة رمز التحميل. أحد الأسباب هو إذا كنت تريد القدرة على فحص المستندات بعد تحميلها ومعالجتها مسبقا، ولكن قبل تشغيل منطق التقسيم. سبب آخر هو أنك قد ترغب في تشغيل منطق تقسيم مختلف مقابل نفس التعليمات البرمجية المعالجة مسبقا أثناء التطوير أو في الإنتاج. يؤدي استمرار التعليمات البرمجية المحملة إلى تسريع هذه العملية.

تشغيل التعليمات البرمجية للتحميل والتقسيم في عمليات منفصلة

يساعد فصل التعليمات البرمجية للتحميل والتقسيم إلى عمليات منفصلة على تمكين تشغيل تطبيقات تقسيم متعددة مقابل نفس التعليمات البرمجية المعالجة مسبقا. يسمح لك هذا الفصل أيضا بتشغيل التعليمات البرمجية للتحميل والتقسيم في بيئات حساب مختلفة وعلى أجهزة مختلفة. علاوة على ذلك، يسمح لك هذا التصميم بتحجيم الحساب المستخدم للتحميل والتقسيم بشكل مستقل.

الجمع بين التحميل والتقسيم

يعد الجمع بين التعليمات البرمجية للتحميل والتقسيم تنفيذا أبسط في معظم الحالات. يمكن إنجاز العديد من العمليات التي قد تفكر في القيام بها في المعالجة المسبقة في مرحلة تحميل منفصلة في مرحلة التقسيم. على سبيل المثال، بدلا من استبدال عناوين URL للصور بوصف في مرحلة التحميل، يمكن لمنطق التقسيم إجراء مكالمات إلى LLM للحصول على وصف نصي وتقسيم الوصف.

عندما يكون لديك تنسيقات مستندات مثل HTML تحتوي على علامات مع مراجع للصور، تحتاج إلى التأكد من أن القارئ أو المحلل الذي تستخدمه التعليمات البرمجية للتقسيم لا يقوم بتجريد العلامات. يجب أن تكون التعليمات البرمجية للتقسيم قادرة على تحديد مراجع الصور.

التوصيات

فيما يلي بعض التوصيات التي يجب مراعاتها عند تحديد ما إذا كنت تقوم بدمج منطق التقسيم أو فصله.

  • ابدأ بالجمع بين منطق التحميل والتقسيم. افصلهما عندما يتطلب الحل الخاص بك ذلك.
  • تجنب تحويل المستندات إلى تنسيق وسيط إذا اخترت فصل العمليات. يمكن أن تكون عمليات مثل تلك خسارة.

نهج التقسيم

يوفر لك هذا القسم نظرة عامة على بعض نهج التقسيم الشائعة. لا يقصد بهذه القائمة أن تكون شاملة، بل بعض النهج التمثيلية الشائعة. يمكنك استخدام نهج متعددة في التنفيذ، مثل الجمع بين استخدام نموذج لغة كبير للحصول على تمثيل نصي لصورة مع العديد من الأساليب المدرجة.

ويصاحب كل نهج مصفوفة ملخصة لصنع القرار تسلط الضوء على الأدوات والتكاليف المرتبطة بها والمزيد. الجهد الهندسي وتكاليف المعالجة ذاتية ويتم تضمينها للمقارنة النسبية.

التحليل المستند إلى الجملة

يقسم هذا النهج المباشر المستندات النصية إلى مجموعات تتكون من جمل كاملة. وتشمل فوائد هذا النهج أنه غير مكلف للتنفيذ، وله تكلفة معالجة منخفضة، ويمكن تطبيقه على أي مستند نصي مكتوب بالنثر أو الجمل الكاملة. يتمثل التحدي في هذا النهج في أن كل مجموعة قد لا تلتقط السياق الكامل لفكر أو معنى. في كثير من الأحيان، يجب أخذ جمل متعددة معا لالتقاط المعنى الدلالي.

الأدوات: SpaCy sentence tokenizer, LangChain recursive text splitter, NLTK sentence tokenizer
الجهد الهندسي: منخفض
تكلفة المعالجة: منخفضة
حالات الاستخدام: المستندات غير المنظمة المكتوبة في النثر أو الجمل الكاملة، وتحتوي مجموعة المستندات على عدد كبير من أنواع المستندات المختلفة لإنشاء استراتيجيات تجميع فردية
أمثلة: محتوى أنشأه المستخدم مثل التعليقات المفتوحة من الاستطلاعات أو منشورات المنتدى أو المراجعات أو رسائل البريد الإلكتروني أو رواية أو مقال

تحليل ثابت الحجم (مع تداخل)

يقسم هذا الأسلوب المستند إلى مجموعات استنادا إلى عدد ثابت من الأحرف أو الرموز المميزة ويسمح ببعض التداخل بين الأحرف بين المجموعات. هذا النهج له العديد من نفس المزايا والعيوب مثل التحليل المستند إلى الجملة. ميزة لهذا النهج على التحليل المستند إلى الجملة هي أنه من الممكن الحصول على مجموعات ذات معنى دلالي يمتد عبر جمل متعددة.

يجب اختيار الحجم الثابت للتقسيمات ومقدار التداخل. نظرا لأن النتائج تختلف لأنواع المستندات المختلفة، فمن الأفضل استخدام أداة مثل تصور مجموعة HuggingFace لإجراء تحليل استكشافي. تسمح لك أدوات مثل هذه بتصور كيفية تقسيم مستنداتك، نظرا إلى قراراتك. من أفضل الممارسات استخدام رموز BERT المميزة على عدد الأحرف عند استخدام التحليل ذي الحجم الثابت. تستند رموز BERT المميزة إلى وحدات ذات معنى من اللغة، لذلك تحتفظ بمعلومات دلالية أكثر من عدد الأحرف.

الأدوات: مقسم النص المتكرر LangChain، تصور مجموعة الوجوه المعانقة
الجهد الهندسي: منخفض
تكلفة المعالجة: منخفضة
حالات الاستخدام: مستندات غير منظمة مكتوبة في نثر أو غير نثر بجمل كاملة أو غير مكتملة. تحتوي مجموعة المستندات على عدد كبير من أنواع المستندات المختلفة لإنشاء استراتيجيات تجميع فردية ل
أمثلة: محتوى أنشأه المستخدم مثل الملاحظات المفتوحة من الاستطلاعات أو منشورات المنتدى أو المراجعات أو رسائل البريد الإلكتروني أو الملاحظات أو القوائم الشخصية أو البحثية

التعليمات البرمجية المخصصة

يوزع هذا الأسلوب المستندات باستخدام التعليمات البرمجية المخصصة لإنشاء مجموعات. هذا الأسلوب هو الأكثر نجاحا للمستندات المستندة إلى النص حيث تكون البنية معروفة أو يمكن استنتاجها ويلزم درجة عالية من التحكم في إنشاء المجموعة. يمكنك استخدام تقنيات تحليل النص مثل التعبيرات العادية لإنشاء مجموعات استنادا إلى أنماط داخل بنية المستند. الهدف هو إنشاء مجموعات لها حجم مماثل في الطول والتقسيمات التي تحتوي على محتوى مميز. توفر العديد من لغات البرمجة الدعم للتعبيرات العادية، وبعضها يحتوي على مكتبات أو حزم توفر ميزات معالجة سلسلة أكثر أناقة.

الأدوات: Python (re, regex, BeautifulSoup, lxml, html5lib, marko), R (stringr, xml2), جوليا (Gumbo.jl)
الجهد الهندسي: متوسط
تكلفة المعالجة: منخفضة
حالات الاستخدام: مستندات شبه منظمة البنية حيث يمكن استنتاج البنية
أمثلة: ملفات براءات الاختراع وأوراق البحث ونهج التأمين والبرامج النصية وشاشات العرض

زيادة نموذج اللغة الكبيرة

يمكن استخدام نماذج اللغات الكبيرة لإنشاء مجموعات. حالات الاستخدام الشائعة هي استخدام نموذج لغة كبير، مثل GPT-4، لإنشاء تمثيلات نصية للصور أو ملخصات الجداول التي يمكن استخدامها كتقسيمات. يتم استخدام زيادة نموذج اللغة الكبيرة مع نهج التقسيم الأخرى مثل التعليمات البرمجية المخصصة.

إذا حددت في جزء الصور من قسم تحليل المستند أن النص المطلوب قبل الصورة أو بعدها للإجابة على بعض الأسئلة، فأنت بحاجة إلى تمرير هذا السياق الإضافي إلى نموذج اللغة الكبير. من المهم تجربة تحديد ما إذا كان هذا السياق الإضافي يعمل أو لا يحسن أداء الحل الخاص بك.

إذا كان منطق التقسيم الخاص بك يقسم وصف الصورة إلى مجموعات متعددة، فتأكد من تضمين عنوان URL للصورة في كل مجموعة. يضمن تضمين عنوان URL للصورة في كل مجموعة إرجاع بيانات التعريف لجميع الاستعلامات التي تخدمها الصورة، خاصة بالنسبة للسيناريوهات التي يتطلب فيها المستخدم النهائي القدرة على الوصول إلى الصورة المصدر من خلال عنوان URL هذا أو يريد استخدام الصور الأولية أثناء وقت الاستدلال.

الأدوات: Azure OpenAI، OpenAI
الجهد الهندسي: متوسط
تكلفة المعالجة: عالية
حالات الاستخدام: الصور والجداول
أمثلة: إنشاء تمثيلات نصية للجداول والصور وتلخيص النصوص من الاجتماعات أو الخطابات أو المقابلات أو وسائط بودكاست

تحليل تخطيط المستند

تجمع مكتبات وخدمات تحليل تخطيط المستندات بين قدرات التعرف البصري على الحروف (OCR) ونماذج التعلم العميق لاستخراج كل من بنية المستندات والنص. يمكن أن تتضمن العناصر الهيكلية الرؤوس والتذييلات والعناوين وعناوين المقاطع والجداول والأرقام. الهدف هو توفير معنى دلالي أفضل للمحتوى المضمن في المستندات.

تعرض مكتبات وخدمات تحليل تخطيط المستند نموذجا يمثل محتوى المستند، سواء كان هيكليا أو نصيا. لا يزال يتعين عليك كتابة التعليمات البرمجية التي تتفاعل مع النموذج.

إشعار

Azure الذكاء الاصطناعي Document Intelligence هي خدمة مستندة إلى السحابة تتطلب منك تحميل المستند إلى الخدمة. تحتاج إلى التأكد من أن لوائح الأمان والتوافق تسمح لك بتحميل المستندات إلى خدمات مثل هذه.

الأدوات: نماذج تحليل مستند Azure الذكاء الاصطناعي Document Intelligence، Donut، محلل التخطيط
الجهد الهندسي: متوسط
تكلفة المعالجة: متوسط
حالات الاستخدام: مستندات شبه منظمة البنية
أمثلة: مقالات إخبارية، صفحات ويب، سير ذاتية

نموذج تم إنشاؤه مسبقًا

هناك خدمات، مثل Azure الذكاء الاصطناعي Document Intelligence، تقدم نماذج تم إنشاؤها مسبقا يمكنك الاستفادة منها لأنواع مستندات مختلفة. يتم تدريب بعض النماذج على أنواع مستندات محددة، مثل نموذج ضريبة W-2 في الولايات المتحدة، بينما تستهدف نماذج أخرى نوعا أوسع من أنواع المستندات مثل الفاتورة.

الأدوات: Azure الذكاء الاصطناعي نماذج مستندية تم إنشاؤها مسبقا، Power Automate Intelligent Document Processing، LayoutLMv3
الجهد الهندسي: منخفض
تكلفة المعالجة: متوسط/مرتفع
حالات الاستخدام: المستندات المنظمة حيث يوجد نموذج تم إنشاؤه مسبقا
أمثلة محددة: الفواتير والإيصالات وبطاقة التأمين الصحي ونموذج W-2

نموذج مخصص

بالنسبة للمستندات عالية البنية حيث لا يوجد نموذج مسبق الإنشاء، قد تضطر إلى إنشاء نموذج مخصص. يمكن أن يكون هذا النهج فعالا للصور أو المستندات عالية التنظيم، ما يجعلها صعبة استخدام تقنيات تحليل النص.

الأدوات: Azure الذكاء الاصطناعي نماذج مخصصة لذكاء المستند، Tesseract
الجهد الهندسي: عالي
تكلفة المعالجة: متوسط/مرتفع
حالات الاستخدام: مستندات مصنفة حيث لا يوجد نموذج تم إنشاؤه مسبقا
أمثلة: جداول إصلاح وصيانة السيارات، والنسخ الأكاديمية، والسجلات، والأدلة التقنية، والإجراءات التشغيلية، وإرشادات الصيانة

بنية المستند

تختلف المستندات في كمية البنية التي تحتوي عليها. بعض الوثائق، مثل النماذج الحكومية لها بنية معقدة ومعروفة، مثل وثيقة الضرائب الأمريكية W-2. في الطرف الآخر من الطيف توجد مستندات غير منظمة مثل الملاحظات الحرة. درجة البنية لنوع المستند هي نقطة بداية جيدة لتحديد نهج تقسيم فعال. على الرغم من عدم وجود قواعد ثابتة وسريعة، يوفر لك هذا القسم بعض الإرشادات التي يجب اتباعها.

رسم تخطيطي يوضح نهج التقسيم حسب بنية المستند.

الشكل 1. نهج التقسيم يناسب بنية المستند

المستندات المنظمة

تحتوي المستندات المنظمة، التي يشار إليها أحيانا باسم المستندات ذات التنسيق الثابت، على تخطيطات محددة. توجد البيانات الموجودة في هذه المستندات في مواقع ثابتة. على سبيل المثال، يتم العثور على التاريخ أو اسم عائلة العميل في نفس الموقع في كل مستند بالتنسيق الثابت نفسه. ومن أمثلة مستندات التنسيق الثابت مستند الضريبة W-2 في الولايات المتحدة.

قد يتم مسح مستندات التنسيق الثابت ضوئيا لصور المستندات الأصلية التي تم تعبئتها يدويا أو تحتوي على بنيات تخطيط معقدة، مما يجعلها صعبة المعالجة باستخدام نهج أساسي لتحليل النص. يتمثل النهج الشائع لمعالجة بنيات المستندات المعقدة في استخدام نماذج التعلم الآلي لاستخراج البيانات وتطبيق المعنى الدلالي على تلك البيانات، حيثما أمكن ذلك.

أمثلة: نموذج W-2، بطاقة التأمين
النهج الشائعة: النماذج التي تم إنشاؤها مسبقا، والنماذج المخصصة

المستندات شبه المنظمة

لا تحتوي المستندات شبه المنظمة على تنسيق أو مخطط ثابت، مثل نموذج W-2، ولكنها توفر تناسقا فيما يتعلق بالتنسيق أو المخطط. على سبيل المثال، لا يتم وضع جميع الفواتير بنفس الطريقة، ومع ذلك، بشكل عام لديها مخطط متناسق. يمكنك توقع أن تحتوي الفاتورة على invoice number شكل وبعض من bill to ship to والاسم والعنوان، من بين بيانات أخرى. قد لا تحتوي صفحة ويب على تناسقات المخطط، ولكنها تحتوي على عناصر هيكلية أو تخطيطية مشابهة، مثل bodyو H1titleو و p التي يمكن استخدامها لإضافة معنى دلالي إلى النص المحيط.

مثل المستندات المنظمة، يصعب معالجة المستندات شبه المنظمة التي تحتوي على بنيات تخطيط معقدة مع تحليل النص. بالنسبة إلى أنواع المستندات هذه، تعد نماذج التعلم الآلي نهجا جيدا. هناك نماذج تم إنشاؤها مسبقا لمجالات معينة لها مخططات متسقة مثل الفواتير أو العقود أو التأمين الصحي. ضع في اعتبارك إنشاء نماذج مخصصة للهياكل المعقدة حيث لا يوجد نموذج مسبق الإنشاء.

أمثلة: الفواتير والإيصالات وصفحات الويب وملفات markdown
النهج الشائعة: نماذج تحليل المستندات

البنية المستنتجة

تحتوي بعض المستندات على بنية ولكنها غير مكتوبة بعلامات. بالنسبة لهذه المستندات، يجب استنتاج البنية. ومن الأمثلة الجيدة على ذلك الوثيقة التنظيمية التالية للاتحاد الأوروبي.

رسم تخطيطي يوضح لائحة الاتحاد الأوروبي كمثال على وثيقة ذات بنية مستنتجة.

الشكل 2. لائحة الاتحاد الأوروبي تظهر هيكلا مستنتجا

نظرا لأنه يمكنك فهم بنية المستند بوضوح، ولا توجد نماذج معروفة له، يمكنك تحديد أنه يمكنك كتابة تعليمات برمجية مخصصة. قد لا يضمن تنسيق المستند مثل هذا الجهد لإنشاء نموذج مخصص، اعتمادا على عدد المستندات المختلفة من هذا النوع الذي تعمل معه. على سبيل المثال، إذا كانت المجموعة الخاصة بك هي جميع لوائح الاتحاد الأوروبي أو قوانين الولايات المتحدة، فقد يكون النموذج المخصص نهجا جيدا. إذا كنت تعمل مع مستند واحد، مثل لائحة الاتحاد الأوروبي في المثال، فقد تكون التعليمات البرمجية المخصصة أكثر فعالية من حيث التكلفة.

أمثلة: مستندات القانون والنصوص ومواصفات التصنيع
النهج الشائعة: التعليمات البرمجية المخصصة والنماذج المخصصة

مستندات غير منظمة

النهج الجيد للمستندات التي ليس لها بنية تذكر أو بدونها هي نهج مستندة إلى الجملة أو ذات حجم ثابت مع نهج التداخل.

أمثلة: المحتوى الذي أنشأه المستخدم مثل الملاحظات المفتوحة من الاستطلاعات أو منشورات المنتدى أو المراجعات ورسائل البريد الإلكتروني والملاحظات الشخصية أو البحثية
النهج الشائعة: تستند إلى الجملة أو تستند إلى الحدود مع التداخل

الاختبار

على الرغم من أن أفضل ملاءمة لكل نهج من نهج التقسيم مدرجة، إلا أنه في الممارسة العملية، قد يكون أي من الأساليب مناسبا لأي نوع من أنواع المستندات. على سبيل المثال، قد يكون التحليل المستند إلى الجملة مناسبا للمستندات عالية التنظيم، أو قد يكون النموذج المخصص مناسبا للمستندات غير المنظمة. جزء من تحسين حل RAG الخاص بك هو تجربة أساليب تقسيم مختلفة، مع مراعاة عدد الموارد لديك، والمهارة التقنية لمواردك، وحجم المستندات التي يجب عليك معالجتها. لتحقيق استراتيجية تقسيم مثالية، تحتاج إلى مراقبة مزايا ومفاضلات كل من النهج التي تختبرها للتأكد من اختيار النهج المناسب لحالة الاستخدام الخاصة بك.

الخطوات التالية