نماذج مخصصة: درجات الدقة والثقة

ينطبق هذا المحتوى على:علامهv4.0 (معاينة)علامهv3.1 (GA)علامهv3.0 (GA)علامهv2.1 (GA)

إشعار

  • النماذج العصبية المخصصة لا توفر درجات الدقة أثناء التدريب.
  • تتوفر درجات الثقة للجداول وصفوف الجدول وخلايا الجدول بدءا من إصدار واجهة برمجة التطبيقات 2024-02-29-preview للنماذج المخصصة.

تنشئ نماذج القوالب المخصصة درجة دقة مقدرة عند تدريبها. المستندات التي تم تحليلها باستخدام نموذج مخصص تنتج درجة ثقة للحقول المستخرجة. في هذه المقالة، تعلم تفسير درجات الدقة والثقة وأفضل الممارسات لاستخدام هذه الدرجات لتحسين الدقة ونتائج الثقة.

درجات الدقة

يتضمن إخراج build عملية النموذج المخصص (v3.0) أو train (v2.1) درجة الدقة المقدرة. تمثل هذه النتيجة قدرة النموذج على التنبؤ بدقة بالقيمة المسماة في مستند مشابه بصرياً. نطاق قيمة الدقة عبارة عن نسبة مئوية بين 0٪ (منخفض) و100٪ (مرتفع). حساب الدقة المقدرة يتم عن طريق تشغيل بضع مجموعات مختلفة من بيانات التدريب للتنبؤ بالقيم المسماة.

نموذج مخصص مدرب في Document Intelligence Studio
(فاتورة)

نتائج دقة نموذج مخصص مدرب

درجات الثقة

إشعار

  • يتم الآن تضمين درجات ثقة الجدول والصف والخلية مع إصدار واجهة برمجة التطبيقات 2024-02-29-preview.
  • تتم إضافة درجات الثقة لخلايا الجدول من النماذج المخصصة إلى واجهة برمجة التطبيقات بدءا من واجهة برمجة التطبيقات 2024-02-29-preview.

ترجع نتائج تحليل ذكاء المستند ثقة مقدرة للكلمات المتوقعة وأزواج قيم المفاتيح وعلامات التحديد والمناطق والتوقيعات. لا ترجع كافة حقول المستندات درجة ثقة حاليًا.

ثقة الحقل تشير إلى احتمال مقدر بين 0 و1 أن التنبؤ صحيح. على سبيل المثال، قيمة الثقة البالغة 0.95 (95٪) تشير إلى أن التنبؤ صحيح على الأرجح 19 مرة من أصل 20 مرة. بالنسبة للسيناريوهات التي تكون فيها الدقة بالغة الأهمية، يمكن استخدام الثقة لتحديد ما إذا كان سيتم قبول التنبؤ تلقائيا أو وضع علامة عليه للمراجعة البشرية.

نموذج فاتورة تم إنشاؤه مسبقا بواسطة Document Intelligence Studio

درجات الثقة من Document Intelligence Studio

تفسير درجات الدقة والثقة للنماذج المخصصة

عند تفسير درجة الثقة من نموذج مخصص، يجب مراعاة جميع درجات الثقة التي تم إرجاعها من النموذج. لنبدأ بقائمة بجميع درجات الثقة.

  1. درجة الثقة في نوع المستند: الثقة في نوع المستند هي مؤشر على أن المستند الذي تم تحليله بشكل وثيق يشبه المستندات في مجموعة بيانات التدريب. عندما تكون الثقة في نوع المستند منخفضة، فإنها تشير إلى تباينات قالب أو هيكلية في المستند الذي تم تحليله. لتحسين الثقة في نوع المستند، قم بتسمية مستند بهذا التباين المحدد وأضفه إلى مجموعة بيانات التدريب. بمجرد إعادة تدريب النموذج، يجب أن يكون مجهزا بشكل أفضل للتعامل مع تلك الفئة من الاختلافات.
  2. الثقة على مستوى الحقل: يحتوي كل حقل مسمى تم استخراجه على درجة ثقة مقترنة. تعكس هذه النتيجة ثقة النموذج في موضع القيمة المستخرجة. أثناء تقييم درجات الثقة، يجب عليك أيضا النظر في الثقة الاستخراج الأساسية لتوليد ثقة شاملة للنتيجة المستخرجة. OCR تقييم نتائج استخراج النص أو علامات التحديد اعتمادا على نوع الحقل لإنشاء درجة ثقة مركبة للحقل.
  3. درجة ثقة Word كل كلمة مستخرجة داخل المستند لها درجة ثقة مقترنة. تمثل النتيجة ثقة النسخ. يحتوي صفيف الصفحات على صفيف من الكلمات ولكل كلمة امتداد مقترن ودرجة ثقة. تتطابق النطاقات من القيم المستخرجة للحقل المخصص مع امتدادات الكلمات المستخرجة.
  4. درجة ثقة علامة التحديد: يحتوي صفيف الصفحات أيضا على صفيف من علامات التحديد. تحتوي كل علامة تحديد على درجة ثقة تمثل ثقة علامة التحديد والكشف عن حالة التحديد. عندما يحتوي الحقل المسمى على علامة تحديد، يكون تحديد الحقل المخصص المقترن بثقة علامة التحديد تمثيلا دقيقا لدقة الثقة الإجمالية.

الجدول التالي يوضح كيفية تفسير كل من درجات الدقة والثقة لقياس أداء النموذج المخصص.

الدقة الدقة نتيجة
درجة عالية درجة عالية • يعمل النموذج بشكل جيد مع المفاتيح المسماة وتنسيقات المستندات.
• لديك مجموعة بيانات تدريب متوازنة.
درجة عالية منخفض • يظهر المستند الذي تم تحليله مختلفا عن مجموعة بيانات التدريب.
• سيستفيد النموذج من إعادة التدريب على ما لا يقل عن خمسة مستندات أخرى مسماة.
• يمكن أن تشير هذه النتائج أيضا إلى اختلاف في التنسيق بين مجموعة بيانات التدريب والمستند الذي تم تحليله.
ضع في اعتبارك إضافة نموذج جديد.
منخفض مرتفع • هذه النتيجة غير محتملة.
• للحصول على درجات دقة منخفضة، أضف المزيد من البيانات المسماة أو قم بتقسيم المستندات المميزة بصريا إلى نماذج متعددة.
منخفض منخفض • إضافة المزيد من البيانات المسماة.
• تقسيم المستندات المميزة بصريا إلى نماذج متعددة.

الثقة في الجدول والصف والخلية

مع إضافة الثقة في الجدول والصف والخلية مع 2024-02-29-preview واجهة برمجة التطبيقات، إليك بعض الأسئلة الشائعة التي يجب أن تساعد في تفسير الجدول والصف ودرجات الخلايا:

س: هل من الممكن رؤية درجة ثقة عالية للخلايا، ولكن درجة ثقة منخفضة للصف؟

ج: نعم. تهدف المستويات المختلفة لثقة الجدول (الخلية والصف والجدول) إلى التقاط صحة التنبؤ في هذا المستوى المحدد. الخلية المتوقعة بشكل صحيح والتي تنتمي إلى صف مع أخطاء أخرى محتملة سيكون لها ثقة عالية في الخلية، ولكن يجب أن تكون ثقة الصف منخفضة. وبالمثل، سيكون للصف الصحيح في جدول مع تحديات مع صفوف أخرى ثقة عالية في الصف بينما ستكون الثقة الإجمالية للجدول منخفضة.

س: ما هي درجة الثقة المتوقعة عند دمج الخلايا؟ نظرا لأن الدمج ينتج عنه عدد الأعمدة المحددة للتغيير، فكيف تتأثر الدرجات؟

ج: بغض النظر عن نوع الجدول، فإن توقع الخلايا المدمجة هو أنه يجب أن يكون لها قيم ثقة أقل. علاوة على ذلك، يجب أن تحتوي NULL الخلية المفقودة (لأنه تم دمجها مع خلية مجاورة) على قيمة ذات ثقة أقل أيضا. يعتمد مقدار الانخفاض في هذه القيم على مجموعة بيانات التدريب، وينبغي أن يحتفظ الاتجاه العام لكل من الخلية المدمجة والمفقودة التي تحتوي على درجات أقل.

س: ما هي درجة الثقة عندما تكون القيمة اختيارية؟ هل يجب أن تتوقع خلية ذات NULL قيمة ودرجة ثقة عالية إذا كانت القيمة مفقودة؟

ج: إذا كانت مجموعة بيانات التدريب الخاصة بك تمثل اختيارية الخلايا، فإنه يساعد النموذج على معرفة عدد المرات التي تميل فيها القيمة إلى الظهور في مجموعة التدريب، وبالتالي ما يمكن توقعه أثناء الاستدلال. يتم استخدام هذه الميزة عند حساب ثقة إما التنبؤ أو عدم إجراء أي تنبؤ على الإطلاق (NULL). يجب أن تتوقع حقلا فارغا بثقة عالية للقيم المفقودة التي تكون في الغالب فارغة في مجموعة التدريب أيضا.

س: كيف تتأثر درجات الثقة إذا كان الحقل اختياريا وغير موجود أو فائت؟ هل توقع أن تجيب درجة الثقة على هذا السؤال؟

ج: عندما تكون القيمة مفقودة من صف، تحتوي الخلية على NULL قيمة وثقة معينة. يجب أن تعني درجة الثقة العالية هنا أن توقع النموذج (عدم وجود قيمة) أكثر احتمالا أن يكون صحيحا. في المقابل، يجب أن تشير الدرجة المنخفضة إلى مزيد من عدم اليقين من النموذج (وبالتالي احتمال حدوث خطأ، مثل القيمة التي يتم فقدانها).

س: ما الذي يجب أن يكون توقعا لثقة الخلية وثقة الصف عند استخراج جدول متعدد الصفحات مع تقسيم صف عبر الصفحات؟

ج: توقع أن تكون ثقة الخلية عالية وأن تكون ثقة الصف أقل من الصفوف التي لم يتم تقسيمها. يمكن أن تؤثر نسبة الصفوف المقسمة في مجموعة بيانات التدريب على درجة الثقة. بشكل عام، يبدو الصف المنقسم مختلفا عن الصفوف الأخرى في الجدول (وبالتالي، فإن النموذج أقل تأكدا من أنه صحيح).

س: بالنسبة للجداول عبر الصفحات التي تحتوي على صفوف تنتهي تماما وتبدأ عند حدود الصفحة، هل من الصحيح افتراض أن درجات الثقة متناسقة عبر الصفحات؟

ج: نعم. نظرا لأن الصفوف تبدو متشابهة في الشكل والمحتويات، بغض النظر عن مكان وجودها في المستند (أو في أي صفحة)، يجب أن تكون درجات الثقة الخاصة بها متسقة.

س: ما هي أفضل طريقة للاستفادة من درجات الثقة الجديدة؟

ج: انظر إلى جميع مستويات ثقة الجدول بدءا من نهج من أعلى إلى أسفل: ابدأ بالتحقق من ثقة الجدول ككل، ثم انتقل لأسفل إلى مستوى الصف وانظر إلى الصفوف الفردية، وأخيرا انظر إلى الثقة على مستوى الخلية. اعتمادا على نوع الجدول، هناك بعض الأشياء التي يجب ملاحظتها:

بالنسبة للجداول الثابتة، تلتقط الثقة على مستوى الخلية بالفعل قدرا كبيرا من المعلومات حول صحة الأشياء. وهذا يعني أن مجرد الذهاب فوق كل خلية والنظر في ثقتها يمكن أن تكون كافية للمساعدة في تحديد جودة التنبؤ. بالنسبة للجداول الديناميكية، تهدف المستويات إلى البناء فوق بعضها البعض، لذلك فإن النهج من أعلى إلى أسفل أكثر أهمية.

ضمان دقة عالية للنموذج

تؤثر التباينات في البنية المرئية لمستنداتك على دقة النموذج الخاص بك. قد لا تتسق درجات الدقة المبلغ عنها عندما تختلف المستندات التي تم تحليلها عن المستندات المستخدمة في التدريب. خذ بعين الاعتبار أن مجموعة المستندات يمكن أن تبدو متشابهة عند عرضها من قبل البشر ولكنها تبدو غير متشابهة مع نموذج الذكاء الاصطناعي. للمتابعة، هي قائمة بأفضل الممارسات لنماذج التدريب بأعلى دقة. يجب أن ينتج عن اتباع هذه المبادئ التوجيهية نموذج ذو دقة أعلى ودرجات ثقة أعلى أثناء التحليل، وتقليل عدد المستندات التي تم وضع علامة عليها للمراجعة البشرية.

  • تأكد من تضمين جميع تباينات المستند في مجموعة بيانات التدريب. تتضمن التباينات تنسيقات مختلفة، على سبيل المثال، ملفات PDF الرقمية مقابل ملفات PDF الممسوحة ضوئيا.

  • أضف خمس عينات على الأقل من كل نوع إلى مجموعة بيانات التدريب إذا كنت تتوقع أن يقوم النموذج بتحليل كلا النوعين من مستندات PDF.

  • افصل أنواع المستندات المميزة بصريا لتدريب نماذج مختلفة.

    • كقاعدة عامة، إذا أزلت جميع القيم التي أدخلها المستخدم وكانت المستندات تبدو متشابهة، فأنت بحاجة إلى إضافة المزيد من بيانات التدريب إلى النموذج الحالي.
    • إذا كانت المستندات مختلفة، فقم بتقسيم بيانات التدريب إلى مجلدات مختلفة وتدريب نموذج لكل تباين. بعد ذلك، يمكنك إنشاء الاختلافات المختلفة في نموذج واحد.
  • تأكد من عدم وجود أي تسميات دخيلة.

  • تأكد من أن التوقيع وتسمية المنطقة لا يتضمنان النص المحيط.

الخطوة التالية