بناء نموذج استخراج مخصص وتدريبه

مقالة
02/27/2024

ينطبق هذا المحتوى على:v4.0 (معاينة) | الإصدارات السابقة:v3.1 (GA)v3.0 (GA)v2.1

تتطلب نماذج ذكاء المستندات ما يصل إلى خمسة مستندات تدريبية للبدء. إذا كان لديك خمسة مستندات على الأقل، يمكنك البدء في تدريب نموذج مخصص. يمكنك تدريب نموذج قالب مخصص (نموذج مخصص) أو نموذج عصبي مخصص (مستند مخصص). عملية التدريب متطابقة لكلا النموذجين ويرشدك هذا المستند خلال عملية تدريب أي من النموذجين.

متطلبات إدخال النموذج المخصص

أولا، تأكد من أن مجموعة بيانات التدريب الخاصة بك تتبع متطلبات الإدخال ل Document Intelligence.

للحصول على أفضل النتائج، قم بتوفير صورة واحدة واضحة أو مسح ضوئي عالي الجودة لكل مستند.

تنسيقات الملفات المعتمدة:

النموذج	PDF	الصورة: JPEG/JPG، PNG، BMP، TIFF، HEIF	Microsoft Office: Word (DOCX) وExcel (XLSX) وPowerPoint (PPTX) وHTML
قراءة	✔	✔	✔
Layout	✔	✔	✔ (معاينة 2024-02-29، 2023-10-31-preview)
مستند عام	✔	✔
منشأ مسبقًا	✔	✔
استخراج مخصص	✔	✔
تصنيف مخصص	✔	✔	✔ (2024-02-29-preview)

بالنسبة لملفات PDF وTIFF، يمكن معالجة ما يصل إلى 2000 صفحة (بالنسببة للاشتراك المجاني، تتم معالجة أول صفحتين فقط).
حجم الملف لتحليل المستندات هو 500 ميغابايت للطبقة المدفوعة (S0) و4 ميغابايت للمستوى المجاني (F0).
يجب أن تتراوح أبعاد الصورة بين 50 × 50 بكسل و 10000 بكسل × 10000 بكسل.
إذا كانت ملفات PDF الخاصة بك مؤمنة بكلمة مرور، فيجب عليك إزالة القفل قبل الإرسال.
الحد الأدنى لارتفاع النص المراد استخراجه هو 12 بكسل لصورة 1024 × 768 بكسل. يتوافق هذا البعد مع نص نقطة تقريبا 8عند 150 نقطة لكل بوصة (DPI).
بالنسبة للتدريب على النموذج المخصص، الحد الأقصى لعدد صفحات بيانات التدريب هو 500 لنموذج القالب المخصص و50000 للنموذج العصبي المخصص.
- لتدريب نموذج الاستخراج المخصص، يبلغ الحجم الإجمالي لبيانات التدريب 50 ميغابايت لنموذج القالب و1G-MB للنموذج العصبي.
- بالنسبة لتدريب نموذج التصنيف المخصص، يكون الحجم الإجمالي لبيانات 1GB التدريب بحد أقصى 10000 صفحة.

نصائح بيانات التدريب

اتبع هذه التلميحات لتحسين مجموعة البيانات الخاصة بك للتدريب:

استخدم مستندات PDF المستندة إلى النص بدلا من المستندات المستندة إلى الصور. تتم معالجة مستندات PDFs الممسوحة ضوئيًا كصور.
استخدم الأمثلة التي تحتوي على كافة الحقول المكتملة للنماذج مع حقول الإدخال.
استخدام نماذج ذات قيم مختلفة في كل حقل.
استخدم مجموعة بيانات أكبر (10-15 صورة) إذا كانت صور النموذج ذات جودة أقل.

تحميل بيانات التدريب الخاصة بك

بمجرد جمع مجموعة من النماذج أو المستندات للتدريب، تحتاج إلى تحميلها إلى حاوية تخزين Azure blob. إذا كنت لا تعرف كيفية إنشاء حساب تخزين Azure مع حاوية، بعد بدء تشغيل تخزين Azure السريع لمدخل Azure. يمكنك استخدام مستوى التسعير الحر (F0⁩) لتجربة الخدمة، والترقية لاحقًا إلى مستوى مدفوع للإنتاج.

فيديو: تدريب النموذج المخصص

بمجرد جمع مجموعة بيانات التدريب وتحميلها، تكون مستعدا لتدريب نموذجك المخصص. في الفيديو التالي، نقوم بإنشاء مشروع واستكشاف بعض الأساسيات لتصنيف نموذج وتدريبه بنجاح.

إنشاء مشروع في Document Intelligence Studio

يوفر Document Intelligence Studio وينسق جميع استدعاءات واجهة برمجة التطبيقات المطلوبة لإكمال مجموعة البيانات وتدريب النموذج الخاص بك.

ابدأ بالانتقال إلى Document Intelligence Studio. في المرة الأولى التي تستخدم فيها Studio، تحتاج إلى تهيئة اشتراكك ومجموعة الموارد والموارد. ثم اتبع المتطلبات الأساسية للمشاريع المخصصة لتكوين Studio للوصول إلى مجموعة بيانات التدريب الخاصة بك.
في Studio، حدد مربع النماذج المخصصة، في صفحة النماذج المخصصة وحدد الزر إنشاء مشروع.
1. في مربع الحوار إنشاء مشروع، أدخل اسما لمشروعك، ووصفا اختياريا، وحدد متابعة.
2. في الخطوة التالية في سير العمل، اختر مورد Document Intelligence أو أنشئه قبل تحديد continue.
هام

تتوفر النماذج العصبية المخصصة فقط في مناطق قليلة. إذا كنت تخطط لتدريب نموذج عصبي، فيرجى تحديد مورد أو إنشائه في إحدى هذه المناطق المدعومة.
بعد ذلك، حدد حساب التخزين الذي استخدمته لتحميل مجموعة بيانات تدريب النموذج المخصص. يجب أن يكون مسار المجلد فارغًا إذا كانت مستندات التدريب موجودة في جذر الحاوية. إذا كانت مستنداتك في مجلد فرعي، أدخل المسار النسبي من جذر الحاوية في حقل مسار المجلد. بمجرد تكوين حساب التخزين الخاص بك، حدد استمرار.
أخيرًا، راجع إعدادات المشروع وحدد إنشاء مشروع لإنشاء مشروع جديد. يجب أن تكون الآن في نافذة التسمية وترى الملفات في مجموعة البيانات مدرجة.

تسمية البيانات

في مشروعك، مهمتك الأولى هي تسمية مجموعة البيانات الخاصة بك بالحقول التي ترغب في استخراجها.

يتم سرد الملفات التي قمت بتحميلها إلى التخزين على يسار الشاشة، مع أول ملف جاهز للتسمية.

ابدأ في تسمية مجموعة البيانات وإنشاء حقلك الأول عن طريق تحديد زر الجمع (➕) في الجزء العلوي الأيسر من الشاشة.
أدخل اسمًا للمجال.
قم بتعيين قيمة للحقل عن طريق اختيار كلمة أو كلمات في المستند. حدد الحقل في القائمة المنسدلة أو قائمة الحقول على شريط التنقل الأيمن. القيمة المسماة أسفل اسم الحقل في قائمة الحقول.
كرر العملية لجميع الحقول التي ترغب في تسميتها لمجموعة البيانات الخاصة بك.
قم بتسمية المستندات المتبقية في مجموعة البيانات الخاصة بك عن طريق تحديد كل مستند وتحديد النص المراد تسميته.

لديك الآن جميع المستندات في مجموعة البيانات الخاصة بك المسماة. تتوافق ملفات .labels.json وملفات .ocr.json مع كل مستند في مجموعة بيانات التدريب وملف fields.json جديد. يتم إرسال مجموعة بيانات التدريب هذه لتدريب النموذج.

تدريب النموذج

مع تسمية مجموعة البيانات الخاصة بك، أنت الآن جاهز لتدريب النموذج الخاص بك. حدد زر التدريب في الزاوية العلوية اليمنى.

في مربع حوار نموذج التدريب، قم بتوفير معرف نموذج فريد ووصف اختياريًا. يقبل معرف النموذج نوع بيانات سلسلة.
بالنسبة إلى وضع البناء، حدد نوع النموذج الذي تريد تدريبه. تعرف على المزيد حول أنواع النماذج وقدراتها.
حدد تدريب لبدء عملية التدريب.
تتدرب نماذج القوالب في غضون بضع دقائق. يمكن أن تستغرق النماذج العصبية ما يصل إلى 30 دقيقة للتدريب.
انتقل إلى قائمة النماذج لعرض حالة عملية التدريب.

اختبار النموذج

بمجرد اكتمال تدريب النموذج، يمكنك اختبار النموذج الخاص بك عن طريق تحديد النموذج في صفحة قائمة النماذج.

حدد النموذج وحدد على الزر اختبار.
+ Add حدد الزر لتحديد ملف لاختبار النموذج.
مع تحديد ملف، اختر الزر تحليل لاختبار النموذج.
يتم عرض نتائج النموذج في النافذة الرئيسة ويتم سرد الحقول المستخرجة في شريط التنقل الأيمن.
تحقق من صحة النموذج الخاص بك عن طريق تقييم النتائج لكل حقل.
يحتوي شريط التنقل الأيمن أيضًا على نموذج التعليمات البرمجية لاستدعاء النموذج الخاص بك ونتائج JSON من واجهة برمجة التطبيقات.

تهانينا التي تعلمتها لتدريب نموذج مخصص في Document Intelligence Studio! نموذجك جاهز للاستخدام مع واجهة برمجة تطبيقات REST أو SDK لتحليل المستندات.

ينطبق على:v2.1. الإصدارات الأخرى:v3.0

عند استخدام نموذج Document Intelligence المخصص، فإنك توفر بيانات التدريب الخاصة بك لعملية تدريب النموذج المخصص، بحيث يمكن تدريب النموذج على النماذج الخاصة بالصناعة. اتبع هذا الدليل لمعرفة كيفية جمع وإعداد البيانات لتدريب النموذج بشكل فعال.

تحتاج إلى خمسة نماذج مكتملة على الأقل من نفس النوع.

إذا كنت تريد استخدام بيانات التدريب المسماة يدويا، يجب أن تبدأ بخمسة نماذج مكتملة على الأقل من نفس النوع. لا يزال بإمكانك استخدام نماذج غير مسماة بالإضافة إلى مجموعة البيانات المطلوبة.

متطلبات إدخال النموذج المخصص

أولا، تأكد من أن مجموعة بيانات التدريب الخاصة بك تتبع متطلبات الإدخال ل Document Intelligence.

للحصول على أفضل النتائج، قم بتوفير صورة واحدة واضحة أو مسح ضوئي عالي الجودة لكل مستند.

تنسيقات الملفات المعتمدة:

النموذج	PDF	الصورة: JPEG/JPG، PNG، BMP، TIFF، HEIF	Microsoft Office: Word (DOCX) وExcel (XLSX) وPowerPoint (PPTX) وHTML
قراءة	✔	✔	✔
Layout	✔	✔	✔ (معاينة 2024-02-29، 2023-10-31-preview)
مستند عام	✔	✔
منشأ مسبقًا	✔	✔
استخراج مخصص	✔	✔
تصنيف مخصص	✔	✔	✔ (2024-02-29-preview)

بالنسبة لملفات PDF وTIFF، يمكن معالجة ما يصل إلى 2000 صفحة (بالنسببة للاشتراك المجاني، تتم معالجة أول صفحتين فقط).
حجم الملف لتحليل المستندات هو 500 ميغابايت للطبقة المدفوعة (S0) و4 ميغابايت للمستوى المجاني (F0).
يجب أن تتراوح أبعاد الصورة بين 50 × 50 بكسل و 10000 بكسل × 10000 بكسل.
إذا كانت ملفات PDF الخاصة بك مؤمنة بكلمة مرور، فيجب عليك إزالة القفل قبل الإرسال.
الحد الأدنى لارتفاع النص المراد استخراجه هو 12 بكسل لصورة 1024 × 768 بكسل. يتوافق هذا البعد مع نص نقطة تقريبا 8عند 150 نقطة لكل بوصة (DPI).
بالنسبة للتدريب على النموذج المخصص، الحد الأقصى لعدد صفحات بيانات التدريب هو 500 لنموذج القالب المخصص و50000 للنموذج العصبي المخصص.
- لتدريب نموذج الاستخراج المخصص، يبلغ الحجم الإجمالي لبيانات التدريب 50 ميغابايت لنموذج القالب و1G-MB للنموذج العصبي.
- بالنسبة لتدريب نموذج التصنيف المخصص، يكون الحجم الإجمالي لبيانات 1GB التدريب بحد أقصى 10000 صفحة.

نصائح بيانات التدريب

اتبع هذه التلميحات لتحسين مجموعة البيانات الخاصة بك للتدريب.

استخدم مستندات PDF المستندة إلى النص بدلا من المستندات المستندة إلى الصور. تتم معالجة مستندات PDFs الممسوحة ضوئيًا كصور.
استخدم الأمثلة التي تم تعبئة كافة حقولها للنماذج المكتملة.
استخدام نماذج ذات قيم مختلفة في كل حقل.
استخدم مجموعة بيانات أكبر (10-15 صورة) للنماذج المكتملة.

تحميل بيانات التدريب الخاصة بك

بمجرد جمع مجموعة المستندات للتدريب، تحتاج إلى تحميلها إلى حاوية تخزين Azure blob. إذا كنت لا تعرف كيفية إنشاء حساب تخزين Azure مع حاوية، اتبع التشغيل السريع لـ Azure Storage لمدخل Azure. استخدم مستوى الأداء القياسي.

إذا كنت تريد استخدام البيانات المسماة يدويا، فحمل .labels.json وملفات .ocr.json التي تتوافق مع مستندات التدريب الخاصة بك. يمكنك استخدام أداة تسمية العينة (أو واجهة المستخدم الخاصة بك) لإنشاء هذه الملفات.

تنظيم بياناتك في مجلدات فرعية (اختياري)

بشكل افتراضي، تستخدم واجهة برمجة تطبيقات Train Custom Model المستندات الموجودة في جذر حاوية التخزين الخاصة بك فقط. ومع ذلك، يمكنك تدريب مع البيانات في المجلدات الفرعية إذا قمت بتحديده في استدعاء API. عادة، يحتوي نص استدعاء تدريب النموذج المخصص على التنسيق التالي، حيث يكون <SAS URL> عنوان URL لتوقيع الوصول المشترك للحاوية الخاصة بك:

{
  "source":"<SAS URL>"
}

إذا أضفت المحتوى التالي إلى نص الطلب، فإن واجهة برمجة التطبيقات تتدرب على المستندات الموجودة في المجلدات الفرعية. "prefix" الحقل اختياري ويحد من مجموعة بيانات التدريب على الملفات التي تبدأ مساراتها بالسلسلة المحددة. لذا فإن قيمة "Test"، على سبيل المثال، تتسبب في أن تنظر واجهة برمجة التطبيقات إلى الملفات أو المجلدات التي تبدأ بكلمة Test فقط.

{
  "source": "<SAS URL>",
  "sourceFilter": {
    "prefix": "<prefix string>",
    "includeSubFolders": true
  },
  "useLabelFile": false
}

الخطوات التالية

الآن بعد أن تعلمت كيفية إنشاء مجموعة بيانات تدريب، اتبع التشغيل السريع لتدريب نموذج معلومات المستند المخصص والبدء في استخدامه على النماذج الخاصة بك.

تعرف على أنواع النماذج المخصصة

التعرف على الدقة والثقة مع النماذج المخصصة

التدريب باستخدام التسميات باستخدام أداة تسمية النموذج

بناء نموذج استخراج مخصص وتدريبه

متطلبات إدخال النموذج المخصص

نصائح بيانات التدريب

تحميل بيانات التدريب الخاصة بك

فيديو: تدريب النموذج المخصص

إنشاء مشروع في Document Intelligence Studio

تسمية البيانات

تدريب النموذج

اختبار النموذج

متطلبات إدخال النموذج المخصص

نصائح بيانات التدريب

تحميل بيانات التدريب الخاصة بك

تنظيم بياناتك في مجلدات فرعية (اختياري)

الخطوات التالية

(راجع أيضًا )

الموارد الإضافية