نموذج قالب مخصص لذكاء المستند

هام

  • توفر إصدارات المعاينة العامة ل Document Intelligence وصولا مبكرا إلى الميزات قيد التطوير النشط.
  • قد تتغير الميزات والنهج والعمليات، قبل التوفر العام (GA)، استنادا إلى ملاحظات المستخدم.
  • إصدار المعاينة العامة لمكتبات عميل Document Intelligence افتراضيا إلى إصدار REST API 2024-02-29-preview.
  • يتوفر إصدار المعاينة العامة 2024-02-29-preview حاليا فقط في مناطق Azure التالية:
  • شرق الولايات المتحدة
  • غرب الولايات المتحدة 2
  • غرب أوروبا

ينطبق هذا المحتوى على:علامهv4.0 (معاينة) | الإصدارات السابقة:علامة اختيار زرقاءv3.1 (GA)علامة اختيار زرقاءv3.0 (GA)علامة اختيار زرقاءv2.1 (GA)

ينطبق هذا المحتوى على:علامهv3.1 (GA) | أحدث إصدار:علامة اختيار أرجوانيةv4.0 (معاينة) | الإصدارات السابقة:علامة اختيار زرقاءv3.0علامة اختيار زرقاءv2.1

ينطبق هذا المحتوى على:علامهv3.0 (GA) | أحدث الإصدارات:علامة اختيار أرجوانيةv4.0 (معاينة)علامة اختيار أرجوانيةv3.1 | الإصدار السابق:علامة اختيار زرقاءv2.1

ينطبق هذا المحتوى على:علامهv2.1 | أحدث إصدار:علامة اختيار زرقاءv4.0 (معاينة)

القالب المخصص (النموذج المخصص سابقا) هو نموذج مستند سهل التدريب يستخرج بدقة أزواج قيم المفاتيح وعلامات التحديد والجداول والمناطق والتوقيعات من المستندات. تستخدم نماذج القوالب رموز التخطيط لاستخراج القيم من المستندات وهي مناسبة لاستخراج الحقول من المستندات عالية التنظيم باستخدام قوالب مرئية محددة.

تشترك نماذج القالب المخصص في نفس تنسيق التسمية والاستراتيجية مثل النماذج العصبية المخصصة مع دعم المزيد من أنواع الحقول واللغات.

إمكانات النموذج

تدعم نماذج القوالب المخصصة أزواج القيم الرئيسية وعلامات التحديد والجداول وحقول التوقيع والمناطق المحددة.

حقول النموذج علامات التحديد حقول جدولية (الجداول) التوقيع المناطق المحددة
مدعوم مدعوم مدعوم مدعوم مدعوم

الحقول الجدولية

باستخدام إصدار واجهة برمجة التطبيقات 2022-06-30-معاينة والإصدارات الأحدث، ستضيف نماذج القوالب المخصصة دعمًا للحقول الجدولية (الجداول) عبر الصفحة:

  • لتسمية جدول يمتد عبر صفحات متعددة، يمكنك تسمية كل صف من الجدول عبر الصفحات المختلفة في جدول واحد.
  • تأكد، كأفضل ممارسة، أن مجموعة البيانات تحتوي على بعض القوالب من التباينات المتوقعة. يوصى، على سبيل المثال، بتضمين نماذج حيث يكون الجدول بأكمله على صفحة واحدة وحيث تمتد الجداول إلى صفحتين أو أكثر إذا كنت تتوقع رؤية هذه التباينات في المستندات.

الحقول الجدولية مفيدة أيضًا عند استخراج معلومات مكررة داخل مستند لم يتم التعرف عليه كجدول. يمكن، على سبيل المثال، تسمية جزء مكرر من تجارب العمل في الاستئناف واستخراجه كحقل جدولي.

التعامل مع التباينات

تعتمد نماذج القالب على قالب مرئي محدد، وتؤدي التغييرات التي يتم إجراؤها على القالب إلى دقة أقل. يوصى، في هذه الحالات، بتقسيم مجموعة بيانات التدريب لديك لتضمين خمسة نماذج على الأقل من كل قالب وتدريب قالب لكل تباين من التباينات. يمكنك بعد ذلك إنشاء النماذج في نقطة نهاية واحدة. بالنسبة للتباينات الدقيقة مثل مستندات PDF الرقمية والصور، فمن الأفضل تضمين خمسة نماذج على الأقل من كل نوع في نفس مجموعة بيانات التدريب.

متطلبات الإدخال

  • للحصول على أفضل النتائج، قم بتوفير صورة واحدة واضحة أو مسح ضوئي عالي الجودة لكل مستند.

  • تنسيقات الملفات المعتمدة:

    النموذج PDF الصورة:
    JPEG/JPG، PNG، BMP، TIFF، HEIF
    Microsoft Office:
    Word (DOCX) وExcel (XLSX) وPowerPoint (PPTX) وHTML
    قراءة
    Layout ✔ (معاينة 2024-02-29، معاينة 2023-10-31 أو أحدث)
    مستند عام
    منشأ مسبقًا
    مخصص

    ✱ ملفات Microsoft Office غير مدعومة حاليًا للنماذج أو الإصدارات الأخرى.

  • بالنسبة لملفات PDF وTIFF، يمكن معالجة ما يصل إلى 2000 صفحة (بالنسببة للاشتراك المجاني، تتم معالجة أول صفحتين فقط).

  • حجم الملف لتحليل المستندات هو 500 ميغابايت للطبقة المدفوعة (S0) و4 ميغابايت للمستوى المجاني (F0).

  • يجب أن تتراوح أبعاد الصورة بين 50 × 50 بكسل و 10000 بكسل × 10000 بكسل.

  • إذا كانت ملفات PDF الخاصة بك مؤمنة بكلمة مرور، فيجب عليك إزالة القفل قبل الإرسال.

  • الحد الأدنى لارتفاع النص المراد استخراجه هو 12 بكسل لصورة 1024 × 768 بكسل. يتوافق هذا البعد مع نص نقطة تقريبا 8عند 150 نقطة لكل بوصة (DPI).

  • بالنسبة للتدريب على النموذج المخصص، الحد الأقصى لعدد صفحات بيانات التدريب هو 500 لنموذج القالب المخصص و50000 للنموذج العصبي المخصص.

  • لتدريب نموذج الاستخراج المخصص، يبلغ الحجم الإجمالي لبيانات التدريب 50 ميغابايت لنموذج القالب و1G-MB للنموذج العصبي.

  • بالنسبة لتدريب نموذج التصنيف المخصص، يكون الحجم الإجمالي لبيانات 1GB التدريب بحد أقصى 10000 صفحة.

تدريب نموذج

تتوفر نماذج القوالب المخصصة بشكل عام مع v4.0 API. إذا كنت تبدأ بمشروع جديد أو لديك مجموعة بيانات مسماة موجودة، فاستخدم v3.1 أو v3.0 API مع Document Intelligence Studio لتدريب نموذج قالب مخصص.

النموذج واجهة برمجة تطبيقات REST SDK نماذج التسمية والاختبار
القالب المخصص v3.1 API Document Intelligence SDK Document Intelligence Studio

مع v3.0 وواجهات برمجة التطبيقات الأحدث، تدعم عملية البناء لتدريب النموذج خاصية جديدة buildMode ، لتدريب نموذج قالب مخصص، قم بتعيين buildMode إلى template.

https://{endpoint}/documentintelligence/documentModels:build?api-version=2024-02-29-preview

{
  "modelId": "string",
  "description": "string",
  "buildMode": "template",
  "azureBlobSource":
  {
    "containerUrl": "string",
    "prefix": "string"
  }
}

تتوفر نماذج القوالب المخصصة بشكل عام مع v3.1 API. إذا كنت تبدأ بمشروع جديد أو لديك مجموعة بيانات مسماة موجودة، فاستخدم v3.1 أو v3.0 API مع Document Intelligence Studio لتدريب نموذج قالب مخصص.

النموذج واجهة برمجة تطبيقات REST SDK نماذج التسمية والاختبار
القالب المخصص v3.1 API Document Intelligence SDK Document Intelligence Studio

مع v3.0 وواجهات برمجة التطبيقات الأحدث، تدعم عملية البناء لتدريب النموذج خاصية جديدة buildMode ، لتدريب نموذج قالب مخصص، قم بتعيين buildMode إلى template.

https://{endpoint}/formrecognizer/documentModels:build?api-version=2023-07-31

{
  "modelId": "string",
  "description": "string",
  "buildMode": "template",
  "azureBlobSource":
  {
    "containerUrl": "string",
    "prefix": "string"
  }
}

اللغات والإعدادات المحلية المدعومة

راجع صفحة دعم اللغة - النماذج المخصصة للحصول على قائمة كاملة باللغات المدعومة.

تتوفر النماذج المخصصة (القالب) بشكل عام مع v2.1 API.

النموذج واجهة برمجة تطبيقات REST SDK نماذج التسمية والاختبار
نموذج مخصص (قالب) Document Intelligence 2.1 Document Intelligence SDK أداة تسمية نموذج تحليل معلومات المستند

الخطوات التالية

تعلم كيفية إنشاء نماذج مخصصة: