نموذج المستند العام للمعلومات المستندية

هام

بدءا من إصدارات Document Intelligence 2024-02-29-preview و2023-10-31-preview والمضي قدما، يتم إهمال نموذج المستند العام (المستند الذي تم إنشاؤه مسبقا). لاستخراج أزواج قيم المفاتيح وعلامات التحديد والنص والجداول والبنية من المستندات، استخدم النماذج التالية:

ميزة إصدار معرف النموذج
Layout نموذج مع تمكين معلمة سلسلة الاستعلام الاختيارية features=keyValuePairs . • v4:2024-02-29-preview
• v3.1:2023-07-31 (GA)
prebuilt-layout
نموذج الوثيقة العامة • v3.1:2023-07-31 (GA)
• v3.0:2022-08-31 (GA)
• v2.1 (GA)
prebuilt-document

ينطبق هذا المحتوى على:علامهv3.1 (GA) | أحدث إصدار:علامة اختيار أرجوانيةv4.0 (معاينة) | الإصدار السابق:علامة اختيار زرقاءv3.0

ينطبق هذا المحتوى على:علامهv3.0 (GA) | أحدث الإصدارات:علامة اختيار أرجوانيةv4.0 (معاينة)علامة اختيار أرجوانيةv3.1

يجمع نموذج المستند العام بين قدرات التعرف البصري على الحروف (OCR) القوية ونماذج التعلم العميق لاستخراج أزواج قيم المفاتيح والجداول وعلامات التحديد من المستندات. يتوفر المستند العام مع واجهات برمجة التطبيقات v3.1 وv3.0. لمزيد من المعلومات، راجع دليل الترحيل الخاص بنا.

ميزات المستند العام

  • نموذج المستند العام هو نموذج مدرب مسبقا؛ لا يتطلب تسميات أو تدريب.

  • تقوم واجهة برمجة تطبيقات واحدة باستخراج أزواج القيمة الرئيسية وعلامات التحديد والنص والجداول والهيكل من المستندات.

  • يدعم نموذج المستند العام المستندات المهيكلة وشبه الهيكلية وغير المهيكلة.

  • يتم تعريف علامات التحديد كالحقول بقيمة :selected: أو :unselected:.

نموذج مستند تمت معالجته في Document Intelligence Studio

لقطة شاشة لتحليل المستند العام في Document Intelligence Studio.

استخراج زوج قيمة المفتاح

تدعم واجهة برمجة تطبيقات المستند العام معظم أنواع النماذج وتحلل المستندات واستخراج المفاتيح والقيم المرتبطة بها. وتُعد مثالية لاستخراج أزواج قيم المفاتيح الشائعة من المستندات. يمكنك استخدام نموذج المستند العام بمثابة بديل لتدريب نموذج مخصص دون تسميات.

خيارات التطوير

يدعم Document Intelligence v3.1 الأدوات والتطبيقات والمكتبات التالية:

ميزة الموارد معرف النموذج
نموذج الوثيقة العامة Document Intelligence Studio
REST API
C# SDK
Python SDK
Java SDK
JavaScript SDK
prebuilt-document

يدعم Document Intelligence v3.0 الأدوات والتطبيقات والمكتبات التالية:

ميزة الموارد معرف النموذج
نموذج الوثيقة العامة Document Intelligence Studio
REST API
C# SDK
Python SDK
Java SDK
JavaScript SDK
prebuilt-document

متطلبات الإدخال

  • للحصول على أفضل النتائج، قم بتوفير صورة واحدة واضحة أو مسح ضوئي عالي الجودة لكل مستند.

  • تنسيقات الملفات المعتمدة:

    النموذج PDF الصورة:
    JPEG/JPG، PNG، BMP، TIFF، HEIF
    Microsoft Office:
    Word (DOCX) وExcel (XLSX) وPowerPoint (PPTX) وHTML
    قراءة
    Layout ✔ (معاينة 2024-02-29، 2023-10-31-preview)
    مستند عام
    منشأ مسبقًا
    استخراج مخصص
    تصنيف مخصص ✔ (2024-02-29-preview)
  • بالنسبة لملفات PDF وTIFF، يمكن معالجة ما يصل إلى 2000 صفحة (بالنسببة للاشتراك المجاني، تتم معالجة أول صفحتين فقط).

  • حجم الملف لتحليل المستندات هو 500 ميغابايت للطبقة المدفوعة (S0) و4 ميغابايت للمستوى المجاني (F0).

  • يجب أن تتراوح أبعاد الصورة بين 50 × 50 بكسل و 10000 بكسل × 10000 بكسل.

  • إذا كانت ملفات PDF الخاصة بك مؤمنة بكلمة مرور، فيجب عليك إزالة القفل قبل الإرسال.

  • الحد الأدنى لارتفاع النص المراد استخراجه هو 12 بكسل لصورة 1024 × 768 بكسل. يتوافق هذا البعد مع نص نقطة تقريبا 8عند 150 نقطة لكل بوصة (DPI).

  • بالنسبة للتدريب على النموذج المخصص، الحد الأقصى لعدد صفحات بيانات التدريب هو 500 لنموذج القالب المخصص و50000 للنموذج العصبي المخصص.

    • لتدريب نموذج الاستخراج المخصص، يبلغ الحجم الإجمالي لبيانات التدريب 50 ميغابايت لنموذج القالب و1G-MB للنموذج العصبي.

    • بالنسبة لتدريب نموذج التصنيف المخصص، يكون الحجم الإجمالي لبيانات 1GB التدريب بحد أقصى 10000 صفحة.

استخراج بيانات نموذج المستند العام

حاول استخراج البيانات من النماذج والمستندات باستخدام Document Intelligence Studio.

تحتاج إلى الموارد التالية:

  • اشتراك Azure - يمكنك إنشاء اشتراك مجانا.

  • مثيل Document Intelligence في مدخل Microsoft Azure. يمكنك استخدام طبقة التسعير المجانيةF0 () لتجربة الخدمة. بعد نشر المورد، حدد انتقال إلى المورد للحصول على المفتاح ونقطة النهاية.

لقطة شاشة للمفاتيح وموقع نقطة النهاية في مدخل Microsoft Azure.

إشعار

يتوفر Document Intelligence Studio ونموذج المستند العام مع v3.0 API.

  1. في الصفحة الرئيسية ل Document Intelligence Studio، حدد General documents.

  2. يمكنك تحليل نموذج المستند أو تحميل ملفاتك الخاصة.

  3. حدد الزر Run analysis، وقم بتكوين خيارات Analyze، إذا لزم الأمر:

    لقطة شاشة لأزرار خيارات تحليل التشغيل والتحليل في Document Intelligence Studio.

أزواج مفتاح-قيمة

أزواج قيم المفتاح هي امتدادات محددة داخل المستند تحدد التسمية أو المفتاح والاستجابة أو القيمة المرتبطة به. في شكل منظم، يمكن أن تكون هذه الأزواج هي التسمية والقيمة التي أدخلها المستخدم لهذا الحقل. في مستند غير منظم، يمكن أن يكون هذا هو التاريخ الذي تم فيه تنفيذ العقد بناءً على النص الموجود في فقرة. يتم تدريب نموذج الذكاء الاصطناعي على استخراج مفاتيح وقيم قابلة للتعريف استنادًا إلى مجموعة متنوعة من أنواع المستندات والتنسيقات والهياكل.

يمكن أيضًا أن توجد المفاتيح بشكل منفصل عندما يكتشف النموذج وجود مفتاح، بدون قيمة مرتبطة أو عند معالجة الحقول الاختيارية. على سبيل المثال، يمكن ترك حقل الاسم الأوسط فارغا في نموذج في بعض الحالات. تكون أزواج قيم المفاتيح عبارة عن امتداد للنص الموجود في المستند. بالنسبة للمستندات التي يتم وصف نفس القيمة فيها بطرق مختلفة، على سبيل المثال، العميل/المستخدم، يكون المفتاح المقترن إما عميلا أو مستخدما (استنادا إلى السياق).

استخراج البيانات

النموذج استخراج النص أزواج قيم المفاتيح علامات التحديد الجداول الأسماء الشائعة
المستند العام √*

✓* - متوفر فقط في 2023-07-31 (v3.1 GA) وإصدارات واجهة برمجة التطبيقات الأحدث.

اللغات والإعدادات المحلية المدعومة

راجع صفحة نماذج تحليل اللغة للحصول على قائمة كاملة باللغات المدعومة.

الاعتبارات

  • نظرا لأن المفاتيح هي امتدادات من النص المستخرج من المستند، بالنسبة للمستندات شبه المنظمة، يجب تعيين المفاتيح إلى قاموس مفاتيح موجود.

  • توقع رؤية أزواج مفتاح - قيمة مع مفتاح، ولكن بدون قيمة. على سبيل المثال، إذا اختار المستخدم عدم تقديم عنوان بريد إلكتروني في النموذج.

الخطوات التالية

  • اتبع دليل ترحيل Document Intelligence v3.1 لمعرفة كيفية استخدام إصدار v3.1 في التطبيقات وسير العمل.

  • استكشف واجهة برمجة تطبيقات REST الخاصة بنا.