تدريب واستخدام نماذج مخصصة

مكتمل

عندما لا تغطي النماذج الجاهزة أنواع المستندات الخاصة بك، يمكنك تدريب نماذج مخصصة لاستخراج البيانات من نماذجك الخاصة. يدعم Azure Document Intelligence التعلم الآلي الخاضع للإشراف، حيث تقوم بتسمية نماذج المستندات بالحقول التي تريد استخراجها، وتدرب الخدمة نموذجا للتعرف على تلك الحقول في مستندات جديدة.

أنواع النماذج المخصصة

يقدم Azure Document Intelligence نوعين من نماذج الاستخراج المخصصة، بالإضافة إلى نموذج تصنيف:

نماذج قوالب مخصصة

تعتمد نماذج القوالب المخصصة على قالب بصري متسق لاستخراج البيانات الموسومة. تعمل بشكل أفضل للنماذج المنظمة حيث يكون التخطيط ثابتا من نسخة مستند إلى أخرى، مثل الاستبيانات، التطبيقات، أو نماذج الحكومة القياسية.

تستخرج نماذج القوالب بدقة أزواج القيم الرئيسية المعنونة، وعلامات الاختيار، والجداول، والمناطق، والتواقيع. التدريب يستغرق بضع دقائق فقط، ويتم دعم أكثر من 100 لغة. نظرا لأن نماذج القوالب سريعة التدريب وفعالة من حيث التكلفة، فهي نقطة انطلاق جيدة عندما يكون لمستنداتك تصميم بصري موحد.

نماذج عصبية مخصصة

النماذج العصبية المخصصة تستخدم التعلم العميق وهي مضبوطة بدقة على بياناتك المعنونة. تجمع بين ميزات التخطيط واللغة لاستخراج الحقول من المستندات المنظمة وشبه المنظمة وغير المهيكلة. تدعم النماذج العصبية:

  • الحقول المتداخلة
  • اكتشاف التوقيع
  • الثقة على مستوى الجدول والصف والخلايا

توفر النماذج العصبية دقة أعلى من نماذج القوالب، خاصة للوثائق شبه المنظمة أو غير المنظمة حيث يختلف التخطيط بين الحالات. ومع ذلك، تستغرق وقتا أطول للتدريب واستهلاك المزيد من الموارد.

اختر بين النماذج النموذجية والعصبية

عند اتخاذ قرار بشأن نوع النموذج المخصص الذي يجب استخدامه، ضع في اعتبارك المقايضات:

العامل‬ قالب مخصص عصبي مخصص
الأفضل ل أشكال منظمة مع تخطيط بصري متسق المستندات شبه المنظمة أو غير المنظمة بتصاميم مختلفة
وقت التدريب دقائق أطول (يعتمد على حجم مجموعة البيانات)
تكلفة التدريب Lower أعلى
الدقة مرتفع للنماذج ذات الترتيب الثابت؛ ينخفض عندما يتغير التخطيط أعلى بشكل عام، خاصة للمستندات التي تحتوي على اختلاف في الصيغ
دعم اللغة 100+ لغة عدد أقل من اللغات (تحقق من الوثائق للدعم الحالي)
دعم الميزات أزواج القيم الرئيسية، علامات الاختيار، الجداول، المناطق، التواقيع الحقول المتداخلة، اكتشاف التوقيع، ثقة الجدول/الصف/الخلية

نصيحة

ابدأ بنموذج قالب مخصص إذا كانت نماذجك تحتوي على تخطيط بصري متسق. التدريب أسرع وأرخص. إذا كانت الدقة غير كافية أو اختلفت مستنداتك في الشكل، انتقل إلى نموذج عصبي مخصص.

المصنفات المخصصة

تحدد نماذج التصنيف المخصصة نوع المستند قبل تفعيل نموذج الاستخراج. يمكنك استخدام المصنف لتوجيه المستندات الواردة إلى نموذج الاستخراج المناسب عند التعامل مع عدة أنواع من النماذج.

تدريب نموذج مخصص

لتدريب نموذج استخراج مخصص:

  1. تخزين نماذج نموذجية في حاوية Azure blob، مع ملفات JSON التي تحتوي على معلومات التخطيط وحقل التسمية:
    • ملف ocr.json لكل نموذج نموذجي (يتم إنشاؤه باستخدام وظيفة المستند Analysis).
    • ملف واحد fields.json يصف الحقول التي تريد استخراجها.
    • ملف labels.json لكل نموذج نموذجي، يربط الحقول بموقعها في النموذج.
  2. إنشاء رابط توقيع وصول مشترك (SAS) للحاوية.
  3. استخدم دالة REST API من نموذج البناء أو طريقة SDK المكافئة.
  4. استخدم دالة Get model REST API لاسترجاع معرف النموذج المدرب.

يمكنك أيضا تدريب نماذج مخصصة بصريا باستخدام استوديو ذكاء المستندات، كما هو موضح في وحدة استوديو ذكاء المستندات .

نصيحة

استخدم على الأقل من خمسة إلى ستة نماذج نموذجية للتدريب. مجموعة بيانات أكبر وأكثر تنوعا تنتج نماذج أكثر دقة.

استخدام نموذج مخصص

لاستخراج بيانات النموذج باستخدام نموذج مخصص، استدعي دالة تحليل المستند باستخدام معرف النموذج الخاص بك. يمكنك استخدام SDK مدعوم أو واجهة برمجة تطبيقات REST.

C#‎

string endpoint = "<endpoint>";
string apiKey = "<apiKey>";
AzureKeyCredential credential = new AzureKeyCredential(apiKey);
DocumentAnalysisClient client = new DocumentAnalysisClient(new Uri(endpoint), credential);

string modelId = "<modelId>";
Uri fileUri = new Uri("<fileUri>");

AnalyzeDocumentOperation operation = await client.AnalyzeDocumentFromUriAsync(WaitUntil.Completed, modelId, fileUri);
AnalyzeResult result = operation.Value;

Python

endpoint = "YOUR_DOC_INTELLIGENCE_ENDPOINT"
key = "YOUR_DOC_INTELLIGENCE_KEY"

model_id = "YOUR_CUSTOM_BUILT_MODEL_ID"
formUrl = "YOUR_DOCUMENT"

document_analysis_client = DocumentAnalysisClient(
    endpoint=endpoint, credential=AzureKeyCredential(key)
)

task = document_analysis_client.begin_analyze_document_from_url(model_id, formUrl)
result = task.result()

تحتوي الاستجابة الناجحة على analyzeResult كائن يحتوي على المحتوى المستخرج ومجموعة من الصفحات التي تحتوي على معلومات عن المستند.

نماذج مكونة

يمكنك دمج عدة نماذج مخصصة في نموذج مركب واحد. عندما تقدم مستندا إلى نموذج مركب، يقوم Document Intelligence بتصنيفه لتحديد النموذج المكون الأنسب، ثم يعيد نتائج الاستخراج من ذلك النموذج. هذا النهج مفيد عند التعامل مع عدة أنواع من النماذج التي تتطلب نموذج استخراج خاص بها.

تعرف على المزيد