إنشاء مستخرج في Microsoft Syntex
ينطبق على: ✓ معالجة المستندات غير المنظمة
قبل أو بعد إنشاء نموذج مصنف لأتمتة تحديد أنواع مستندات معينة وتصنيفها، يمكنك اختياريا اختياريا اختياريا إضافة مستخرجات إلى النموذج الخاص بك لسحب معلومات محددة من هذه المستندات. على سبيل المثال، قد ترغب في أن يقوم النموذج الخاص بك ليس فقط بتحديد جميع مستندات تجديد العقد المضافة إلى مكتبة المستندات، ولكن أيضا لعرض تاريخ بدء الخدمة لكل مستند كقيمة عمود في مكتبة المستندات.
تحتاج إلى إنشاء مستخرج لكل كيان في المستند الذي تريد استخراجه. في مثالنا، نريد استخراج تاريخ بدء الخدمة لكل مستند تجديد العقد الذي يحدده النموذج. نريد أن نتمكن من رؤية طريقة عرض في مكتبة المستندات لكافة مستندات تجديد العقد ، مع عمود يعرض قيمة تاريخ بدء الخدمة لكل مستند.
ملاحظة
لإنشاء مستخرج، يمكنك استخدام نفس الملفات التي قمت بتحميلها مسبقا لتدريب المصنف.
قم بتسمية المستخرج الخاص بك
من الصفحة الرئيسية للنموذج، في لوحة Create and train extractors ، حدد Train extractor.
في شاشة مستخرج الكيان الجديد ، اكتب اسم المستخرج في حقل اسم المستخرج الجديد . على سبيل المثال، قم بتسمية تاريخ بدء الخدمة إذا كنت تريد استخراج تاريخ بدء الخدمة من كل مستند تجديد العقد. يمكنك أيضا اختيار إعادة استخدام عمود تم إنشاؤه مسبقا (على سبيل المثال، عمود بيانات تعريف مدار).
بشكل افتراضي، يكون نوع العمود سطرا واحدا من النص. إذا كنت تريد تغيير نوع العمود، فحدد الإعدادات> المتقدمةنوع العمود، ثم حدد النوع الذي تريد استخدامه.
ملاحظة
بالنسبة إلى المستخرجات ذات نوع العمود سطر واحد من النص، يكون الحد الأقصى للأحرف هو 255. يتم اقتطاع أي أحرف تحددها تتجاوز الحد. لتحديد أكثر من 255 حرفا، اختر أسطر متعددة من نوع عمود النص عند إنشاء المستخرج.
بشكل افتراضي، يتم إنشاء أسطر متعددة من أعمدة النص بحد أقصى لمقدار النص الذي يمكن إضافته. في هذه الحالة، قد يظهر النص المستخرج مقتطعا. إذا حدث ذلك، يمكن استخدام إعداد العمود السماح بطول غير محدود في مكتبات المستندات لإزالة الحد.
عند الانتهاء، حدد إنشاء.
إضافة تسمية
الخطوة التالية هي تسمية الكيان الذي تريد استخراجه في ملفات التدريب على سبيل المثال.
يؤدي إنشاء المستخرج إلى فتح صفحة المستخرج. هنا ترى قائمة بنماذج الملفات، مع عرض الملف الأول في القائمة في العارض.
من العارض، حدد البيانات التي تريد استخراجها من الملفات. على سبيل المثال، إذا كنت تريد استخراج تاريخ خدمة البدء، يمكنك تمييز قيمة التاريخ في الملف الأول (الاثنين، 14 أكتوبر 2022). ثم حدد حفظ. يجب أن تشاهد عرض القيمة من الملف في قائمة الأمثلة المسماة، ضمن عمود Label .
حدد الملف التالي للحفظ التلقائي وفتح الملف التالي في القائمة في العارض. أو حدد حفظ ثم حدد ملفا آخر من قائمة الأمثلة المسماة .
في العارض، كرر الخطوين 1 و2، ثم كرر حتى تحفظ التسمية في جميع الملفات الخمسة.
بمجرد تسمية خمسة ملفات، يتم عرض شعار إعلام يخبرك بالانتقال إلى التدريب. يمكنك اختيار تسمية المزيد من المستندات أو التقدم إلى التدريب.
استخدام بحث للبحث في الملف
يمكنك استخدام ميزة البحث للبحث عن كيان في المستند الذي تريد تسميته.
تعد ميزة البحث مفيدة إذا كنت تبحث في مستند كبير أو إذا كانت هناك مثيلات متعددة للكيان في المستند. إذا وجدت مثيلات متعددة، يمكنك تحديد المثيل الذي تحتاجه في نتائج البحث للانتقال إلى هذا الموقع في العارض لتسميه.
إضافة شرح
على سبيل المثال، سننشئ شرحا يوفر تلميحا حول تنسيق الكيان نفسه والتباينات التي قد يكون لها في نماذج المستندات. على سبيل المثال، يمكن أن تكون قيمة التاريخ بتنسيقات مختلفة متعددة، مثل:
- 10/14/2022
- 14 أكتوبر 2022
- الاثنين، 14 أكتوبر 2022
للمساعدة في تحديد تاريخ بدء الخدمة، يمكنك إنشاء شرح نمط.
- في قسم Explanation، حدد New واكتب اسما (على سبيل المثال، Date).
- بالنسبة إلى Type، حدد Pattern list.
- بالنسبة إلى Value، قم بتوفير تباين التاريخ كما تظهر في ملفات العينة. على سبيل المثال، إذا كان لديك تنسيقات تاريخ تظهر ك 0/00/0000، يمكنك إدخال أي اختلافات تظهر في مستنداتك، مثل:
- 0/0/0000
- 0/00/0000
- 00/0/0000
- 00/00/0000
- حدد حفظ.
ملاحظة
لمزيد من المعلومات حول أنواع التفسيرات، راجع أنواع التفسيرات.
استخدام مكتبة التفسير
لإنشاء تفسيرات لعناصر مثل التواريخ، من الأسهل استخدام مكتبة التفسير بدلا من إدخال جميع الاختلافات يدويا. مكتبة التفسير هي مجموعة من تفسيرات العبارات والأنماط التي تم إنشاؤها مسبقا. تحاول المكتبة توفير جميع التنسيقات لقوائم العبارات أو الأنماط الشائعة، مثل التواريخ وأرقام الهواتف والرموز البريدية وغيرها الكثير.
بالنسبة لعينة تاريخ بدء الخدمة ، من الأكثر كفاءة استخدام الشرح الذي تم إنشاؤه مسبقا ل Date في مكتبة التفسير:
في قسم Explanation، حدد New، ثم حدد From explanation library.
من مكتبة التفسير، حدد التاريخ. يمكنك عرض جميع تباينات التاريخ التي تم التعرف عليها.
حدد إضافة.
في صفحة إنشاء تفسير ، تملأ معلومات التاريخ من مكتبة التفسير الحقول تلقائيا. حدد حفظ.
تدريب النموذج
حفظ تفسيرك يبدأ التدريب. إذا كان النموذج الخاص بك يحتوي على معلومات كافية لاستخراج البيانات من ملفات المثال المسماة، فسترى كل ملف باسم Match.
إذا لم يكن لدى التفسير معلومات كافية للعثور على البيانات التي تريد استخراجها، فسيتم تسمية كل ملف ب عدم التطابق. يمكنك تحديد ملفات غير متطابقة للاطلاع على مزيد من المعلومات حول سبب عدم التطابق.
إضافة شرح آخر
غالبا ما يكون عدم التطابق مؤشرا على أن التفسير الذي قدمناه لم يوفر معلومات كافية لاستخراج قيمة تاريخ بدء الخدمة لمطابقة ملفاتنا المسماة. قد تحتاج إلى تحريره، أو إضافة تفسير آخر.
على سبيل المثال، لاحظ أن سلسلة النص تاريخ بدء الخدمة دائما يسبق القيمة الفعلية. للمساعدة في تحديد تاريخ بدء الخدمة، تحتاج إلى إنشاء شرح للعبارة.
في قسم Explanation، حدد New، ثم اكتب اسما (على سبيل المثال، Prefix String).
بالنسبة إلى النوع، حدد قائمة العبارات.
استخدم تاريخ بدء الخدمة كقيمة .
حدد حفظ.
تدريب النموذج مرة أخرى
يؤدي حفظ التفسير إلى بدء التدريب مرة أخرى، هذه المرة باستخدام كلا التفسيرين في المثال. إذا كان النموذج الخاص بك يحتوي على معلومات كافية لاستخراج البيانات من ملفات المثال المسماة، فسترى كل ملف مسمى ب Match.
إذا تلقيت مرة أخرى عدم تطابق في الملفات المسماة، فستحتاج على الأرجح إلى إنشاء تفسير آخر لتوفير مزيد من المعلومات للنموذج لتحديد نوع المستند، أو التفكير في إجراء تغييرات على الملفات الموجودة.
اختبار النموذج الخاص بك
إذا تلقيت تطابقا على ملفات العينة المسماة، يمكنك الآن اختبار النموذج الخاص بك على ملفات الأمثلة غير المسماة المتبقية. هذه الخطوة اختيارية، ولكنها مفيدة لتقييم "لياقة" النموذج أو استعداده قبل استخدامه، من خلال اختباره على الملفات التي لم يرها النموذج من قبل.
من الصفحة الرئيسية للنموذج، حدد علامة التبويب Test . سيؤدي ذلك إلى تشغيل النموذج على ملفات العينة غير المسماة.
في قائمة Test files ، يتم عرض ملفات المثال لإظهار ما إذا كان النموذج قادرا على استخراج المعلومات التي تحتاجها. استخدم هذه المعلومات للمساعدة في تحديد فعالية المصنف في تحديد مستنداتك.
تحسين مستخرج بشكل أكبر
إذا كان لديك كيانات مكررة وتريد استخراج قيمة واحدة فقط أو عدد معين من القيم، يمكنك تعيين قاعدة لتحديد الطريقة التي تريد معالجتها بها. لإضافة قاعدة لتحسين المعلومات المستخرجة، اتبع الخطوات التالية:
من الصفحة الرئيسية للنموذج، في قسم أداة استخراج الكيانات ، حدد المستخرج الذي تريد تحسينه، ثم حدد تحسين المعلومات المستخرجة.
في صفحة تحسين المعلومات المستخرجة ، حدد إحدى القواعد التالية:
- الاحتفاظ بقيمة واحدة أو أكثر من القيم الأولى
- الاحتفاظ بقيمة واحدة أو أكثر من القيم الأخيرة
- إزالة القيم المكررة
- الاحتفاظ بواحد أو أكثر من الأسطر الأولى
- الاحتفاظ بإحدى الأسطر الأخيرة أو أكثر
أدخل عدد الأسطر أو القيم التي تريد استخدامها، ثم حدد تحسين.
إذا كنت تريد تحرير قاعدة عن طريق تغيير عدد الأسطر أو القيم، فحدد المستخرج الذي تريد تحريره، وحدد تحسين المعلومات المستخرجة، وغير الرقم، ثم حدد حفظ.
عند اختبار المستخرج، ستتمكن من رؤية التحسين في عمود نتيجة التحسين في قائمة ملفات الاختبار .
إذا كنت تريد حذف قاعدة تحسين على مستخرج، فحدد المستخرج الذي تريد إزالة القاعدة منه، وحدد تحسين المعلومات المستخرجة، ثم حدد حذف.