أنواع التفسيرات في Microsoft Syntex

ينطبق على: ✓ معالجة المستندات غير المنظمة

يتم استخدام التفسيرات للمساعدة في تحديد المعلومات التي تريد تسميتها واستخراجها في نماذج معالجة المستندات غير المنظمة في Microsoft Syntex. عند إنشاء تفسير، تحتاج إلى تحديد نوع تفسير. تساعدك هذه المقالة على فهم أنواع التفسيرات المختلفة وكيفية استخدامها.

لقطة شاشة للوحة Create an explanation تعرض أنواع التفسير الثلاثة.

تتوفر أنواع التفسيرات هذه:

  • قائمة العبارات: قائمة بالكلمات أو العبارات أو الأرقام أو الأحرف الأخرى التي يمكنك استخدامها في المستند أو المعلومات التي تقوم باستخراجها. على سبيل المثال، السلسلة النصية التي تشير إلى الطبيب موجودة في جميع مستندات الإحالة الطبية التي تحددها. أو رقم هاتف الطبيب المرجعي من جميع مستندات الإحالة الطبية التي تحددها.

  • التعبير العادي: يستخدم رمزا مطابقا للنمط للعثور على أنماط أحرف محددة. على سبيل المثال، يمكنك استخدام تعبير عادي للعثور على جميع مثيلات نمط عنوان البريد الإلكتروني في مجموعة من المستندات.

  • التقارب: يصف مدى قرب التفسيرات من بعضها البعض. على سبيل المثال، تنتقل قائمة عبارات رقم الشارع مباشرة قبل قائمة عبارات اسم الشارع ، مع عدم وجود رموز مميزة بينهما (ستتعرف على الرموز المميزة لاحقا في هذه المقالة). يتطلب استخدام نوع التقارب أن يكون لديك تفسيران على الأقل في النموذج الخاص بك أو سيتم تعطيل الخيار.

قائمة العبارات

عادة ما يتم استخدام نوع شرح قائمة العبارات لتعريف مستند وتصنيفه من خلال النموذج الخاص بك. كما هو موضح في مثال تسمية الطبيب المرجعي ، إنها سلسلة من الكلمات أو العبارات أو الأرقام أو الأحرف الموجودة باستمرار في المستندات التي تحددها.

على الرغم من أنه ليس شرطا، يمكنك تحقيق نجاح أفضل مع تفسيرك إذا كانت العبارة التي تلتقطها موجودة في موقع متناسق في المستند. على سبيل المثال، قد تكون تسمية الطبيب المرجعي موجودة باستمرار في الفقرة الأولى من المستند. يمكنك أيضا استخدام الإعداد Configure where phrases in the document advanced لتحديد مناطق معينة حيث توجد العبارة، خاصة إذا كانت هناك فرصة لحدوث العبارة في مواقع متعددة في المستند.

إذا كانت حساسية الحالة شرطا في تحديد التسمية الخاصة بك، فإن استخدام نوع قائمة العبارات يسمح لك بتحديدها في التفسير الخاص بك عن طريق تحديد خانة الاختيار الكتابة بالأحرف الكبيرة الدقيقة فقط .

حساسية الحالة.

يكون نوع العبارة مفيدا بشكل خاص عند إنشاء شرح يحدد المعلومات ويستخرجها بتنسيقات مختلفة، مثل التواريخ وأرقام الهواتف وأرقام بطاقات الائتمان. على سبيل المثال، يمكن عرض تاريخ بتنسيقات مختلفة عديدة (1/1/2020 أو 1-1-2020 أو 01/01/20 أو 01/01/2020 أو 1 يناير 2020). يجعل تعريف قائمة العبارات تفسيرك أكثر كفاءة من خلال التقاط أي اختلافات محتملة في البيانات التي تحاول تحديدها واستخراجها.

بالنسبة لمثال رقم الهاتف ، يمكنك استخراج رقم الهاتف لكل طبيب مرجعي من جميع مستندات الإحالة الطبية التي يحددها النموذج. عند إنشاء التفسير، اكتب التنسيقات المختلفة التي قد يعرضها رقم الهاتف في المستند بحيث تتمكن من التقاط الاختلافات المحتملة.

أنماط عبارة رقم الهاتف.

على سبيل المثال، في الإعدادات المتقدمة ، حدد خانة الاختيار أي رقم من 0-9 للتعرف على كل قيمة "0" مستخدمة في قائمة العبارات لتكون أي رقم من 0 إلى 9.

أي رقم من 0-9.

وبالمثل، إذا قمت بإنشاء قائمة عبارات تتضمن أحرف نصية، فحدد خانة الاختيار أي حرف من a-z للتعرف على كل حرف "a" مستخدم في قائمة العبارات ليكون أي حرف من "a" إلى "z".

على سبيل المثال، إذا قمت بإنشاء قائمة عبارات التاريخ وتريد التأكد من التعرف على تنسيق تاريخ مثل 1 يناير 2020 ، فستحتاج إلى:

  • أضف aaa 0 و0000وaaa 00 و0000 إلى قائمة العبارات الخاصة بك.
  • تأكد من تحديد أي حرف من a-z أيضا.

أي حرف من a-z.

إذا كانت لديك متطلبات الكتابة بالأحرف الكبيرة في قائمة العبارات، يمكنك تحديد خانة الاختيار الكتابة بالأحرف الكبيرة الدقيقة فقط . بالنسبة لمثال التاريخ، إذا كنت تحتاج إلى كتابة الحرف الأول من الشهر بأحرف كبيرة، فستحتاج إلى:

  • أضف Aaa 0 و0000وAaa 00 و0000 إلى قائمة العبارات الخاصة بك.
  • تأكد من تحديد الكتابة بالأحرف الكبيرة الدقيقة فقط أيضا.

الكتابة بالأحرف الكبيرة الدقيقة فقط.

ملاحظة

بدلا من إنشاء شرح لقائمة العبارات يدويا، استخدم مكتبة التفسير لاستخدام قوالب قائمة العبارات لقائمة عبارات شائعة، مثل التاريخ أو رقم الهاتف أو رقم بطاقة الائتمان.

تعبير عادي

يسمح لك نوع تفسير التعبير العادي بإنشاء أنماط تساعد في العثور على سلاسل نصية معينة وتحديدها في المستندات. يمكنك استخدام التعبيرات العادية لتحليل كميات كبيرة من النص بسرعة من أجل:

  • ابحث عن أنماط أحرف محددة.
  • تحقق من صحة النص للتأكد من أنه يطابق نمطا معرفا مسبقا (مثل عنوان بريد إلكتروني).
  • استخراج سلاسل النص الفرعية أو تحريرها أو استبدالها أو حذفها.

يكون نوع التعبير العادي مفيدا بشكل خاص عند إنشاء شرح يحدد المعلومات ويستخرجها بتنسيقات مماثلة، مثل عناوين البريد الإلكتروني أو أرقام الحسابات المصرفية أو عناوين URL. على سبيل المثال، يتم عرض عنوان بريد إلكتروني، مثل megan@contoso.com، في نمط معين ("megan" هو الجزء الأول، و"com" هو الجزء الأخير).

التعبير العادي لعنوان بريد إلكتروني هو: [A-Za-z0-9._٪-]+@[A-Za-z0-9.-]+.[ A-Za-z]{2,6}.

يتكون هذا التعبير من خمسة أجزاء، بهذا الترتيب:

  1. أي كمية من الأحرف التالية:

    أ. رسائل من a إلى z

    ب. الأرقام من 0-9

    ج. نقطة أو تسطير أسفل السطر أو النسبة المئوية أو شرطة

  2. الرمز @

  3. أي كمية من نفس الأحرف مثل الجزء الأول من عنوان البريد الإلكتروني

  4. فترة

  5. حرفان إلى ستة أحرف

لإضافة نوع شرح تعبير عادي:

  1. من لوحة Create an explanation ، ضمن Explanation type، حدد Regular expression.

    لقطة شاشة تعرض لوحة إنشاء تفسير مع تحديد التعبير العادي.

  2. يمكنك إما كتابة تعبير في مربع النص تعبير عادي أو تحديد إضافة تعبير عادي من قالب.

    عند إضافة تعبير عادي باستخدام قالب، فإنه يضيف تلقائيا الاسم والتعبير العادي إلى مربع النص. على سبيل المثال، إذا اخترت قالب عنوان البريد الإلكتروني ، فسيتم ملء لوحة إنشاء تفسير .

    لقطة شاشة تعرض لوحة إنشاء شرح مع تطبيق قالب عنوان البريد الإلكتروني.

القيود

يعرض الجدول التالي خيارات الأحرف المضمنة غير المتوفرة حاليا للاستخدام في أنماط التعبير العادي.

الخيار الدوله الوظائف الحالية
حساسية الحالة غير مدعوم حاليا. جميع التطابقات التي يتم إجراؤها غير حساسة لحالة الأحرف.
نقاط ارتساء الخط غير مدعوم حاليا. تعذر تحديد موضع معين في سلسلة يجب أن تحدث فيها تطابق.

القرب

يساعد نوع تفسير التقارب النموذج الخاص بك على تحديد البيانات من خلال تحديد مدى قرب جزء آخر من البيانات منه. على سبيل المثال، في النموذج الخاص بك، لنفترض أنك حددت تفسيرين يصنفان رقم عنوان شارع العميل ورقم الهاتف.

لاحظ أن أرقام هواتف العملاء تظهر دائما قبل رقم عنوان الشارع.

أليكس ويلبورن
555-555-5555
One Microsoft Way
ريدموند، WA 98034

استخدم تفسير التقارب لتحديد مدى مسافة شرح رقم الهاتف لتحديد رقم عنوان الشارع في مستنداتك بشكل أفضل.

شرح التقارب.

ملاحظة

لا يمكن استخدام التعبيرات العادية حاليا مع نوع تفسير التقارب.

ما هي الرموز المميزة؟

لاستخدام نوع تفسير التقارب، تحتاج إلى فهم ما هو الرمز المميز. عدد الرموز المميزة هو كيف يقيس تفسير التقارب المسافة من تفسير إلى آخر. الرمز المميز هو امتداد مستمر (لا يتضمن مسافات أو علامات ترقيم) من الأحرف والأرقام.

يعرض الجدول التالي أمثلة حول كيفية تحديد عدد الرموز المميزة في عبارة.

عباره عدد الرموز المميزة تفسير
Dog 1 كلمة واحدة بدون علامات ترقيم أو مسافات.
RMT33W 1 رقم محدد موقع السجل. قد يتضمن أرقاما وأحرفا، ولكن لا يحتوي على علامات ترقيم.
425-555-5555 5 رقم هاتف. كل علامة ترقيم هي رمز مميز واحد، وكذلك 425-555-5555 5 رموز مميزة:
425
-
555
-
5555
https://luis.ai 7 https
:
/
/
luis
.
ai

تكوين نوع تفسير التقارب

على سبيل المثال، قم بتكوين إعداد التقارب لتحديد نطاق عدد الرموز المميزة في شرح رقم الهاتف من شرح رقم عنوان الشارع . لاحظ أن الحد الأدنى للنطاق هو "0"، لأنه لا توجد رموز مميزة بين رقم الهاتف ورقم عنوان الشارع.

ولكن يتم إلحاق بعض أرقام الهواتف في نماذج المستندات ب (الهاتف المحمول).

نستور ويلك
111-111-1111 (الهاتف المحمول)
One Microsoft Way
ريدموند، WA 98034

هناك ثلاثة رموز مميزة في (الهاتف المحمول):

عباره عدد الرموز المميزة
( 1
المحمول 2
) 3

قم بتكوين إعداد التقارب للحصول على نطاق من 0 إلى 3.

مثال على التقارب.

تكوين مكان حدوث العبارات في المستند

عند إنشاء تفسير، يتم البحث بشكل افتراضي عن المستند بأكمله عن العبارة التي تحاول استخراجها. ومع ذلك، يمكنك استخدام الإعداد حيث تحدث هذه العبارات المتقدمة للمساعدة في عزل موقع معين في المستند الذي تحدث فيه عبارة. هذا الإعداد مفيد في الحالات التي قد تظهر فيها مثيلات مماثلة للعبارة في مكان آخر في المستند، وتريد التأكد من تحديد المثيل الصحيح.

بالإشارة إلى مثال مستند الإحالة الطبية، يتم دائما ذكر الطبيب المرجعي في الفقرة الأولى من المستند. باستخدام الإعداد أين تحدث هذه العبارات ، في هذا المثال، يمكنك تكوين تفسيرك للبحث عن هذه التسمية فقط في قسم البداية من المستند، أو أي موقع آخر قد يحدث فيه.

حيث تحدث هذه العبارات الإعداد.

يمكنك اختيار الخيارات التالية لهذا الإعداد:

  • في أي مكان في الملف: يتم البحث في المستند بأكمله عن العبارة .

  • بداية الملف: يتم البحث في المستند من البداية إلى موقع العبارة.

    بداية الملف.

    في العارض، يمكنك ضبط مربع التحديد يدويا لتضمين الموقع الذي تحدث فيه المرحلة. سيتم تحديث قيمة موضع النهاية لإظهار عدد الرموز المميزة التي تتضمنها المنطقة المحددة. يمكنك تحديث قيمة موضع النهاية أيضا لضبط المنطقة المحددة.

    بداية مربع موضع الملف.

  • نهاية الملف: يتم البحث في المستند من النهاية إلى موقع العبارة.

    نهاية الملف.

    في العارض، يمكنك ضبط مربع التحديد يدويا لتضمين الموقع الذي تحدث فيه المرحلة. سيتم تحديث قيمة موضع البدء لإظهار عدد الرموز المميزة التي تتضمنها المنطقة المحددة. يمكنك تحديث قيمة موضع البدء أيضا لضبط المنطقة المحددة.

    نهاية مربع نهاية الملف.

  • النطاق المخصص: يتم البحث في المستند ضمن نطاق محدد لموقع العبارة.

    نطاق مخصص.

    في العارض، يمكنك ضبط مربع التحديد يدويا لتضمين الموقع الذي تحدث فيه المرحلة. لهذا الإعداد، تحتاج إلى تحديد موضع البدءوالنهاية . تمثل هذه القيم عدد الرموز المميزة من بداية المستند. بينما يمكنك إدخال هذه القيم يدويا، من الأسهل ضبط مربع التحديد يدويا في العارض.

الاعتبارات عند تكوين التفسيرات

عند تدريب مصنف، هناك بعض الأشياء التي يجب وضعها في الاعتبار والتي ستنتج نتائج أكثر قابلية للتنبؤ:

  • كلما زاد عدد المستندات التي تتدرب عليها، زادت دقة المصنف. عندما يكون ذلك ممكنا، استخدم أكثر من 5 مستندات جيدة واستخدم أكثر من مستند غير صالح. إذا كانت المكتبات التي تعمل معها تحتوي على عدة أنواع مستندات مختلفة، فإن العديد من كل نوع يؤدي إلى نتائج أكثر قابلية للتنبؤ.

  • تلعب تسمية المستند دورا مهما في عملية التدريب. يتم استخدامها جنبا إلى جنب مع تفسيرات لتدريب النموذج. قد ترى بعض الحالات الشاذة عند تدريب مصنف باستخدام مستندات لا تحتوي على الكثير من المحتوى فيها. قد لا يتطابق التفسير مع أي شيء في المستند ولكن نظرا لأنه تم تسميته كمستند "جيد"، فقد ترى أنه مطابق أثناء التدريب.

  • عند إنشاء تفسيرات، فإنه يستخدم منطق OR بالاشتراك مع التسمية لتحديد ما إذا كانت مطابقة أم لا. قد يكون التعبير العادي الذي يستخدم منطق AND أكثر قابلية للتنبؤ. فيما يلي نموذج تعبير عادي لاستخدامه في المستندات الحقيقية أثناء تدريبك لها. لاحظ أن النص المميز باللون الأحمر هو العبارة (العبارات) التي تبحث عنها.

    (?=.*network provider)(?=.*participating providers).*
  • تعمل التسميات والتفسيرات معا وتستخدم في تدريب النموذج. إنها ليست سلسلة من القواعد التي يمكن أن تكون مقترنة ودقيقة أو توقعا مطبقا على كل متغير تم تكوينه. كلما زاد اختلاف المستندات المستخدمة في التدريب، سيوفر المزيد من الدقة في النموذج.

راجع أيضًا

استخدام قوالب التفسير في Microsoft Syntex