تقسيم المهارة المعرفية للنص

تقسم مهارة تقسيم النص النص إلى أجزاء من النص. يمكنك تحديد ما إذا كنت تريد تقسيم النص إلى جمل أو إلى صفحات ذات طول معين. هذه المهارة مفيدة بشكل خاص إذا كان هناك الحد الأقصى لمتطلبات طول النص في المهارات الأخرى في المراحل النهائية.

ملاحظة

هذه المهارة غير مرتبطة بالخدمات المعرفية. وهو غير قابل للفوترة ولا يحتوي على متطلبات مفتاح الخدمات المعرفية.

@odata.type

Microsoft.Skills.Text.SplitSkill

معلمات المهارة

المعلمات حساسة لحالة الأحرف.

اسم المعلمة الوصف
textSplitMode إما ⁧pages⁩ أو ⁧sentences
maximumPageLength ينطبق فقط إذا textSplitMode تم تعيين إلى pages. يشير هذا إلى الحد الأقصى لطول الصفحة في الأحرف كما تم قياسه بواسطة String.Length. الحد الأدنى للقيمة هو 300، والحد الأقصى هو 100000، والقيمة الافتراضية هي 10000. ستبذل الخوارزمية قصارى جهدها لكسر النص على حدود الجملة، لذلك قد يكون حجم كل مجموعة أقل قليلا من maximumPageLength.
defaultLanguageCode (اختياري) أحد رموز اللغة التالية: am, bs, cs, da, de, en, es, et, fr, he, hi, hr, hu, fi, id, is, it, ja, ko, lv, no, nl, pl, pt-PT, pt-BR, ru, sk, sl, sr, sv, tr, ur, zh-Hans. الافتراضي هو الإنجليزية (en). بعض الأشياء التي يجب مراعاتها:
  • يعد توفير تعليمة برمجية للغة مفيدا لتجنب قطع كلمة في النصف للغات غير البيضاء مثل الصينية واليابانية والكورية.
  • إذا كنت لا تعرف اللغة (أي تحتاج إلى تقسيم النص للإدخال إلى LanguageDetectionSkill)، يجب أن يكون الإعداد الافتراضي للغة الإنجليزية (en) كافيا.

مدخلات المهارات

اسم المعلمة الوصف
text النص المراد تقسيمه إلى سلسلة فرعية.
languageCode (اختياري) رمز اللغة للمستند. إذا كنت لا تعرف اللغة (أي تحتاج إلى تقسيم النص للإدخال إلى LanguageDetectionSkill)، فمن الآمن إزالة هذا الإدخال. إذا لم تكن اللغة في القائمة المعتمدة للمعلمة defaultLanguageCode أعلاه، فسيتم إرسال تحذير ولن يتم تقسيم النص.

مخرجات المهارات

اسم المعلمة الوصف
textItems صفيف من السلاسل الفرعية التي تم استخراجها.

تعريف العينة

{
    "@odata.type": "#Microsoft.Skills.Text.SplitSkill",
    "textSplitMode" : "pages", 
    "maximumPageLength": 1000,
    "defaultLanguageCode": "en",
    "inputs": [
        {
            "name": "text",
            "source": "/document/content"
        },
        {
            "name": "languageCode",
            "source": "/document/language"
        }
    ],
    "outputs": [
        {
            "name": "textItems",
            "targetName": "mypages"
        }
    ]
}

نموذج الإدخال

{
    "values": [
        {
            "recordId": "1",
            "data": {
                "text": "This is the loan application for Joe Romero, a Microsoft employee who was born in Chile and who then moved to Australia...",
                "languageCode": "en"
            }
        },
        {
            "recordId": "2",
            "data": {
                "text": "This is the second document, which will be broken into several pages...",
                "languageCode": "en"
            }
        }
    ]
}

إخراج العينة

{
    "values": [
        {
            "recordId": "1",
            "data": {
                "textItems": [
                    "This is the loan…",
                    "On the second page we…"
                ]
            }
        },
        {
            "recordId": "2",
            "data": {
                "textItems": [
                    "This is the second document...",
                    "On the second page of the second doc…"
                ]
            }
        }
    ]
}

حالات الخطأ

إذا لم تكن اللغة معتمدة، يتم إنشاء تحذير.

راجع أيضًا