مشاركة عبر


المهارة المعرفية لدمج النصوص

تعمل مهارة دمج النصوص على دمج النص من صفيف من السلاسل في حقل واحد.

إشعار

هذه المهارة غير مرتبطة بخدمات Azure الذكاء الاصطناعي. وهو غير قابل للفوترة ولا يحتوي على متطلبات أساسية لخدمات Azure الذكاء الاصطناعي.

@odata.type

Microsoft.Skills.Text.MergeSkill

معلمات المهارة

المعلمات حساسة لحالة الأحرف.

اسم المعلمة وصف
insertPreTag السلسلة المراد تضمينها قبل كل إدراج. القيمة الافتراضية هي " ". لحذف المسافة، قم بتعيين القيمة إلى "".
insertPostTag السلسلة التي سيتم تضمينها بعد كل إدراج. القيمة الافتراضية هي " ". لحذف المسافة، قم بتعيين القيمة إلى "".

إدخالات المهارات

اسم الإدخال وصف
itemsToInsert صفيف من السلاسل المراد دمجها.
text (اختياري) نص النص الرئيسي الذي سيتم إدراجه فيه. إذا text لم يتم توفيرها، سيتم تسلسل عناصر itemsToInsert .
offsets (اختياري) صفيف المواضع داخل text المكان itemsToInsert الذي يجب إدراجه. إذا تم توفيره، يجب أن يساوي textToInsertعدد عناصر text . وإلا سيتم إلحاق جميع العناصر في نهاية text.

إخراجات المهارات

اسم الإخراج وصف
mergedText النص المدمج الناتج.
mergedOffsets صفيف من المواضع داخل mergedText حيث تم إدراج عناصر itemsToInsert .

عينة الإدخال

يمكن أن يكون مستند JSON الذي يوفر مدخلات قابلة للاستخدام لهذه المهارة:

{
  "values": [
    {
      "recordId": "1",
      "data":
      {
        "text": "The brown fox jumps over the dog",
        "itemsToInsert": ["quick", "lazy"],
        "offsets": [3, 28]
      }
    }
  ]
}

عينة الإخراج

يوضح هذا المثال إخراج الإدخال السابق، على افتراض تعيين insertPreTag إلى " "، ويتم تعيين insertPostTag إلى "".

{
  "values": [
    {
      "recordId": "1",
      "data":
      {
        "mergedText": "The quick brown fox jumps over the lazy dog"
      }
    }
  ]
}

تعريف مجموعة مهارات العينة الموسعة

السيناريو الشائع لاستخدام دمج النصوص هو دمج التمثيل النصي للصور (نص من مهارة التعرف البصري على الحروف أو التسمية التوضيحية لصورة) في حقل محتوى المستند.

تستخدم مجموعة المهارات المثال التالي مهارة التعرف البصري على الحروف لاستخراج النص من الصور المضمنة في المستند. بعد ذلك، يقوم بإنشاء حقل merged_text يحتوي على كل من النص الأصلي والنص OCRed من كل صورة. يمكنك معرفة المزيد حول مهارة التعرف البصري على الحروف هنا.

{
  "description": "Extract text from images and merge with content text to produce merged_text",
  "skills":
  [
    {
      "description": "Extract text (plain and structured) from image.",
      "@odata.type": "#Microsoft.Skills.Vision.OcrSkill",
      "context": "/document/normalized_images/*",
      "defaultLanguageCode": "en",
      "detectOrientation": true,
      "inputs": [
        {
          "name": "image",
          "source": "/document/normalized_images/*"
        }
      ],
      "outputs": [
        {
          "name": "text"
        }
      ]
    },
    {
      "@odata.type": "#Microsoft.Skills.Text.MergeSkill",
      "description": "Create merged_text, which includes all the textual representation of each image inserted at the right location in the content field.",
      "context": "/document",
      "insertPreTag": " ",
      "insertPostTag": " ",
      "inputs": [
        {
          "name":"text", 
          "source": "/document/content"
        },
        {
          "name": "itemsToInsert", 
          "source": "/document/normalized_images/*/text"
        },
        {
          "name":"offsets", 
          "source": "/document/normalized_images/*/contentOffset" 
        }
      ],
      "outputs": [
        {
          "name": "mergedText", 
          "targetName" : "merged_text"
        }
      ]
    }
  ]
}

يفترض المثال أعلاه وجود حقل صور عادية. للحصول على حقل normalized-images، قم بتعيين تكوين imageAction في تعريف المفهرس الخاص بك لإنشاءNormalizedImages كما هو موضح أدناه:

{
  //...rest of your indexer definition goes here ...
  "parameters":{
    "configuration":{
        "dataToExtract":"contentAndMetadata",
        "imageAction":"generateNormalizedImages"
    }
  }
}

راجع أيضًا