المهارة المعرفية لدمج النصوص

2025-05-09

تعمل مهارة دمج النصوص على دمج النص من صفيف من السلاسل في حقل واحد.

إشعار

هذه المهارة غير مرتبطة بخدمات Azure الذكاء الاصطناعي. وهو غير قابل للفوترة ولا يحتوي على متطلبات أساسية لخدمات Azure الذكاء الاصطناعي.

@odata.type

Microsoft.Skills.Text.MergeSkill

معلمات المهارة

المعلمات حساسة لحالة الأحرف.

اسم المعلمة	وصف
`insertPreTag`	السلسلة المراد تضمينها قبل كل إدراج. القيمة الافتراضية هي `" "`. لحذف المسافة، قم بتعيين القيمة إلى `""`.
`insertPostTag`	السلسلة التي سيتم تضمينها بعد كل إدراج. القيمة الافتراضية هي `" "`. لحذف المسافة، قم بتعيين القيمة إلى `""`.

إدخالات المهارات

اسم الإدخال	وصف
`itemsToInsert`	صفيف من السلاسل المراد دمجها.
`text`	(اختياري) نص النص الرئيسي الذي سيتم إدراجه فيه. إذا `text` لم يتم توفيرها، سيتم تسلسل عناصر `itemsToInsert` .
`offsets`	(اختياري) صفيف المواضع داخل `text` المكان `itemsToInsert` الذي يجب إدراجه. إذا تم توفيره، يجب أن يساوي `textToInsert`عدد عناصر `text` . وإلا سيتم إلحاق جميع العناصر في نهاية `text`.

إخراجات المهارات

اسم الإخراج	وصف
`mergedText`	النص المدمج الناتج.
`mergedOffsets`	صفيف من المواضع داخل `mergedText` حيث تم إدراج عناصر `itemsToInsert` .

عينة الإدخال

يمكن أن يكون مستند JSON الذي يوفر مدخلات قابلة للاستخدام لهذه المهارة:

{
  "values": [
    {
      "recordId": "1",
      "data":
      {
        "text": "The brown fox jumps over the dog",
        "itemsToInsert": ["quick", "lazy"],
        "offsets": [3, 28]
      }
    }
  ]
}

عينة الإخراج

يوضح هذا المثال إخراج الإدخال السابق، على افتراض تعيين insertPreTag إلى " "، ويتم تعيين insertPostTag إلى "".

{
  "values": [
    {
      "recordId": "1",
      "data":
      {
        "mergedText": "The quick brown fox jumps over the lazy dog"
      }
    }
  ]
}

تعريف مجموعة مهارات العينة الموسعة

السيناريو الشائع لاستخدام دمج النصوص هو دمج التمثيل النصي للصور (نص من مهارة التعرف البصري على الحروف أو التسمية التوضيحية لصورة) في حقل محتوى المستند.

تستخدم مجموعة المهارات المثال التالي مهارة التعرف البصري على الحروف لاستخراج النص من الصور المضمنة في المستند. بعد ذلك، يقوم بإنشاء حقل merged_text يحتوي على كل من النص الأصلي والنص OCRed من كل صورة. يمكنك معرفة المزيد حول مهارة التعرف البصري على الحروف هنا.

{
  "description": "Extract text from images and merge with content text to produce merged_text",
  "skills":
  [
    {
      "description": "Extract text (plain and structured) from image.",
      "@odata.type": "#Microsoft.Skills.Vision.OcrSkill",
      "context": "/document/normalized_images/*",
      "defaultLanguageCode": "en",
      "detectOrientation": true,
      "inputs": [
        {
          "name": "image",
          "source": "/document/normalized_images/*"
        }
      ],
      "outputs": [
        {
          "name": "text"
        }
      ]
    },
    {
      "@odata.type": "#Microsoft.Skills.Text.MergeSkill",
      "description": "Create merged_text, which includes all the textual representation of each image inserted at the right location in the content field.",
      "context": "/document",
      "insertPreTag": " ",
      "insertPostTag": " ",
      "inputs": [
        {
          "name":"text", 
          "source": "/document/content"
        },
        {
          "name": "itemsToInsert", 
          "source": "/document/normalized_images/*/text"
        },
        {
          "name":"offsets", 
          "source": "/document/normalized_images/*/contentOffset" 
        }
      ],
      "outputs": [
        {
          "name": "mergedText", 
          "targetName" : "merged_text"
        }
      ]
    }
  ]
}

يفترض المثال أعلاه وجود حقل صور عادية. للحصول على حقل normalized-images، قم بتعيين تكوين imageAction في تعريف المفهرس الخاص بك لإنشاءNormalizedImages كما هو موضح أدناه:

{
  //...rest of your indexer definition goes here ...
  "parameters":{
    "configuration":{
        "dataToExtract":"contentAndMetadata",
        "imageAction":"generateNormalizedImages"
    }
  }
}

مشاركة عبر