Keterampilan kognitif Text Merge

Keterampilan Penggabungan Teks mengonsolidasikan teks dari array string ke dalam satu bidang.

Catatan

Keterampilan ini tidak terikat ke layanan Azure AI. Ini tidak dapat ditagih dan tidak memiliki persyaratan kunci layanan Azure AI.

@odata.type

Microsoft.Skills.Text.MergeSkill

Parameter keterampilan

Parameternya peka huruf besar/kecil.

Nama Parameter Deskripsi
insertPreTag Untai yang akan disertakan sebelum setiap penyisipan. Nilai defaultnya adalah " ". Untuk menghilangkan spasi, atur nilai ke "".
insertPostTag Untai yang akan disertakan setelah setiap penyisipan. Nilai defaultnya adalah " ". Untuk menghilangkan spasi, atur nilai ke "".

Input keterampilan

Masukkan nama Deskripsi
itemsToInsert Array string yang akan digabungkan.
text (opsional) Isi teks utama yang akan disisipkan ke dalamnya. Jika text tidak disediakan, elemen itemsToInsert akan digabungkan.
offsets (opsional) Array posisi di text dalam tempat itemsToInsert harus disisipkan. Jika disediakan, jumlah elemen text harus sama dengan jumlah elemen textToInsert. Jika tidak, semua item akan ditambahkan di akhir text.

Output keterampilan

Nama output Deskripsi
mergedText Teks gabungan yang dihasilkan.
mergedOffsets Array posisi di mergedText mana elemen itemsToInsert disisipkan.

Input sampel

Dokumen JSON yang memberikan input yang bisa digunakan untuk keterampilan ini dapat berupa:

{
  "values": [
    {
      "recordId": "1",
      "data":
      {
        "text": "The brown fox jumps over the dog",
        "itemsToInsert": ["quick", "lazy"],
        "offsets": [3, 28]
      }
    }
  ]
}

Sampel output

Contoh ini menunjukkan output dari input sebelumnya, jika insertPreTag diatur ke " ", dan insertPostTag diatur ke "".

{
  "values": [
    {
      "recordId": "1",
      "data":
      {
        "mergedText": "The quick brown fox jumps over the lazy dog"
      }
    }
  ]
}

Definisi skillset sampel yang diperluas

Skenario penggunaan umum untuk Text Merge adalah kemampuan untuk menggabungkan representasi tekstual gambar (teks dari kemampuan OCR, atau keterangan gambar) ke bidang konten dokumen.

Contoh skillet berikut menggunakan kemampuan OCR untuk mengekstrak teks dari gambar yang tertanam dalam dokumen. Selanjutnya, ia membuat bidang merged_text untuk berisi teks asli dan teks OCR dari setiap gambar. Anda dapat mempelajari lebih lanjut tentang kemampuan OCR di sini.

{
  "description": "Extract text from images and merge with content text to produce merged_text",
  "skills":
  [
    {
      "description": "Extract text (plain and structured) from image.",
      "@odata.type": "#Microsoft.Skills.Vision.OcrSkill",
      "context": "/document/normalized_images/*",
      "defaultLanguageCode": "en",
      "detectOrientation": true,
      "inputs": [
        {
          "name": "image",
          "source": "/document/normalized_images/*"
        }
      ],
      "outputs": [
        {
          "name": "text"
        }
      ]
    },
    {
      "@odata.type": "#Microsoft.Skills.Text.MergeSkill",
      "description": "Create merged_text, which includes all the textual representation of each image inserted at the right location in the content field.",
      "context": "/document",
      "insertPreTag": " ",
      "insertPostTag": " ",
      "inputs": [
        {
          "name":"text", 
          "source": "/document/content"
        },
        {
          "name": "itemsToInsert", 
          "source": "/document/normalized_images/*/text"
        },
        {
          "name":"offsets", 
          "source": "/document/normalized_images/*/contentOffset" 
        }
      ],
      "outputs": [
        {
          "name": "mergedText", 
          "targetName" : "merged_text"
        }
      ]
    }
  ]
}

Contoh di atas menganggap bahwa ada bidang gambar yang dinormalisasi. Untuk mendapatkan bidang ini, atur konfigurasi imageAction dalam definisi pengindeks Anda ke generateNormalizedImages seperti yang ditunjukkan di bawah ini:

{
  //...rest of your indexer definition goes here ...
  "parameters":{
    "configuration":{
        "dataToExtract":"contentAndMetadata",
        "imageAction":"generateNormalizedImages"
    }
  }
}

Baca juga