Keterampilan kognitif Text Merge

Artikel
09/01/2024

Keterampilan Penggabungan Teks mengonsolidasikan teks dari array string ke dalam satu bidang.

Catatan

Keterampilan ini tidak terikat ke layanan Azure AI. Ini tidak dapat ditagih dan tidak memiliki persyaratan kunci layanan Azure AI.

@odata.type

Microsoft.Skills.Text.MergeSkill

Parameter keterampilan

Parameternya peka huruf besar/kecil.

Nama Parameter	Deskripsi
`insertPreTag`	Untai yang akan disertakan sebelum setiap penyisipan. Nilai defaultnya adalah `" "`. Untuk menghilangkan spasi, atur nilai ke `""`.
`insertPostTag`	Untai yang akan disertakan setelah setiap penyisipan. Nilai defaultnya adalah `" "`. Untuk menghilangkan spasi, atur nilai ke `""`.

Input keterampilan

Masukkan nama	Deskripsi
`itemsToInsert`	Array string yang akan digabungkan.
`text`	(opsional) Isi teks utama yang akan disisipkan ke dalamnya. Jika `text` tidak disediakan, elemen `itemsToInsert` akan digabungkan.
`offsets`	(opsional) Array posisi di `text` dalam tempat `itemsToInsert` harus disisipkan. Jika disediakan, jumlah elemen `text` harus sama dengan jumlah elemen `textToInsert`. Jika tidak, semua item akan ditambahkan di akhir `text`.

Output keterampilan

Nama output	Deskripsi
`mergedText`	Teks gabungan yang dihasilkan.
`mergedOffsets`	Array posisi di `mergedText` mana elemen `itemsToInsert` disisipkan.

Input sampel

Dokumen JSON yang memberikan input yang bisa digunakan untuk keterampilan ini dapat berupa:

{
  "values": [
    {
      "recordId": "1",
      "data":
      {
        "text": "The brown fox jumps over the dog",
        "itemsToInsert": ["quick", "lazy"],
        "offsets": [3, 28]
      }
    }
  ]
}

Sampel output

Contoh ini menunjukkan output dari input sebelumnya, jika insertPreTag diatur ke " ", dan insertPostTag diatur ke "".

{
  "values": [
    {
      "recordId": "1",
      "data":
      {
        "mergedText": "The quick brown fox jumps over the lazy dog"
      }
    }
  ]
}

Definisi skillset sampel yang diperluas

Skenario penggunaan umum untuk Text Merge adalah kemampuan untuk menggabungkan representasi tekstual gambar (teks dari kemampuan OCR, atau keterangan gambar) ke bidang konten dokumen.

Contoh skillet berikut menggunakan kemampuan OCR untuk mengekstrak teks dari gambar yang tertanam dalam dokumen. Selanjutnya, ia membuat bidang merged_text untuk berisi teks asli dan teks OCR dari setiap gambar. Anda dapat mempelajari lebih lanjut tentang kemampuan OCR di sini.

{
  "description": "Extract text from images and merge with content text to produce merged_text",
  "skills":
  [
    {
      "description": "Extract text (plain and structured) from image.",
      "@odata.type": "#Microsoft.Skills.Vision.OcrSkill",
      "context": "/document/normalized_images/*",
      "defaultLanguageCode": "en",
      "detectOrientation": true,
      "inputs": [
        {
          "name": "image",
          "source": "/document/normalized_images/*"
        }
      ],
      "outputs": [
        {
          "name": "text"
        }
      ]
    },
    {
      "@odata.type": "#Microsoft.Skills.Text.MergeSkill",
      "description": "Create merged_text, which includes all the textual representation of each image inserted at the right location in the content field.",
      "context": "/document",
      "insertPreTag": " ",
      "insertPostTag": " ",
      "inputs": [
        {
          "name":"text", 
          "source": "/document/content"
        },
        {
          "name": "itemsToInsert", 
          "source": "/document/normalized_images/*/text"
        },
        {
          "name":"offsets", 
          "source": "/document/normalized_images/*/contentOffset" 
        }
      ],
      "outputs": [
        {
          "name": "mergedText", 
          "targetName" : "merged_text"
        }
      ]
    }
  ]
}

Contoh di atas menganggap bahwa ada bidang gambar yang dinormalisasi. Untuk mendapatkan bidang ini, atur konfigurasi imageAction dalam definisi pengindeks Anda ke generateNormalizedImages seperti yang ditunjukkan di bawah ini:

{
  //...rest of your indexer definition goes here ...
  "parameters":{
    "configuration":{
        "dataToExtract":"contentAndMetadata",
        "imageAction":"generateNormalizedImages"
    }
  }
}

Bagikan melalui