Keterampilan kognitif Text Merge
Keterampilan Penggabungan Teks mengonsolidasikan teks dari array string ke dalam satu bidang.
Catatan
Keterampilan ini tidak terikat ke layanan Azure AI. Ini tidak dapat ditagih dan tidak memiliki persyaratan kunci layanan Azure AI.
@odata.type
Microsoft.Skills.Text.MergeSkill
Parameter keterampilan
Parameternya peka huruf besar/kecil.
Nama Parameter | Deskripsi |
---|---|
insertPreTag |
Untai yang akan disertakan sebelum setiap penyisipan. Nilai defaultnya adalah " " . Untuk menghilangkan spasi, atur nilai ke "" . |
insertPostTag |
Untai yang akan disertakan setelah setiap penyisipan. Nilai defaultnya adalah " " . Untuk menghilangkan spasi, atur nilai ke "" . |
Input keterampilan
Masukkan nama | Deskripsi |
---|---|
itemsToInsert |
Array string yang akan digabungkan. |
text |
(opsional) Isi teks utama yang akan disisipkan ke dalamnya. Jika text tidak disediakan, elemen itemsToInsert akan digabungkan. |
offsets |
(opsional) Array posisi di text dalam tempat itemsToInsert harus disisipkan. Jika disediakan, jumlah elemen text harus sama dengan jumlah elemen textToInsert . Jika tidak, semua item akan ditambahkan di akhir text . |
Output keterampilan
Nama output | Deskripsi |
---|---|
mergedText |
Teks gabungan yang dihasilkan. |
mergedOffsets |
Array posisi di mergedText mana elemen itemsToInsert disisipkan. |
Input sampel
Dokumen JSON yang memberikan input yang bisa digunakan untuk keterampilan ini dapat berupa:
{
"values": [
{
"recordId": "1",
"data":
{
"text": "The brown fox jumps over the dog",
"itemsToInsert": ["quick", "lazy"],
"offsets": [3, 28]
}
}
]
}
Sampel output
Contoh ini menunjukkan output dari input sebelumnya, jika insertPreTag diatur ke " "
, dan insertPostTag diatur ke ""
.
{
"values": [
{
"recordId": "1",
"data":
{
"mergedText": "The quick brown fox jumps over the lazy dog"
}
}
]
}
Definisi skillset sampel yang diperluas
Skenario penggunaan umum untuk Text Merge adalah kemampuan untuk menggabungkan representasi tekstual gambar (teks dari kemampuan OCR, atau keterangan gambar) ke bidang konten dokumen.
Contoh skillet berikut menggunakan kemampuan OCR untuk mengekstrak teks dari gambar yang tertanam dalam dokumen. Selanjutnya, ia membuat bidang merged_text untuk berisi teks asli dan teks OCR dari setiap gambar. Anda dapat mempelajari lebih lanjut tentang kemampuan OCR di sini.
{
"description": "Extract text from images and merge with content text to produce merged_text",
"skills":
[
{
"description": "Extract text (plain and structured) from image.",
"@odata.type": "#Microsoft.Skills.Vision.OcrSkill",
"context": "/document/normalized_images/*",
"defaultLanguageCode": "en",
"detectOrientation": true,
"inputs": [
{
"name": "image",
"source": "/document/normalized_images/*"
}
],
"outputs": [
{
"name": "text"
}
]
},
{
"@odata.type": "#Microsoft.Skills.Text.MergeSkill",
"description": "Create merged_text, which includes all the textual representation of each image inserted at the right location in the content field.",
"context": "/document",
"insertPreTag": " ",
"insertPostTag": " ",
"inputs": [
{
"name":"text",
"source": "/document/content"
},
{
"name": "itemsToInsert",
"source": "/document/normalized_images/*/text"
},
{
"name":"offsets",
"source": "/document/normalized_images/*/contentOffset"
}
],
"outputs": [
{
"name": "mergedText",
"targetName" : "merged_text"
}
]
}
]
}
Contoh di atas menganggap bahwa ada bidang gambar yang dinormalisasi. Untuk mendapatkan bidang ini, atur konfigurasi imageAction dalam definisi pengindeks Anda ke generateNormalizedImages seperti yang ditunjukkan di bawah ini:
{
//...rest of your indexer definition goes here ...
"parameters":{
"configuration":{
"dataToExtract":"contentAndMetadata",
"imageAction":"generateNormalizedImages"
}
}
}