Aptitud cognitiva Combinación de texto
La aptitud Combinación de texto consolida el texto de una colección de cadenas en un solo campo.
Nota:
Esta aptitud no está enlazada a los servicios de Azure AI. No es facturable y no tiene ningún requisito de clave de los servicios de Azure AI.
@odata.type
Microsoft.Skills.Text.MergeSkill
Parámetros de la aptitud
Los parámetros distinguen mayúsculas de minúsculas.
Nombre de parámetro | Descripción |
---|---|
insertPreTag |
Cadena que se incluirá antes de cada inserción. El valor predeterminado es " " . Para omitir el espacio, establezca el valor en "" . |
insertPostTag |
Cadena que se incluirá después de cada inserción. El valor predeterminado es " " . Para omitir el espacio, establezca el valor en "" . |
Entradas de la aptitud
Nombre de entrada | Descripción |
---|---|
itemsToInsert |
Matriz de cadenas que se va a combinar. |
text |
(opcional) Cuerpo del texto principal en el que se va a insertar. Si text no se proporciona, se concatenarán los elementos de itemsToInsert . |
offsets |
(opcional) Matriz de posiciones dentro de text , donde se debe insertar itemsToInsert . Si se proporciona, el número de elementos de text debe ser igual al número de elementos de textToInsert . De lo contrario, todos los elementos se anexarán al final de text . |
Salidas de la aptitud
Nombre de salida | Descripción |
---|---|
mergedText |
Texto combinado resultante. |
mergedOffsets |
Matriz de posiciones dentro de mergedText donde han insertado los elementos de itemsToInsert . |
Entrada de ejemplo
Un documento JSON con una entrada útil para esta aptitud podría ser:
{
"values": [
{
"recordId": "1",
"data":
{
"text": "The brown fox jumps over the dog",
"itemsToInsert": ["quick", "lazy"],
"offsets": [3, 28]
}
}
]
}
Salida de muestra
Este ejemplo muestra la salida de la entrada anterior, suponiendo que insertPreTag esté establecido en " "
y insertPostTag esté establecido en ""
.
{
"values": [
{
"recordId": "1",
"data":
{
"mergedText": "The quick brown fox jumps over the lazy dog"
}
}
]
}
Definición del conjunto de aptitudes de ejemplo extendido
Un escenario común a la hora de utilizar Combinación de texto es combinar la representación textual de imágenes (el texto de una aptitud de OCR o la leyenda de una imagen) en el campo de contenido de un documento.
El siguiente conjunto de aptitudes de ejemplo utiliza la aptitud OCR para extraer el texto de las imágenes insertadas en el documento. A continuación, crea un campo merged_text para que contenga el texto original y el texto de OCR de cada imagen. Puede aprender más sobre la habilidad de OCR aquí.
{
"description": "Extract text from images and merge with content text to produce merged_text",
"skills":
[
{
"description": "Extract text (plain and structured) from image.",
"@odata.type": "#Microsoft.Skills.Vision.OcrSkill",
"context": "/document/normalized_images/*",
"defaultLanguageCode": "en",
"detectOrientation": true,
"inputs": [
{
"name": "image",
"source": "/document/normalized_images/*"
}
],
"outputs": [
{
"name": "text"
}
]
},
{
"@odata.type": "#Microsoft.Skills.Text.MergeSkill",
"description": "Create merged_text, which includes all the textual representation of each image inserted at the right location in the content field.",
"context": "/document",
"insertPreTag": " ",
"insertPostTag": " ",
"inputs": [
{
"name":"text",
"source": "/document/content"
},
{
"name": "itemsToInsert",
"source": "/document/normalized_images/*/text"
},
{
"name":"offsets",
"source": "/document/normalized_images/*/contentOffset"
}
],
"outputs": [
{
"name": "mergedText",
"targetName" : "merged_text"
}
]
}
]
}
En el ejemplo anterior se asume que existe un campo de imágenes normalizadas. Para obtener este campo de imágenes normalizadas, establezca la configuración imageAction en la definición del indexador en generateNormalizedImages, tal como se muestra a continuación:
{
//...rest of your indexer definition goes here ...
"parameters":{
"configuration":{
"dataToExtract":"contentAndMetadata",
"imageAction":"generateNormalizedImages"
}
}
}