Mesclagem de texto habilidade cognitiva

Artigo
10/26/2023

A habilidade Mesclagem de texto consolida o texto de uma matriz de cadeias de caracteres em um único campo.

Nota

Essa habilidade não está vinculada aos serviços de IA do Azure. Ele não é faturável e não tem nenhum requisito de chave de serviços de IA do Azure.

@odata.type

Microsoft.Skills.Text.MergeSkill

Parâmetros de habilidade

Os parâmetros diferenciam maiúsculas de minúsculas.

Nome do parâmetro	Description
`insertPreTag`	String a ser incluída antes de cada inserção. O valor predefinido é `" "`. Para omitir o espaço, defina o valor como `""`.
`insertPostTag`	String a ser incluída após cada inserção. O valor predefinido é `" "`. Para omitir o espaço, defina o valor como `""`.

Contributos para as competências

Nome de entrada	Description
`itemsToInsert`	Matriz de cadeias de caracteres a serem mescladas.
`text`	(facultativo) Corpo do texto principal a ser inserido. Se `text` não for fornecido, os elementos de `itemsToInsert` serão concatenados.
`offsets`	(facultativo) Matriz de posições dentro `text` de onde `itemsToInsert` deve ser inserido. Se fornecido, o número de elementos de deve ser igual ao número de elementos de `texttextToInsert`. Caso contrário, todos os itens serão anexados no final de `text`.

Resultados em termos de competências

Nome da saída	Description
`mergedText`	O texto mesclado resultante.
`mergedOffsets`	Matriz de posições dentro `mergedText` de onde os elementos de `itemsToInsert` foram inseridos.

Entrada de exemplo

Um documento JSON que forneça informações utilizáveis para essa habilidade pode ser:

{
  "values": [
    {
      "recordId": "1",
      "data":
      {
        "text": "The brown fox jumps over the dog",
        "itemsToInsert": ["quick", "lazy"],
        "offsets": [3, 28]
      }
    }
  ]
}

Saída de exemplo

Este exemplo mostra a saída da entrada anterior, supondo que insertPreTag esteja definido como , e insertPostTag esteja definido como " """.

{
  "values": [
    {
      "recordId": "1",
      "data":
      {
        "mergedText": "The quick brown fox jumps over the lazy dog"
      }
    }
  ]
}

Definição estendida do conjunto de habilidades de amostra

Um cenário comum para usar a Mesclagem de Texto é mesclar a representação textual de imagens (texto de uma habilidade OCR ou a legenda de uma imagem) no campo de conteúdo de um documento.

O conjunto de habilidades de exemplo a seguir usa a habilidade OCR para extrair texto de imagens incorporadas no documento. Em seguida, ele cria um campo merged_text para conter texto original e OCRed de cada imagem. Você pode aprender mais sobre a habilidade OCR aqui.

{
  "description": "Extract text from images and merge with content text to produce merged_text",
  "skills":
  [
    {
      "description": "Extract text (plain and structured) from image.",
      "@odata.type": "#Microsoft.Skills.Vision.OcrSkill",
      "context": "/document/normalized_images/*",
      "defaultLanguageCode": "en",
      "detectOrientation": true,
      "inputs": [
        {
          "name": "image",
          "source": "/document/normalized_images/*"
        }
      ],
      "outputs": [
        {
          "name": "text"
        }
      ]
    },
    {
      "@odata.type": "#Microsoft.Skills.Text.MergeSkill",
      "description": "Create merged_text, which includes all the textual representation of each image inserted at the right location in the content field.",
      "context": "/document",
      "insertPreTag": " ",
      "insertPostTag": " ",
      "inputs": [
        {
          "name":"text", 
          "source": "/document/content"
        },
        {
          "name": "itemsToInsert", 
          "source": "/document/normalized_images/*/text"
        },
        {
          "name":"offsets", 
          "source": "/document/normalized_images/*/contentOffset" 
        }
      ],
      "outputs": [
        {
          "name": "mergedText", 
          "targetName" : "merged_text"
        }
      ]
    }
  ]
}

O exemplo acima pressupõe a existência de um campo de imagens normalizadas. Para obter o campo normalized-images, defina a configuração imageAction na definição do indexador para generateNormalizedImages, conforme mostrado abaixo:

{
  //...rest of your indexer definition goes here ...
  "parameters":{
    "configuration":{
        "dataToExtract":"contentAndMetadata",
        "imageAction":"generateNormalizedImages"
    }
  }
}