Umiejętność poznawcza scalania tekstu

Artykuł
09/01/2024

Umiejętność Scalanie tekstu konsoliduje tekst z tablicy ciągów w jedno pole.

Uwaga

Ta umiejętność nie jest powiązana z usługami azure AI. Nie jest rozliczana i nie ma kluczowego wymagania dotyczącego usług azure AI.

@odata.type

Microsoft.Skills.Text.MergeSkill

Parametry umiejętności

W parametrach jest rozróżniana wielkość liter.

Nazwa parametru	opis
`insertPreTag`	Ciąg do umieszczenia przed każdym wstawieniem. Domyślna wartość to `" "`. Aby pominąć spację, ustaw wartość na `""`.
`insertPostTag`	Ciąg do umieszczenia po każdym wstawieniu. Domyślna wartość to `" "`. Aby pominąć spację, ustaw wartość na `""`.

Dane wejściowe umiejętności

Nazwa danych wejściowych	opis
`itemsToInsert`	Tablica ciągów do scalenia.
`text`	(opcjonalnie) Treść tekstu głównego do wstawienia. Jeśli `text` nie zostanie podana, elementy `itemsToInsert` elementu zostaną zeskonfikowane.
`offsets`	(opcjonalnie) Tablica pozycji w miejscu, w `text` którym `itemsToInsert` należy wstawić. Jeśli zostanie podana, liczba elementów `text` musi być równa liczbie elementów .`textToInsert` W przeciwnym razie wszystkie elementy zostaną dołączone na końcu elementu `text`.

Dane wyjściowe umiejętności

Nazwa danych wyjściowych	opis
`mergedText`	Wynikowy scalony tekst.
`mergedOffsets`	Tablica pozycji, w `mergedText` których wstawiono elementy `itemsToInsert` .

Przykładowe dane wejściowe

Dokument JSON zapewniający użyteczne dane wejściowe dla tej umiejętności może być następujący:

{
  "values": [
    {
      "recordId": "1",
      "data":
      {
        "text": "The brown fox jumps over the dog",
        "itemsToInsert": ["quick", "lazy"],
        "offsets": [3, 28]
      }
    }
  ]
}

Przykładowe dane wyjściowe

W tym przykładzie przedstawiono dane wyjściowe poprzednich danych wejściowych, przy założeniu, że parametr insertPreTag jest ustawiony na " "wartość , a parametr insertPostTag ma ustawioną wartość "".

{
  "values": [
    {
      "recordId": "1",
      "data":
      {
        "mergedText": "The quick brown fox jumps over the lazy dog"
      }
    }
  ]
}

Rozszerzona definicja zestawu umiejętności przykładowych

Typowym scenariuszem użycia scalania tekstu jest scalanie tekstowej reprezentacji obrazów (tekst z umiejętności OCR lub podpis obrazu) w polu zawartości dokumentu.

Poniższy przykładowy zestaw umiejętności używa umiejętności OCR do wyodrębniania tekstu z obrazów osadzonych w dokumencie. Następnie tworzy pole merged_text zawierające zarówno oryginalny, jak i tekst OCRed z każdego obrazu. Więcej informacji na temat umiejętności OCR można znaleźć tutaj.

{
  "description": "Extract text from images and merge with content text to produce merged_text",
  "skills":
  [
    {
      "description": "Extract text (plain and structured) from image.",
      "@odata.type": "#Microsoft.Skills.Vision.OcrSkill",
      "context": "/document/normalized_images/*",
      "defaultLanguageCode": "en",
      "detectOrientation": true,
      "inputs": [
        {
          "name": "image",
          "source": "/document/normalized_images/*"
        }
      ],
      "outputs": [
        {
          "name": "text"
        }
      ]
    },
    {
      "@odata.type": "#Microsoft.Skills.Text.MergeSkill",
      "description": "Create merged_text, which includes all the textual representation of each image inserted at the right location in the content field.",
      "context": "/document",
      "insertPreTag": " ",
      "insertPostTag": " ",
      "inputs": [
        {
          "name":"text", 
          "source": "/document/content"
        },
        {
          "name": "itemsToInsert", 
          "source": "/document/normalized_images/*/text"
        },
        {
          "name":"offsets", 
          "source": "/document/normalized_images/*/contentOffset" 
        }
      ],
      "outputs": [
        {
          "name": "mergedText", 
          "targetName" : "merged_text"
        }
      ]
    }
  ]
}

W powyższym przykładzie przyjęto założenie, że istnieje pole normalized-images. Aby uzyskać pole normalized-images, ustaw konfigurację imageAction w definicji indeksatora, aby wygenerowaćNormalizedImages, jak pokazano poniżej:

{
  //...rest of your indexer definition goes here ...
  "parameters":{
    "configuration":{
        "dataToExtract":"contentAndMetadata",
        "imageAction":"generateNormalizedImages"
    }
  }
}

Udostępnij za pośrednictwem