Udostępnij za pośrednictwem


Umiejętność poznawcza scalania tekstu

Umiejętność Scalanie tekstu konsoliduje tekst z tablicy ciągów w jedno pole.

Uwaga

Ta umiejętność nie jest powiązana z usługami azure AI. Nie jest rozliczana i nie ma kluczowego wymagania dotyczącego usług azure AI.

@odata.type

Microsoft.Skills.Text.MergeSkill

Parametry umiejętności

W parametrach jest rozróżniana wielkość liter.

Nazwa parametru opis
insertPreTag Ciąg do umieszczenia przed każdym wstawieniem. Domyślna wartość to " ". Aby pominąć spację, ustaw wartość na "".
insertPostTag Ciąg do umieszczenia po każdym wstawieniu. Domyślna wartość to " ". Aby pominąć spację, ustaw wartość na "".

Dane wejściowe umiejętności

Nazwa danych wejściowych opis
itemsToInsert Tablica ciągów do scalenia.
text (opcjonalnie) Treść tekstu głównego do wstawienia. Jeśli text nie zostanie podana, elementy itemsToInsert elementu zostaną zeskonfikowane.
offsets (opcjonalnie) Tablica pozycji w miejscu, w text którym itemsToInsert należy wstawić. Jeśli zostanie podana, liczba elementów text musi być równa liczbie elementów .textToInsert W przeciwnym razie wszystkie elementy zostaną dołączone na końcu elementu text.

Dane wyjściowe umiejętności

Nazwa danych wyjściowych opis
mergedText Wynikowy scalony tekst.
mergedOffsets Tablica pozycji, w mergedText których wstawiono elementy itemsToInsert .

Przykładowe dane wejściowe

Dokument JSON zapewniający użyteczne dane wejściowe dla tej umiejętności może być następujący:

{
  "values": [
    {
      "recordId": "1",
      "data":
      {
        "text": "The brown fox jumps over the dog",
        "itemsToInsert": ["quick", "lazy"],
        "offsets": [3, 28]
      }
    }
  ]
}

Przykładowe dane wyjściowe

W tym przykładzie przedstawiono dane wyjściowe poprzednich danych wejściowych, przy założeniu, że parametr insertPreTag jest ustawiony na " "wartość , a parametr insertPostTag ma ustawioną wartość "".

{
  "values": [
    {
      "recordId": "1",
      "data":
      {
        "mergedText": "The quick brown fox jumps over the lazy dog"
      }
    }
  ]
}

Rozszerzona definicja zestawu umiejętności przykładowych

Typowym scenariuszem użycia scalania tekstu jest scalanie tekstowej reprezentacji obrazów (tekst z umiejętności OCR lub podpis obrazu) w polu zawartości dokumentu.

Poniższy przykładowy zestaw umiejętności używa umiejętności OCR do wyodrębniania tekstu z obrazów osadzonych w dokumencie. Następnie tworzy pole merged_text zawierające zarówno oryginalny, jak i tekst OCRed z każdego obrazu. Więcej informacji na temat umiejętności OCR można znaleźć tutaj.

{
  "description": "Extract text from images and merge with content text to produce merged_text",
  "skills":
  [
    {
      "description": "Extract text (plain and structured) from image.",
      "@odata.type": "#Microsoft.Skills.Vision.OcrSkill",
      "context": "/document/normalized_images/*",
      "defaultLanguageCode": "en",
      "detectOrientation": true,
      "inputs": [
        {
          "name": "image",
          "source": "/document/normalized_images/*"
        }
      ],
      "outputs": [
        {
          "name": "text"
        }
      ]
    },
    {
      "@odata.type": "#Microsoft.Skills.Text.MergeSkill",
      "description": "Create merged_text, which includes all the textual representation of each image inserted at the right location in the content field.",
      "context": "/document",
      "insertPreTag": " ",
      "insertPostTag": " ",
      "inputs": [
        {
          "name":"text", 
          "source": "/document/content"
        },
        {
          "name": "itemsToInsert", 
          "source": "/document/normalized_images/*/text"
        },
        {
          "name":"offsets", 
          "source": "/document/normalized_images/*/contentOffset" 
        }
      ],
      "outputs": [
        {
          "name": "mergedText", 
          "targetName" : "merged_text"
        }
      ]
    }
  ]
}

W powyższym przykładzie przyjęto założenie, że istnieje pole normalized-images. Aby uzyskać pole normalized-images, ustaw konfigurację imageAction w definicji indeksatora, aby wygenerowaćNormalizedImages, jak pokazano poniżej:

{
  //...rest of your indexer definition goes here ...
  "parameters":{
    "configuration":{
        "dataToExtract":"contentAndMetadata",
        "imageAction":"generateNormalizedImages"
    }
  }
}

Zobacz też