Когнитивный навык распознавания текста

2025-05-09

Навык Оптическое распознавание символов (OCR) распознает печатный и рукописный текст в файлах изображений. В этой статье приведена справочная документация по навыку OCR. Инструкции по использованию см. в статье "Извлечение текста из изображений ".

Навык OCR использует модели машинного обучения, предоставляемые API визуального распознавания Azure версии 3.2 в службах ИИ Azure. Навык OCR сопоставляет следующие функциональные возможности службы.

Для языков, перечисленных в поддержке языка распознавания искусственного интеллекта Azure, используется API чтения.
Для греческого и сербского кириллицы используется устаревший OCR в API версии 3.2 .

Навык OCR извлекает текст из файлов изображений и внедренных изображений. Поддерживаемые форматы файлов включают:

. JPEG
.JPG
.PNG
.BMP
. РАЗМОЛВКА

Поддерживаемые источники данных для анализа изображений и OCR — это большие двоичные объекты в Хранилище BLOB-объектов Azure и Azure Data Lake Storage (ADLS) 2-го поколения, а также содержимое изображений в OneLake. Изображения могут быть автономными файлами или внедренными изображениями в PDF-файл или другие файлы.

Примечание.

Этот навык привязан к службам ИИ Azure и требует оплачиваемого ресурса для транзакций, превышающих 20 документов на индексатор в день. Выполнение встроенных навыков взимается по существующей цене служб ИИ Azure standard.

Кроме того, извлечение изображений взимается с помощью службы "Поиск ИИ Azure".

Параметры навыков

Параметры зависят от регистра.

Наименование параметра	Описание
`detectOrientation`	Определяет ориентацию изображения. Допустимые значения — `true` или `false`. Этот параметр применяется только в том случае, если используется устаревший API OCR версии 3.2 .
`defaultLanguageCode`	Код языка вводимого текста. Поддерживаемые языки включают все общедоступные языки Azure AI Vision. Можно также указать `unk` (неизвестно). Если код языка не указан или имеет значение NULL, для языка задано значение "Английский". Если язык явно задан `unk`, все языки, найденные языки обнаруживаются автоматически и возвращаются.
`lineEnding`	Значение, используемое в качестве разделителя строк. Возможные значения: "Space", "CarriageReturn", "LineFeed". По умолчанию используется "Space" (пробел).

В предыдущих версиях был параметр textExtractionAlgorithm, чтобы указать извлечение печатного или рукописного текста. Этот параметр не рекомендуется, так как текущий алгоритм API чтения извлекает оба типа текста одновременно. Если навык включает этот параметр, его не нужно удалить, но он не будет использоваться во время выполнения навыка.

Входные данные навыков

Ввод имени	Описание
`image`	Сложный тип. В настоящее время используется только поле "/document/normalized_images", созданное индексатором BLOB-объектов Azure, если `imageAction` задано значение, отличное от `none`значения.

Выходные данные навыка

Имя вывода	Описание
`text`	Обычный текст, извлеченный из изображения.
`layoutText`	Сложный тип, описывающий извлеченный текст и расположение, где найден указанный текст.

При вызове OCR на изображениях, внедренных в PDF-файлы или другие файлы приложений, выходные данные OCR будут находиться в нижней части страницы после извлечения и обработки текста.

Пример определения

{
  "skills": [
    {
      "description": "Extracts text (plain and structured) from image.",
      "@odata.type": "#Microsoft.Skills.Vision.OcrSkill",
      "context": "/document/normalized_images/*",
      "defaultLanguageCode": null,
      "detectOrientation": true,
      "inputs": [
        {
          "name": "image",
          "source": "/document/normalized_images/*"
        }
      ],
      "outputs": [
        {
          "name": "text",
          "targetName": "myText"
        },
        {
          "name": "layoutText",
          "targetName": "myLayoutText"
        }
      ]
    }
  ]
}

Пример вывода текста и layoutText

{
  "text": "Hello World. -John",
  "layoutText":
  {
    "language" : "en",
    "text" : "Hello World. -John",
    "lines" : [
      {
        "boundingBox":
        [ {"x":10, "y":10}, {"x":50, "y":10}, {"x":50, "y":30},{"x":10, "y":30}],
        "text":"Hello World."
      },
      {
        "boundingBox": [ {"x":110, "y":10}, {"x":150, "y":10}, {"x":150, "y":30},{"x":110, "y":30}],
        "text":"-John"
      }
    ],
    "words": [
      {
        "boundingBox": [ {"x":110, "y":10}, {"x":150, "y":10}, {"x":150, "y":30},{"x":110, "y":30}],
        "text":"Hello"
      },
      {
        "boundingBox": [ {"x":110, "y":10}, {"x":150, "y":10}, {"x":150, "y":30},{"x":110, "y":30}],
        "text":"World."
      },
      {
        "boundingBox": [ {"x":110, "y":10}, {"x":150, "y":10}, {"x":150, "y":30},{"x":110, "y":30}],
        "text":"-John"
      }
    ]
  }
}

Пример. Объединение текста, извлеченного из внедренных изображений с содержимым документа

Трещина документов, первый шаг в выполнении набора навыков, отделяет текст и содержимое изображения. Распространенным вариантом использования слияния текста является объединение текстового представления изображений (текст из навыка OCR или заголовка изображения) в поле содержимого документа. Это касается сценариев, когда исходный документ является PDF-документом или документом Word, который объединяет текст с внедренными изображениями.

В следующем примере набора навыков создается поле merged_text. Это поле содержит текстовое содержимое вашего документа и текст OCRed из каждого изображения, встроенного в этот документ.

Синтаксис текста запроса

{
  "description": "Extract text from images and merge with content text to produce merged_text",
  "skills":
  [
    {
      "description": "Extract text (plain and structured) from image.",
      "@odata.type": "#Microsoft.Skills.Vision.OcrSkill",
      "context": "/document/normalized_images/*",
      "defaultLanguageCode": "en",
      "detectOrientation": true,
      "inputs": [
        {
          "name": "image",
          "source": "/document/normalized_images/*"
        }
      ],
      "outputs": [
        {
          "name": "text"
        }
      ]
    },
    {
      "@odata.type": "#Microsoft.Skills.Text.MergeSkill",
      "description": "Create merged_text, which includes all the textual representation of each image inserted at the right location in the content field.",
      "context": "/document",
      "insertPreTag": " ",
      "insertPostTag": " ",
      "inputs": [
        {
          "name":"text",
          "source": "/document/content"
        },
        {
          "name": "itemsToInsert", 
          "source": "/document/normalized_images/*/text"
        },
        {
          "name":"offsets", 
          "source": "/document/normalized_images/*/contentOffset"
        }
      ],
      "outputs": [
        {
          "name": "mergedText", 
          "targetName" : "merged_text"
        }
      ]
    }
  ]
}

В приведенном выше примере набора навыков предполагается наличие поля нормализованных изображений. Чтобы создать это поле, настройте конфигурацию imageAction в определении индексатора generateNormalizedImages, как показано ниже.

{
  //...rest of your indexer definition goes here ...
  "parameters": {
    "configuration": {
      "dataToExtract":"contentAndMetadata",
      "imageAction":"generateNormalizedImages"
    }
  }
}

См. также

Что такое оптическое распознавание символов
Встроенные навыки
Text Merge cognitive skill (Когнитивный навык слияния текста)
Определение набора навыков
Извлечение текста и сведений из изображений
Создание индексатора (REST)