Когнитивный навык извлечения документа

Навык извлечение документа извлекает содержимое из файла в конвейере обогащения. Так вы можете воспользоваться шагом извлечения документов, который обычно происходит перед выполнением набора навыков с файлами, которые могут быть созданы другими навыками.

Примечание

Этот навык не привязан к Cognitive Services, и у него нет требования к ключу для Cognitive Services. Этот навык извлекает текст и изображения. Извлечение текста бесплатно. Извлечение изображений учитывается при помощи Когнитивного поиска Azure. В бесплатной службе поиска стоимость 20 транзакций на индексатор в день поглощается, чтобы вы могли выполнять краткие руководства, учебники и небольшие проекты без оплаты. Извлечение изображений является платным для ценовой категории "Базовый", "Стандартный" и более высокой категории.

@odata.type

Microsoft.Skills.Util.DocumentExtractionSkill

Поддерживаемые форматы документов

DocumentExtractionSkill позволяет извлекать текст из следующих форматов документов.

Параметры навыков

Параметры зависят от регистра.

Входные данные Допустимые значения Описание
parsingMode default
text
json
Задайте значение default для извлечения документов из файлов, не представленных полностью в виде текста или в формате json. Для исходных файлов, содержащих разметку (например, PDF, HTML, RTF и Microsoft Office файлы), используйте значение по умолчанию, чтобы извлечь только текст, минус любой язык разметки или теги. Если параметр parsingMode не задан явно, ему будет присвоено значение default.

Значение text , если исходные файлы имеют txt. Этот режим синтаксического анализа повышает производительность файлов обычного текста. Если файлы содержат разметку, этот режим сохранит теги в окончательном выводе.

Задайте значение json, чтобы извлечь структурированное содержимое из файлов JSON.
dataToExtract contentAndMetadata
allMetadata
Задайте значение contentAndMetadata, чтобы из каждого файла извлекались все метаданные и текстовое содержимое. Если параметр dataToExtract не задан явно, ему будет присвоено значение contentAndMetadata.

Задайте значение allMetadata, чтобы извлечь только свойства метаданных для типа содержимого (например, метаданные, присутствующие только в PNG-файлах).
configuration См. ниже. Словарь необязательных параметров, влияющих на извлечение документа. Описание поддерживаемых свойств конфигурации см. в таблице ниже.
Параметр конфигурации Допустимые значения Описание
imageAction none
generateNormalizedImages
generateNormalizedImagePerPage
Значение , чтобы none игнорировать внедренные изображения или файлы изображений в наборе данных, или если исходные данные не содержат файлы изображений. Это значение по умолчанию.

Для OCR и анализа изображений задайте generateNormalizedImages для навыка создание массива нормализованных изображений в рамках взлома документов. Для этого действия параметр parsingMode должен иметь значение default, а параметр dataToExtract должен иметь значение contentAndMetadata. Нормализованное изображение получается путем дополнительной обработки, результатом которой является унифицированное изображение, размер и ориентация которого обеспечивают согласованную визуализацию при добавлении в результаты визуального поиска (например, фотографии одинакового размера в элементе управления графа, как показано в демонстрации JFK). Эта функция формируют такие сведения по каждому изображению.

Если задано значение generateNormalizedImagePerPage, файлы в формате PDF будут обрабатываться по-другому. Вместо извлечения внедренных изображений, каждая страница будет представлена как изображение и нормализована соответствующим образом. Файлы формата, отличном от PDF, будут рассматриваться так же, как при заданном параметре generateNormalizedImages.
normalizedImageMaxWidth Целочисленное значение от 50 до 10 000 Максимальная ширина (в пикселях) для созданного нормализованного изображения. Значение по умолчанию — 2000.
normalizedImageMaxHeight Целочисленное значение от 50 до 10 000 Максимальная высота (в пикселях) для созданных нормализованных изображений. Значение по умолчанию — 2000.

Примечание

По умолчанию навыками OCR и анализа изображений поддерживаются нормализованные изображения с максимальными шириной и высотой в 2000 пикселей. Навык OCR поддерживает максимальную ширину и высоту 4200 для языков, отличных от английского, и 10 000 для английского языка. Если увеличить максимальные пределы, то обработка может завершиться сбоем на больших изображениях в зависимости от определения набора навыков и языка документов.

Входные данные навыков

Ввод имени Описание
file_data Файл, из которого должно быть извлечено содержимое.

Входные данные "file_data" должны быть объектом, определенным следующим образом:

{
  "$type": "file",
  "data": "BASE64 encoded string of the file"
}

Кроме того, его можно определить следующим образом:

{
  "$type": "file",
  "url": "URL to download file",
  "sasToken": "OPTIONAL: SAS token for authentication if the URL provided is for a file in blob storage"
}

Объект ссылки на файл можно создать одним из трех способов:

  • Установка параметру allowSkillsetToReadFileData в определении индексатора значения "true". Будет создан путь /document/file_data. Это объект, который представляет исходные данные файла, скачанные из источника данных большого двоичного объекта. Этот параметр применяется только к файлам в хранилище BLOB-объектов.

  • Установка параметру imageAction в определении индексатора значения отличного от none. При этом создается массив изображений, который соответствует требуемому соглашению для ввода этого навыка при передаче по отдельности (т. е /document/normalized_images/*. ).

  • При наличии настраиваемого навыка возвращается объект JSON, определенный в точности так, как показано выше. $typeПараметр должен быть задан точно как file, а data параметр должен быть данными массива байтов с кодировкой Base 64, содержащихся в файле, либо параметр url должен иметь правильно отформатированный URL-адрес с доступом для скачивания файла в этом расположении.

Выходные данные навыка

Имя вывода Описание
content Текстовое содержимое документа.
normalized_images imageAction Если задано значение, отличное noneот значения, новое поле normalized_images будет содержать массив изображений. Дополнительные сведения о формате вывода см. в разделе "Извлечение текста и сведений из изображений ".

Пример определения

 {
    "@odata.type": "#Microsoft.Skills.Util.DocumentExtractionSkill",
    "parsingMode": "default",
    "dataToExtract": "contentAndMetadata",
    "configuration": {
        "imageAction": "generateNormalizedImages",
        "normalizedImageMaxWidth": 2000,
        "normalizedImageMaxHeight": 2000
    },
    "context": "/document",
    "inputs": [
      {
        "name": "file_data",
        "source": "/document/file_data"
      }
    ],
    "outputs": [
      {
        "name": "content",
        "targetName": "extracted_content"
      },
      {
        "name": "normalized_images",
        "targetName": "extracted_normalized_images"
      }
    ]
  }

Пример ввода

{
  "values": [
    {
      "recordId": "1",
      "data":
      {
        "file_data": {
          "$type": "file",
          "data": "aGVsbG8="
        }
      }
    }
  ]
}

Пример выходных данных

{
  "values": [
    {
      "recordId": "1",
      "data": {
        "content": "hello",
        "normalized_images": []
      }
    }
  ]
}

См. также раздел