Когнитивный навык извлечения документа

Навык извлечение документа извлекает содержимое из файла в конвейере обогащения. Так вы можете воспользоваться шагом извлечения документов, который обычно происходит перед выполнением набора навыков с файлами, которые могут быть созданы другими навыками.

Примечание.

Этот навык не привязан к службам ИИ Azure и не имеет ключевого требования к службам ИИ Azure. Этот навык извлекает текст и изображения. Извлечение текста бесплатно. Извлечение изображений измеряется поиском ИИ Azure. В бесплатной службе поиска стоимость 20 транзакций на индексатор в день поглощается, чтобы вы могли завершить краткие руководства, учебники и небольшие проекты без платы. Извлечение изображений является платным для ценовой категории "Базовый", "Стандартный" и более высокой категории.

@odata.type

Microsoft.Skills.Util.DocumentExtractionSkill

Поддерживаемые форматы документов

DocumentExtractionSkill позволяет извлекать текст из следующих форматов документов.

Параметры навыков

Параметры зависят от регистра.

Входные данные Допустимые значения Description
parsingMode default
text
json
Задайте значение default для извлечения документов из файлов, которые не являются чистым текстом или json. Для исходных файлов, содержащих разметку (например, PDF, HTML, RTF и файлы Microsoft Office), используйте по умолчанию только текст, минус любой язык разметки или теги. Если parsingMode он не определен явно, он будет иметь значение default.

text Установите значение, если исходные файлы — TXT. Этот режим синтаксического анализа повышает производительность файлов обычного текста. Если файлы включают разметку, этот режим сохранит теги в окончательных выходных данных.

Задайте значение json, чтобы извлечь структурированное содержимое из файлов JSON.
dataToExtract contentAndMetadata
allMetadata
Задайте значение contentAndMetadata, чтобы из каждого файла извлекались все метаданные и текстовое содержимое. Если dataToExtract он не определен явно, он будет иметь значение contentAndMetadata.

Задайте значение allMetadata, чтобы извлечь только свойства метаданных для типа содержимого (например, метаданные, присутствующие только в PNG-файлах).
configuration См. ниже. Словарь необязательных параметров, влияющих на извлечение документа. Описание поддерживаемых свойств конфигурации см. в таблице ниже.
Параметр конфигурации Допустимые значения Description
imageAction none
generateNormalizedImages
generateNormalizedImagePerPage
Установите для none пропуска внедренных изображений или файлов изображений в наборе данных или если исходные данные не включают файлы изображений. Это значение по умолчанию.

Для OCR и анализа изображений задайте generateNormalizedImages для навыка создание массива нормализованных изображений в рамках взлома документов. Для этого действия параметр parsingMode должен иметь значение default, а параметр dataToExtract должен иметь значение contentAndMetadata. Нормализованное изображение относится к дополнительной обработке, что приводит к равномерному выводу изображения, размеру и повороту для повышения согласованности отрисовки при включении изображений в результаты визуального поиска (например, фотографии с одинаковыми размерами в элементе управления графом, как показано в демонстрации JFK). Эта функция формируют такие сведения по каждому изображению.

Если задано generateNormalizedImagePerPageзначение , PDF-файлы обрабатываются по-разному, а не извлекать внедренные изображения, каждая страница отображается как изображение и нормализуется соответствующим образом. Типы файлов, отличные от PDF, обрабатываются так же, как если бы generateNormalizedImages он был задан.
normalizedImageMaxWidth Целочисленное значение от 50 до 10 000 Максимальная ширина (в пикселях) для созданного нормализованного изображения. Значение по умолчанию — 2000.
normalizedImageMaxHeight Целочисленное значение от 50 до 10 000 Максимальная высота (в пикселях) для созданных нормализованных изображений. Значение по умолчанию — 2000.

Примечание.

По умолчанию навыками OCR и анализа изображений поддерживаются нормализованные изображения с максимальными шириной и высотой в 2000 пикселей. Навык OCR поддерживает максимальную ширину и высоту 4200 для языков, отличных от английского, и 10 000 для английского языка. Если увеличить максимальные пределы, то обработка может завершиться сбоем на больших изображениях в зависимости от определения набора навыков и языка документов.

Входные данные навыков

Ввод имени Description
file_data Файл, из которого должно быть извлечено содержимое.

Входные данные "file_data" должны быть объектом, определенным как:

{
  "$type": "file",
  "data": "BASE64 encoded string of the file"
}

Кроме того, его можно определить следующим образом:

{
  "$type": "file",
  "url": "URL to download file",
  "sasToken": "OPTIONAL: SAS token for authentication if the URL provided is for a file in blob storage"
}

Объект ссылки на файл можно создать одним из трех способов:

  • Установка параметру allowSkillsetToReadFileData в определении индексатора значения "true". При этом создается путь /document/file_data , представляющий исходные данные файла, скачанные из источника данных BLOB-объектов. Этот параметр применяется только к файлам в хранилище BLOB-объектов.

  • Установка параметру imageAction в определении индексатора значения отличного от none. При этом создается массив изображений, которые соответствуют требуемому соглашению для ввода этого навыка, если они передаются по отдельности (т /document/normalized_images/*. е. ).

  • При наличии настраиваемого навыка возвращается объект JSON, определенный в точности так, как показано выше. $typeПараметр должен быть задан точно как file, а data параметр должен быть данными массива байтов с кодировкой Base 64, содержащихся в файле, либо параметр url должен иметь правильно отформатированный URL-адрес с доступом для скачивания файла в этом расположении.

Выходные данные навыка

Имя вывода Description
content Текстовое содержимое документа.
normalized_images imageAction Если задано значение, отличное noneот значения, новое поле normalized_images содержит массив изображений. Дополнительные сведения о выходном формате см. в статье "Извлечение текста и сведений из изображений ".

Пример определения

 {
    "@odata.type": "#Microsoft.Skills.Util.DocumentExtractionSkill",
    "parsingMode": "default",
    "dataToExtract": "contentAndMetadata",
    "configuration": {
        "imageAction": "generateNormalizedImages",
        "normalizedImageMaxWidth": 2000,
        "normalizedImageMaxHeight": 2000
    },
    "context": "/document",
    "inputs": [
      {
        "name": "file_data",
        "source": "/document/file_data"
      }
    ],
    "outputs": [
      {
        "name": "content",
        "targetName": "extracted_content"
      },
      {
        "name": "normalized_images",
        "targetName": "extracted_normalized_images"
      }
    ]
  }

Пример ввода

{
  "values": [
    {
      "recordId": "1",
      "data":
      {
        "file_data": {
          "$type": "file",
          "data": "aGVsbG8="
        }
      }
    }
  ]
}

Пример полученных результатов

{
  "values": [
    {
      "recordId": "1",
      "data": {
        "content": "hello",
        "normalized_images": []
      }
    }
  ]
}

См. также