Когнитивный навык извлечения документа

Статья
09/01/2024

Навык извлечение документа извлекает содержимое из файла в конвейере обогащения. Так вы можете воспользоваться шагом извлечения документов, который обычно происходит перед выполнением набора навыков с файлами, которые могут быть созданы другими навыками.

Примечание.

Этот навык не привязан к службам ИИ Azure и не имеет ключевого требования к службам ИИ Azure. Этот навык извлекает текст и изображения. Извлечение текста бесплатно. Извлечение изображений измеряется поиском ИИ Azure. В бесплатной службе поиска стоимость 20 транзакций на индексатор в день поглощается, чтобы вы могли завершить краткие руководства, учебники и небольшие проекты без платы. Извлечение изображений является платным для ценовой категории "Базовый", "Стандартный" и более высокой категории.

@odata.type

Microsoft.Skills.Util.DocumentExtractionSkill

Поддерживаемые форматы документов

DocumentExtractionSkill позволяет извлекать текст из следующих форматов документов.

CSV (см. раздел индексирование больших двоичных объектов CSV)
EML
EPUB
GZ
HTML
JSON (см. индексирование BLOB-объектов JSON);
KML (XML для географических представлений)
Форматы Microsoft Office: DOCX/DOC/DOCM, XLSX/XLSM, PPTX/PPT/PPTM, MSG (outlook emails), XML (как 2003, так и 2006 WORD XML)
Форматы открытых документов: ODT, ODS, ODP
PDF
обычные текстовые файлы (см. также индексирование обычного текста);
RTF
XML
ZIP

Параметры навыков

Параметры зависят от регистра.

Входные данные Допустимые значения Description

Входные данные	Допустимые значения	Description
`parsingMode`	`default` `text` `json`	Задайте значение `default` для извлечения документов из файлов, которые не являются чистым текстом или json. Для исходных файлов, содержащих разметку (например, PDF, HTML, RTF и файлы Microsoft Office), используйте по умолчанию только текст, минус любой язык разметки или теги. Если `parsingMode` он не определен явно, он будет иметь значение `default`. `text` Установите значение, если исходные файлы — TXT. Этот режим синтаксического анализа повышает производительность файлов обычного текста. Если файлы включают разметку, этот режим сохранит теги в окончательных выходных данных. Задайте значение `json`, чтобы извлечь структурированное содержимое из файлов JSON.
`dataToExtract`	`contentAndMetadata` `allMetadata`	Задайте значение `contentAndMetadata`, чтобы из каждого файла извлекались все метаданные и текстовое содержимое. Если `dataToExtract` он не определен явно, он будет иметь значение `contentAndMetadata`. Задайте значение `allMetadata`, чтобы извлечь только свойства метаданных для типа содержимого (например, метаданные, присутствующие только в PNG-файлах).
`configuration`	См. ниже.	Словарь необязательных параметров, влияющих на извлечение документа. Описание поддерживаемых свойств конфигурации см. в таблице ниже.

parsingMode

default
text
json

Задайте значение default для извлечения документов из файлов, которые не являются чистым текстом или json. Для исходных файлов, содержащих разметку (например, PDF, HTML, RTF и файлы Microsoft Office), используйте по умолчанию только текст, минус любой язык разметки или теги. Если parsingMode он не определен явно, он будет иметь значение default.

text Установите значение, если исходные файлы — TXT. Этот режим синтаксического анализа повышает производительность файлов обычного текста. Если файлы включают разметку, этот режим сохранит теги в окончательных выходных данных.

Задайте значение json, чтобы извлечь структурированное содержимое из файлов JSON.

dataToExtract

contentAndMetadata
allMetadata

Задайте значение contentAndMetadata, чтобы из каждого файла извлекались все метаданные и текстовое содержимое. Если dataToExtract он не определен явно, он будет иметь значение contentAndMetadata.

Задайте значение allMetadata, чтобы извлечь только свойства метаданных для типа содержимого (например, метаданные, присутствующие только в PNG-файлах).

configuration См. ниже. Словарь необязательных параметров, влияющих на извлечение документа. Описание поддерживаемых свойств конфигурации см. в таблице ниже.

Параметр конфигурации Допустимые значения Description

Параметр конфигурации	Допустимые значения	Description
`imageAction`	`none` `generateNormalizedImages` `generateNormalizedImagePerPage`	Установите для `none` пропуска внедренных изображений или файлов изображений в наборе данных или если исходные данные не включают файлы изображений. Это значение по умолчанию. Для OCR и анализа изображений задайте `generateNormalizedImages` для навыка создание массива нормализованных изображений в рамках взлома документов. Для этого действия параметр `parsingMode` должен иметь значение `default`, а параметр `dataToExtract` должен иметь значение `contentAndMetadata`. Нормализованное изображение относится к дополнительной обработке, что приводит к равномерному выводу изображения, размеру и повороту для повышения согласованности отрисовки при включении изображений в результаты визуального поиска (например, фотографии с одинаковыми размерами в элементе управления графом, как показано в демонстрации JFK). Эта функция формируют такие сведения по каждому изображению. Если задано `generateNormalizedImagePerPage`значение , PDF-файлы обрабатываются по-разному, а не извлекать внедренные изображения, каждая страница отображается как изображение и нормализуется соответствующим образом. Типы файлов, отличные от PDF, обрабатываются так же, как если бы `generateNormalizedImages` он был задан.
`normalizedImageMaxWidth`	Целочисленное значение от 50 до 10 000	Максимальная ширина (в пикселях) для созданного нормализованного изображения. Значение по умолчанию — 2000.
`normalizedImageMaxHeight`	Целочисленное значение от 50 до 10 000	Максимальная высота (в пикселях) для созданных нормализованных изображений. Значение по умолчанию — 2000.

imageAction

none
generateNormalizedImages
generateNormalizedImagePerPage

Установите для none пропуска внедренных изображений или файлов изображений в наборе данных или если исходные данные не включают файлы изображений. Это значение по умолчанию.

Для OCR и анализа изображений задайте generateNormalizedImages для навыка создание массива нормализованных изображений в рамках взлома документов. Для этого действия параметр parsingMode должен иметь значение default, а параметр dataToExtract должен иметь значение contentAndMetadata. Нормализованное изображение относится к дополнительной обработке, что приводит к равномерному выводу изображения, размеру и повороту для повышения согласованности отрисовки при включении изображений в результаты визуального поиска (например, фотографии с одинаковыми размерами в элементе управления графом, как показано в демонстрации JFK). Эта функция формируют такие сведения по каждому изображению.

Если задано generateNormalizedImagePerPageзначение , PDF-файлы обрабатываются по-разному, а не извлекать внедренные изображения, каждая страница отображается как изображение и нормализуется соответствующим образом. Типы файлов, отличные от PDF, обрабатываются так же, как если бы generateNormalizedImages он был задан.

normalizedImageMaxWidth Целочисленное значение от 50 до 10 000 Максимальная ширина (в пикселях) для созданного нормализованного изображения. Значение по умолчанию — 2000.

normalizedImageMaxHeight Целочисленное значение от 50 до 10 000 Максимальная высота (в пикселях) для созданных нормализованных изображений. Значение по умолчанию — 2000.

Примечание.

По умолчанию навыками OCR и анализа изображений поддерживаются нормализованные изображения с максимальными шириной и высотой в 2000 пикселей. Навык OCR поддерживает максимальную ширину и высоту 4200 для языков, отличных от английского, и 10 000 для английского языка. Если увеличить максимальные пределы, то обработка может завершиться сбоем на больших изображениях в зависимости от определения набора навыков и языка документов.

Входные данные навыков

Ввод имени	Description
`file_data`	Файл, из которого должно быть извлечено содержимое.

Входные данные "file_data" должны быть объектом, определенным как:

{
  "$type": "file",
  "data": "BASE64 encoded string of the file"
}

Кроме того, его можно определить следующим образом:

{
  "$type": "file",
  "url": "URL to download file",
  "sasToken": "OPTIONAL: SAS token for authentication if the URL provided is for a file in blob storage"
}

Объект ссылки на файл можно создать одним из трех способов:

Установка параметру allowSkillsetToReadFileData в определении индексатора значения "true". При этом создается путь /document/file_data , представляющий исходные данные файла, скачанные из источника данных BLOB-объектов. Этот параметр применяется только к файлам в хранилище BLOB-объектов.
Установка параметру imageAction в определении индексатора значения отличного от none. При этом создается массив изображений, которые соответствуют требуемому соглашению для ввода этого навыка, если они передаются по отдельности (т /document/normalized_images/*. е. ).
При наличии настраиваемого навыка возвращается объект JSON, определенный в точности так, как показано выше. $typeПараметр должен быть задан точно как file, а data параметр должен быть данными массива байтов с кодировкой Base 64, содержащихся в файле, либо параметр url должен иметь правильно отформатированный URL-адрес с доступом для скачивания файла в этом расположении.

Выходные данные навыка

Имя вывода	Description
`content`	Текстовое содержимое документа.
`normalized_images`	`imageAction` Если задано значение, отличное `none`от значения, новое поле normalized_images содержит массив изображений. Дополнительные сведения о выходном формате см. в статье "Извлечение текста и сведений из изображений ".

Пример определения

 {
    "@odata.type": "#Microsoft.Skills.Util.DocumentExtractionSkill",
    "parsingMode": "default",
    "dataToExtract": "contentAndMetadata",
    "configuration": {
        "imageAction": "generateNormalizedImages",
        "normalizedImageMaxWidth": 2000,
        "normalizedImageMaxHeight": 2000
    },
    "context": "/document",
    "inputs": [
      {
        "name": "file_data",
        "source": "/document/file_data"
      }
    ],
    "outputs": [
      {
        "name": "content",
        "targetName": "extracted_content"
      },
      {
        "name": "normalized_images",
        "targetName": "extracted_normalized_images"
      }
    ]
  }

Пример ввода

{
  "values": [
    {
      "recordId": "1",
      "data":
      {
        "file_data": {
          "$type": "file",
          "data": "aGVsbG8="
        }
      }
    }
  ]
}

Пример полученных результатов

{
  "values": [
    {
      "recordId": "1",
      "data": {
        "content": "hello",
        "normalized_images": []
      }
    }
  ]
}

См. также

Встроенные навыки
Определение набора навыков
How to process and extract information from images in cognitive search scenarios (Обработка и извлечение информации из изображений в сценариях когнитивного поиска)

Поделиться через