Поделиться через


Питательные вещества — извлечение из PDF (предварительная версия)

Разблокируйте мощный текст PDF и извлечение данных с помощью действий извлечения питательных веществ в конвертере документов. Легко извлекает текст, данные, извлекает пары "ключ-значение" и использует технологию OCR для обработки сканированных документов. Идеально подходит для индексирования, поиска, анализа содержимого и структурированных рабочих процессов данных.

Этот соединитель доступен в следующих продуктах и регионах:

Услуга Class Регионы
Copilot Studio Премия Все регионы Power Automate , кроме следующих:
     - Правительство США (GCC)
     - Правительство США (GCC High)
     — Облако Китая, управляемое 21Vianet
     - Министерство обороны США (DoD)
Логические приложения Стандарт Все регионы Logic Apps , кроме следующих:
     — Регионы Azure для государственных организаций
     — Регионы Azure Для Китая
     - Министерство обороны США (DoD)
Power Apps Премия Все регионы Power Apps , кроме следующих:
     - Правительство США (GCC)
     - Правительство США (GCC High)
     — Облако Китая, управляемое 21Vianet
     - Министерство обороны США (DoD)
Power Automate Премия Все регионы Power Automate , кроме следующих:
     - Правительство США (GCC)
     - Правительство США (GCC High)
     — Облако Китая, управляемое 21Vianet
     - Министерство обороны США (DoD)
Контакт
Имя Поддержка питательных веществ (ранее Мухимби)
URL https://support.nutrient.io/hc/en-us/requests/new
Адрес электронной почты support+low-code@nutrient.io
Метаданные соединителя
Publisher Мухимби торгуется как питательные вещества
Website https://www.nutrient.io/low-code/
Политика конфиденциальности https://www.nutrient.io/legal/privacy/
Категории Сотрудничество; Содержимое и файлы

Извлечение текста и данных из PDF-файлов

Конвертер питательных документов позволяет извлекать текст, данные или определенные страницы из PDF-файлов в рамках автоматизированных рабочих процессов в Power Automate. Вы также можете извлечь текст из изображений с помощью OCR.

Доступные действия

Ознакомьтесь с связанными руководствами по пошаговые инструкции по реализации этих действий в рабочих процессах.

Предпосылки

Чтобы использовать конвертер питательных документов, вам нужна бесплатная или пробная учетная запись. Ознакомьтесь с руководством по сравнению, чтобы понять различия между этими типами учетных записей.

Начало работы

Выполните приведенные ниже действия, чтобы начать использование соединителя конвертера питательных документов:

Известные проблемы и ограничения

Документы, защищенные с помощью IRM, DRM, RMS или решений AIP , не могут обрабатываться из-за ограничений безопасности.

Чтобы получить вопросы или помощь, обратитесь в службу поддержки.

Ограничения регулирования

Имя Вызовы Период обновления
Вызовы API для каждого подключения 100 60 секунд

Действия

Извлечение пар значений ключа из PDF-документа

Определите и извлеките пары "ключ-значение" из документов для обработки форм или структурированных рабочих процессов данных.

Извлечение текста из PDF-документа

Получение текстового содержимого из PDF-документов для простого индексирования, поиска или анализа содержимого.

Извлечение текста из PDF-файла с помощью OCR

Извлеките текст из отсканированных документов или изображений с помощью технологии OCR, что делает их доступным для поиска и редактирования.

Извлечение пар значений ключа из PDF-документа

Определите и извлеките пары "ключ-значение" из документов для обработки форм или структурированных рабочих процессов данных.

Параметры

Имя Ключ Обязательно Тип Описание
Имя исходного файла
source_file_name True string

Имя исходного файла, включая расширение

Содержимое исходного файла
source_file_content True byte

Содержимое файла для преобразования

Язык OCR
ocr_language string

Коды языка для извлечения OCR и KVP, разделенные "+". Например, "eng+deu+fra" добавит английский, немецкий и французский.

DPI
dpi enum

Удаление пустых страниц в ФОРМАТЕ PDF

Формат выходных данных KVP
kvp_format enum

Форматы выходных данных, разделенные запятыми. Данные KVP могут выводиться в формате JSON, CSV и XML. e.g. json,csv,xml

Диапазон страниц
page_range string

Страницы, обрабатываемые KVP. Используйте строку "1 – 5" для страниц 1–5 или используйте строку "1, 5, 6", чтобы указать страницы 1 и 5 и 6.

Автоматическое заполнение
autorotate enum

Если текст не имеет правильной ориентации, этот параметр имеет значение "Да", автоматически поворачивается страницы.

Обрезка символов
trim_symbols enum

Если задано значение "Да", все символы будут удалены из начального или конца значений, за исключением хэша "#" или символов периода.

Включить ограничивающий ключ прямоугольник
include_key_bounding_box enum

Включение ограничивающих значений поля для ключа в выходные данные

Включить ограничивающий прямоугольник значений
include_value_bounding_box enum

Включите ограничивающие значения поля в выходные данные.

Включить номер страницы
include_page_number enum

Включите номер страницы для пары "значение ключа" в выходные данные

Включение достоверности
include_confidence enum

Включите оценку достоверности для пары "ключевое значение" в выходные данные. Достоверность измеряется в диапазоне от 0 до 100 (полная уверенность).

Порог достоверности
confidence_threshold integer

Порог доверия для пары "ключевое значение" должен быть включен в выходные данные. Результаты под пороговым значением удаляются.

Тип include
include_type enum

Включение типа данных для пары "значение ключа" в выходные данные

Ожидаемые ключи
expected_keys string

Строка JSON, содержащая ожидаемые ключи и синонимы

Сбой при ошибке
fail_on_error boolean

Сбой при ошибке

Возвращаемое значение

Данные ответа для всех операций

Извлечение текста из PDF-документа

Получение текстового содержимого из PDF-документов для простого индексирования, поиска или анализа содержимого.

Параметры

Имя Ключ Обязательно Тип Описание
Имя исходного файла
source_file_name True string

Имя исходного файла, включая расширение

Содержимое исходного файла
source_file_content True byte

Содержимое файла для преобразования

Диапазон страниц
page_range string

Диапазон страниц для извлечения текста, например 1,5,8-12

Сбой при ошибке
fail_on_error boolean

Сбой при ошибке

Возвращаемое значение

Данные ответа для всех операций

Извлечение текста из PDF-файла с помощью OCR

Извлеките текст из отсканированных документов или изображений с помощью технологии OCR, что делает их доступным для поиска и редактирования.

Параметры

Имя Ключ Обязательно Тип Описание
Имя исходного файла
source_file_name True string

Имя исходного файла, включая расширение

Содержимое исходного файла
source_file_content True byte

Содержимое файла в OCR

Language
language enum

Language

Координата X
x string

Координата X (в Pts, 1/72 дюйма)

Координата Y
y string

Координата Y (в Pts, 1/72 дюйма)

Ширина
width string

Ширина области OCR (в Pts, 1/72 дюйма)

Высота
height string

Высота области OCR (в Pts, 1/72 дюйма)

Номер страницы
page_number string

Номер страницы (оставьте пустым для всех страниц OCR)

Performance
performance enum

Производительность ()

Черный список / список разрешений
characters_option enum

Параметр "Символы"

Символы
characters string

Символы для черного списка или списка разрешений

Использование разбиения на страницы
paginate boolean

Нумеровать страницы

Сбой при ошибке
fail_on_error boolean

Сбой при ошибке

Возвращаемое значение

Ответные данные для операции OCRText

Определения

ocr_operation_response

Ответные данные для операции OCRText

Имя Путь Тип Описание
Вне текста
out_text string

Извлеченный текст OCRed в виде обычного текста.

Имя базового файла
base_file_name string

Имя входного файла без расширения.

Код результата
result_code enum

Код результата операции.

Сведения о результатах
result_details string

Сведения о результатах операции.

operation_response

Данные ответа для всех операций

Имя Путь Тип Описание
Обработанное содержимое файла
processed_file_content byte

Файл, созданный преобразователем Muhimbi.

Имя базового файла
base_file_name string

Имя входного файла без расширения.

Код результата
result_code enum

Код результата операции.

Сведения о результатах
result_details string

Сведения о результатах операции.