Питательные вещества — извлечение из PDF (предварительная версия)
Разблокируйте мощный текст PDF и извлечение данных с помощью действий извлечения питательных веществ в конвертере документов. Легко извлекает текст, данные, извлекает пары "ключ-значение" и использует технологию OCR для обработки сканированных документов. Идеально подходит для индексирования, поиска, анализа содержимого и структурированных рабочих процессов данных.
Этот соединитель доступен в следующих продуктах и регионах:
| Услуга | Class | Регионы |
|---|---|---|
| Copilot Studio | Премия | Все регионы Power Automate , кроме следующих: - Правительство США (GCC) - Правительство США (GCC High) — Облако Китая, управляемое 21Vianet - Министерство обороны США (DoD) |
| Логические приложения | Стандарт | Все регионы Logic Apps , кроме следующих: — Регионы Azure для государственных организаций — Регионы Azure Для Китая - Министерство обороны США (DoD) |
| Power Apps | Премия | Все регионы Power Apps , кроме следующих: - Правительство США (GCC) - Правительство США (GCC High) — Облако Китая, управляемое 21Vianet - Министерство обороны США (DoD) |
| Power Automate | Премия | Все регионы Power Automate , кроме следующих: - Правительство США (GCC) - Правительство США (GCC High) — Облако Китая, управляемое 21Vianet - Министерство обороны США (DoD) |
| Контакт | |
|---|---|
| Имя | Поддержка питательных веществ (ранее Мухимби) |
| URL | https://support.nutrient.io/hc/en-us/requests/new |
| Адрес электронной почты | support+low-code@nutrient.io |
| Метаданные соединителя | |
|---|---|
| Publisher | Мухимби торгуется как питательные вещества |
| Website | https://www.nutrient.io/low-code/ |
| Политика конфиденциальности | https://www.nutrient.io/legal/privacy/ |
| Категории | Сотрудничество; Содержимое и файлы |
Извлечение текста и данных из PDF-файлов
Конвертер питательных документов позволяет извлекать текст, данные или определенные страницы из PDF-файлов в рамках автоматизированных рабочих процессов в Power Automate. Вы также можете извлечь текст из изображений с помощью OCR.
Доступные действия
- Извлечение пар "ключ-значение"
- Извлечение текста с помощью OCR
- Извлечение данных из PDF-файлов
- Извлечение PDF-страниц
- Извлечение текста из изображений
- Извлечение текста из PDF-файлов с помощью Power Automate
Ознакомьтесь с связанными руководствами по пошаговые инструкции по реализации этих действий в рабочих процессах.
Предпосылки
Чтобы использовать конвертер питательных документов, вам нужна бесплатная или пробная учетная запись. Ознакомьтесь с руководством по сравнению, чтобы понять различия между этими типами учетных записей.
Начало работы
Выполните приведенные ниже действия, чтобы начать использование соединителя конвертера питательных документов:
- Зарегистрируйтесь для 30-дневной пробной версии, заполнив эту форму.
- После отправки формы вы получите электронное письмо с подробными сведениями о активации пробной версии.
- Ознакомьтесь с видео о начале работы, чтобы получить пошаговое руководство по процессу.
- Подробные инструкции см. в руководстве по Конвертеру документов для Power Automate .
- Ознакомьтесь с руководствами по Power Automate и Logic Apps , чтобы ознакомиться с практическими примерами.
Известные проблемы и ограничения
Документы, защищенные с помощью IRM, DRM, RMS или решений AIP , не могут обрабатываться из-за ограничений безопасности.
Чтобы получить вопросы или помощь, обратитесь в службу поддержки.
Ограничения регулирования
| Имя | Вызовы | Период обновления |
|---|---|---|
| Вызовы API для каждого подключения | 100 | 60 секунд |
Действия
| Извлечение пар значений ключа из PDF-документа |
Определите и извлеките пары "ключ-значение" из документов для обработки форм или структурированных рабочих процессов данных. |
| Извлечение текста из PDF-документа |
Получение текстового содержимого из PDF-документов для простого индексирования, поиска или анализа содержимого. |
| Извлечение текста из PDF-файла с помощью OCR |
Извлеките текст из отсканированных документов или изображений с помощью технологии OCR, что делает их доступным для поиска и редактирования. |
Извлечение пар значений ключа из PDF-документа
Определите и извлеките пары "ключ-значение" из документов для обработки форм или структурированных рабочих процессов данных.
Параметры
| Имя | Ключ | Обязательно | Тип | Описание |
|---|---|---|---|---|
|
Имя исходного файла
|
source_file_name | True | string |
Имя исходного файла, включая расширение |
|
Содержимое исходного файла
|
source_file_content | True | byte |
Содержимое файла для преобразования |
|
Язык OCR
|
ocr_language | string |
Коды языка для извлечения OCR и KVP, разделенные "+". Например, "eng+deu+fra" добавит английский, немецкий и французский. |
|
|
DPI
|
dpi | enum |
Удаление пустых страниц в ФОРМАТЕ PDF |
|
|
Формат выходных данных KVP
|
kvp_format | enum |
Форматы выходных данных, разделенные запятыми. Данные KVP могут выводиться в формате JSON, CSV и XML. e.g. json,csv,xml |
|
|
Диапазон страниц
|
page_range | string |
Страницы, обрабатываемые KVP. Используйте строку "1 – 5" для страниц 1–5 или используйте строку "1, 5, 6", чтобы указать страницы 1 и 5 и 6. |
|
|
Автоматическое заполнение
|
autorotate | enum |
Если текст не имеет правильной ориентации, этот параметр имеет значение "Да", автоматически поворачивается страницы. |
|
|
Обрезка символов
|
trim_symbols | enum |
Если задано значение "Да", все символы будут удалены из начального или конца значений, за исключением хэша "#" или символов периода. |
|
|
Включить ограничивающий ключ прямоугольник
|
include_key_bounding_box | enum |
Включение ограничивающих значений поля для ключа в выходные данные |
|
|
Включить ограничивающий прямоугольник значений
|
include_value_bounding_box | enum |
Включите ограничивающие значения поля в выходные данные. |
|
|
Включить номер страницы
|
include_page_number | enum |
Включите номер страницы для пары "значение ключа" в выходные данные |
|
|
Включение достоверности
|
include_confidence | enum |
Включите оценку достоверности для пары "ключевое значение" в выходные данные. Достоверность измеряется в диапазоне от 0 до 100 (полная уверенность). |
|
|
Порог достоверности
|
confidence_threshold | integer |
Порог доверия для пары "ключевое значение" должен быть включен в выходные данные. Результаты под пороговым значением удаляются. |
|
|
Тип include
|
include_type | enum |
Включение типа данных для пары "значение ключа" в выходные данные |
|
|
Ожидаемые ключи
|
expected_keys | string |
Строка JSON, содержащая ожидаемые ключи и синонимы |
|
|
Сбой при ошибке
|
fail_on_error | boolean |
Сбой при ошибке |
Возвращаемое значение
Данные ответа для всех операций
- Тело
- operation_response
Извлечение текста из PDF-документа
Получение текстового содержимого из PDF-документов для простого индексирования, поиска или анализа содержимого.
Параметры
| Имя | Ключ | Обязательно | Тип | Описание |
|---|---|---|---|---|
|
Имя исходного файла
|
source_file_name | True | string |
Имя исходного файла, включая расширение |
|
Содержимое исходного файла
|
source_file_content | True | byte |
Содержимое файла для преобразования |
|
Диапазон страниц
|
page_range | string |
Диапазон страниц для извлечения текста, например 1,5,8-12 |
|
|
Сбой при ошибке
|
fail_on_error | boolean |
Сбой при ошибке |
Возвращаемое значение
Данные ответа для всех операций
- Тело
- operation_response
Извлечение текста из PDF-файла с помощью OCR
Извлеките текст из отсканированных документов или изображений с помощью технологии OCR, что делает их доступным для поиска и редактирования.
Параметры
| Имя | Ключ | Обязательно | Тип | Описание |
|---|---|---|---|---|
|
Имя исходного файла
|
source_file_name | True | string |
Имя исходного файла, включая расширение |
|
Содержимое исходного файла
|
source_file_content | True | byte |
Содержимое файла в OCR |
|
Language
|
language | enum |
Language |
|
|
Координата X
|
x | string |
Координата X (в Pts, 1/72 дюйма) |
|
|
Координата Y
|
y | string |
Координата Y (в Pts, 1/72 дюйма) |
|
|
Ширина
|
width | string |
Ширина области OCR (в Pts, 1/72 дюйма) |
|
|
Высота
|
height | string |
Высота области OCR (в Pts, 1/72 дюйма) |
|
|
Номер страницы
|
page_number | string |
Номер страницы (оставьте пустым для всех страниц OCR) |
|
|
Performance
|
performance | enum |
Производительность () |
|
|
Черный список / список разрешений
|
characters_option | enum |
Параметр "Символы" |
|
|
Символы
|
characters | string |
Символы для черного списка или списка разрешений |
|
|
Использование разбиения на страницы
|
paginate | boolean |
Нумеровать страницы |
|
|
Сбой при ошибке
|
fail_on_error | boolean |
Сбой при ошибке |
Возвращаемое значение
Ответные данные для операции OCRText
Определения
ocr_operation_response
Ответные данные для операции OCRText
| Имя | Путь | Тип | Описание |
|---|---|---|---|
|
Вне текста
|
out_text | string |
Извлеченный текст OCRed в виде обычного текста. |
|
Имя базового файла
|
base_file_name | string |
Имя входного файла без расширения. |
|
Код результата
|
result_code | enum |
Код результата операции. |
|
Сведения о результатах
|
result_details | string |
Сведения о результатах операции. |
operation_response
Данные ответа для всех операций
| Имя | Путь | Тип | Описание |
|---|---|---|---|
|
Обработанное содержимое файла
|
processed_file_content | byte |
Файл, созданный преобразователем Muhimbi. |
|
Имя базового файла
|
base_file_name | string |
Имя входного файла без расширения. |
|
Код результата
|
result_code | enum |
Код результата операции. |
|
Сведения о результатах
|
result_details | string |
Сведения о результатах операции. |