Питательные вещества — извлечение из PDF (предварительная версия)

Разблокируйте мощный текст PDF и извлечение данных с помощью действий извлечения питательных веществ в конвертере документов. Легко извлекает текст, данные, извлекает пары "ключ-значение" и использует технологию OCR для обработки сканированных документов. Идеально подходит для индексирования, поиска, анализа содержимого и структурированных рабочих процессов данных.

Этот соединитель доступен в следующих продуктах и регионах:

Услуга	Class	Регионы
Copilot Studio	Премия	Все регионы Power Automate , кроме следующих: - Правительство США (GCC) - Правительство США (GCC High) — Облако Китая, управляемое 21Vianet - Министерство обороны США (DoD)
Логические приложения	Стандарт	Все регионы Logic Apps , кроме следующих: — Регионы Azure для государственных организаций — Регионы Azure Для Китая - Министерство обороны США (DoD)
Power Apps	Премия	Все регионы Power Apps , кроме следующих: - Правительство США (GCC) - Правительство США (GCC High) — Облако Китая, управляемое 21Vianet - Министерство обороны США (DoD)
Power Automate	Премия	Все регионы Power Automate , кроме следующих: - Правительство США (GCC) - Правительство США (GCC High) — Облако Китая, управляемое 21Vianet - Министерство обороны США (DoD)

Контакт
Имя	Поддержка питательных веществ (ранее Мухимби)
URL	https://support.nutrient.io/hc/en-us/requests/new
Адрес электронной почты	support+low-code@nutrient.io

Метаданные соединителя
Publisher	Мухимби торгуется как питательные вещества
Website	https://www.nutrient.io/low-code/
Политика конфиденциальности	https://www.nutrient.io/legal/privacy/
Категории	Сотрудничество; Содержимое и файлы

Извлечение текста и данных из PDF-файлов

Конвертер питательных документов позволяет извлекать текст, данные или определенные страницы из PDF-файлов в рамках автоматизированных рабочих процессов в Power Automate. Вы также можете извлечь текст из изображений с помощью OCR.

Доступные действия

Ознакомьтесь с связанными руководствами по пошаговые инструкции по реализации этих действий в рабочих процессах.

Предпосылки

Чтобы использовать конвертер питательных документов, вам нужна бесплатная или пробная учетная запись. Ознакомьтесь с руководством по сравнению, чтобы понять различия между этими типами учетных записей.

Начало работы

Выполните приведенные ниже действия, чтобы начать использование соединителя конвертера питательных документов:

Зарегистрируйтесь для 30-дневной пробной версии, заполнив эту форму.
После отправки формы вы получите электронное письмо с подробными сведениями о активации пробной версии.
Ознакомьтесь с видео о начале работы, чтобы получить пошаговое руководство по процессу.
Подробные инструкции см. в руководстве по Конвертеру документов для Power Automate .
Ознакомьтесь с руководствами по Power Automate и Logic Apps , чтобы ознакомиться с практическими примерами.

Известные проблемы и ограничения

Документы, защищенные с помощью IRM, DRM, RMS или решений AIP , не могут обрабатываться из-за ограничений безопасности.

Чтобы получить вопросы или помощь, обратитесь в службу поддержки.

Ограничения регулирования

Имя	Вызовы	Период обновления
Вызовы API для каждого подключения	100	60 секунд

Действия

Извлечение пар значений ключа из PDF-документа	Определите и извлеките пары "ключ-значение" из документов для обработки форм или структурированных рабочих процессов данных.
Извлечение текста из PDF-документа	Получение текстового содержимого из PDF-документов для простого индексирования, поиска или анализа содержимого.
Извлечение текста из PDF-файла с помощью OCR	Извлеките текст из отсканированных документов или изображений с помощью технологии OCR, что делает их доступным для поиска и редактирования.

Извлечение пар значений ключа из PDF-документа

Идентификатор операции:: extract_key_value_pairs

Определите и извлеките пары "ключ-значение" из документов для обработки форм или структурированных рабочих процессов данных.

Параметры

Имя	Ключ	Обязательно	Тип	Описание
Имя исходного файла	source_file_name	True	string	Имя исходного файла, включая расширение
Содержимое исходного файла	source_file_content	True	byte	Содержимое файла для преобразования
Язык OCR	ocr_language		string	Коды языка для извлечения OCR и KVP, разделенные "+". Например, "eng+deu+fra" добавит английский, немецкий и французский.
DPI	dpi		enum	Удаление пустых страниц в ФОРМАТЕ PDF
Формат выходных данных KVP	kvp_format		enum	Форматы выходных данных, разделенные запятыми. Данные KVP могут выводиться в формате JSON, CSV и XML. e.g. json,csv,xml
Диапазон страниц	page_range		string	Страницы, обрабатываемые KVP. Используйте строку "1 – 5" для страниц 1–5 или используйте строку "1, 5, 6", чтобы указать страницы 1 и 5 и 6.
Автоматическое заполнение	autorotate		enum	Если текст не имеет правильной ориентации, этот параметр имеет значение "Да", автоматически поворачивается страницы.
Обрезка символов	trim_symbols		enum	Если задано значение "Да", все символы будут удалены из начального или конца значений, за исключением хэша "#" или символов периода.
Включить ограничивающий ключ прямоугольник	include_key_bounding_box		enum	Включение ограничивающих значений поля для ключа в выходные данные
Включить ограничивающий прямоугольник значений	include_value_bounding_box		enum	Включите ограничивающие значения поля в выходные данные.
Включить номер страницы	include_page_number		enum	Включите номер страницы для пары "значение ключа" в выходные данные
Включение достоверности	include_confidence		enum	Включите оценку достоверности для пары "ключевое значение" в выходные данные. Достоверность измеряется в диапазоне от 0 до 100 (полная уверенность).
Порог достоверности	confidence_threshold		integer	Порог доверия для пары "ключевое значение" должен быть включен в выходные данные. Результаты под пороговым значением удаляются.
Тип include	include_type		enum	Включение типа данных для пары "значение ключа" в выходные данные
Ожидаемые ключи	expected_keys		string	Строка JSON, содержащая ожидаемые ключи и синонимы
Сбой при ошибке	fail_on_error		boolean	Сбой при ошибке

Возвращаемое значение

Данные ответа для всех операций

Тело: operation_response

Извлечение текста из PDF-документа

Идентификатор операции:: extract_text

Получение текстового содержимого из PDF-документов для простого индексирования, поиска или анализа содержимого.

Параметры

Имя	Ключ	Обязательно	Тип	Описание
Имя исходного файла	source_file_name	True	string	Имя исходного файла, включая расширение
Содержимое исходного файла	source_file_content	True	byte	Содержимое файла для преобразования
Диапазон страниц	page_range		string	Диапазон страниц для извлечения текста, например 1,5,8-12
Сбой при ошибке	fail_on_error		boolean	Сбой при ошибке

Возвращаемое значение

Данные ответа для всех операций

Тело: operation_response

Извлечение текста из PDF-файла с помощью OCR

Идентификатор операции:: ocr_text

Извлеките текст из отсканированных документов или изображений с помощью технологии OCR, что делает их доступным для поиска и редактирования.

Параметры

Имя	Ключ	Обязательно	Тип	Описание
Имя исходного файла	source_file_name	True	string	Имя исходного файла, включая расширение
Содержимое исходного файла	source_file_content	True	byte	Содержимое файла в OCR
Language	language		enum	Language
Координата X	x		string	Координата X (в Pts, 1/72 дюйма)
Координата Y	y		string	Координата Y (в Pts, 1/72 дюйма)
Ширина	width		string	Ширина области OCR (в Pts, 1/72 дюйма)
Высота	height		string	Высота области OCR (в Pts, 1/72 дюйма)
Номер страницы	page_number		string	Номер страницы (оставьте пустым для всех страниц OCR)
Performance	performance		enum	Производительность ()
Черный список / список разрешений	characters_option		enum	Параметр "Символы"
Символы	characters		string	Символы для черного списка или списка разрешений
Использование разбиения на страницы	paginate		boolean	Нумеровать страницы
Сбой при ошибке	fail_on_error		boolean	Сбой при ошибке

Возвращаемое значение

Ответные данные для операции OCRText

Тело: ocr_operation_response

Определения

ocr_operation_response

Ответные данные для операции OCRText

Имя	Путь	Тип	Описание
Вне текста	out_text	string	Извлеченный текст OCRed в виде обычного текста.
Имя базового файла	base_file_name	string	Имя входного файла без расширения.
Код результата	result_code	enum	Код результата операции.
Сведения о результатах	result_details	string	Сведения о результатах операции.

operation_response

Данные ответа для всех операций

Имя	Путь	Тип	Описание
Обработанное содержимое файла	processed_file_content	byte	Файл, созданный преобразователем Muhimbi.
Имя базового файла	base_file_name	string	Имя входного файла без расширения.
Код результата	result_code	enum	Код результата операции.
Сведения о результатах	result_details	string	Сведения о результатах операции.

Поделиться через

Питательные вещества — извлечение из PDF (предварительная версия)

Извлечение текста и данных из PDF-файлов

Доступные действия

Предпосылки

Начало работы

Известные проблемы и ограничения

Ограничения регулирования

Действия

Извлечение пар значений ключа из PDF-документа

Параметры

Возвращаемое значение

Извлечение текста из PDF-документа

Параметры

Возвращаемое значение

Извлечение текста из PDF-файла с помощью OCR

Параметры

Возвращаемое значение

Определения

ocr_operation_response

operation_response