栄養 - PDF から抽出 (プレビュー)

栄養ドキュメントコンバータ抽出アクションを使用して、強力なPDFテキストとデータ抽出のロックを解除します。テキスト、データ、キーと値のペアをシームレスに取得し、OCR テクノロジを利用してスキャンされたドキュメントを処理します。インデックス作成、検索、コンテンツ分析、構造化データワークフローに最適です。

このコネクタは、次の製品とリージョンで使用できます。

サービス	クラス	リージョン
コピロットスタジオ	Premium	次を除くすべての Power Automate リージョン : - 米国政府 (GCC) - 米国政府 (GCC High) - 21Vianet が運営する China Cloud - 米国国防総省 (DoD)
ロジックアプリ	Standard	次を除くすべての Logic Apps リージョン : - Azure Government リージョン - Azure China リージョン - 米国国防総省 (DoD)
Power Apps	Premium	次を除くすべての Power Apps リージョン : - 米国政府 (GCC) - 米国政府 (GCC High) - 21Vianet が運営する China Cloud - 米国国防総省 (DoD)
Power Automate	Premium	次を除くすべての Power Automate リージョン : - 米国政府 (GCC) - 米国政府 (GCC High) - 21Vianet が運営する China Cloud - 米国国防総省 (DoD)

お問い合わせ
名前	栄養素 (旧ムヒンビ) サポート
URL	https://support.nutrient.io/hc/en-us/requests/new
Email	support+low-code@nutrient.io

コネクタメタデータ
Publisher	ムヒンビの栄養素としての取引
Web サイト	https://www.nutrient.io/low-code/
プライバシーポリシー	https://www.nutrient.io/legal/privacy/
カテゴリ	コラボレーション;コンテンツとファイル

PDF からテキストとデータを抽出する

栄養ドキュメントコンバーターを使用すると、Power Automate の自動化されたワークフローの一部として、PDF ファイルからテキスト、データ、または特定のページを抽出できます。 OCR を使用して画像からテキストを抽出することもできます。

使用可能なアクション

これらのアクションをワークフローに実装する手順については、リンクされたガイドを参照してください。

[前提条件]

養分ドキュメントコンバータを使用するには、無料または 試用版 アカウントが必要です。これらのアカウントの種類の違いについては、比較ガイドを参照してください。

作業の開始

養分ドキュメントコンバーターコネクタの使用を開始するには、次の手順に従います。

このフォームに入力して、30 日間の試用版にサインアップします。
フォームを送信すると、試用版のアクティブ化の詳細が記載された電子メールが届きます。
プロセスのチュートリアルについては、概要ビデオを参照してください。
詳細な手順については、「 Power Automate 用ドキュメントコンバーター」ガイドを参照してください。
実際の例については、Power Automate と Logic Apps のチュートリアルを参照してください。

既知の問題と制限事項

IRM、DRM、RMS、または AIP ソリューションで保護されたドキュメントは、セキュリティ制限のため処理できません。

ご質問やサポートについては、サポートチームにお問い合わせください。

調整制限

名前	呼び出し	更新期間
接続ごとの API 呼び出し	100	60 秒

アクション

OCR を使用して PDF ファイルからテキストを抽出する	OCR テクノロジを使用してスキャンされたドキュメントまたは画像からテキストを抽出し、検索および編集可能にします。
PDF ドキュメントからキーと値のペアを抽出する	フォームまたは構造化データワークフローを処理するために、ドキュメントからキーと値のペアを識別して抽出します。
PDF ドキュメントからテキストを抽出する	PDF ドキュメントからテキストコンテンツを取得して、インデックス作成、検索、またはコンテンツ分析を簡単に行うことができます。

OCR を使用して PDF ファイルからテキストを抽出する

操作 ID:: ocr_text

OCR テクノロジを使用してスキャンされたドキュメントまたは画像からテキストを抽出し、検索および編集可能にします。

パラメーター

名前	キー	必須	型	説明
ソースファイル名	source_file_name	True	string	拡張子を含むソースファイルの名前
ソースファイルの内容	source_file_content	True	byte	OCR に対するファイルの内容
Language	language		enum	Language
X 座標	x		string	X 座標 (Pts 単位、1/72 インチ)
Y 座標	y		string	Y 座標 (Pts 単位、1/72 インチ)
Width	width		string	OCR 領域の幅 (Pts 単位、1/72 インチ)
高さ	height		string	OCR 領域の高さ (Pts 単位、1/72 インチ)
ページ番号	page_number		string	ページ番号 (OCR のすべてのページは空白のままにします)
Performance	performance		enum	パフォーマンス ()
ブラックリスト/ホワイトリスト	characters_option		enum	Characters オプション
文字	characters		string	ブラックリストまたはホワイトリストに登録する文字
改ページ位置の使用	paginate		boolean	改ページ位置
エラー時に失敗する	fail_on_error		boolean	エラー時に失敗する

戻り値

OCRText 操作の応答データ

Body: ocr_operation_response

PDF ドキュメントからキーと値のペアを抽出する

操作 ID:: extract_key_value_pairs

フォームまたは構造化データワークフローを処理するために、ドキュメントからキーと値のペアを識別して抽出します。

パラメーター

名前	キー	必須	型	説明
ソースファイル名	source_file_name	True	string	拡張子を含むソースファイルの名前
ソースファイルの内容	source_file_content	True	byte	変換するファイルの内容
OCR 言語	ocr_language		string	OCR および KVP 抽出の言語コード。'+' で区切られます。たとえば、'eng+deu+fra' は英語、ドイツ語、フランス語を追加します。
DPI	dpi		enum	PDF の空白ページを削除する
KVP 出力形式	kvp_format		enum	出力形式はコンマで区切られます。 KVP データは、JSON、CSV、XML で出力できます。 e.g. json,csv,xml
ページ範囲	page_range		string	KVP によって処理されるページ。ページ 1 から 5 には '1 - 5' の文字列を使用するか、'1, 5, 6' の文字列を使用してページ 1 と 5 と 6 を指定します。
Autorotate	autorotate		enum	テキストの向きが正しくない場合、これを [はい] に設定すると、ページが自動的に回転します。
シンボルのトリミング	trim_symbols		enum	これを [はい] に設定すると、ハッシュ '#' またはピリオド '.' 記号を除き、値の開始/終了からすべてのシンボルが削除されます。
[キー境界ボックスを含める]	include_key_bounding_box		enum	出力にキーの境界ボックスの値を含める
[値の境界ボックスを含める]	include_value_bounding_box		enum	出力に値の境界ボックスの値を含める
ページ番号を含める	include_page_number		enum	キー値ペアのページ番号を出力に含める
信頼度を含める	include_confidence		enum	出力にキー値ペアの信頼度スコアを含めます。信頼度は、0 (信頼度なし) から 100 (完全信頼度) の間で測定されます。
信頼度しきい値	confidence_threshold		integer	キー値ペアが出力に含まれるには、信頼度しきい値に達する必要があります。しきい値の下の結果は破棄されます。
Include 型	include_type		enum	出力にキー値ペアのデータ型を含める
必要なキー	expected_keys		string	予想されるキーとシノニムを含む JSON 文字列
エラー時に失敗する	fail_on_error		boolean	エラー時に失敗する

戻り値

すべての操作の応答データ

Body: operation_response

PDF ドキュメントからテキストを抽出する

操作 ID:: extract_text

PDF ドキュメントからテキストコンテンツを取得して、インデックス作成、検索、またはコンテンツ分析を簡単に行うことができます。

パラメーター

名前	キー	必須	型	説明
ソースファイル名	source_file_name	True	string	拡張子を含むソースファイルの名前
ソースファイルの内容	source_file_content	True	byte	変換するファイルの内容
ページ範囲	page_range		string	テキストを抽出するページ範囲 (例: 1,5,8-12)
エラー時に失敗する	fail_on_error		boolean	エラー時に失敗する

戻り値

すべての操作の応答データ

Body: operation_response

定義

ocr_operation_response

OCRText 操作の応答データ

名前	パス	型	説明
テキストの出力	out_text	string	プレーンテキストで抽出された OCRed テキスト。
ベースファイル名	base_file_name	string	拡張子のない入力ファイルの名前。
結果コード	result_code	enum	操作の結果コード。
結果の詳細	result_details	string	操作結果の詳細。

operation_response

すべての操作の応答データ

名前	パス	型	説明
処理されたファイルの内容	processed_file_content	byte	Muhimbi コンバーターによって生成されたファイル。
ベースファイル名	base_file_name	string	拡張子のない入力ファイルの名前。
結果コード	result_code	enum	操作の結果コード。
結果の詳細	result_details	string	操作結果の詳細。