次の方法で共有


栄養 - PDF から抽出 (プレビュー)

栄養ドキュメントコンバータ抽出アクションを使用して、強力なPDFテキストとデータ抽出のロックを解除します。 テキスト、データ、キーと値のペアをシームレスに取得し、OCR テクノロジを利用してスキャンされたドキュメントを処理します。 インデックス作成、検索、コンテンツ分析、構造化データ ワークフローに最適です。

このコネクタは、次の製品とリージョンで使用できます。

サービス クラス リージョン
コピロット スタジオ Premium 次を除くすべての Power Automate リージョン :
     - 米国政府 (GCC)
     - 米国政府 (GCC High)
     - 21Vianet が運営する China Cloud
     - 米国国防総省 (DoD)
ロジック アプリ Standard 次を除くすべての Logic Apps リージョン :
     - Azure Government リージョン
     - Azure China リージョン
     - 米国国防総省 (DoD)
Power Apps Premium 次を除くすべての Power Apps リージョン :
     - 米国政府 (GCC)
     - 米国政府 (GCC High)
     - 21Vianet が運営する China Cloud
     - 米国国防総省 (DoD)
Power Automate Premium 次を除くすべての Power Automate リージョン :
     - 米国政府 (GCC)
     - 米国政府 (GCC High)
     - 21Vianet が運営する China Cloud
     - 米国国防総省 (DoD)
お問い合わせ
名前 栄養素 (旧ムヒンビ) サポート
URL https://support.nutrient.io/hc/en-us/requests/new
Email support+low-code@nutrient.io
コネクタ メタデータ
Publisher ムヒンビの栄養素としての取引
Web サイト https://www.nutrient.io/low-code/
プライバシー ポリシー https://www.nutrient.io/legal/privacy/
カテゴリ コラボレーション;コンテンツとファイル

PDF からテキストとデータを抽出する

栄養ドキュメント コンバーターを使用すると、Power Automate の自動化されたワークフローの一部として、PDF ファイルからテキスト、データ、または特定のページを抽出できます。 OCR を使用して画像からテキストを抽出することもできます。

使用可能なアクション

これらのアクションをワークフローに実装する手順については、リンクされたガイドを参照してください。

[前提条件]

養分ドキュメント コンバータを使用するには、 無料 または 試用版 アカウントが必要です。 これらのアカウントの種類の違いについては、 比較ガイド を参照してください。

作業の開始

養分ドキュメント コンバーター コネクタの使用を開始するには、次の手順に従います。

既知の問題と制限事項

IRM、DRM、RMS、または AIP ソリューションで保護されたドキュメントは、セキュリティ制限のため処理できません。

ご質問やサポートについては、 サポート チームにお問い合わせください。

調整制限

名前 呼び出し 更新期間
接続ごとの API 呼び出し 100 60 秒

アクション

OCR を使用して PDF ファイルからテキストを抽出する

OCR テクノロジを使用してスキャンされたドキュメントまたは画像からテキストを抽出し、検索および編集可能にします。

PDF ドキュメントからキーと値のペアを抽出する

フォームまたは構造化データ ワークフローを処理するために、ドキュメントからキーと値のペアを識別して抽出します。

PDF ドキュメントからテキストを抽出する

PDF ドキュメントからテキスト コンテンツを取得して、インデックス作成、検索、またはコンテンツ分析を簡単に行うことができます。

OCR を使用して PDF ファイルからテキストを抽出する

OCR テクノロジを使用してスキャンされたドキュメントまたは画像からテキストを抽出し、検索および編集可能にします。

パラメーター

名前 キー 必須 説明
ソース ファイル名
source_file_name True string

拡張子を含むソース ファイルの名前

ソース ファイルの内容
source_file_content True byte

OCR に対するファイルの内容

Language
language enum

Language

X 座標
x string

X 座標 (Pts 単位、1/72 インチ)

Y 座標
y string

Y 座標 (Pts 単位、1/72 インチ)

Width
width string

OCR 領域の幅 (Pts 単位、1/72 インチ)

高さ
height string

OCR 領域の高さ (Pts 単位、1/72 インチ)

ページ番号
page_number string

ページ番号 (OCR のすべてのページは空白のままにします)

Performance
performance enum

パフォーマンス ()

ブラックリスト/ホワイトリスト
characters_option enum

Characters オプション

文字
characters string

ブラックリストまたはホワイトリストに登録する文字

改ページ位置の使用
paginate boolean

改ページ位置

エラー時に失敗する
fail_on_error boolean

エラー時に失敗する

戻り値

OCRText 操作の応答データ

PDF ドキュメントからキーと値のペアを抽出する

フォームまたは構造化データ ワークフローを処理するために、ドキュメントからキーと値のペアを識別して抽出します。

パラメーター

名前 キー 必須 説明
ソース ファイル名
source_file_name True string

拡張子を含むソース ファイルの名前

ソース ファイルの内容
source_file_content True byte

変換するファイルの内容

OCR 言語
ocr_language string

OCR および KVP 抽出の言語コード。'+' で区切られます。 たとえば、'eng+deu+fra' は英語、ドイツ語、フランス語を追加します。

DPI
dpi enum

PDF の空白ページを削除する

KVP 出力形式
kvp_format enum

出力形式はコンマで区切られます。 KVP データは、JSON、CSV、XML で出力できます。 e.g. json,csv,xml

ページ範囲
page_range string

KVP によって処理されるページ。 ページ 1 から 5 には '1 - 5' の文字列を使用するか、'1, 5, 6' の文字列を使用してページ 1 と 5 と 6 を指定します。

Autorotate
autorotate enum

テキストの向きが正しくない場合、これを [はい] に設定すると、ページが自動的に回転します。

シンボルのトリミング
trim_symbols enum

これを [はい] に設定すると、ハッシュ '#' またはピリオド '.' 記号を除き、値の開始/終了からすべてのシンボルが削除されます。

[キー境界ボックスを含める]
include_key_bounding_box enum

出力にキーの境界ボックスの値を含める

[値の境界ボックスを含める]
include_value_bounding_box enum

出力に値の境界ボックスの値を含める

ページ番号を含める
include_page_number enum

キー値ペアのページ番号を出力に含める

信頼度を含める
include_confidence enum

出力にキー値ペアの信頼度スコアを含めます。 信頼度は、0 (信頼度なし) から 100 (完全信頼度) の間で測定されます。

信頼度しきい値
confidence_threshold integer

キー値ペアが出力に含まれるには、信頼度しきい値に達する必要があります。 しきい値の下の結果は破棄されます。

Include 型
include_type enum

出力にキー値ペアのデータ型を含める

必要なキー
expected_keys string

予想されるキーとシノニムを含む JSON 文字列

エラー時に失敗する
fail_on_error boolean

エラー時に失敗する

戻り値

すべての操作の応答データ

PDF ドキュメントからテキストを抽出する

PDF ドキュメントからテキスト コンテンツを取得して、インデックス作成、検索、またはコンテンツ分析を簡単に行うことができます。

パラメーター

名前 キー 必須 説明
ソース ファイル名
source_file_name True string

拡張子を含むソース ファイルの名前

ソース ファイルの内容
source_file_content True byte

変換するファイルの内容

ページ範囲
page_range string

テキストを抽出するページ範囲 (例: 1,5,8-12)

エラー時に失敗する
fail_on_error boolean

エラー時に失敗する

戻り値

すべての操作の応答データ

定義

ocr_operation_response

OCRText 操作の応答データ

名前 パス 説明
テキストの出力
out_text string

プレーン テキストで抽出された OCRed テキスト。

ベース ファイル名
base_file_name string

拡張子のない入力ファイルの名前。

結果コード
result_code enum

操作の結果コード。

結果の詳細
result_details string

操作結果の詳細。

operation_response

すべての操作の応答データ

名前 パス 説明
処理されたファイルの内容
processed_file_content byte

Muhimbi コンバーターによって生成されたファイル。

ベース ファイル名
base_file_name string

拡張子のない入力ファイルの名前。

結果コード
result_code enum

操作の結果コード。

結果の詳細
result_details string

操作結果の詳細。