栄養 - PDF から抽出 (プレビュー)
栄養ドキュメントコンバータ抽出アクションを使用して、強力なPDFテキストとデータ抽出のロックを解除します。 テキスト、データ、キーと値のペアをシームレスに取得し、OCR テクノロジを利用してスキャンされたドキュメントを処理します。 インデックス作成、検索、コンテンツ分析、構造化データ ワークフローに最適です。
このコネクタは、次の製品とリージョンで使用できます。
| サービス | クラス | リージョン |
|---|---|---|
| コピロット スタジオ | Premium | 次を除くすべての Power Automate リージョン : - 米国政府 (GCC) - 米国政府 (GCC High) - 21Vianet が運営する China Cloud - 米国国防総省 (DoD) |
| ロジック アプリ | Standard | 次を除くすべての Logic Apps リージョン : - Azure Government リージョン - Azure China リージョン - 米国国防総省 (DoD) |
| Power Apps | Premium | 次を除くすべての Power Apps リージョン : - 米国政府 (GCC) - 米国政府 (GCC High) - 21Vianet が運営する China Cloud - 米国国防総省 (DoD) |
| Power Automate | Premium | 次を除くすべての Power Automate リージョン : - 米国政府 (GCC) - 米国政府 (GCC High) - 21Vianet が運営する China Cloud - 米国国防総省 (DoD) |
| お問い合わせ | |
|---|---|
| 名前 | 栄養素 (旧ムヒンビ) サポート |
| URL | https://support.nutrient.io/hc/en-us/requests/new |
| support+low-code@nutrient.io |
| コネクタ メタデータ | |
|---|---|
| Publisher | ムヒンビの栄養素としての取引 |
| Web サイト | https://www.nutrient.io/low-code/ |
| プライバシー ポリシー | https://www.nutrient.io/legal/privacy/ |
| カテゴリ | コラボレーション;コンテンツとファイル |
PDF からテキストとデータを抽出する
栄養ドキュメント コンバーターを使用すると、Power Automate の自動化されたワークフローの一部として、PDF ファイルからテキスト、データ、または特定のページを抽出できます。 OCR を使用して画像からテキストを抽出することもできます。
使用可能なアクション
- キーと値のペアを抽出する
- OCR を使用してテキストを抽出する
- PDF からデータを抽出する
- PDF ページの抽出
- イメージからテキストを抽出する
- Power Automate を使用して PDF からテキストを抽出する
これらのアクションをワークフローに実装する手順については、リンクされたガイドを参照してください。
[前提条件]
養分ドキュメント コンバータを使用するには、 無料 または 試用版 アカウントが必要です。 これらのアカウントの種類の違いについては、 比較ガイド を参照してください。
作業の開始
養分ドキュメント コンバーター コネクタの使用を開始するには、次の手順に従います。
- このフォームに入力して、30 日間の試用版にサインアップします。
- フォームを送信すると、試用版のアクティブ化の詳細が記載された電子メールが届きます。
- プロセスのチュートリアルについては、 概要ビデオ を参照してください。
- 詳細な手順については、「 Power Automate 用ドキュメント コンバーター」ガイド を参照してください。
- 実際の例については 、Power Automate と Logic Apps のチュートリアル を参照してください。
既知の問題と制限事項
IRM、DRM、RMS、または AIP ソリューションで保護されたドキュメントは、セキュリティ制限のため処理できません。
ご質問やサポートについては、 サポート チームにお問い合わせください。
調整制限
| 名前 | 呼び出し | 更新期間 |
|---|---|---|
| 接続ごとの API 呼び出し | 100 | 60 秒 |
アクション
| OCR を使用して PDF ファイルからテキストを抽出する |
OCR テクノロジを使用してスキャンされたドキュメントまたは画像からテキストを抽出し、検索および編集可能にします。 |
| PDF ドキュメントからキーと値のペアを抽出する |
フォームまたは構造化データ ワークフローを処理するために、ドキュメントからキーと値のペアを識別して抽出します。 |
| PDF ドキュメントからテキストを抽出する |
PDF ドキュメントからテキスト コンテンツを取得して、インデックス作成、検索、またはコンテンツ分析を簡単に行うことができます。 |
OCR を使用して PDF ファイルからテキストを抽出する
OCR テクノロジを使用してスキャンされたドキュメントまたは画像からテキストを抽出し、検索および編集可能にします。
パラメーター
| 名前 | キー | 必須 | 型 | 説明 |
|---|---|---|---|---|
|
ソース ファイル名
|
source_file_name | True | string |
拡張子を含むソース ファイルの名前 |
|
ソース ファイルの内容
|
source_file_content | True | byte |
OCR に対するファイルの内容 |
|
Language
|
language | enum |
Language |
|
|
X 座標
|
x | string |
X 座標 (Pts 単位、1/72 インチ) |
|
|
Y 座標
|
y | string |
Y 座標 (Pts 単位、1/72 インチ) |
|
|
Width
|
width | string |
OCR 領域の幅 (Pts 単位、1/72 インチ) |
|
|
高さ
|
height | string |
OCR 領域の高さ (Pts 単位、1/72 インチ) |
|
|
ページ番号
|
page_number | string |
ページ番号 (OCR のすべてのページは空白のままにします) |
|
|
Performance
|
performance | enum |
パフォーマンス () |
|
|
ブラックリスト/ホワイトリスト
|
characters_option | enum |
Characters オプション |
|
|
文字
|
characters | string |
ブラックリストまたはホワイトリストに登録する文字 |
|
|
改ページ位置の使用
|
paginate | boolean |
改ページ位置 |
|
|
エラー時に失敗する
|
fail_on_error | boolean |
エラー時に失敗する |
戻り値
OCRText 操作の応答データ
PDF ドキュメントからキーと値のペアを抽出する
フォームまたは構造化データ ワークフローを処理するために、ドキュメントからキーと値のペアを識別して抽出します。
パラメーター
| 名前 | キー | 必須 | 型 | 説明 |
|---|---|---|---|---|
|
ソース ファイル名
|
source_file_name | True | string |
拡張子を含むソース ファイルの名前 |
|
ソース ファイルの内容
|
source_file_content | True | byte |
変換するファイルの内容 |
|
OCR 言語
|
ocr_language | string |
OCR および KVP 抽出の言語コード。'+' で区切られます。 たとえば、'eng+deu+fra' は英語、ドイツ語、フランス語を追加します。 |
|
|
DPI
|
dpi | enum |
PDF の空白ページを削除する |
|
|
KVP 出力形式
|
kvp_format | enum |
出力形式はコンマで区切られます。 KVP データは、JSON、CSV、XML で出力できます。 e.g. json,csv,xml |
|
|
ページ範囲
|
page_range | string |
KVP によって処理されるページ。 ページ 1 から 5 には '1 - 5' の文字列を使用するか、'1, 5, 6' の文字列を使用してページ 1 と 5 と 6 を指定します。 |
|
|
Autorotate
|
autorotate | enum |
テキストの向きが正しくない場合、これを [はい] に設定すると、ページが自動的に回転します。 |
|
|
シンボルのトリミング
|
trim_symbols | enum |
これを [はい] に設定すると、ハッシュ '#' またはピリオド '.' 記号を除き、値の開始/終了からすべてのシンボルが削除されます。 |
|
|
[キー境界ボックスを含める]
|
include_key_bounding_box | enum |
出力にキーの境界ボックスの値を含める |
|
|
[値の境界ボックスを含める]
|
include_value_bounding_box | enum |
出力に値の境界ボックスの値を含める |
|
|
ページ番号を含める
|
include_page_number | enum |
キー値ペアのページ番号を出力に含める |
|
|
信頼度を含める
|
include_confidence | enum |
出力にキー値ペアの信頼度スコアを含めます。 信頼度は、0 (信頼度なし) から 100 (完全信頼度) の間で測定されます。 |
|
|
信頼度しきい値
|
confidence_threshold | integer |
キー値ペアが出力に含まれるには、信頼度しきい値に達する必要があります。 しきい値の下の結果は破棄されます。 |
|
|
Include 型
|
include_type | enum |
出力にキー値ペアのデータ型を含める |
|
|
必要なキー
|
expected_keys | string |
予想されるキーとシノニムを含む JSON 文字列 |
|
|
エラー時に失敗する
|
fail_on_error | boolean |
エラー時に失敗する |
戻り値
すべての操作の応答データ
- Body
- operation_response
PDF ドキュメントからテキストを抽出する
PDF ドキュメントからテキスト コンテンツを取得して、インデックス作成、検索、またはコンテンツ分析を簡単に行うことができます。
パラメーター
| 名前 | キー | 必須 | 型 | 説明 |
|---|---|---|---|---|
|
ソース ファイル名
|
source_file_name | True | string |
拡張子を含むソース ファイルの名前 |
|
ソース ファイルの内容
|
source_file_content | True | byte |
変換するファイルの内容 |
|
ページ範囲
|
page_range | string |
テキストを抽出するページ範囲 (例: 1,5,8-12) |
|
|
エラー時に失敗する
|
fail_on_error | boolean |
エラー時に失敗する |
戻り値
すべての操作の応答データ
- Body
- operation_response
定義
ocr_operation_response
OCRText 操作の応答データ
| 名前 | パス | 型 | 説明 |
|---|---|---|---|
|
テキストの出力
|
out_text | string |
プレーン テキストで抽出された OCRed テキスト。 |
|
ベース ファイル名
|
base_file_name | string |
拡張子のない入力ファイルの名前。 |
|
結果コード
|
result_code | enum |
操作の結果コード。 |
|
結果の詳細
|
result_details | string |
操作結果の詳細。 |
operation_response
すべての操作の応答データ
| 名前 | パス | 型 | 説明 |
|---|---|---|---|
|
処理されたファイルの内容
|
processed_file_content | byte |
Muhimbi コンバーターによって生成されたファイル。 |
|
ベース ファイル名
|
base_file_name | string |
拡張子のない入力ファイルの名前。 |
|
結果コード
|
result_code | enum |
操作の結果コード。 |
|
結果の詳細
|
result_details | string |
操作結果の詳細。 |