PDF アクション
PDF アクションを使用すると、PDF ファイルから画像、テキスト、および表を抽出し、ページを配置して新しいドキュメントを作成できます。
PDF ファイルからテキストを抽出するには、PDF からテキストを抽出 アクションを使用します。 次の例では、パートナーで保護されたファイルの特定の範囲のページからテキストを抽出します。 パスワードは 詳細 設定で指定します。
表形式に配置されたテキストを抽出する場合は、構造化データ用に最適化 オプションを有効にすると、結果の形式と精度が向上します。
PDF ファイルからテーブルを抽出するには、PDF からテーブルを抽出アクションを展開し、ファイルを選択して、抽出するページを指定します。
このアクションは、PDF テーブル情報のリストが含まれている ExtractedPDFTables という名前の変数を生成します。 このタイプのリストに関する情報については、高度なデータ型をご覧ください。
Note
- PDF からテーブルを抽出するアクションは光学式文字認識 (OCR) を使用しないため、スキャンした PDF からコピー不可能なテキストを抽出することはできません。
- アクションの背後にあるライブラリは、テーブルではない追加の PDF データを抽出することがあります。 この機能により、実際のテーブルを誤って省略してしまうリスクが最小限に抑えられます。
PDF ファイルから情報を抽出する以外に、新しい PDF ファイルへの PDF ファイル ページの抽出アクションを使用して既存のファイルから新しい PDF ドキュメントを作成できます。
次の例は、特定のページとページの範囲を選択しています。
PDF からテキストを抽出
PDF ファイルからテキストを抽出するには、[PDF からテキストを抽出] アクションを使用します。 アクションのプロパティでは、ソース PDF ファイルとテキストを抽出するページを定義できます。 詳細アクションのプロパティでは、PDF ファイルが保護されている場合にパスワードを定義でき、また、エンジンを構造化データに対して最適化する必要があるかどうかを定義できます。
入力パラメーター
引数 | オプション | 受入 | Default Value | 説明設定 |
---|---|---|---|---|
PDF file | いいえ | ファイル | PDF ファイルからテキストを抽出します。 ファイル パス、ファイルを含む変数、またはテキストパスを入力します | |
抽出するページ | N/A | すべて、単一、範囲 | All | 抽出するページ数 (すべてのページ、単一ページ、またはページ範囲) を指定します |
Single page number | いいえ | 数値 | テキストを抽出する単一ページの番号 | |
From page number | いいえ | 数値 | テキストを抽出するページ範囲の最初のページ番号 | |
To page number | いいえ | 数値 | テキストを抽出するページ範囲の最後のページ番号 | |
パスワード | はい | 直接暗号化された入力またはテキスト値 | PDF ファイルのパスワードです。 PDF がパスワードで保護されていない場合は、空白のままにします | |
構造化データに最適化 | N/A | ブール値 | False | ドキュメント内の書式設定されたレイアウトを検出し、テキストを抽出するかどうかを指定します |
生成された変数
引数 | タイプ | 説明設定 |
---|---|---|
ExtractedPDFText | Text 値 | 抽出するテキスト |
例外
例外 | 内容 |
---|---|
PDF ファイルが存在しません | 指定されたパスにファイルが存在しません |
無効なパスワード | 指定されたパスワードが無効です |
テキストを抽出できません | テキストの抽出中にエラーが発生しました |
PDF からテーブルを抽出する
PDF ファイルに含まれる表を抽出するには、PDF からテーブルを抽出するアクションを使用します。 アクションのプロパティでは、PDF ファイルとテーブルを抽出するページの範囲を定義できます。 詳細アクションのプロパティでは、PDF ファイルが保護されている場合にパスワードを定義でき、表にヘッダーがあるかどうか、および最後にページ余白をまたぐ表を結合するかどうかを定義できます。
入力パラメーター
引数 | オプション | 受入 | Default Value | 説明設定 |
---|---|---|---|---|
PDF ファイル | いいえ | ファイル | テーブルの抽出元の PDF ファイル。 ファイル パス、ファイルを含む変数、またはテキストパスを入力します | |
抽出するページ | 該当なし | すべて、単一、範囲 | すべて | テーブルを抽出するページ数 (すべてのページ、単一ページ、または 1 つのページ範囲) を指定します |
単一ページ番号 | いいえ | 数値 | テーブルを抽出する単一ページの番号 | |
開始ページ番号 | いいえ | 数値 | テーブルを抽出するページ範囲の最初のページ番号 | |
終了ページ番号 | いいえ | 数値 | テーブルを抽出するページ範囲の最後のページ番号 | |
パスワード | はい | 直接暗号化された入力またはテキスト値 | PDF ファイルのパスワードです。 PDF がパスワードで保護されていない場合は、空白のままにします | |
ページの余白を超えるテーブルをマージする | 該当なし | ブール値 | True | 指定したページ範囲でページの余白を超えるテーブルをマージするかどうかを指定します |
最初の行に列名を含める | 該当なし | ブール値 | True | テーブルの最初の行に列名を含めるかどうかを指定します |
生成された変数
引数 | タイプ | 説明設定 |
---|---|---|
ExtractedPDFTables | PDF テーブル情報の一覧 | 抽出されたテーブルとその情報をリスト形式で表示 |
例外
例外 | 説明 |
---|---|
PDF ファイルが存在しません | 指定されたパスにファイルが存在しません |
無効なパスワード | 指定されたパスワードが無効です |
テーブルを抽出できませんでした | テーブルの抽出中にエラーが発生しました |
PDF から画像を抽出します
PDF ファイルから画像を抽出するには、PDF から画像を抽出するアクションを使用します。 アクション パラメータでは、画像を抽出する PDF ファイルとページ、抽出された画像の名前付け規則、および画像の保存先を定義できます。 また、PDF ファイルが詳細設定で保護されている場合は、パスワードを定義することもできます。
入力パラメーター
引数 | オプション | 受入 | Default Value | 説明設定 |
---|---|---|---|---|
PDF file | いいえ | ファイル | PDF ファイルからイメージを抽出します。 ファイル パス、ファイルまたはテキスト パスを含む変数を入力します | |
パスワード | はい | 直接暗号化された入力またはテキスト値 | PDF ファイルのパスワードです。 PDF がパスワードで保護されていない場合は、空白のままにします | |
Page(s) to extract | N/A | すべて、単一、範囲 | すべて | 抽出するページ数 (すべてのページ、単一ページ、またはページ範囲) を指定します |
Single page number | いいえ | 数値 | 画像を抽出する単一ページの番号 | |
From page number | いいえ | 数値 | 画像を抽出するページ範囲の最初のページ番号 | |
To page number | いいえ | 数値 | 画像を抽出するページ範囲の最後のページ番号 | |
Image(s) name | いいえ | テキスト値 | イメージの名前がどのように始まるのかを示します。 抽出された画像の名前の例: GivenName_1、GivenName_2 | |
Save image(s) to | いいえ | フォルダー | 抽出された画像を png ファイルとして保存するフォルダー |
生成された変数
このアクションは変数を生成しません。
例外
例外 | 説明設定 |
---|---|
無効なパスワード | 指定されたパスワードが無効です |
画像を抽出できませんでした | PDF の指定ページから画像を抽出しているときにエラーが発生したことを示します |
フォルダーが存在しません | フォルダーが存在しないことを示します |
PDF ファイルが存在しません | 指定されたパスにファイルが存在しません |
新しい PDF ファイルへの PDF ファイル ページの抽出
新しい PDF ファイルを作成するには、PDF ファイルから新しい PDF ファイルにアクションを使用して既存の PDF ファイルからページを抽出します。 アクション パラメータでは、ページを抽出する PDF ファイル、抽出するページ、新しい PDF ファイルの場所、同じ名前と拡張子のファイルがすでに存在する場合の動作を定義できます。 最後に、詳細プロパティで、ソース PDF が保護されている場合はパスワードを定義できます。
入力パラメーター
引数 | オプション | 受入 | Default Value | 説明設定 |
---|---|---|---|---|
PDF file | いいえ | ファイル | PDF ファイルからページを抽出します。 ファイル パス、ファイルまたはテキスト パスを含む変数を入力します | |
パスワード | はい | 直接暗号化された入力またはテキスト値 | PDF ファイルのパスワードです。 PDF がパスワードで保護されていない場合は、空白のままにします | |
Page selection | いいえ | Text 値 | 保持するページのインデックス番号 (例: 1、3、17-24) | |
Extracted PDF path | いいえ | ファイル | 抽出された PDF ファイルを保存するパス | |
If file exists | N/A | 上書きする、上書きしない、連番の接尾辞を追加する | 連番のサフィックスを追加します | 出力 PDF ファイルが既に存在する場合の対応を指定します |
生成された変数
引数 | タイプ | 説明設定 |
---|---|---|
ExtractedPDF | ファイル | 新しい PDF ファイル |
例外
例外 | 内容 |
---|---|
無効なパスワード | 指定されたパスワードが無効です |
PDF ファイルが存在しません | 指定されたパスにファイルが存在しません |
ページが範囲外です | 1 つまたは複数のページが PDF ファイルの範囲外であることを示します |
無効なページ選択 | 指定されたページが PDF ファイルに対して有効ではないことを示します |
新しい PDF を抽出できませんでした | 新しい PDF の抽出中にエラーが発生したことを示します |
PDF ファイルを統合
複数の PDF ファイルを新しいファイルにマージします。
PDF ファイルを結合 アクションを使用して、2 つ以上の PDF ファイルを 1 つのファイルに結合できます。 結合するファイルは、リストの形式で指定するか、二重引用符で囲み、区切り文字で区切ることができます。 PDF ファイルがパスワードで保護されている場合は、PDF ファイルにパスワードを指定することもできます。
入力パラメーター
引数 | オプション | 受入 | Default Value | 説明設定 |
---|---|---|---|---|
PDF files | いいえ | ファイル の リスト | マージするファイルです。 複数のファイルを二重引用符 (") で囲み、区切り記号で区切るか、ファイルの一覧を使用します | |
Merged PDF path | いいえ | ファイル | 統合された PDF を保存するパス | |
If file exists | N/A | 上書きする、上書きしない、連番の接尾辞を追加する | 連番のサフィックスを追加します | 宛先のファイルが既に存在する場合の対応を指定します |
パスワード | はい | 直接暗号化された入力またはテキスト値 | 区切られたパスワードです。 順序は入力 PDF の順序と同じにする必要があります。 PDF がパスワードで保護されていない場合は、これを空白のままにします | |
Delimiter | いいえ | テキスト値 | , | カスタム パスワード区切り文字です。 この区切り文字はパスワードの一部とはなりません |
生成された変数
引数 | タイプ | 説明設定 |
---|---|---|
MergedPDF | ファイル | 統合された PDF ファイル |
例外
例外 | 内容 |
---|---|
PDF ファイルが存在しません | 指定されたパスにファイルが存在しません |
無効なパスワード | 指定されたパスワードが無効です |
PDF ファイルを統合できませんでした | ファイルの統合中にエラーが発生したことを示します |