PDF アクション

PDF アクションを使用すると、PDF ファイルから画像、テキスト、および表を抽出し、ページを配置して新しいドキュメントを作成できます。

PDF ファイルからテキストを抽出するには、PDF からテキストを抽出 アクションを使用します。 次の例では、パートナーで保護されたファイルの特定の範囲のページからテキストを抽出します。 パスワードは 詳細 設定で指定します。

表形式に配置されたテキストを抽出する場合は、構造化データ用に最適化 オプションを有効にすると、結果の形式と精度が向上します。

PDF からテキストを抽出 アクションのスクリーンショット。

PDF ファイルからテーブルを抽出するには、PDF からテーブルを抽出アクションを展開し、ファイルを選択して、抽出するページを指定します。

このアクションは、PDF テーブル情報のリストが含まれている ExtractedPDFTables という名前の変数を生成します。 このタイプのリストに関する情報については、高度なデータ型をご覧ください。

Note

  • PDF からテーブルを抽出するアクションは光学式文字認識 (OCR) を使用しないため、スキャンした PDF からコピー不可能なテキストを抽出することはできません。
  • アクションの背後にあるライブラリは、テーブルではない追加の PDF データを抽出することがあります。 この機能により、実際のテーブルを誤って省略してしまうリスクが最小限に抑えられます。

[PDF からテーブルを抽出する] アクションのスクリーンショット。

PDF ファイルから情報を抽出する以外に、新しい PDF ファイルへの PDF ファイル ページの抽出アクションを使用して既存のファイルから新しい PDF ドキュメントを作成できます。

次の例は、特定のページとページの範囲を選択しています。

[新しい PDF ファイルへの PDF ファイル ページの抽出] アクションのスクリーンショット。

PDF からテキストを抽出

PDF ファイルからテキストを抽出するには、[PDF からテキストを抽出] アクションを使用します。 アクションのプロパティでは、ソース PDF ファイルとテキストを抽出するページを定義できます。 詳細アクションのプロパティでは、PDF ファイルが保護されている場合にパスワードを定義でき、また、エンジンを構造化データに対して最適化する必要があるかどうかを定義できます。

入力パラメーター

引数 オプション 受入 Default Value 説明設定
PDF file いいえ ファイル PDF ファイルからテキストを抽出します。 ファイル パス、ファイルを含む変数、またはテキストパスを入力します
抽出するページ N/A すべて、単一、範囲 All 抽出するページ数 (すべてのページ、単一ページ、またはページ範囲) を指定します
Single page number いいえ 数値 テキストを抽出する単一ページの番号
From page number いいえ 数値 テキストを抽出するページ範囲の最初のページ番号
To page number いいえ 数値 テキストを抽出するページ範囲の最後のページ番号
パスワード はい 直接暗号化された入力またはテキスト値 PDF ファイルのパスワードです。 PDF がパスワードで保護されていない場合は、空白のままにします
構造化データに最適化 N/A ブール値 False ドキュメント内の書式設定されたレイアウトを検出し、テキストを抽出するかどうかを指定します

生成された変数

引数 タイプ 説明設定
ExtractedPDFText Text 値 抽出するテキスト

例外

例外 内容
PDF ファイルが存在しません 指定されたパスにファイルが存在しません
無効なパスワード 指定されたパスワードが無効です
テキストを抽出できません テキストの抽出中にエラーが発生しました

PDF からテーブルを抽出する

PDF ファイルに含まれる表を抽出するには、PDF からテーブルを抽出するアクションを使用します。 アクションのプロパティでは、PDF ファイルとテーブルを抽出するページの範囲を定義できます。 詳細アクションのプロパティでは、PDF ファイルが保護されている場合にパスワードを定義でき、表にヘッダーがあるかどうか、および最後にページ余白をまたぐ表を結合するかどうかを定義できます。

入力パラメーター

引数 オプション 受入 Default Value 説明設定
PDF ファイル いいえ ファイル テーブルの抽出元の PDF ファイル。 ファイル パス、ファイルを含む変数、またはテキストパスを入力します
抽出するページ 該当なし すべて、単一、範囲 すべて テーブルを抽出するページ数 (すべてのページ、単一ページ、または 1 つのページ範囲) を指定します
単一ページ番号 いいえ 数値 テーブルを抽出する単一ページの番号
開始ページ番号 いいえ 数値 テーブルを抽出するページ範囲の最初のページ番号
終了ページ番号 いいえ 数値 テーブルを抽出するページ範囲の最後のページ番号
パスワード はい 直接暗号化された入力またはテキスト値 PDF ファイルのパスワードです。 PDF がパスワードで保護されていない場合は、空白のままにします
ページの余白を超えるテーブルをマージする 該当なし ブール値 True 指定したページ範囲でページの余白を超えるテーブルをマージするかどうかを指定します
最初の行に列名を含める 該当なし ブール値 True テーブルの最初の行に列名を含めるかどうかを指定します

生成された変数

引数 タイプ 説明設定
ExtractedPDFTables PDF テーブル情報の一覧 抽出されたテーブルとその情報をリスト形式で表示

例外

例外 説明
PDF ファイルが存在しません 指定されたパスにファイルが存在しません
無効なパスワード 指定されたパスワードが無効です
テーブルを抽出できませんでした テーブルの抽出中にエラーが発生しました

PDF から画像を抽出します

PDF ファイルから画像を抽出するには、PDF から画像を抽出するアクションを使用します。 アクション パラメータでは、画像を抽出する PDF ファイルとページ、抽出された画像の名前付け規則、および画像の保存先を定義できます。 また、PDF ファイルが詳細設定で保護されている場合は、パスワードを定義することもできます。

入力パラメーター

引数 オプション 受入 Default Value 説明設定
PDF file いいえ ファイル PDF ファイルからイメージを抽出します。 ファイル パス、ファイルまたはテキスト パスを含む変数を入力します
パスワード はい 直接暗号化された入力またはテキスト値 PDF ファイルのパスワードです。 PDF がパスワードで保護されていない場合は、空白のままにします
Page(s) to extract N/A すべて、単一、範囲 すべて 抽出するページ数 (すべてのページ、単一ページ、またはページ範囲) を指定します
Single page number いいえ 数値 画像を抽出する単一ページの番号
From page number いいえ 数値 画像を抽出するページ範囲の最初のページ番号
To page number いいえ 数値 画像を抽出するページ範囲の最後のページ番号
Image(s) name いいえ テキスト値 イメージの名前がどのように始まるのかを示します。 抽出された画像の名前の例: GivenName_1、GivenName_2
Save image(s) to いいえ フォルダー 抽出された画像を png ファイルとして保存するフォルダー

生成された変数

このアクションは変数を生成しません。

例外

例外 説明設定
無効なパスワード 指定されたパスワードが無効です
画像を抽出できませんでした PDF の指定ページから画像を抽出しているときにエラーが発生したことを示します
フォルダーが存在しません フォルダーが存在しないことを示します
PDF ファイルが存在しません 指定されたパスにファイルが存在しません

新しい PDF ファイルへの PDF ファイル ページの抽出

新しい PDF ファイルを作成するには、PDF ファイルから新しい PDF ファイルにアクションを使用して既存の PDF ファイルからページを抽出します。 アクション パラメータでは、ページを抽出する PDF ファイル、抽出するページ、新しい PDF ファイルの場所、同じ名前と拡張子のファイルがすでに存在する場合の動作を定義できます。 最後に、詳細プロパティで、ソース PDF が保護されている場合はパスワードを定義できます。

入力パラメーター

引数 オプション 受入 Default Value 説明設定
PDF file いいえ ファイル PDF ファイルからページを抽出します。 ファイル パス、ファイルまたはテキスト パスを含む変数を入力します
パスワード はい 直接暗号化された入力またはテキスト値 PDF ファイルのパスワードです。 PDF がパスワードで保護されていない場合は、空白のままにします
Page selection いいえ Text 値 保持するページのインデックス番号 (例: 1、3、17-24)
Extracted PDF path いいえ ファイル 抽出された PDF ファイルを保存するパス
If file exists N/A 上書きする、上書きしない、連番の接尾辞を追加する 連番のサフィックスを追加します 出力 PDF ファイルが既に存在する場合の対応を指定します

生成された変数

引数 タイプ 説明設定
ExtractedPDF ファイル 新しい PDF ファイル

例外

例外 内容
無効なパスワード 指定されたパスワードが無効です
PDF ファイルが存在しません 指定されたパスにファイルが存在しません
ページが範囲外です 1 つまたは複数のページが PDF ファイルの範囲外であることを示します
無効なページ選択 指定されたページが PDF ファイルに対して有効ではないことを示します
新しい PDF を抽出できませんでした 新しい PDF の抽出中にエラーが発生したことを示します

PDF ファイルを統合

複数の PDF ファイルを新しいファイルにマージします。

PDF ファイルを結合 アクションを使用して、2 つ以上の PDF ファイルを 1 つのファイルに結合できます。 結合するファイルは、リストの形式で指定するか、二重引用符で囲み、区切り文字で区切ることができます。 PDF ファイルがパスワードで保護されている場合は、PDF ファイルにパスワードを指定することもできます。

入力パラメーター

引数 オプション 受入 Default Value 説明設定
PDF files いいえ ファイルリスト マージするファイルです。 複数のファイルを二重引用符 (") で囲み、区切り記号で区切るか、ファイルの一覧を使用します
Merged PDF path いいえ ファイル 統合された PDF を保存するパス
If file exists N/A 上書きする、上書きしない、連番の接尾辞を追加する 連番のサフィックスを追加します 宛先のファイルが既に存在する場合の対応を指定します
パスワード はい 直接暗号化された入力またはテキスト値 区切られたパスワードです。 順序は入力 PDF の順序と同じにする必要があります。 PDF がパスワードで保護されていない場合は、これを空白のままにします
Delimiter いいえ テキスト値 , カスタム パスワード区切り文字です。 この区切り文字はパスワードの一部とはなりません

生成された変数

引数 タイプ 説明設定
MergedPDF ファイル 統合された PDF ファイル

例外

例外 内容
PDF ファイルが存在しません 指定されたパスにファイルが存在しません
無効なパスワード 指定されたパスワードが無効です
PDF ファイルを統合できませんでした ファイルの統合中にエラーが発生したことを示します