PDF からデータを抽出する

適用対象: Azure Data Factory Azure Synapse Analytics

ヒント

Data Factory in Microsoft Fabric は、よりシンプルなアーキテクチャ、組み込みの AI、および新機能を備えた次世代のAzure Data Factoryです。 データ統合を初めて使用する場合は、Fabric Data Factory から始めます。 既存の ADF ワークロードをFabricにアップグレードして、データ サイエンス、リアルタイム分析、レポートの新機能にアクセスできます。

この記事では、Foundry Tools のドキュメント インテリジェンスとAzure Data Factoryを使用して PDF ソースからデータを抽出 Azureするために使用できるソリューション テンプレートについて説明します。

このソリューション テンプレートについて

このテンプレートは、2 つのドキュメント インテリジェンス呼び出しを使用して PDF URL ソースからのデータを分析します。 次に、出力をデータフロー内の読み取り可能なテーブルに変換し、そのデータをストレージ シンクに出力します。

このテンプレートには、次の 2 つのアクティビティが含まれています。

  • ドキュメント インテリジェンスの事前構築済み読み取りモデル API を呼び出す Web アクティビティ
  • PDF から抽出されたデータを変換するデータ フロー

このテンプレートには、以下の 5 つのパラメータが定義されています。

  • CognitiveServicesURL はドキュメント インテリジェンス URL ("https://{endpoint}/formrecognizer/v2.1/layout/analyze") です。 {endpoint} を、ドキュメント インテリジェンス サブスクリプションで取得したエンドポイントに置き換えます。 既定値を独自の URL に置き換える必要があります。
  • CognitiveServicesKey はドキュメント インテリジェンス サブスクリプション キーです。 既定値を独自のサブスクリプション キーに置き換える必要があります。
  • PDF_SourceURLは PDF ソースの URL です。 既定値を独自の URL に置き換える必要があります。
  • OutputContainer は、ファイルを移行先ストアに配置するコンテナー パスの名前です。 既定値を独自のコンテナーに置き換える必要があります。
  • OutputFolder は、ファイルを移行先ストアに配置するフォルダー パスの名前です。 既定値を目的のフォルダー パスに置き換える必要があります。

前提条件

  • ドキュメント インテリジェンス リソース エンドポイントの URL とキー (新しいリソース here)

このソリューション テンプレートの使用方法

  1. テンプレート「PDFからデータを抽出する」に移動します。 ドキュメント インテリジェンス リソースへの 新しい 接続を作成するか、既存の接続を選択します。

    新しい接続を作成する方法、またはテンプレートのセットアップでドキュメント インテリジェンス接続へのドロップダウン メニューから既存の接続を選択する方法のスクリーンショット。

    ドキュメント インテリジェンスへの接続で、 リンクされたサービス パラメーターを必ず追加してください。 この url パラメータは、動的なベース URL として使用する必要があります。 また、[Auth headers] (認証ヘッダー) で新しい認証ヘッダーを追加する必要があります。 名前は Ocp-Apim-Subscription-Key で、値は Azure リソースから見つけたキー値である必要があります。

    リンク サービス パラメーターと追加する認証ヘッダーを参照するリンク サービス ベース URL のスクリーンショット。

  2. 宛先ストレージ ストアへの新しい接続を作成するか、既存の接続を選択します。 選択した保存先は、抽出された PDF データが保存される場所です。

    テンプレート設定で、シンクへの新しい接続を作成する方法、またはドロップダウン メニューから既存の接続を選択する方法のスクリーンショット。

  3. [このテンプレートを使用] を選択します。

    画面の下部にある [このテンプレートを使用] をクリックしてテンプレートを完成させる方法のスクリーンショット。

  4. 次のパイプラインが表示されます。

    データフロー アクティビティにリンクされている Web アクティビティを含むパイプライン ビューのスクリーンショット。

  5. [データ フロー] アクティビティに移動し、[設定]を見つけます。 ここでは、リンク サービスの url パラメータの動的コンテンツを追加する必要があります。 [動的なコンテンツの追加] をクリックすると、パイプライン式ビルダーが開きます。 [Cognitive Services - POST activity output] (Cognitive Services - POST アクティビティの出力) を選択します。 次に、「.output.ADFWebActivityResponseHeaders['Operation-Location']」と入力するか、コピーして貼り付けます。式ビルダーに次の式が表示されます。

    データフロー アクティビティ設定のパイプライン ビューのスクリーンショット。

    データフローの動的コンテンツが表示されたパイプライン式ビルダーのスクリーンショット。

  6. [OK] をクリックして、パイプラインに戻ります。

  7. 次に、[デバッグ] を選択します。

    画面の上部バナーにある [デバッグ] ボタンを使用してパイプラインをデバッグする方法のスクリーンショット。

  8. パラメーター値を入力し、結果を確認し、公開します。

    右側のパネルにあるパイプライン デバッグ パラメーターを入力する場所のスクリーンショット。

    パイプラインがトリガーされたときに返される結果のスクリーンショット。