次の方法で共有


PDF からデータを抽出する

適用対象: Azure Data Factory Azure Synapse Analytics

ヒント

企業向けのオールインワン分析ソリューション、Microsoft Fabric の Data Factory をお試しください。 Microsoft Fabric は、データ移動からデータ サイエンス、リアルタイム分析、ビジネス インテリジェンス、レポートまで、あらゆるものをカバーしています。 無料で新しい試用版を開始する方法について説明します。

この記事では、Azure Data Factory と Azure AI Document Intelligence を使用して PDF ソースからデータを抽出するために使用できるソリューション テンプレートについて説明します。

このソリューション テンプレートについて

このテンプレートでは、2 つの Azure AI Document Intelligence 呼び出しを使用して、PDF URL ソースからのデータを分析します。 次に、出力をデータフロー内の読み取り可能なテーブルに変換し、そのデータをストレージ シンクに出力します。

このテンプレートには、次の 2 つのアクティビティが含まれています。

  • Azure AI Document Intelligence の事前構築済み読み取りモデル API を呼び出す Web アクティビティ
  • PDF から抽出されたデータを変換するデータ フロー

このテンプレートには、以下の 5 つのパラメータが定義されています。

  • CognitiveServicesURL は、Azure AI Document Intelligence URL ("https://{endpoint}/formrecognizer/v2.1/layout/analyze") です。 {endpoint} を、Azure AI Document Intelligence サブスクリプションで取得したエンドポイントで置き換えます。 既定値を独自の URL に置き換える必要があります。
  • CognitiveServicesKey は、Azure AI Document Intelligence サブスクリプション キーです。 既定値を独自のサブスクリプション キーに置き換える必要があります。
  • PDF_SourceURLは PDF ソースの URL です。 既定値を独自の URL に置き換える必要があります。
  • OutputContainer は、ファイルを移行先ストアに配置するコンテナー パスの名前です。 既定値を独自のコンテナーに置き換える必要があります。
  • OutputFolder は、ファイルを移行先ストアに配置するフォルダー パスの名前です。 既定値を目的のフォルダー パスに置き換える必要があります。

前提条件

  • Azure AI Document Intelligence リソース エンドポイントの URL とキー (ここで新しいリソースを作成します)

このソリューション テンプレートの使用方法

  1. テンプレート「PDFからデータを抽出する」に移動します。 Azure AI Document Intelligence リソースへの新しい接続を作成するか、既存の接続を選択します。

    テンプレート設定で、Azure AI Document Intelligence 接続への新しい接続を作成する方法、またはドロップダウン メニューから既存の接続を選択する方法のスクリーンショット。

    Azure AI Document Intelligence への接続で、リンク サービス パラメータを必ず追加してください。 この url パラメータは、動的なベース URL として使用する必要があります。 また、[Auth headers] (認証ヘッダー) で新しい認証ヘッダーを追加する必要があります。 名前は Ocp-Apim-Subscription-Key にする必要があり、値は Azure リソースから検出したキー値にする必要があります。

    リンク サービス パラメーターと追加する認証ヘッダーを参照するリンク サービス ベース URL のスクリーンショット。

  2. 宛先ストレージ ストアへの新しい接続を作成するか、既存の接続を選択します。 選択した保存先は、抽出された PDF データが保存される場所です。

    テンプレート設定で、シンクへの新しい接続を作成する方法、またはドロップダウン メニューから既存の接続を選択する方法のスクリーンショット。

  3. [このテンプレートを使用] を選択します。

    画面の下部にある [このテンプレートを使用] をクリックしてテンプレートを完成させる方法のスクリーンショット。

  4. 次のパイプラインが表示されます。

    データフロー アクティビティにリンクされている Web アクティビティを含むパイプライン ビューのスクリーンショット。

  5. [データ フロー] アクティビティに移動し、[設定]を見つけます。 ここでは、リンク サービスの url パラメータの動的コンテンツを追加する必要があります。 [動的なコンテンツの追加] をクリックすると、パイプライン式ビルダーが開きます。 [Cognitive Services - POST activity output] (Cognitive Services - POST アクティビティの出力) を選択します。 次に、「.output.ADFWebActivityResponseHeaders['Operation-Location']」と入力するか、コピーして貼り付けます。式ビルダーに次の式が表示されます。

    データフロー アクティビティ設定のパイプライン ビューのスクリーンショット。

    データフローの動的コンテンツが表示されたパイプライン式ビルダーのスクリーンショット。

  6. [OK] をクリックして、パイプラインに戻ります。

  7. 次に、[デバッグ] を選択します。

    画面の上部バナーにある [デバッグ] ボタンを使用してパイプラインをデバッグする方法のスクリーンショット。

  8. パラメーター値を入力し、結果を確認し、公開します。

    右側のパネルにあるパイプライン デバッグ パラメーターを入力する場所のスクリーンショット。

    パイプラインがトリガーされたときに返される結果のスクリーンショット。