適用対象: Azure Data Factory
Azure Synapse Analytics
ヒント
企業向けのオールインワン分析ソリューション、Microsoft Fabric の Data Factory をお試しください。 Microsoft Fabric は、データ移動からデータ サイエンス、リアルタイム分析、ビジネス インテリジェンス、レポートまで、あらゆるものをカバーしています。 無料で新しい試用版を開始する方法について説明します。
この記事では、Azure Data Factory と Azure AI Document Intelligence を使用して PDF ソースからデータを抽出するために使用できるソリューション テンプレートについて説明します。
このソリューション テンプレートについて
このテンプレートでは、2 つの Azure AI Document Intelligence 呼び出しを使用して、PDF URL ソースからのデータを分析します。 次に、出力をデータフロー内の読み取り可能なテーブルに変換し、そのデータをストレージ シンクに出力します。
このテンプレートには、次の 2 つのアクティビティが含まれています。
- Azure AI Document Intelligence の事前構築済み読み取りモデル API を呼び出す Web アクティビティ
- PDF から抽出されたデータを変換するデータ フロー
このテンプレートには、以下の 5 つのパラメータが定義されています。
- CognitiveServicesURL は、Azure AI Document Intelligence URL ("https://{endpoint}/formrecognizer/v2.1/layout/analyze") です。 {endpoint} を、Azure AI Document Intelligence サブスクリプションで取得したエンドポイントで置き換えます。 既定値を独自の URL に置き換える必要があります。
- CognitiveServicesKey は、Azure AI Document Intelligence サブスクリプション キーです。 既定値を独自のサブスクリプション キーに置き換える必要があります。
- PDF_SourceURLは PDF ソースの URL です。 既定値を独自の URL に置き換える必要があります。
- OutputContainer は、ファイルを移行先ストアに配置するコンテナー パスの名前です。 既定値を独自のコンテナーに置き換える必要があります。
- OutputFolder は、ファイルを移行先ストアに配置するフォルダー パスの名前です。 既定値を目的のフォルダー パスに置き換える必要があります。
前提条件
- Azure AI Document Intelligence リソース エンドポイントの URL とキー (ここで新しいリソースを作成します)
このソリューション テンプレートの使用方法
テンプレート「PDFからデータを抽出する」に移動します。 Azure AI Document Intelligence リソースへの新しい接続を作成するか、既存の接続を選択します。
Azure AI Document Intelligence への接続で、リンク サービス パラメータを必ず追加してください。 この url パラメータは、動的なベース URL として使用する必要があります。 また、[Auth headers] (認証ヘッダー) で新しい認証ヘッダーを追加する必要があります。 名前は Ocp-Apim-Subscription-Key にする必要があり、値は Azure リソースから検出したキー値にする必要があります。
宛先ストレージ ストアへの新しい接続を作成するか、既存の接続を選択します。 選択した保存先は、抽出された PDF データが保存される場所です。
[このテンプレートを使用] を選択します。
次のパイプラインが表示されます。
[データ フロー] アクティビティに移動し、[設定]を見つけます。 ここでは、リンク サービスの url パラメータの動的コンテンツを追加する必要があります。 [動的なコンテンツの追加] をクリックすると、パイプライン式ビルダーが開きます。 [Cognitive Services - POST activity output] (Cognitive Services - POST アクティビティの出力) を選択します。 次に、「.output.ADFWebActivityResponseHeaders['Operation-Location']」と入力するか、コピーして貼り付けます。式ビルダーに次の式が表示されます。
[OK] をクリックして、パイプラインに戻ります。
次に、[デバッグ] を選択します。
パラメーター値を入力し、結果を確認し、公開します。