Freigeben über


Extrahieren von Daten aus einer PDF

GILT FÜR: Azure Data Factory Azure Synapse Analytics

Tipp

Testen Sie Data Factory in Microsoft Fabric, eine All-in-One-Analyselösung für Unternehmen. Microsoft Fabric deckt alle Aufgaben ab, von der Datenverschiebung bis hin zu Data Science, Echtzeitanalysen, Business Intelligence und Berichterstellung. Erfahren Sie, wie Sie kostenlos eine neue Testversion starten!

In diesem Artikel wird eine Lösungsvorlage beschrieben, mit der Sie Daten mithilfe von Azure Data Factory und Azure KI Dokument Intelligenz aus einer PDF-Quelle extrahieren können.

Informationen zu dieser Lösungsvorlage

Diese Vorlage analysiert Daten aus einer PDF-URL-Quelle über zwei Azure KI Dokument Intelligenz-Aufrufe. Anschließend transformiert sie die Ausgabe in lesbare Tabellen in einem Dataflow und gibt die Daten in eine Speichersenke aus.

Diese Vorlage enthält zwei Aktivitäten:

  • Webaktivität zum Aufrufen der vorgegebenen Lesemodell-API von Azure KI Dokument Intelligenz
  • Datenfluss zum Transformieren extrahierter Daten aus PDF

Diese Vorlage definiert fünf Parameter:

  • CognitiveServicesURL ist die Azure KI Dokument Intelligenz-URL (https://{Endpunkt}/formrecognizer/v2.1/layout/analyze). Ersetzen Sie {Endpunkt} durch den Endpunkt, den Sie mit Ihrem Azure KI Dokument Intelligenz-Abonnement erhalten haben. Sie müssen den Standardwert durch Ihre eigene URL ersetzen.
  • CognitiveServicesKey ist der Azure KI Dokument Intelligenz-Abonnementschlüssel. Sie müssen den Standardwert durch Ihren eigenen Abonnementschlüssel ersetzen.
  • PDF_SourceURL ist die URL Ihrer PDF-Quelle. Sie müssen den Standardwert durch Ihre eigene URL ersetzen.
  • outputContainer ist der Name des Containers, in dem Sich Ihre Dateien im Zielspeicher befinden sollen. Sie müssen den Standardwert durch Ihren eigenen Container ersetzen.
  • OutputFolder ist der Name des Ordnerpfads, in dem Sich Ihre Dateien im Zielspeicher befinden sollen. Sie müssen den Standardwert durch Ihren eigenen Ordnerpfad ersetzen.

Voraussetzungen

  • URL und Schlüssel für den Azure KI Dokument Intelligenz-Ressourcenendpunkt (erstellen Sie hier eine neue Ressource)

So verwenden Sie diese Lösungsvorlage

  1. Wechseln Sie zur Vorlage Extrahieren von Daten aus PDF. Erstellen Sie über die Option Neu eine neue Verbindung mit Ihrer Azure KI Dokument Intelligenz-Ressource oder wählen Sie eine vorhandene Verbindung aus.

    Screenshot: Erstellen einer neuen Verbindung oder Auswählen einer vorhandenen Verbindung mit Azure KI Dokument Intelligenz über ein Dropdownmenü beim Einrichten der Vorlage.

    Stellen Sie bei Ihrer Verbindung mit Azure KI Dokument Intelligenz sicher, dass Sie einen Parameter für verknüpfte Dienste hinzufügen. Sie müssen diesen URL-Parameter als dynamische Basis-URL verwenden. Sie müssen auch einen neuen Auth-Header unter Auth-Header hinzufügen. Der Name sollte Ocp-Apim-Subscription-Key- sein, und der Wert sollte der Schlüsselwert aus Ihrer Azure-Ressource sein.

    Screenshot: Basis-URL des verknüpften Diensts, die auf den verknüpften Dienstparameter und hinzuzufügende Autorisierungsheader verweist.

  2. Erstellen Sie eine neue Verbindung mit Ihrem Zielspeicher, oder wählen Sie eine vorhandene Verbindung aus. Das ausgewählte Ziel ist der Ort, an dem die extrahierten PDF-Daten gespeichert werden.

    Screenshot: Erstellen einer neuen Verbindung oder Auswählen einer vorhandenen Verbindung mit Ihrer Senke aus einem Dropdownmenü beim Einrichten der Vorlage.

  3. Klicken Sie auf Diese Vorlage verwenden.

    Screenshot: Fertigstellen der Vorlage durch Klicken auf „Diese Vorlage verwenden“ am unteren Bildschirmrand

  4. Daraufhin sollte folgende Pipeline angezeigt werden.

    Screenshot: Pipelineansicht mit einer Webaktivität, die mit einer Datenflussaktivität verknüpft ist

  5. Navigieren Sie zur Aktivität Datenfluss und suchen Sie nach Einstellungen. Hier müssen Sie dynamischen Inhalt für Ihren verknüpften Dienst URL-Parameter hinzufügen. Nachdem Sie auf Dynamischen Inhalt hinzufügen geklickt haben, wird der Pipeline-Ausdrucksgenerator geöffnet. Wählen Sie Cognitive Services - POST activity output aus. Geben Sie dann ".output.ADFWebActivityResponseHeaders['Operation-Location']“ ein. Der folgende Ausdruck sollte im Ausdrucksgenerator angezeigt werden.

    Screenshot der Pipelineansicht mit den Einstellungen der Datenflussaktivität.

    Screenshot des Ausdrucks-Generators für Pipelines mit angezeigten dynamischen Datenflussinhalten.

  6. Klicken Sie auf OK, um zur Pipeline zurückzukehren.

  7. Wählen Sie danach Debuggen.

    Screenshot: Debuggen der Pipeline über die Schaltfläche „Debuggen“ auf dem Banner am oberen Bildschirmrand

  8. Geben Sie Parameterwerte ein, überprüfen Sie Ergebnisse, und veröffentlichen Sie sie.

    Screenshot der Stelle für die Eingabe der Parameter zum Debuggen der Pipeline in einem Bereich auf der rechten Seite

    Screenshot: Ergebnisse, die beim Auslösen der Pipeline zurückgegeben werden