Gegevens extraheren uit PDF

Van toepassing op: Azure Data Factory Azure Synapse Analytics

Tip

Data Factory in Microsoft Fabric is de volgende generatie van Azure Data Factory, met een eenvoudigere architectuur, ingebouwde AI en nieuwe functies. Als u nieuw bent in gegevensintegratie, begint u met Fabric Data Factory. Bestaande ADF-workloads kunnen upgraden naar Fabric om toegang te krijgen tot nieuwe mogelijkheden voor gegevenswetenschap, realtime analyses en rapportage.

In dit artikel wordt een oplossingssjabloon beschreven die u kunt gebruiken om gegevens uit een PDF-bron te extraheren met behulp van Azure Data Factory en Azure Document Intelligence in Foundry Tools.

Over deze oplossingssjabloon

Met deze sjabloon worden gegevens uit een PDF-URL-bron geanalyseerd met behulp van twee Document Intelligence-aanroepen. Vervolgens transformeert het de output naar leesbare tabellen in een gegevensstroom en voert de gegevens uit naar een opslagsysteem.

Deze sjabloon bevat twee activiteiten:

  • Webactiviteit om de vooraf gebouwde leesmodel-API van Document Intelligence aan te roepen
  • Gegevensstroom voor het transformeren van geëxtraheerde gegevens uit PDF

Met deze sjabloon worden vijf parameters gedefinieerd:

  • CognitiveServicesURL is de Document Intelligence-URL ('https://{endpoint}/formrecognizer/v2.1/layout/analyze'). Vervang {endpoint} door het eindpunt dat u hebt verkregen met uw Document Intelligence-abonnement. U moet de standaardwaarde vervangen door uw eigen URL.
  • CognitiveServicesKey is de sleutel voor het abonnement Document Intelligence. U moet de standaardwaarde vervangen door uw eigen abonnementssleutel.
  • PDF_SourceURL is de URL van uw PDF-bron. U moet de standaardwaarde vervangen door uw eigen URL.
  • OutputContainer is de naam van het containerpad waarin u uw bestanden in uw bestemmingsopslag wilt hebben. U moet de standaardwaarde vervangen door uw eigen container.
  • OutputFolder is de naam van het mappad waar u uw bestanden in de bestemmingsopslag wilt plaatsen. U moet de standaardwaarde vervangen door uw eigen mappad.

Vereisten

  • URL en sleutel voor documentinformatieresources (maak een nieuwe resource here)

Deze oplossingssjabloon gebruiken

  1. Ga naar sjabloon Gegevens uit PDF extraheren. Maak een nieuwe verbinding met uw Document Intelligence-resource of kies een bestaande verbinding.

    Schermopname van het maken van een nieuwe verbinding of het selecteren van een bestaande verbinding in een vervolgkeuzelijst naar een Document Intelligence-verbinding in de sjabloonset-up.

    Zorg ervoor dat u in uw verbinding met Document Intelligence een gekoppelde serviceparameter toevoegt. U moet deze URL-parameter gebruiken als uw dynamische basis-URL. U moet ook een nieuwe Auth-header toevoegen onder Auth-headers. De naam moet Ocp-Apim-Subscription-Key zijn en de waarde moet de sleutelwaarde zijn die u vindt in uw Azure Resource.

    Schermopname van de gekoppelde servicebasis-URL die verwijst naar de gekoppelde serviceparameter en Auth-headers die moeten worden toegevoegd.

  2. Maak een nieuwe verbinding met uw doelopslagarchief of kies een bestaande verbinding. De gekozen bestemming is waar de geëxtraheerde PDF-gegevens worden opgeslagen.

    Schermopname van hoe een nieuwe verbinding kan worden gemaakt of een bestaande verbinding kan worden geselecteerd uit een vervolgkeuzemenu voor uw sink tijdens de sjabloonconfiguratie.

  3. Selecteer Deze sjabloon gebruiken.

    Schermopname van het voltooien van de sjabloon door onderaan het scherm op deze sjabloon te klikken.

  4. U ziet nu de volgende pijplijn.

    Schermopname van de pijplijnweergave met webactiviteit die is gekoppeld aan een gegevensstroomactiviteit.

  5. Navigeer naar de activiteit Gegevensstroom en zoek instellingen. Hier moet u dynamische inhoud toevoegen voor de url-parameter van de gekoppelde service. Nadat u op Dynamische inhoud toevoegen hebt geklikt, wordt de opbouwfunctie voor pijplijnexpressies geopend. Selecteer Cognitive Services - POST-activiteituitvoer. Typ of kopieer en plak vervolgens .output. ADFWebActivityResponseHeaders['Operation-Location']. U ziet nu de volgende expressie in de opbouwfunctie voor expressies.

    Schermopname van de pijplijnweergave van de instellingen voor de gegevensstroomactiviteit.

    Schermopname van de opbouwfunctie voor pijplijnexpressies met de dynamische inhoud van de gegevensstroom weergegeven.

  6. Klik op OK om terug te keren naar de pijplijn.

  7. Vervolgens, selecteer Debuggen.

    Schermopname van het opsporen van fouten in de pijplijn met behulp van de knop Foutopsporing in de bovenste banner van het scherm.

  8. Voer parameterwaarden in, bekijk de resultaten en publiceer deze.

    Schermopname van waar u parameters voor foutopsporing voor pijplijnen kunt invoeren in een deelvenster aan de rechterkant.

    Schermopname van de resultaten die worden geretourneerd wanneer de pijplijn wordt geactiveerd.