Notitie
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen u aan te melden of de directory te wijzigen.
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen de mappen te wijzigen.
Van toepassing op:
Azure Data Factory
Azure Synapse Analytics
Tip
Data Factory in Microsoft Fabric is de volgende generatie van Azure Data Factory, met een eenvoudigere architectuur, ingebouwde AI en nieuwe functies. Als u nieuw bent in gegevensintegratie, begint u met Fabric Data Factory. Bestaande ADF-workloads kunnen upgraden naar Fabric om toegang te krijgen tot nieuwe mogelijkheden voor gegevenswetenschap, realtime analyses en rapportage.
In dit artikel wordt een oplossingssjabloon beschreven die u kunt gebruiken om gegevens uit een PDF-bron te extraheren met behulp van Azure Data Factory en Azure Document Intelligence in Foundry Tools.
Over deze oplossingssjabloon
Met deze sjabloon worden gegevens uit een PDF-URL-bron geanalyseerd met behulp van twee Document Intelligence-aanroepen. Vervolgens transformeert het de output naar leesbare tabellen in een gegevensstroom en voert de gegevens uit naar een opslagsysteem.
Deze sjabloon bevat twee activiteiten:
- Webactiviteit om de vooraf gebouwde leesmodel-API van Document Intelligence aan te roepen
- Gegevensstroom voor het transformeren van geëxtraheerde gegevens uit PDF
Met deze sjabloon worden vijf parameters gedefinieerd:
- CognitiveServicesURL is de Document Intelligence-URL ('https://{endpoint}/formrecognizer/v2.1/layout/analyze'). Vervang {endpoint} door het eindpunt dat u hebt verkregen met uw Document Intelligence-abonnement. U moet de standaardwaarde vervangen door uw eigen URL.
- CognitiveServicesKey is de sleutel voor het abonnement Document Intelligence. U moet de standaardwaarde vervangen door uw eigen abonnementssleutel.
- PDF_SourceURL is de URL van uw PDF-bron. U moet de standaardwaarde vervangen door uw eigen URL.
- OutputContainer is de naam van het containerpad waarin u uw bestanden in uw bestemmingsopslag wilt hebben. U moet de standaardwaarde vervangen door uw eigen container.
- OutputFolder is de naam van het mappad waar u uw bestanden in de bestemmingsopslag wilt plaatsen. U moet de standaardwaarde vervangen door uw eigen mappad.
Vereisten
- URL en sleutel voor documentinformatieresources (maak een nieuwe resource here)
Deze oplossingssjabloon gebruiken
Ga naar sjabloon Gegevens uit PDF extraheren. Maak een nieuwe verbinding met uw Document Intelligence-resource of kies een bestaande verbinding.
Zorg ervoor dat u in uw verbinding met Document Intelligence een gekoppelde serviceparameter toevoegt. U moet deze URL-parameter gebruiken als uw dynamische basis-URL. U moet ook een nieuwe Auth-header toevoegen onder Auth-headers. De naam moet Ocp-Apim-Subscription-Key zijn en de waarde moet de sleutelwaarde zijn die u vindt in uw Azure Resource.
Maak een nieuwe verbinding met uw doelopslagarchief of kies een bestaande verbinding. De gekozen bestemming is waar de geëxtraheerde PDF-gegevens worden opgeslagen.
Selecteer Deze sjabloon gebruiken.
U ziet nu de volgende pijplijn.
Navigeer naar de activiteit Gegevensstroom en zoek instellingen. Hier moet u dynamische inhoud toevoegen voor de url-parameter van de gekoppelde service. Nadat u op Dynamische inhoud toevoegen hebt geklikt, wordt de opbouwfunctie voor pijplijnexpressies geopend. Selecteer Cognitive Services - POST-activiteituitvoer. Typ of kopieer en plak vervolgens .output. ADFWebActivityResponseHeaders['Operation-Location']. U ziet nu de volgende expressie in de opbouwfunctie voor expressies.
Klik op OK om terug te keren naar de pijplijn.
Vervolgens, selecteer Debuggen.
Voer parameterwaarden in, bekijk de resultaten en publiceer deze.