Gegevens transformeren vanuit een SAP ODP-bron met behulp van de SAP CDC-connector in Azure Data Factory of Azure Synapse Analytics
VAN TOEPASSING OP: Azure Data Factory Azure Synapse Analytics
Tip
Probeer Data Factory uit in Microsoft Fabric, een alles-in-één analyseoplossing voor ondernemingen. Microsoft Fabric omvat alles, van gegevensverplaatsing tot gegevenswetenschap, realtime analyses, business intelligence en rapportage. Meer informatie over het gratis starten van een nieuwe proefversie .
In dit artikel wordt beschreven hoe u de toewijzingsgegevensstroom gebruikt om gegevens uit een SAP ODP-bron te transformeren met behulp van de SAP CDC-connector. Lees het inleidende artikel voor Azure Data Factory of Azure Synapse Analytics voor meer informatie. Lees voor een inleiding tot het transformeren van gegevens met Azure Data Factory en Azure Synapse Analytics de toewijzingsgegevensstroom of de zelfstudie over toewijzingsgegevensstroom.
Tip
Zie sap-gegevensintegratie met behulp van een technisch document over Azure Data Factory voor meer informatie over de algemene ondersteuning voor SAP-gegevensintegratiescenario's, met gedetailleerde inleiding over elke SAP-connector, vergelijking en richtlijnen.
Ondersteunde mogelijkheden
Deze SAP CDC-connector wordt ondersteund voor de volgende mogelijkheden:
Ondersteunde mogelijkheden | IR |
---|---|
Toewijzingsgegevensstroom (bron/-) | (1), (2) |
(1) Azure Integration Runtime (2) Zelf-hostende Integration Runtime
Deze SAP CDC-connector maakt gebruik van het SAP ODP-framework om gegevens uit SAP-bronsystemen te extraheren. Lees Inleiding en architectuur voor SAP Change Data Capture (CDC) in ons SAP-kenniscentrum voor een inleiding tot de architectuur van de oplossing.
Het SAP ODP-framework is opgenomen in alle up-to-date SAP NetWeaver-systemen, waaronder SAP ECC, SAP S/4HANA, SAP BW, SAP BW/4HANA, SAP LT Replication Server (SLT). Zie Vereisten en configuratie voor vereisten en minimale vereiste releases.
De SAP CDC-connector ondersteunt basisverificatie of SNC (Secure Network Communications), als SNC is geconfigureerd.
Huidige beperkingen
Dit zijn de huidige beperkingen van de SAP CDC-connector in Data Factory:
- U kunt ODQ-abonnementen niet opnieuw instellen of verwijderen in Data Factory (gebruik hiervoor transactie-ODQMON in het verbonden SAP-systeem).
- U kunt geen SAP-hiërarchieën gebruiken met de oplossing.
Vereisten
Als u deze SAP CDC-connector wilt gebruiken, raadpleegt u Vereisten en installatie voor de SAP CDC-connector.
Aan de slag
Als u de kopieeractiviteit wilt uitvoeren met een pijplijn, kunt u een van de volgende hulpprogramma's of SDK's gebruiken:
- Het hulpprogramma voor het kopiëren van gegevens
- Azure Portal
- De .NET-SDK
- De Python-SDK
- Azure PowerShell
- De REST API
- Een Azure Resource Manager-sjabloon
Een gekoppelde service maken voor de SAP CDC-connector met behulp van de gebruikersinterface
Volg de stappen die worden beschreven in De gekoppelde SAP CDC-service voorbereiden om een gekoppelde service te maken voor de SAP CDC-connector in de gebruikersinterface van Azure Portal.
Eigenschappen van gegevensset
Als u een SAP CDC-gegevensset wilt voorbereiden, volgt u De SAP CDC-brongegevensset voorbereiden.
Gegevens transformeren met de SAP CDC-connector
De onbewerkte SAP ODP-wijzigingenfeed is moeilijk te interpreteren en correct bij te werken naar een sink kan een uitdaging zijn. Technische kenmerken die zijn gekoppeld aan elke rij (zoals ODQ_CHANGEMODE), moeten bijvoorbeeld worden begrepen om de wijzigingen correct toe te passen op de sink. Een extract van wijzigingsgegevens uit ODP kan ook meerdere wijzigingen in dezelfde sleutel bevatten (bijvoorbeeld dezelfde verkooporder). Het is daarom belangrijk om de volgorde van wijzigingen te respecteren, terwijl tegelijkertijd de prestaties worden geoptimaliseerd door de wijzigingen parallel te verwerken. Bovendien vereist het beheer van een gegevensopnamefeed ook het bijhouden van de status, bijvoorbeeld om ingebouwde mechanismen voor foutherstel te bieden. Azure Data Factory-toewijzingsgegevensstromen zorgen voor al deze aspecten. Sap CDC-connectiviteit maakt daarom deel uit van de ervaring van de toewijzingsgegevensstroom. Gebruikers kunnen zich dus concentreren op de vereiste transformatielogica zonder dat ze last hoeven te hebben van de technische details van gegevensextractie.
Maak een pijplijn met een toewijzingsgegevensstroom om aan de slag te gaan.
Geef vervolgens een gekoppelde faseringsservice en faseringsmap op in Azure Data Lake Gen2, die fungeert als een tussenliggende opslag voor gegevens die zijn geëxtraheerd uit SAP.
Notitie
- De gekoppelde faseringsservice kan geen zelf-hostende Integration Runtime gebruiken.
- De faseringsmap moet worden beschouwd als een interne opslag van de SAP CDC-connector. Voor verdere optimalisaties van de SAP CDC-runtime kunnen implementatiedetails, zoals de bestandsindeling die wordt gebruikt voor de faseringsgegevens, veranderen. Daarom raden we u aan de faseringsmap niet te gebruiken voor andere doeleinden, bijvoorbeeld als bron voor andere kopieeractiviteiten of toewijzingsgegevensstromen.
De Controlepuntsleutel wordt door de SAP CDC-runtime gebruikt om statusinformatie over het proces voor het vastleggen van wijzigingengegevens op te slaan. Hierdoor kunnen sap CDC-toewijzingsgegevensstromen bijvoorbeeld automatisch worden hersteld uit foutsituaties of weten of er al een wijzigingsproces voor gegevensopname voor een bepaalde gegevensstroom tot stand is gebracht. Het is daarom belangrijk om voor elke bron een unieke controlepuntsleutel te gebruiken. Anders wordt statusinformatie van de ene bron overschreven door een andere bron.
Notitie
- Om conflicten te voorkomen, wordt standaard een unieke id gegenereerd als Controlepuntsleutel .
- Wanneer u parameters gebruikt om dezelfde gegevensstroom voor meerdere bronnen te gebruiken, moet u ervoor zorgen dat u de Controlepuntsleutel parametrizeert met unieke waarden per bron.
- De eigenschap Controlepuntsleutel wordt niet weergegeven als de uitvoeringsmodus in de SAP CDC-bron is ingesteld op Volledig voor elke uitvoering (zie de volgende sectie), omdat er in dit geval geen proces voor het vastleggen van wijzigingen van gegevens tot stand is gebracht.
Geparameteriseerde controlepuntsleutels
Controlepuntsleutels zijn vereist voor het beheren van de status van processen voor het vastleggen van wijzigingengegevens. Voor efficiënt beheer kunt u de controlepuntsleutel parameteriseren om verbindingen met verschillende bronnen toe te staan. U kunt als volgt een geparameteriseerde controlepuntsleutel implementeren:
Maak een globale parameter voor het opslaan van de controlepuntsleutel op pijplijnniveau om consistentie in uitvoeringen te garanderen:
"parameters": { "checkpointKey": { "type": "string", "defaultValue": "YourStaticCheckpointKey" } }
Stel de controlepuntsleutel programmatisch in om de pijplijn aan te roepen met de gewenste waarde telkens wanneer deze wordt uitgevoerd. Hier volgt een voorbeeld van een REST-aanroep met behulp van de geparameteriseerde controlepuntsleutel:
PUT https://management.azure.com/subscriptions/{subscriptionId}/resourceGroups/{resourceGroupName}/providers/Microsoft.DataFactory/factories/{factoryName}/pipelines/{pipelineName}?api-version=2018-06-01 Content-Type: application/json { "properties": { "activities": [ // Your activities here ], "parameters": { "checkpointKey": { "type": "String", "defaultValue": "YourStaticCheckpointKey" } } } }
Raadpleeg geavanceerde onderwerpen voor de SAP CDC-connector voor meer informatie.
Eigenschappen van toewijzingsgegevensstroom
Voer de volgende stappen uit om een toewijzingsgegevensstroom te maken met behulp van de SAP CDC-connector als bron:
Ga in ADF Studio naar de sectie Gegevensstromen van de Author-hub , selecteer de knop ... om het menu Acties voor gegevensstromen te selecteren en selecteer het item Nieuwe gegevensstroom . Schakel de foutopsporingsmodus in met behulp van de knop Foutopsporing in de bovenste balk van het gegevensstroomcanvas.
Selecteer Bron toevoegen in de editor voor toewijzingsgegevensstromen.
Selecteer op het tabblad Broninstellingen een voorbereide SAP CDC-gegevensset of selecteer de knop Nieuw om een nieuwe te maken. U kunt ook Inline selecteren in de eigenschap Brontype en doorgaan zonder een expliciete gegevensset te definiëren.
Selecteer op het tabblad Bronopties de optie Volledig bij elke uitvoering als u volledige momentopnamen wilt laden bij elke uitvoering van de toewijzingsgegevensstroom. Selecteer Volledig tijdens de eerste uitvoering en vervolgens incrementeel als u zich wilt abonneren op een wijzigingenfeed van het SAP-bronsysteem, inclusief een eerste volledige momentopname van gegevens. In dit geval voert de eerste uitvoering van uw pijplijn een delta-initialisatie uit, wat betekent dat er een ODP-deltaabonnement wordt gemaakt in het bronsysteem en een huidige momentopname van de volledige gegevens wordt geretourneerd. Volgende pijplijnuitvoeringen retourneren alleen incrementele wijzigingen sinds de voorgaande uitvoering. Met incrementele wijzigingen in de optie wordt alleen een ODP-deltaabonnement gemaakt zonder een eerste volledige momentopname van gegevens in de eerste uitvoering te retourneren. Opnieuw retourneren volgende uitvoeringen incrementele wijzigingen, omdat de voorgaande uitvoering alleen is uitgevoerd. Voor beide opties voor incrementeel laden moet u de sleutels van het ODP-bronobject opgeven in de eigenschap Sleutelkolommen .
Volg de toewijzingsgegevensstroom voor de tabbladen Projectie, Optimaliseren en Inspecteren.
Prestaties van volledige of eerste belastingen optimaliseren met bronpartitionering
Als de uitvoeringsmodus is ingesteld op Volledig bij elke uitvoering of Volledig tijdens de eerste uitvoering, biedt het tabblad Optimaliseren een selectie- en partitioneringstype met de naam Bron. Met deze optie kunt u meerdere partitievoorwaarden (dat wil gezegd filter) opgeven om een grote brongegevensset te segmenteren in meerdere kleinere delen. Voor elke partitie activeert de SAP CDC-connector een afzonderlijk extractieproces in het SAP-bronsysteem.
Als partities even groot zijn, kan bronpartitionering de doorvoer van gegevensextractie lineair verhogen. Voor dergelijke prestatieverbeteringen zijn voldoende resources vereist in het SAP-bronsysteem, de virtuele machine die als host fungeert voor de zelf-hostende Integration Runtime en de Azure Integration Runtime.