Több objektum replikálása az SAP-ból AZ SAP CDC-n keresztül

Vonatkozik: Azure Data Factory Azure Synapse Analytics

Tipp.

Data Factory a Microsoft Fabric a Azure Data Factory következő generációja, egyszerűbb architektúrával, beépített AI-vel és új funkciókkal. Ha még nem ismerkedik az adatintegrációval, kezdje a Fabric Data Factoryvel. A meglévő ADF-számítási feladatok frissíthetők Fabric használatával, hogy elérjék az adatkutatás, a valós idejű elemzés és a jelentéskészítés új képességeit.

Ez a cikk egy megoldássablont ír le, amellyel több ODP-objektumot replikálhat az SAP-ból SAP CDC-összekötőn keresztül a Kulcspartícióval rendelkező, Delta formátumú Gen2 Azure Data Lake.

A megoldássablon ismertetése

Ez a sablon egy külső vezérlőfájlt olvas be json formátumban a tárházban, amely tartalmazza az SAP ODP-környezeteket, az SAP ODP-objektumokat és az SAP-forrásrendszer kulcsoszlopait, valamint a tárolókat, mappákat és partíciókat Azure Data Lake Gen2 céltárolóból. Ezután átmásolja az SAP ODP-objektumokat az SAP rendszerből a 2. generációs Azure Data Lake Delta formátumban.

A sablon három tevékenységet tartalmaz:

  • Lookup lekéri a betöltendő SAP ODP-objektumok listáját és a céltároló elérési útját a Azure Data Lake Gen2-tároló külső vezérlőfájljából.
  • A ForEach lekéri az SAP ODP-objektumok listáját a keresési tevékenységből, és iterálja az egyes objektumokat a leképezési adatfolyam-tevékenységhez.
  • Mapping adatfolyam minden SAP ODP-objektumot replikál az SAP-rendszerből az Azure Data Lake Gen2-be Delta formátumban. Első futtatáskor a kezdeti teljes terhelést elvégzi, majd automatikusan növekményes terhelést végez a későbbi futtatásokban. Az Azure Data Lake Gen2 módosításait delta formátumban egyesíti.

Ebben a sablonban json formátumú külső vezérlőfájlra van szükség. A vezérlőfájl sémája az alábbi.

  • A checkPointKey az ADF-ben a módosított adatrögzítés ellenőrzőpontjának kezeléséhez szükséges egyéni kulcs. További részleteket itt talál.
  • sapContext a forrásrendszerből származó SAP ODP-környezet. További részleteket itt talál.
  • A sapObjectName az SAP-rendszerből betöltendő SAP ODP-objektum neve. További részleteket itt talál.
  • A sapRunMode azt határozza meg, hogyan szeretné betölteni az SAP-objektumot. Lehet fullLoad, incrementalLoad vagy fullAndIncrementalLoad.
  • sapKeyColumns az SAP ODP objektumok kulcsoszlopainak nevei, amelyeket a deduplikációhoz használnak a különbözeti adatfolyamban.
  • Az sapPartitions azoknak a partíciófeltételeknek a listája, amelyek külön kinyerési folyamatokat eredményeznek a csatlakoztatott SAP-rendszerben.
  • deltaContainer a tároló neve a Azure Data Lake Gen2-ben céltárolóként.
  • deltaFolder a mappa neve a Azure Data Lake Gen2-ben céltárolóként.
  • A deltaKeyColumns oszlopokkal állapíthatja meg, hogy a forrásból származó sorok megegyeznek-e a fogadó sorával, amikor frissíteni vagy törölni szeretne egy sort.
  • deltaPartition az az oszlop, amellyel partíciókat hozhat létre az oszlop minden egyedi értékéhez, hogy adatokat írjon Delta formátumban Azure Data Lake Gen2-n az adatfolyam leképezése által használt Spark-fürtön keresztül. További részleteket itt talál

A minta vezérlőfájl az alábbi módon érhető el:

[
  {
    "checkPointKey":"CheckPointFor_ZPERFCDPOS$F",
    "sapContext": "ABAP_CDS",
    "sapObjectName": "ZPERFCDPOS$F",
    "sapRunMode": "fullAndIncrementalLoad",
    "sapKeyColumns": [
      "TABKEY"
    ],
    "sapPartitions": [
	[{
        "fieldName": "TEXTCASE",
        "sign": "I",
        "option": "EQ",
        "low": "1"
       },
       {
        "fieldName": "TEXTCASE",
        "sign": "I",
        "option": "EQ",
        "low": "X"
      }]
    ],
    "deltaContainer":"delta",
    "deltaFolder":"ZPERFCDPOS",
    "deltaKeyColumns":["TABKEY"],
    "deltaPartition":"TEXTCASE",
    "stagingStorageFolder":"stagingcontainer/stagingfolder"
  },
  {
    "checkPointKey":"CheckPointFor_Z0131",
    "sapContext": "SAPI",
    "sapObjectName": "Z0131",
    "sapRunMode": "incrementalLoad",
    "sapKeyColumns": [
      "ID"
    ],
    "sapPartitions": [],
    "deltaContainer":"delta",
    "deltaFolder":"Z0131",
    "deltaKeyColumns":["ID"],
    "deltaPartition":"COMPANY",
    "stagingStorageFolder":"stagingcontainer/stagingfolder"
  }
]

A megoldássablon használata

  1. Hozzon létre és töltsön fel egy vezérlőfájlt json formátumban a Azure Data Lake Gen2-be céltárolóként. A vezérlőfájl tárolásának alapértelmezett tárolója a demó, az alapértelmezett vezérlőfájl neve pedig SapToDeltaParameters.json.

  2. Lépjen a több táblát az SAP ODP-ből az Azure Data Lake Storage Gen2-be Delta formátumban sablonhoz, és kattintson rá.

    Képernyőkép az SAP CDC keresési sablonról.

  3. Kattintson a Continue elemre, és adja meg forrásként az SAP-rendszerhez csatlakoztatott társított szolgáltatást, és célként a Azure Data Lake Gen2-hez csatlakoztatott társított szolgáltatást. További információt az SAP CDC társított szolgáltatásáról itt talál. Vegye figyelembe, hogy a külső vezérlőfájlt a Azure Data Lake Gen2 ugyanazon fiókjába kell feltölteni.

    Képernyőkép az SAP CDC használati sablonról.

  4. Kattintson a Sablon használata gombra, és látni fogja, hogy a folyamat készen áll a használatra.

    Képernyőkép az SAP CDC-folyamatról.