Megosztás a következőn keresztül:


Adatrögzítés módosítása az Azure Data Factoryben és az Azure Synapse Analyticsben

A következőkre vonatkozik: Azure Data Factory Azure Synapse Analytics

Tipp.

Próbálja ki a Data Factoryt a Microsoft Fabricben, amely egy teljes körű elemzési megoldás a nagyvállalatok számára. A Microsoft Fabric az adattovábbítástól az adatelemzésig, a valós idejű elemzésig, az üzleti intelligenciáig és a jelentéskészítésig mindent lefed. Ismerje meg, hogyan indíthat új próbaverziót ingyenesen!

Ez a cikk az Azure Data Factory változásadat-rögzítését (CDC) ismerteti.

További információkért tekintse meg az Azure Data Factory vagy az Azure Synapse áttekintését.

Áttekintés

Amikor adatintegrációt és ETL-folyamatokat hajt végre a felhőben, a feladatok jobban teljesíthetnek, és hatékonyabbak lehetnek, ha csak a folyamat utolsó futtatása óta megváltozott forrásadatokat olvassa be, és nem mindig kérdez le egy teljes adathalmazt minden futtatáskor. Az ADF több különböző módot biztosít arra, hogy egyszerűen megkapja a deltaadatokat csak az utolsó futtatásból.

Adatrögzítési gyári erőforrás módosítása

A data factory CDC-vel való használatának legegyszerűbb és leggyorsabb módja a gyári szintű Adatrögzítési erőforrás módosítása. A fő folyamattervezőben válassza az Új lehetőséget a Gyári erőforrások alatt egy új Change Data Capture létrehozásához. A CDC-gyári erőforrás konfigurációs útmutatót biztosít, ahol kiválaszthatja a forrásokat és a célhelyeket, alkalmazhatja az opcionális átalakításokat, majd az adatrögzítés megkezdéséhez válassza a start lehetőséget. A CDC-erőforrással nem kell folyamatokat vagy adatfolyam-tevékenységeket terveznie. Emellett csak az általános célú adatfolyamok négy magjáért kell fizetnie, amíg az adatok feldolgozása folyamatban van. Beállíthat egy előnyben részesített késést, amelyet az ADF használ a megváltozott adatok felébresztéséhez és kereséséhez. Ez a kezdeti ellenőrzés az egyetlen alkalom, amikor számlát kap. A legfelső szintű CDC-erőforrás a folyamatok folyamatos futtatásának ADF-módszere is. Az ADF-ben az adatfolyamok csak köteges feldolgozásra alkalmasak, de a CDC-erőforrás folyamatosan futtatható.

Natív változásadat-rögzítés a leképezési adatfolyamban

Az ADF-leképezési adatfolyam képes automatikusan észlelni és kinyerni a módosított adatokat, beleértve a beszúrt, frissített és törölt sorokat a forrásadatbázisokból. A módosítások azonosításához nincs szükség időbélyegre vagy azonosítóoszlopra, mivel a natív változásadat-rögzítési technológiát használja az adatbázisokban. Ha láncol egy forrásátalakítást és egy fogadó-átalakítóhivatkozást egy adatbázis-adatkészlethez egy leképezési adatfolyamban, láthatja, hogy a forrásadatbázis módosításai automatikusan alkalmazva lesznek a céladatbázisra, így könnyedén szinkronizálhatja az adatokat két tábla között. A változásadatok feldolgozásához bármely üzleti logikához bármilyen átalakítást hozzáadhat. A céladatok célhelyének meghatározásakor beállíthatja a beszúrási, frissítési, felülírási és törlési műveleteket a célban anélkül, hogy szükség lenne az Alter Row átalakításra, mivel az ADF képes automatikusan észlelni a sorokat létrehozó elemeket.

Támogatott összekötők

Automatikus növekményes kinyerés a leképezési adatfolyamban

Az újonnan frissített sorokat vagy frissített fájlokat az ADF-leképezési adatfolyam automatikusan észlelheti és kinyerheti a forrástárolókból. Ha deltaadatokat szeretne lekérni az adatbázisokból, a növekményes oszlopra van szükség a módosítások azonosításához. Ha csak egy tárolóból szeretne új fájlokat vagy frissített fájlokat betölteni, az ADF-leképezési adatfolyam csak a fájlok legutóbbi módosítási ideje alatt működik.

Támogatott összekötők

Ügyfél által felügyelt delta adatkinyerés az adatfolyamban

Minden ADF által támogatott adattárhoz létrehozhat saját delta-adatkinyerési folyamatot, például keresési tevékenységgel lekérheti a külső vezérlőtáblában tárolt vízjelértéket, másolási tevékenységet vagy adatfolyam-leképezési tevékenységet, hogy lekérdezze a deltaadatokat az időbélyeg vagy az azonosító oszlop alapján, valamint az SP-tevékenységgel visszaírhatja az új vízjelértéket a külső vezérlőtáblába a következő futtatáshoz. Ha csak egy tárolóból szeretne új fájlokat betölteni, törölheti a fájlokat minden alkalommal, miután sikeresen áthelyezték őket a célhelyre, vagy használhatja a particionált mappa vagy fájlnevek időkészletét, vagy a legutóbb módosított időpontot az új fájlok azonosításához.

Ajánlott eljárások

Adatrögzítés módosítása adatbázisokból

  • A natív változásadatok rögzítése mindig ajánlott a legegyszerűbb módja a változásadatok lekérésének. Emellett sokkal kisebb terhet ró a forrásadatbázisra, amikor az ADF kinyeri a módosítási adatokat további feldolgozás céljából.
  • Ha az adatbázis-tárolók nem részei az ADF-összekötők listájának natív változásrögzítési támogatással, javasoljuk, hogy ellenőrizze az automatikus növekményes kinyerési beállítást, amelyben csak növekményes oszlopot kell beírnia a módosítások rögzítéséhez. Az ADF gondoskodik a többiről, beleértve egy dinamikus lekérdezés létrehozását a delta betöltéshez és az ellenőrzőpont kezelését minden tevékenységfuttatáshoz.
  • Az ügyfél által felügyelt delta-adatkinyerés a folyamatban az ADF által támogatott összes adatbázist lefedi, és rugalmasan szabályozhat mindent önállóan.

Fájlrögzítés módosítása fájlalapú tárolókból

  • Ha adatokat szeretne betölteni az Azure Blob Storage-ból, az Azure Data Lake Storage Gen2-ből vagy az Azure Data Lake Storage Gen1-ből, a leképezési adatfolyam lehetővé teszi, hogy csak egy egyszerű választással szerezze be az új vagy frissített fájlokat. Ez a legegyszerűbb és ajánlott módja annak, hogy ezekből a fájlalapú tárolókból delta terhelést érjen el a leképezési adatfolyamban.
  • További ajánlott eljárásokat is találhat.

Ellenőrzőpont

Ha engedélyezi a natív változásadat-rögzítést vagy az automatikus növekményes kinyerési beállításokat az ADF-leképezési adatfolyamban, az ADF segít az ellenőrzőpont kezelésében, hogy az egyes tevékenységek automatikusan csak a folyamat utolsó futtatása óta megváltozott forrásadatokat olvassák be. Alapértelmezés szerint az ellenőrzőpont a folyamat és a tevékenység nevével van összekapcsolva. Ha módosítja a folyamatlánc nevét vagy a tevékenység nevét, az ellenőrzőpont alaphelyzetbe lesz állítva, ami azt eredményezi, hogy előrről kell kezdenie, vagy mostantól érvényesülnek a változtatások a következő futtatás során. Ha módosítani szeretné a folyamat nevét vagy tevékenységnevét, de továbbra is megtartja az ellenőrzőpontot, hogy automatikusan megkapja a módosított adatokat az utolsó futtatásból, használja a saját Ellenőrzőpont-kulcsát az adatfolyam-tevékenységben ennek eléréséhez. A saját ellenőrzőpontkulcs elnevezési szabálya megegyezik a társított szolgáltatásokkal, adatkészletekkel, folyamatokkal és adatfolyamokkal.

A folyamat hibakeresésekor ez a funkció ugyanúgy működik. Az ellenőrzőpont alaphelyzetbe áll, amikor frissíti a böngészőt a hibakeresési futtatás során. Miután elégedett a hibakeresési futtatás folyamatának eredményével, közzéteheti és aktiválhatja a folyamatot. Abban a pillanatban, amikor először aktiválja a közzétett folyamatot, az automatikusan újraindul az elejétől, vagy mostantól módosításokat kap.

A monitorozási szakaszban mindig lehetősége van egy pipeline újrafuttatására. Ha így tesz, a módosított adatok mindig a kiválasztott folyamatfuttatás előző ellenőrzőpontjáról lesznek rögzítve.

Oktatóanyagok

Az alábbiakban az Azure Data Factoryben és az Azure Synapse Analyticsben történő adatrögzítés elindítására vonatkozó oktatóanyagokat talál.

Sablonok

Az alábbi sablonok az Azure Data Factory és az Azure Synapse Analytics változásadat-rögzítését használják.