Megosztás a következőn keresztül:


A változásadat-rögzítés első lépései az Azure Cosmos DB elemzési tárában

A KÖVETKEZŐKRE VONATKOZIK: NoSQL MongoDB

Az Azure Cosmos DB elemzési tárában az Adatrögzítés módosítása (CDC) használata az Azure Data Factory vagy az Azure Synapse Analytics forrásaként az adatok adott módosításainak rögzítéséhez.

Feljegyzés

Vegye figyelembe, hogy az Azure Cosmos DB for MongoDB API társított szolgáltatási felülete még nem érhető el az Adatfolyamon. A fiók dokumentumvégpontját azonban használhatja az "Azure Cosmos DB for NoSQL" társított szolgáltatási felülettel, amíg a Mongo társított szolgáltatás nem támogatott. Egy NoSQL-társított szolgáltatásban válassza az "Enter Manuálisan" lehetőséget a Cosmos DB-fiók adatainak megadásához, és használja a fiók dokumentumvégpontját (pl.: https://[your-database-account-uri].documents.azure.com:443/) a MongoDB-végpont helyett (pl. mongodb://[your-database-account-uri].mongo.cosmos.azure.com:10255/)

Előfeltételek

Elemzési tár engedélyezése

Először engedélyezze az Azure Synapse Linket a fiók szintjén, majd engedélyezze az elemzési tárat a számítási feladatnak megfelelő tárolókhoz.

  1. Az Azure Synapse Link engedélyezése: Az Azure Synapse Link engedélyezése Azure Cosmos DB-fiókhoz

  2. Elemzési tár engedélyezése a tárolókhoz:

    Lehetőség Útmutató
    Adott új tároló engedélyezése Az Azure Synapse Link engedélyezése az új tárolókhoz
    Adott meglévő tároló engedélyezése Az Azure Synapse Link engedélyezése meglévő tárolókhoz

Cél Azure-erőforrás létrehozása adatfolyamokkal

Az elemzési tár változásadat-rögzítési funkciója az Azure Data Factory vagy az Azure Synapse Analytics adatfolyam-funkciójával érhető el. Ehhez az útmutatóhoz használja az Azure Data Factoryt.

Fontos

Használhatja az Azure Synapse Analyticset is. Először hozzon létre egy Azure Synapse-munkaterületet, ha még nincs ilyenje. Az újonnan létrehozott munkaterületen válassza a Fejlesztés lapot, válassza az Új erőforrás hozzáadása, majd az Adatfolyam lehetőséget.

  1. Hozzon létre egy Azure Data Factoryt, ha még nincs ilyenje.

    Tipp.

    Ha lehetséges, hozza létre az adat-előállítót ugyanabban a régióban, ahol az Azure Cosmos DB-fiókja található.

  2. Indítsa el az újonnan létrehozott adat-előállítót.

  3. Az adat-előállítóban válassza az Adatfolyamok lapot, majd az Új adatfolyam lehetőséget.

  4. Adjon egyedi nevet az újonnan létrehozott adatfolyamnak. Ebben a példában az adatfolyam neve cosmoscdc.

    Egy cosmoscdc nevű új adatfolyam firkálása.

Az elemzési tár tárolójának forrásbeállításainak konfigurálása

Most hozzon létre és konfiguráljon egy forrást, amely adatokat áramol az Azure Cosmos DB-fiók elemzési tárából.

  1. Válassza a Forrás hozzáadása lehetőséget.

    Képernyőkép a Forrás hozzáadása menüről.

  2. A Kimeneti adatfolyam neve mezőben adja meg a cosmos értéket.

    Képernyőkép az újonnan létrehozott forrás cosmos elnevezéséről.

  3. A Forrástípus szakaszban válassza a Beágyazott elemet.

    Képernyőkép a beágyazott forrástípus kiválasztásáról.

  4. Az Adatkészlet mezőben válassza az Azure – Azure Cosmos DB for NoSQL lehetőséget.

    Képernyőkép az Azure Cosmos DB for NoSQL adathalmaztípusként való kiválasztásáról.

  5. Hozzon létre egy új társított szolgáltatást a cosmoslinkedservice nevű fiókjához. Válassza ki a meglévő Azure Cosmos DB for NoSQL-fiókját az Új társított szolgáltatás előugró párbeszédpanelen, majd kattintson az Ok gombra. Ebben a példában kiválasztunk egy már meglévő Azure Cosmos DB for NoSQL-fiókot msdocs-cosmos-source és egy adatbázist.cosmicworks

    Képernyőkép az Új társított szolgáltatás párbeszédpanelről, amelyen egy Azure Cosmos DB-fiók van kiválasztva.

  6. Válassza az Elemzés lehetőséget az áruháztípushoz.

    Képernyőkép a csatolt szolgáltatáshoz kiválasztott elemzési lehetőségről.

  7. Válassza a Forrás beállításai lapot.

  8. A Forrásbeállítások között válassza ki a céltárolót, és engedélyezze az adatfolyam-hibakeresést. Ebben a példában a tároló neve products.

    Képernyőkép a kijelölt elnevezett termékek forrástárolóiról.

  9. Válassza ki az adatfolyam hibakeresését. Az adatfolyam-hibakeresés bekapcsolása párbeszédpanelen tartsa meg az alapértelmezett beállításokat, majd kattintson az OK gombra.

    Képernyőkép az adatfolyam-hibakeresés engedélyezésére vonatkozó kapcsolóról.

  10. A Forrásbeállítások lap egyéb beállításokat is tartalmaz, amelyeket engedélyezni szeretne. Ez a táblázat a következő lehetőségeket ismerteti:

Lehetőség Leírás
Köztes frissítések rögzítése Engedélyezze ezt a beállítást, ha rögzíteni szeretné az elemek módosításainak előzményeit, beleértve a változásadat-rögzítési olvasások közötti köztes módosításokat is.
Törlések rögzítése Ezzel a beállítással rögzítheti a felhasználó által törölt rekordokat, és alkalmazhatja őket a Fogadóban. A törlések nem alkalmazhatók az Azure Data Explorerben és az Azure Cosmos DB-fogadókban.
Tranzakciós tár TCL-einek rögzítése Ezzel a beállítással rögzítheti az Azure Cosmos DB tranzakciós tár (időről időre) törölt TTL-rekordjait, és alkalmazhatja a Fogadóra. A TTL-törlések nem alkalmazhatók az Azure Data Explorer és az Azure Cosmos DB fogadóira.
Kötegek mérete bájtban Ez a beállítás valójában gigabájt. Adja meg a méretet gigabájtban, ha a módosítási adatrögzítési hírcsatornákat kötenénk
További konfigurációk További Azure Cosmos DB-elemzési tár konfigurációk és azok értékei. (pl.: spark.cosmos.allowWhiteSpaceInFieldNames -> true)

A forrásbeállítások használata

A CDC-folyamat a beállítások és Capture Transactional store TTLs lehetőségek Capture intermediate updatesCapture Deltesbármelyikének ellenőrzésekor létrehozza és kitölti a __usr_opType fogadóban lévő mezőt a következő értékekkel:

Érték Leírás Lehetőség
0 UPDATE Köztes frissítések rögzítése
2 INSERT Nincs lehetőség a beszúrásokra, alapértelmezés szerint be van kapcsolva
3 USER_DELETE Törlések rögzítése
4 TTL_DELETE Tranzakciós tár TCL-einek rögzítése

Ha meg kell különböztetnie a TTL által törölt rekordokat a felhasználók vagy alkalmazások által törölt dokumentumoktól, akkor mindkettőt és Capture Transactional store TTLs a beállításokat is Capture intermediate updates ellenőriznie kell. Ezután a CDC-folyamatokat, alkalmazásokat vagy lekérdezéseket úgy kell átalakítani, hogy az üzleti igényeinek megfelelően használhassa __usr_opType .

Tipp.

Ha az alsóbb rétegbeli fogyasztóknak vissza kell állítaniuk a frissítések sorrendjét a "köztes frissítések rögzítése" lehetőség bejelölésével, a rendszer időbélyegmezője _ts használható rendelési mezőként.

Fogadóbeállítások létrehozása és konfigurálása frissítési és törlési műveletekhez

Először hozzon létre egy egyszerű Azure Blob Storage-fogadót , majd konfigurálja a fogadót úgy, hogy csak adott műveletekre szűrje az adatokat.

  1. Hozzon létre egy Azure Blob Storage-fiókot és -tárolót, ha még nem rendelkezik ilyen fiókkal. A következő példákban egy névvel ellátott msdocsblobstorage fiókot és egy nevű outputtárolót használunk.

    Tipp.

    Ha lehetséges, hozza létre a tárfiókot ugyanabban a régióban, ahol az Azure Cosmos DB-fiók található.

  2. Az Azure Data Factoryben hozzon létre egy új fogadót a forrásból cosmos rögzített változásadatokhoz.

    Képernyőkép a meglévő forráshoz csatlakoztatott új fogadó hozzáadásáról.

  3. Adjon egyedi nevet a fogadónak. Ebben a példában a fogadó neve storage.

    Képernyőkép az újonnan létrehozott fogadótároló elnevezéséről.

  4. A Fogadó típusa szakaszban válassza a Beágyazott elemet. Az Adathalmaz mezőben válassza a Delta lehetőséget.

    Képernyőkép a fogadó kiválasztásáról és a beágyazott Delta-adatkészlet típusáról.

  5. Hozzon létre egy új társított szolgáltatást a fiókjához a storagelinkedservice nevű Azure Blob Storage használatával. Válassza ki meglévő Azure Blob Storage-fiókját az Új társított szolgáltatás előugró párbeszédpanelen, majd kattintson az OK gombra. Ebben a példában kiválasztunk egy már meglévő Azure Blob Storage-fiókot.msdocsblobstorage

    Képernyőkép egy új Delta társított szolgáltatás szolgáltatástípus-beállításairól.

    Képernyőkép az Új társított szolgáltatás párbeszédpanelről, amelyen egy Azure Blob Storage-fiók van kiválasztva.

  6. Válassza a Settings (Beállítások) fület.

  7. A Beállítások területen állítsa a mappa elérési útját a blobtároló nevére. Ebben a példában a tároló neve .output

    Képernyőkép a fogadó célként elnevezett blobtárolóról.

  8. Keresse meg a Frissítési módszer szakaszt, és módosítsa a kijelöléseket úgy, hogy csak a törlési és frissítési műveleteket engedélyezze. Emellett adja meg a kulcsoszlopokat oszloplistaként, és használja a mezőt {_rid} egyedi azonosítóként.

    Képernyőkép a fogadóhoz megadott frissítési módszerekről és kulcsoszlopról.

  9. Az Ellenőrzés elemet választva győződjön meg arról, hogy nem hajtott végre hibákat vagy kihagyásokat. Ezután válassza a Közzététel lehetőséget az adatfolyam közzétételéhez.

    Képernyőkép az aktuális adatfolyam ellenőrzésére és közzétételére vonatkozó lehetőségről.

Adatrögzítés végrehajtásának ütemezése

Az adatfolyam közzététele után hozzáadhat egy új folyamatot az adatok áthelyezéséhez és átalakításához.

  1. Hozzon létre egy új folyamatot. Adjon egyedi nevet a folyamatnak. Ebben a példában a folyamat neve cosmoscdcpipeline.

    Képernyőkép az erőforrások szakasz új folyamatbeállításáról.

  2. A Tevékenységek szakaszban bontsa ki az Áthelyezés > átalakítás lehetőséget, majd válassza az Adatfolyam lehetőséget.

    Képernyőkép az adatfolyam-tevékenység lehetőségről a tevékenységek szakaszon belül.

  3. Adjon egyedi nevet az adatfolyam-tevékenységnek. Ebben a példában a tevékenység neve cosmoscdcactivity.

  4. A Beállítások lapon válassza ki az útmutatóban korábban létrehozott adatfolyamotcosmoscdc. Ezután válasszon ki egy számítási méretet az adatmennyiség és a számítási feladathoz szükséges késés alapján.

    Képernyőkép a tevékenység adatfolyamának és számítási méretének konfigurációs beállításairól.

    Tipp.

    A 100 GB-nál nagyobb növekményes adatméretekhez az egyéni méretet javasoljuk, amelynek magszáma 32 (+16 illesztőmag).

  5. Válassza az Eseményindító hozzáadása lehetőséget. Ütemezze ezt a folyamatot a számítási feladat számára ésszerű ütemben történő végrehajtásra. Ebben a példában a folyamat öt percenkénti végrehajtásra van konfigurálva.

    Képernyőkép egy új folyamat eseményindító hozzáadása gombjáról.

    Képernyőkép egy 2023-ban kezdődő ütemezésen alapuló eseményindító-konfigurációról, amely öt percenként fut.

    Feljegyzés

    Az adatrögzítés végrehajtásának minimális ismétlődési ideje egy perc.

  6. Az Ellenőrzés elemet választva győződjön meg arról, hogy nem hajtott végre hibákat vagy kihagyásokat. Ezután válassza a Közzététel lehetőséget a folyamat közzétételéhez.

  7. Figyelje meg az Azure Blob Storage-tárolóba helyezett adatokat az adatfolyam kimeneteként az Azure Cosmos DB elemzési tár módosítási adatrögzítésével.

    A folyamat kimeneti fájljainak screnshotja az Azure Blob Storage-tárolóban.

    Feljegyzés

    A kezdeti fürtindítási idő akár három percet is igénybe vehet. Ha el szeretné kerülni a fürt indítási idejét az adatrögzítések későbbi végrehajtása során, konfigurálja az adatfolyamfürt élettartamát élő értékre. Az itegrációs futtatókörnyezetről és a TTL-ről további információt az Azure Data Factory integrációs moduljában talál.

Egyidejű feladatok

A forrásbeállítások kötegmérete, vagy olyan helyzetek, amikor a fogadó lassan betölti a módosításokat, egyszerre több feladat végrehajtását is okozhatja. A helyzet elkerülése érdekében állítsa az Egyidejűség beállítást 1 értékre a Folyamat beállításai között, és győződjön meg arról, hogy az új végrehajtások csak az aktuális végrehajtás befejeződése után aktiválódnak.

Következő lépések