A változásadat-rögzítés első lépései az Azure Cosmos DB elemzési tárában
A KÖVETKEZŐKRE VONATKOZIK: NoSQL MongoDB
Az Azure Cosmos DB elemzési tárában az Adatrögzítés módosítása (CDC) használata az Azure Data Factory vagy az Azure Synapse Analytics forrásaként az adatok adott módosításainak rögzítéséhez.
Feljegyzés
Vegye figyelembe, hogy az Azure Cosmos DB for MongoDB API társított szolgáltatási felülete még nem érhető el az Adatfolyamon. A fiók dokumentumvégpontját azonban használhatja az "Azure Cosmos DB for NoSQL" társított szolgáltatási felülettel, amíg a Mongo társított szolgáltatás nem támogatott. Egy NoSQL-társított szolgáltatásban válassza az "Enter Manuálisan" lehetőséget a Cosmos DB-fiók adatainak megadásához, és használja a fiók dokumentumvégpontját (pl.: https://[your-database-account-uri].documents.azure.com:443/
) a MongoDB-végpont helyett (pl. mongodb://[your-database-account-uri].mongo.cosmos.azure.com:10255/
)
Előfeltételek
- Egy meglévő Azure Cosmos DB-fiók.
- Ha Rendelkezik Azure-előfizetéssel, hozzon létre egy új fiókot.
- Ha még nincs Azure-előfizetése, kezdés előtt hozzon létre egy ingyenes fiókot.
- Másik lehetőségként a véglegesítés előtt ingyenesen kipróbálhatja az Azure Cosmos DB-t.
Elemzési tár engedélyezése
Először engedélyezze az Azure Synapse Linket a fiók szintjén, majd engedélyezze az elemzési tárat a számítási feladatnak megfelelő tárolókhoz.
Az Azure Synapse Link engedélyezése: Az Azure Synapse Link engedélyezése Azure Cosmos DB-fiókhoz
Elemzési tár engedélyezése a tárolókhoz:
Lehetőség Útmutató Adott új tároló engedélyezése Az Azure Synapse Link engedélyezése az új tárolókhoz Adott meglévő tároló engedélyezése Az Azure Synapse Link engedélyezése meglévő tárolókhoz
Cél Azure-erőforrás létrehozása adatfolyamokkal
Az elemzési tár változásadat-rögzítési funkciója az Azure Data Factory vagy az Azure Synapse Analytics adatfolyam-funkciójával érhető el. Ehhez az útmutatóhoz használja az Azure Data Factoryt.
Fontos
Használhatja az Azure Synapse Analyticset is. Először hozzon létre egy Azure Synapse-munkaterületet, ha még nincs ilyenje. Az újonnan létrehozott munkaterületen válassza a Fejlesztés lapot, válassza az Új erőforrás hozzáadása, majd az Adatfolyam lehetőséget.
Hozzon létre egy Azure Data Factoryt, ha még nincs ilyenje.
Tipp.
Ha lehetséges, hozza létre az adat-előállítót ugyanabban a régióban, ahol az Azure Cosmos DB-fiókja található.
Indítsa el az újonnan létrehozott adat-előállítót.
Az adat-előállítóban válassza az Adatfolyamok lapot, majd az Új adatfolyam lehetőséget.
Adjon egyedi nevet az újonnan létrehozott adatfolyamnak. Ebben a példában az adatfolyam neve
cosmoscdc
.
Az elemzési tár tárolójának forrásbeállításainak konfigurálása
Most hozzon létre és konfiguráljon egy forrást, amely adatokat áramol az Azure Cosmos DB-fiók elemzési tárából.
Válassza a Forrás hozzáadása lehetőséget.
A Kimeneti adatfolyam neve mezőben adja meg a cosmos értéket.
A Forrástípus szakaszban válassza a Beágyazott elemet.
Az Adatkészlet mezőben válassza az Azure – Azure Cosmos DB for NoSQL lehetőséget.
Hozzon létre egy új társított szolgáltatást a cosmoslinkedservice nevű fiókjához. Válassza ki a meglévő Azure Cosmos DB for NoSQL-fiókját az Új társított szolgáltatás előugró párbeszédpanelen, majd kattintson az Ok gombra. Ebben a példában kiválasztunk egy már meglévő Azure Cosmos DB for NoSQL-fiókot
msdocs-cosmos-source
és egy adatbázist.cosmicworks
Válassza az Elemzés lehetőséget az áruháztípushoz.
Válassza a Forrás beállításai lapot.
A Forrásbeállítások között válassza ki a céltárolót, és engedélyezze az adatfolyam-hibakeresést. Ebben a példában a tároló neve
products
.Válassza ki az adatfolyam hibakeresését. Az adatfolyam-hibakeresés bekapcsolása párbeszédpanelen tartsa meg az alapértelmezett beállításokat, majd kattintson az OK gombra.
A Forrásbeállítások lap egyéb beállításokat is tartalmaz, amelyeket engedélyezni szeretne. Ez a táblázat a következő lehetőségeket ismerteti:
Lehetőség | Leírás |
---|---|
Köztes frissítések rögzítése | Engedélyezze ezt a beállítást, ha rögzíteni szeretné az elemek módosításainak előzményeit, beleértve a változásadat-rögzítési olvasások közötti köztes módosításokat is. |
Törlések rögzítése | Ezzel a beállítással rögzítheti a felhasználó által törölt rekordokat, és alkalmazhatja őket a Fogadóban. A törlések nem alkalmazhatók az Azure Data Explorerben és az Azure Cosmos DB-fogadókban. |
Tranzakciós tár TCL-einek rögzítése | Ezzel a beállítással rögzítheti az Azure Cosmos DB tranzakciós tár (időről időre) törölt TTL-rekordjait, és alkalmazhatja a Fogadóra. A TTL-törlések nem alkalmazhatók az Azure Data Explorer és az Azure Cosmos DB fogadóira. |
Kötegek mérete bájtban | Ez a beállítás valójában gigabájt. Adja meg a méretet gigabájtban, ha a módosítási adatrögzítési hírcsatornákat kötenénk |
További konfigurációk | További Azure Cosmos DB-elemzési tár konfigurációk és azok értékei. (pl.: spark.cosmos.allowWhiteSpaceInFieldNames -> true ) |
A forrásbeállítások használata
A CDC-folyamat a beállítások és Capture Transactional store TTLs
lehetőségek Capture intermediate updates
Capture Deltes
bármelyikének ellenőrzésekor létrehozza és kitölti a __usr_opType
fogadóban lévő mezőt a következő értékekkel:
Érték | Leírás | Lehetőség |
---|---|---|
0 | UPDATE | Köztes frissítések rögzítése |
2 | INSERT | Nincs lehetőség a beszúrásokra, alapértelmezés szerint be van kapcsolva |
3 | USER_DELETE | Törlések rögzítése |
4 | TTL_DELETE | Tranzakciós tár TCL-einek rögzítése |
Ha meg kell különböztetnie a TTL által törölt rekordokat a felhasználók vagy alkalmazások által törölt dokumentumoktól, akkor mindkettőt és Capture Transactional store TTLs
a beállításokat is Capture intermediate updates
ellenőriznie kell. Ezután a CDC-folyamatokat, alkalmazásokat vagy lekérdezéseket úgy kell átalakítani, hogy az üzleti igényeinek megfelelően használhassa __usr_opType
.
Tipp.
Ha az alsóbb rétegbeli fogyasztóknak vissza kell állítaniuk a frissítések sorrendjét a "köztes frissítések rögzítése" lehetőség bejelölésével, a rendszer időbélyegmezője _ts
használható rendelési mezőként.
Fogadóbeállítások létrehozása és konfigurálása frissítési és törlési műveletekhez
Először hozzon létre egy egyszerű Azure Blob Storage-fogadót , majd konfigurálja a fogadót úgy, hogy csak adott műveletekre szűrje az adatokat.
Hozzon létre egy Azure Blob Storage-fiókot és -tárolót, ha még nem rendelkezik ilyen fiókkal. A következő példákban egy névvel ellátott
msdocsblobstorage
fiókot és egy nevűoutput
tárolót használunk.Tipp.
Ha lehetséges, hozza létre a tárfiókot ugyanabban a régióban, ahol az Azure Cosmos DB-fiók található.
Az Azure Data Factoryben hozzon létre egy új fogadót a forrásból
cosmos
rögzített változásadatokhoz.Adjon egyedi nevet a fogadónak. Ebben a példában a fogadó neve
storage
.A Fogadó típusa szakaszban válassza a Beágyazott elemet. Az Adathalmaz mezőben válassza a Delta lehetőséget.
Hozzon létre egy új társított szolgáltatást a fiókjához a storagelinkedservice nevű Azure Blob Storage használatával. Válassza ki meglévő Azure Blob Storage-fiókját az Új társított szolgáltatás előugró párbeszédpanelen, majd kattintson az OK gombra. Ebben a példában kiválasztunk egy már meglévő Azure Blob Storage-fiókot.
msdocsblobstorage
Válassza a Settings (Beállítások) fület.
A Beállítások területen állítsa a mappa elérési útját a blobtároló nevére. Ebben a példában a tároló neve .
output
Keresse meg a Frissítési módszer szakaszt, és módosítsa a kijelöléseket úgy, hogy csak a törlési és frissítési műveleteket engedélyezze. Emellett adja meg a kulcsoszlopokat oszloplistaként, és használja a mezőt
{_rid}
egyedi azonosítóként.Az Ellenőrzés elemet választva győződjön meg arról, hogy nem hajtott végre hibákat vagy kihagyásokat. Ezután válassza a Közzététel lehetőséget az adatfolyam közzétételéhez.
Adatrögzítés végrehajtásának ütemezése
Az adatfolyam közzététele után hozzáadhat egy új folyamatot az adatok áthelyezéséhez és átalakításához.
Hozzon létre egy új folyamatot. Adjon egyedi nevet a folyamatnak. Ebben a példában a folyamat neve
cosmoscdcpipeline
.A Tevékenységek szakaszban bontsa ki az Áthelyezés > átalakítás lehetőséget, majd válassza az Adatfolyam lehetőséget.
Adjon egyedi nevet az adatfolyam-tevékenységnek. Ebben a példában a tevékenység neve
cosmoscdcactivity
.A Beállítások lapon válassza ki az útmutatóban korábban létrehozott adatfolyamot
cosmoscdc
. Ezután válasszon ki egy számítási méretet az adatmennyiség és a számítási feladathoz szükséges késés alapján.Tipp.
A 100 GB-nál nagyobb növekményes adatméretekhez az egyéni méretet javasoljuk, amelynek magszáma 32 (+16 illesztőmag).
Válassza az Eseményindító hozzáadása lehetőséget. Ütemezze ezt a folyamatot a számítási feladat számára ésszerű ütemben történő végrehajtásra. Ebben a példában a folyamat öt percenkénti végrehajtásra van konfigurálva.
Feljegyzés
Az adatrögzítés végrehajtásának minimális ismétlődési ideje egy perc.
Az Ellenőrzés elemet választva győződjön meg arról, hogy nem hajtott végre hibákat vagy kihagyásokat. Ezután válassza a Közzététel lehetőséget a folyamat közzétételéhez.
Figyelje meg az Azure Blob Storage-tárolóba helyezett adatokat az adatfolyam kimeneteként az Azure Cosmos DB elemzési tár módosítási adatrögzítésével.
Feljegyzés
A kezdeti fürtindítási idő akár három percet is igénybe vehet. Ha el szeretné kerülni a fürt indítási idejét az adatrögzítések későbbi végrehajtása során, konfigurálja az adatfolyamfürt élettartamát élő értékre. Az itegrációs futtatókörnyezetről és a TTL-ről további információt az Azure Data Factory integrációs moduljában talál.
Egyidejű feladatok
A forrásbeállítások kötegmérete, vagy olyan helyzetek, amikor a fogadó lassan betölti a módosításokat, egyszerre több feladat végrehajtását is okozhatja. A helyzet elkerülése érdekében állítsa az Egyidejűség beállítást 1 értékre a Folyamat beállításai között, és győződjön meg arról, hogy az új végrehajtások csak az aktuális végrehajtás befejeződése után aktiválódnak.
Következő lépések
- Tekintse át az Azure Cosmos DB elemzési tárának áttekintését
Visszajelzés
https://aka.ms/ContentUserFeedback.
Hamarosan elérhető: 2024-ben fokozatosan kivezetjük a GitHub-problémákat a tartalom visszajelzési mechanizmusaként, és lecseréljük egy új visszajelzési rendszerre. További információ:Visszajelzés küldése és megtekintése a következőhöz: