Az Azure Data Explorer Azure Data Factoryba történő integrálása
A Azure Data Factory (ADF) egy felhőalapú adatintegrációs szolgáltatás, amely lehetővé teszi különböző adattárak integrálását és az adatokon végzett tevékenységek végrehajtását. Az ADF lehetővé teszi adatvezérelt munkafolyamatok létrehozását az adatáthelyezés és az adatátalakítás vezényléséhez és automatizálásához. Az Azure Data Explorer a Azure Data Factory egyik támogatott adattára.
Az Azure Data Explorer Azure Data Factory tevékenységei
A Azure Data Factory különböző integrációi érhetők el az Azure Data Explorer-felhasználók számára:
Másolási tevékenység
Azure Data Factory Copy tevékenység az adattárak közötti adatátvitelre szolgál. Az Azure Data Explorer támogatott forrásként, ahol az adatok az Azure Data Explorer bármely támogatott adattárba, valamint egy fogadóba kerülnek, ahol az adatok bármely támogatott adattárból átmásolhatók az Azure Data Explorer. További információ: Adatok másolása az Azure Data Explorer-be vagy onnan a Azure Data Factory használatával. Részletes útmutatóért lásd: adatok betöltése Azure Data Factory az Azure Data Explorer. Az Azure Data Explorer az Azure IR (Integration Runtime) támogatja, amelyet az adatok Az Azure-ban történő másolásakor, valamint a helyi integrációs modul is támogat, amely a helyszíni vagy hozzáférés-vezérléssel rendelkező hálózaton található adattárakból vagy adattárakba, például egy Azure-Virtual Network másol adatokat. További információkért tekintse meg a használni kívánt integrációs modult.
Tipp
A másolási tevékenység használatakor és társított szolgáltatás vagy adatkészlet létrehozásakor válassza ki az Azure Data Explorer (Kusto) adattárat, és ne a régi Kusto adattárat.
Keresési tevékenység
A Keresési tevékenység az Azure Data Explorer lekérdezéseinek végrehajtására szolgál. A lekérdezés eredményét a rendszer a keresési tevékenység kimeneteként adja vissza, és az ADF keresési dokumentációjában leírt módon használható a folyamat következő tevékenységében.
Az 5000 sorból és 2 MB-ból álló válaszméretkorlát mellett a tevékenység 1 órás lekérdezési időtúllépési korláttal is rendelkezik.
Parancstevékenység
A Parancs tevékenység lehetővé teszi az Azure Data Explorer felügyeleti parancsok végrehajtását. A lekérdezésekkel ellentétben a felügyeleti parancsok esetleg módosíthatják az adatokat vagy a metaadatokat. Egyes felügyeleti parancsok célja az adatok betöltése az Azure Data Explorer-ba, például .ingest
vagy .set-or-append
parancsok használatával, vagy adatok másolása az Azure Data Explorer-ból külső adattárakba olyan parancsokkal, mint a .export
.
A parancstevékenység részletes útmutatóját lásd: Az Azure Data Explorer felügyeleti parancsok futtatása Azure Data Factory parancstevékenység használatával. Ha felügyeleti parancsot használ az adatok másolására, az időnként gyorsabb és olcsóbb megoldás lehet, mint a Copy tevékenység. Ha meg szeretné állapítani, hogy mikor érdemes a Parancs tevékenységet használni a Copy tevékenység helyett, tekintse meg a másolási és a parancstevékenységek közötti választást az adatok másolása során.
Tömeges másolás adatbázissablonból
A Másolás tömegesen egy adatbázisból az Azure Data Explorer a Azure Data Factory sablon használatával előre definiált Azure Data Factory folyamat. A sablonnal adatbázisonként vagy táblánként számos folyamatot hozhat létre a gyorsabb adatmásolás érdekében.
Adatfolyamok leképezése
Azure Data Factory leképezési adatfolyamok vizuálisan tervezett adatátalakítások, amelyek lehetővé teszik, hogy az adatmérnökök kódírás nélkül dolgozzanak ki grafikus adatátalakítási logikát. Adatfolyam létrehozásához és az adatok Azure Data Explorer való betöltéséhez használja a következő módszert:
- Hozza létre a leképezési adatfolyamot.
- Exportálja az adatokat az Azure Blobba.
- Event Grid- vagy ADF-másolási tevékenység definiálásával betöltheti az adatokat az Azure Data Explorer.
Válassza a másolási és az Azure Data Explorer-parancstevékenységek között az adatok másolásakor
Ez a szakasz segítséget nyújt az adatmásolási igényeknek megfelelő tevékenység kiválasztásában.
Amikor adatokat másol az Azure Data Explorer-ból vagy az Azure-ba, két lehetőség áll rendelkezésre a Azure Data Factory:
- Copy tevékenység.
- Az Azure Data Explorer Command tevékenység, amely végrehajtja az azure Data Explorer-ban adatokat átadó felügyeleti parancsok egyikét.
Adatok másolása az Azure Data Explorer
A másolási tevékenységgel vagy a .export
paranccsal adatokat másolhat az Azure Data Explorer-ból. A .export
parancs végrehajt egy lekérdezést, majd exportálja a lekérdezés eredményeit.
Az adatok Azure Data Explorer-ból történő másolásához tekintse meg az alábbi táblázatot az Copy tevékenység és .export
a parancs összehasonlításához.
Másolási tevékenység | .export parancs | |
---|---|---|
Folyamat leírása | Az ADF végrehajt egy lekérdezést a Kusto-on, feldolgozza az eredményt, és elküldi azt a céladattárnak. (Azure Data Explorer > ADF > fogadó adattára) |
Az ADF egy .export felügyeleti parancsot küld az Azure Data Explorer, amely végrehajtja a parancsot, és közvetlenül a céladattárba küldi az adatokat. (** Az Azure Data Explorer > fogadó adattára**) |
Támogatott céladattárak | A támogatott adattárak széles választéka | ADLSv2, Azure Blob, SQL Database |
Teljesítmény | Központosított |
|
Kiszolgálókorlátok |
A lekérdezési korlátok kiterjeszthetők/letilthatók. Az ADF-lekérdezések alapértelmezés szerint a következőket tartalmazzák:
|
Alapértelmezés szerint kiterjeszti vagy letiltja a lekérdezési korlátokat:
|
Tipp
Ha a másolási célhely a parancs által .export
támogatott adattárak egyike, és a Copy tevékenység egyik funkció sem elengedhetetlen az ön igényeihez, válassza a .export
parancsot.
Adatok másolása az Azure Data Explorer
Az azure-Data Explorer másolási tevékenységgel vagy betöltési parancsokkal másolhatja az adatokat, például lekérdezésből (.set-or-append
, , .set-or-replace
, .set
, .replace)
és betöltés a tárolóból (.ingest
).
Az adatok Azure Data Explorer való másolásához tekintse meg az alábbi táblázatot a Copy tevékenység és a betöltési parancsok összehasonlításához.
Másolási tevékenység | Betöltés a lekérdezésből.set-or-append / .set-or-replace / .set / .replace |
Betöltés a tárolóból.ingest |
|
---|---|---|---|
Folyamat leírása | Az ADF lekéri az adatokat a forrásadattárból, táblázatos formátumba alakítja őket, és elvégzi a szükséges sémaleképezési módosításokat. Az ADF ezután feltölti az adatokat az Azure-blobokba, darabokra osztja, majd letölti a blobokat, hogy betöltse őket az Azure Data Explorer táblába. (Forrásadattár > ADF > Azure-blobok > Azure Data Explorer) |
Ezek a parancsok végrehajthatnak egy lekérdezést vagy egy .show parancsot, és a lekérdezés eredményeit egy táblába (Azure Data Explorer > Azure Data Explorer) betölthetik. |
Ez a parancs úgy betölti az adatokat egy táblába, hogy "lekérte" az adatokat egy vagy több felhőalapú tárolási összetevőből. |
Támogatott forrásadattárak | különféle lehetőségek | ADLS Gen 2, Azure Blob, SQL (a sql_request() beépülő modul használatával), Azure Cosmos DB (a cosmosdb_sql_request beépülő modul használatával) és bármely más adattár, amely HTTP- vagy Python API-kat biztosít. | Fájlrendszer, Azure Blob Storage, ADLS Gen 1, ADLS Gen 2 |
Teljesítmény | A betöltések várólistára kerülnek és kezelhetők, ami biztosítja a kis méretű betöltéseket, és biztosítja a magas rendelkezésre állást a terheléselosztás, az újrapróbálkozások és a hibakezelés biztosításával. |
|
|
Kiszolgálókorlátok |
|
|
|
Tipp
- Amikor adatokat másol az ADF-ből az Azure-ba, Data Explorer használja a
ingest from query
parancsokat. - Nagy adathalmazok (>1 GB) esetén használja a Copy tevékenység.
Szükséges engedélyek
Az alábbi táblázat a Azure Data Factory integrációjának különböző lépéseihez szükséges engedélyeket sorolja fel.
Lépés | Művelet | Engedélyek minimális szintje | Jegyzetek |
---|---|---|---|
Társított szolgáltatás létrehozása | Adatbázis-navigáció |
adatbázis-megjelenítő Az ADF-t használó bejelentkezett felhasználónak engedélyeznie kell az adatbázis metaadatainak olvasását. |
A felhasználó manuálisan is megadhatja az adatbázis nevét. |
Kapcsolat tesztelése |
adatbázis-figyelő vagy táblabetöltés A szolgáltatásnévnek jogosultnak kell lennie adatbázisszintű .show parancsok vagy táblaszintű betöltés végrehajtására. |
|
|
Adathalmaz létrehozása | Táblanavigáció |
adatbázis-figyelő Az ADF-et használó bejelentkezett felhasználónak jogosultnak kell lennie adatbázisszintű .show parancsok végrehajtására. |
A felhasználó manuálisan is megadhatja a tábla nevét. |
Adathalmaz- vagy másolási tevékenység létrehozása | Adatok előnézete |
adatbázis-megjelenítő A szolgáltatásnévnek jogosultnak kell lennie az adatbázis metaadatainak olvasására. |
|
Séma importálása |
adatbázis-megjelenítő A szolgáltatásnévnek jogosultnak kell lennie az adatbázis metaadatainak olvasására. |
Ha az Azure Data Explorer a táblázatos másolás forrása, az ADF automatikusan importálja a sémát, még akkor is, ha a felhasználó nem importálta explicit módon a sémát. | |
Azure Data Explorer fogadóként | Név szerinti oszlopleképezés létrehozása |
adatbázis-figyelő A szolgáltatásnévnek jogosultnak kell lennie az adatbázisszintű .show parancsok végrehajtására. |
|
|
table ingestor vagy database admin A szolgáltatásnévnek engedéllyel kell rendelkeznie egy tábla módosításához. |
||
Adatok betöltése |
table ingestor vagy database admin A szolgáltatásnévnek engedéllyel kell rendelkeznie egy tábla módosításához. |
||
Forrásként az Azure Data Explorer | Lekérdezés végrehajtása |
adatbázis-megjelenítő A szolgáltatásnévnek jogosultnak kell lennie az adatbázis metaadatainak olvasására. |
|
Kusto-parancs | Az egyes parancsok engedélyszintjének megfelelően. |
Teljesítmény
Ha az Azure Data Explorer a forrás, és a keresési, másolási vagy parancstevékenységet használja, amely egy olyan lekérdezést tartalmaz, ahol található, tekintse meg a teljesítményadatok lekérdezésére vonatkozó ajánlott eljárásokat és a másolási tevékenység ADF-dokumentációját.
Ez a szakasz a másolási tevékenység használatát ismerteti, ahol az Azure Data Explorer a fogadó. Az Azure Data Explorer fogadó becsült átviteli sebessége 11–13 MBps. Az alábbi táblázat az Azure Data Explorer fogadó teljesítményét befolyásoló paramétereket ismerteti.
Paraméter | Jegyzetek |
---|---|
Összetevők földrajzi közelsége | Helyezze az összes összetevőt ugyanabba a régióba:
|
DIU-k száma | Az ADF által használt négy DIU-hoz egy virtuális gép tartozik. A DIU-k számának növelése csak akkor segít, ha a forrás egy több fájlt tartalmazó fájlalapú tároló. Ezután minden virtuális gép egy másik fájlt dolgoz fel párhuzamosan. Ezért egyetlen nagy fájl másolása nagyobb késéssel jár, mint több kisebb fájl másolása. |
Az Azure Data Explorer-fürt mennyisége és termékváltozata | Az Azure-Data Explorer csomópontok nagy száma növeli a betöltési feldolgozási időt. A fejlesztői termékváltozatok használata súlyosan korlátozza a teljesítményt |
Párhuzamosság | Ha nagy mennyiségű adatot szeretne másolni egy adatbázisból, particionálja az adatokat, majd használjon egy ForEach-hurkot, amely párhuzamosan másolja az egyes partíciókat, vagy használja az Adatbázisból az Azure Data Explorer-sablonba történő tömeges másolást. Megjegyzés: A Copy tevékenység> beállításokpárhuzamossági foka nem releváns az Azure Data Explorer szempontjából. |
Adatfeldolgozás összetettsége | A késés a forrásfájl formátumától, az oszlopleképezéstől és a tömörítéstől függően változik. |
Az integrációs modult futtató virtuális gép |
|
Tippek és gyakori buktatók
Tevékenység állapotának monitorozása
A tevékenység előrehaladásának monitorozása során az Adatok írása tulajdonság nagyobb lehet az Adatolvasás tulajdonságnál, mivel az Adatolvasás kiszámítása a bináris fájlméret alapján történik, míg az Adatok írása a memóriában lévő méret alapján történik, az adatok deszerializálása és kibontása után.
A tevékenység előrehaladásának monitorozása során láthatja, hogy az adatok az Azure Data Explorer fogadóba lesznek írva. Az Azure Data Explorer tábla lekérdezésekor láthatja, hogy az adatok nem érkeztek meg. Ennek az az oka, hogy az Azure Data Explorer másolásának két fázisa van.
- Az első fázis beolvassa a forrásadatokat, felosztja azokat 900 MB-os adattömbökre, és feltölti az egyes adattömböket egy Azure-blobba. Az első szakaszt az ADF-tevékenység előrehaladási nézete látja.
- A második szakasz akkor kezdődik, amikor az összes adat fel van töltve az Azure Blobokra. A fürt csomópontjai letöltik a blobokat, és betöltik az adatokat a fogadó táblába. Az adatok ezután az Azure Data Explorer táblában láthatók.
A CSV-fájlok nem megfelelő menekülés miatt történő betöltése nem sikerült
Az Azure Data Explorer elvárja, hogy a CSV-fájlok igazodjanak az RFC 4180-hoz. A következőre számít:
- A menekülő karaktereket (például " és új sorokat) tartalmazó mezőknek " karakterrel kell kezdődniük és végződniük, szóköz nélkül. A mezőn belüli összes karakter kettős karakterrel (") lesz feloldva. A "Hello, "World" például egy érvényes CSV-fájl egyetlen rekorddal, amelynek egyetlen oszlopa vagy mezője Hello, "World" tartalommal rendelkezik.
- A fájl összes rekordjának ugyanannyi oszlopot és mezőt kell tartalmaznia.
Azure Data Factory engedélyezi a fordított perjel (feloldó) karaktert. Ha fordított perjel karaktert tartalmazó CSV-fájlt hoz létre Azure Data Factory használatával, a fájl Azure Data Explorer való betöltése sikertelen lesz.
Példa
A következő szöveges értékek: Hello, "World"
ABC DEF
"ABC\D"EF
"ABC DEF
A megfelelő CSV-fájlban a következőképpen kell megjelennie: "Hello, "World""
"ABC DEF"
"""ABC\D""EF"
"""ABC DEF"
Az alapértelmezett feloldó karakter (fordított perjel) használatával a következő CSV nem működik az Azure Data Explorer: "Hello, "World".
"ABC DEF"
"ABC\D"EF"
"ABC DEF"
Beágyazott JSON-objektumok
Amikor JSON-fájlt másol az Azure Data Explorer, vegye figyelembe a következőket:
- A tömbök nem támogatottak.
- Ha a JSON-struktúra objektum adattípusokat tartalmaz, Azure Data Factory simíthatja az objektum gyermekelemeit, és megpróbálhatja az egyes gyermekelemeket egy másik oszlopra leképezni az Azure Data Explorer-táblában. Ha azt szeretné, hogy a teljes objektumelem egyetlen oszlopra legyen leképezve az Azure Data Explorer:
- A teljes JSON-sort egyetlen dinamikus oszlopba betölti az Azure Data Explorer.
- Manuálisan szerkessze a folyamatdefiníciót Azure Data Factory JSON-szerkesztőjével. A Leképezések területen
- Távolítsa el az egyes gyermekelemekhez létrehozott több leképezést, és adjon hozzá egyetlen leképezést, amely megfelelteti az objektumtípust a táblázatoszlopnak.
- A záró szögletes zárójel után adjon hozzá egy vesszőt, majd a következőt:
"mapComplexValuesToString": true
.
További tulajdonságok megadása az Azure Data Explorer
További betöltési tulajdonságok hozzáadásához adja meg őket a másolási tevékenységben a folyamatban.
Tulajdonságok hozzáadása
A Azure Data Factory válassza a Szerző ceruza eszközt.
A Folyamat területen válassza ki azt a folyamatot, amelyhez további betöltési tulajdonságokat szeretne hozzáadni.
A Tevékenységek vásznon válassza az Adatok másolása tevékenységet.
A tevékenység részletei között válassza a Fogadó lehetőséget, majd bontsa ki a További tulajdonságok elemet.
Válassza az Új lehetőséget, válassza a Csomópont hozzáadása vagy a Tömb hozzáadása szükség szerint lehetőséget, majd adja meg a betöltési tulajdonság nevét és értékét. Ismételje meg ezt a lépést további tulajdonságok hozzáadásához.
Ha végzett, mentse és tegye közzé a folyamatot.