Megosztás a következőn keresztül:


Az Azure Data Explorer Azure Data Factoryba történő integrálása

A Azure Data Factory (ADF) egy felhőalapú adatintegrációs szolgáltatás, amely lehetővé teszi különböző adattárak integrálását és az adatokon végzett tevékenységek végrehajtását. Az ADF lehetővé teszi adatvezérelt munkafolyamatok létrehozását az adatáthelyezés és az adatátalakítás vezényléséhez és automatizálásához. Az Azure Data Explorer a Azure Data Factory egyik támogatott adattára.

Az Azure Data Explorer Azure Data Factory tevékenységei

A Azure Data Factory különböző integrációi érhetők el az Azure Data Explorer-felhasználók számára:

Másolási tevékenység

Azure Data Factory Copy tevékenység az adattárak közötti adatátvitelre szolgál. Az Azure Data Explorer támogatott forrásként, ahol az adatok az Azure Data Explorer bármely támogatott adattárba, valamint egy fogadóba kerülnek, ahol az adatok bármely támogatott adattárból átmásolhatók az Azure Data Explorer. További információ: Adatok másolása az Azure Data Explorer-be vagy onnan a Azure Data Factory használatával. Részletes útmutatóért lásd: adatok betöltése Azure Data Factory az Azure Data Explorer. Az Azure Data Explorer az Azure IR (Integration Runtime) támogatja, amelyet az adatok Az Azure-ban történő másolásakor, valamint a helyi integrációs modul is támogat, amely a helyszíni vagy hozzáférés-vezérléssel rendelkező hálózaton található adattárakból vagy adattárakba, például egy Azure-Virtual Network másol adatokat. További információkért tekintse meg a használni kívánt integrációs modult.

Tipp

A másolási tevékenység használatakor és társított szolgáltatás vagy adatkészlet létrehozásakor válassza ki az Azure Data Explorer (Kusto) adattárat, és ne a régi Kusto adattárat.

Keresési tevékenység

A Keresési tevékenység az Azure Data Explorer lekérdezéseinek végrehajtására szolgál. A lekérdezés eredményét a rendszer a keresési tevékenység kimeneteként adja vissza, és az ADF keresési dokumentációjában leírt módon használható a folyamat következő tevékenységében.

Az 5000 sorból és 2 MB-ból álló válaszméretkorlát mellett a tevékenység 1 órás lekérdezési időtúllépési korláttal is rendelkezik.

Parancstevékenység

A Parancs tevékenység lehetővé teszi az Azure Data Explorer felügyeleti parancsok végrehajtását. A lekérdezésekkel ellentétben a felügyeleti parancsok esetleg módosíthatják az adatokat vagy a metaadatokat. Egyes felügyeleti parancsok célja az adatok betöltése az Azure Data Explorer-ba, például .ingestvagy .set-or-appendparancsok használatával, vagy adatok másolása az Azure Data Explorer-ból külső adattárakba olyan parancsokkal, mint a .export. A parancstevékenység részletes útmutatóját lásd: Az Azure Data Explorer felügyeleti parancsok futtatása Azure Data Factory parancstevékenység használatával. Ha felügyeleti parancsot használ az adatok másolására, az időnként gyorsabb és olcsóbb megoldás lehet, mint a Copy tevékenység. Ha meg szeretné állapítani, hogy mikor érdemes a Parancs tevékenységet használni a Copy tevékenység helyett, tekintse meg a másolási és a parancstevékenységek közötti választást az adatok másolása során.

Tömeges másolás adatbázissablonból

A Másolás tömegesen egy adatbázisból az Azure Data Explorer a Azure Data Factory sablon használatával előre definiált Azure Data Factory folyamat. A sablonnal adatbázisonként vagy táblánként számos folyamatot hozhat létre a gyorsabb adatmásolás érdekében.

Adatfolyamok leképezése

Azure Data Factory leképezési adatfolyamok vizuálisan tervezett adatátalakítások, amelyek lehetővé teszik, hogy az adatmérnökök kódírás nélkül dolgozzanak ki grafikus adatátalakítási logikát. Adatfolyam létrehozásához és az adatok Azure Data Explorer való betöltéséhez használja a következő módszert:

  1. Hozza létre a leképezési adatfolyamot.
  2. Exportálja az adatokat az Azure Blobba.
  3. Event Grid- vagy ADF-másolási tevékenység definiálásával betöltheti az adatokat az Azure Data Explorer.

Válassza a másolási és az Azure Data Explorer-parancstevékenységek között az adatok másolásakor

Ez a szakasz segítséget nyújt az adatmásolási igényeknek megfelelő tevékenység kiválasztásában.

Amikor adatokat másol az Azure Data Explorer-ból vagy az Azure-ba, két lehetőség áll rendelkezésre a Azure Data Factory:

  • Copy tevékenység.
  • Az Azure Data Explorer Command tevékenység, amely végrehajtja az azure Data Explorer-ban adatokat átadó felügyeleti parancsok egyikét.

Adatok másolása az Azure Data Explorer

A másolási tevékenységgel vagy a .export paranccsal adatokat másolhat az Azure Data Explorer-ból. A .export parancs végrehajt egy lekérdezést, majd exportálja a lekérdezés eredményeit.

Az adatok Azure Data Explorer-ból történő másolásához tekintse meg az alábbi táblázatot az Copy tevékenység és .export a parancs összehasonlításához.

Másolási tevékenység .export parancs
Folyamat leírása Az ADF végrehajt egy lekérdezést a Kusto-on, feldolgozza az eredményt, és elküldi azt a céladattárnak.
(Azure Data Explorer > ADF > fogadó adattára)
Az ADF egy .export felügyeleti parancsot küld az Azure Data Explorer, amely végrehajtja a parancsot, és közvetlenül a céladattárba küldi az adatokat.
(** Az Azure Data Explorer > fogadó adattára**)
Támogatott céladattárak A támogatott adattárak széles választéka ADLSv2, Azure Blob, SQL Database
Teljesítmény Központosított
  • Elosztott (alapértelmezett) adatok egyidejű exportálása több csomópontról
  • Gyorsabb és COGS (eladott áruk költsége) hatékony.
Kiszolgálókorlátok A lekérdezési korlátok kiterjeszthetők/letilthatók. Az ADF-lekérdezések alapértelmezés szerint a következőket tartalmazzák:
  • 500 000 rekord vagy 64 MB méretkorlát.
  • 10 perces időkorlát.
  • noTruncation hamis értékre van állítva.
Alapértelmezés szerint kiterjeszti vagy letiltja a lekérdezési korlátokat:
  • A méretkorlátok le vannak tiltva.
  • A kiszolgáló időtúllépése 1 órára van kiterjesztve.
  • MaxMemoryConsumptionPerIterator és MaxMemoryConsumptionPerQueryPerNode a maximálisra van kiterjesztve (5 GB, TotalPhysicalMemory/2).

Tipp

Ha a másolási célhely a parancs által .export támogatott adattárak egyike, és a Copy tevékenység egyik funkció sem elengedhetetlen az ön igényeihez, válassza a .export parancsot.

Adatok másolása az Azure Data Explorer

Az azure-Data Explorer másolási tevékenységgel vagy betöltési parancsokkal másolhatja az adatokat, például lekérdezésből (.set-or-append, , .set-or-replace, .set, .replace)és betöltés a tárolóból (.ingest).

Az adatok Azure Data Explorer való másolásához tekintse meg az alábbi táblázatot a Copy tevékenység és a betöltési parancsok összehasonlításához.

Másolási tevékenység Betöltés a lekérdezésből
.set-or-append / .set-or-replace / .set / .replace
Betöltés a tárolóból
.ingest
Folyamat leírása Az ADF lekéri az adatokat a forrásadattárból, táblázatos formátumba alakítja őket, és elvégzi a szükséges sémaleképezési módosításokat. Az ADF ezután feltölti az adatokat az Azure-blobokba, darabokra osztja, majd letölti a blobokat, hogy betöltse őket az Azure Data Explorer táblába.
(Forrásadattár > ADF > Azure-blobok > Azure Data Explorer)
Ezek a parancsok végrehajthatnak egy lekérdezést vagy egy .show parancsot, és a lekérdezés eredményeit egy táblába (Azure Data Explorer > Azure Data Explorer) betölthetik. Ez a parancs úgy betölti az adatokat egy táblába, hogy "lekérte" az adatokat egy vagy több felhőalapú tárolási összetevőből.
Támogatott forrásadattárak különféle lehetőségek ADLS Gen 2, Azure Blob, SQL (a sql_request() beépülő modul használatával), Azure Cosmos DB (a cosmosdb_sql_request beépülő modul használatával) és bármely más adattár, amely HTTP- vagy Python API-kat biztosít. Fájlrendszer, Azure Blob Storage, ADLS Gen 1, ADLS Gen 2
Teljesítmény A betöltések várólistára kerülnek és kezelhetők, ami biztosítja a kis méretű betöltéseket, és biztosítja a magas rendelkezésre állást a terheléselosztás, az újrapróbálkozások és a hibakezelés biztosításával.
  • Ezeket a parancsokat nem nagy mennyiségű adat importálására tervezték.
  • A várt módon és olcsóbban működik. Éles forgatókönyvek esetén azonban, ha a forgalmi sebesség és az adatméretek nagyok, használja a Copy tevékenység.
Kiszolgálókorlátok
  • Nincs méretkorlát.
  • Maximális időtúllépési korlát: Betöltött blobonként egy óra.
  • A lekérdezési résznek csak egy méretkorlátja van, amelyet kihagyhat a noTruncation=truebeállítás megadásával.
  • Maximális időtúllépési korlát: Egy óra.
  • Nincs méretkorlát.
  • Maximális időtúllépési korlát: Egy óra.

Tipp

  • Amikor adatokat másol az ADF-ből az Azure-ba, Data Explorer használja a ingest from query parancsokat.
  • Nagy adathalmazok (>1 GB) esetén használja a Copy tevékenység.

Szükséges engedélyek

Az alábbi táblázat a Azure Data Factory integrációjának különböző lépéseihez szükséges engedélyeket sorolja fel.

Lépés Művelet Engedélyek minimális szintje Jegyzetek
Társított szolgáltatás létrehozása Adatbázis-navigáció adatbázis-megjelenítő
Az ADF-t használó bejelentkezett felhasználónak engedélyeznie kell az adatbázis metaadatainak olvasását.
A felhasználó manuálisan is megadhatja az adatbázis nevét.
Kapcsolat tesztelése adatbázis-figyelő vagy táblabetöltés
A szolgáltatásnévnek jogosultnak kell lennie adatbázisszintű .show parancsok vagy táblaszintű betöltés végrehajtására.
  • A TestConnection nem az adatbázissal, hanem a fürthöz való kapcsolatot ellenőrzi. Akkor is sikeres lehet, ha az adatbázis nem létezik.
  • A tábla-rendszergazdai engedélyek nem elegendőek.
Adathalmaz létrehozása Táblanavigáció adatbázis-figyelő
Az ADF-et használó bejelentkezett felhasználónak jogosultnak kell lennie adatbázisszintű .show parancsok végrehajtására.
A felhasználó manuálisan is megadhatja a tábla nevét.
Adathalmaz- vagy másolási tevékenység létrehozása Adatok előnézete adatbázis-megjelenítő
A szolgáltatásnévnek jogosultnak kell lennie az adatbázis metaadatainak olvasására.
Séma importálása adatbázis-megjelenítő
A szolgáltatásnévnek jogosultnak kell lennie az adatbázis metaadatainak olvasására.
Ha az Azure Data Explorer a táblázatos másolás forrása, az ADF automatikusan importálja a sémát, még akkor is, ha a felhasználó nem importálta explicit módon a sémát.
Azure Data Explorer fogadóként Név szerinti oszlopleképezés létrehozása adatbázis-figyelő
A szolgáltatásnévnek jogosultnak kell lennie az adatbázisszintű .show parancsok végrehajtására.
  • Minden kötelező művelet a táblabetöltéssel működik.
  • Egyes választható műveletek meghiúsulhatnak.
  • CSV-megfeleltetés létrehozása a táblán
  • A leképezés elvetése
table ingestor vagy database admin
A szolgáltatásnévnek engedéllyel kell rendelkeznie egy tábla módosításához.
Adatok betöltése table ingestor vagy database admin
A szolgáltatásnévnek engedéllyel kell rendelkeznie egy tábla módosításához.
Forrásként az Azure Data Explorer Lekérdezés végrehajtása adatbázis-megjelenítő
A szolgáltatásnévnek jogosultnak kell lennie az adatbázis metaadatainak olvasására.
Kusto-parancs Az egyes parancsok engedélyszintjének megfelelően.

Teljesítmény

Ha az Azure Data Explorer a forrás, és a keresési, másolási vagy parancstevékenységet használja, amely egy olyan lekérdezést tartalmaz, ahol található, tekintse meg a teljesítményadatok lekérdezésére vonatkozó ajánlott eljárásokat és a másolási tevékenység ADF-dokumentációját.

Ez a szakasz a másolási tevékenység használatát ismerteti, ahol az Azure Data Explorer a fogadó. Az Azure Data Explorer fogadó becsült átviteli sebessége 11–13 MBps. Az alábbi táblázat az Azure Data Explorer fogadó teljesítményét befolyásoló paramétereket ismerteti.

Paraméter Jegyzetek
Összetevők földrajzi közelsége Helyezze az összes összetevőt ugyanabba a régióba:
  • forrás- és fogadóadattárak.
  • ADF integrációs modul.
  • Az Azure Data Explorer-fürt.
Győződjön meg arról, hogy az integrációs modul legalább ugyanabban a régióban van, mint az Azure Data Explorer-fürt.
DIU-k száma Az ADF által használt négy DIU-hoz egy virtuális gép tartozik.
A DIU-k számának növelése csak akkor segít, ha a forrás egy több fájlt tartalmazó fájlalapú tároló. Ezután minden virtuális gép egy másik fájlt dolgoz fel párhuzamosan. Ezért egyetlen nagy fájl másolása nagyobb késéssel jár, mint több kisebb fájl másolása.
Az Azure Data Explorer-fürt mennyisége és termékváltozata Az Azure-Data Explorer csomópontok nagy száma növeli a betöltési feldolgozási időt. A fejlesztői termékváltozatok használata súlyosan korlátozza a teljesítményt
Párhuzamosság Ha nagy mennyiségű adatot szeretne másolni egy adatbázisból, particionálja az adatokat, majd használjon egy ForEach-hurkot, amely párhuzamosan másolja az egyes partíciókat, vagy használja az Adatbázisból az Azure Data Explorer-sablonba történő tömeges másolást. Megjegyzés: A Copy tevékenység> beállításokpárhuzamossági foka nem releváns az Azure Data Explorer szempontjából.
Adatfeldolgozás összetettsége A késés a forrásfájl formátumától, az oszlopleképezéstől és a tömörítéstől függően változik.
Az integrációs modult futtató virtuális gép
  • Az Azure Copy esetében az ADF virtuális gépek és a gépi termékváltozatok nem módosíthatók.
  • A helyszíni és az Azure-beli másoláshoz állapítsa meg, hogy a saját üzemeltetésű integrációs modult üzemeltető virtuális gép elég erős-e.

Tippek és gyakori buktatók

Tevékenység állapotának monitorozása

  • A tevékenység előrehaladásának monitorozása során az Adatok írása tulajdonság nagyobb lehet az Adatolvasás tulajdonságnál, mivel az Adatolvasás kiszámítása a bináris fájlméret alapján történik, míg az Adatok írása a memóriában lévő méret alapján történik, az adatok deszerializálása és kibontása után.

  • A tevékenység előrehaladásának monitorozása során láthatja, hogy az adatok az Azure Data Explorer fogadóba lesznek írva. Az Azure Data Explorer tábla lekérdezésekor láthatja, hogy az adatok nem érkeztek meg. Ennek az az oka, hogy az Azure Data Explorer másolásának két fázisa van.

    • Az első fázis beolvassa a forrásadatokat, felosztja azokat 900 MB-os adattömbökre, és feltölti az egyes adattömböket egy Azure-blobba. Az első szakaszt az ADF-tevékenység előrehaladási nézete látja.
    • A második szakasz akkor kezdődik, amikor az összes adat fel van töltve az Azure Blobokra. A fürt csomópontjai letöltik a blobokat, és betöltik az adatokat a fogadó táblába. Az adatok ezután az Azure Data Explorer táblában láthatók.

A CSV-fájlok nem megfelelő menekülés miatt történő betöltése nem sikerült

Az Azure Data Explorer elvárja, hogy a CSV-fájlok igazodjanak az RFC 4180-hoz. A következőre számít:

  • A menekülő karaktereket (például " és új sorokat) tartalmazó mezőknek " karakterrel kell kezdődniük és végződniük, szóköz nélkül. A mezőn belüli összes karakter kettős karakterrel (") lesz feloldva. A "Hello, "World" például egy érvényes CSV-fájl egyetlen rekorddal, amelynek egyetlen oszlopa vagy mezője Hello, "World" tartalommal rendelkezik.
  • A fájl összes rekordjának ugyanannyi oszlopot és mezőt kell tartalmaznia.

Azure Data Factory engedélyezi a fordított perjel (feloldó) karaktert. Ha fordított perjel karaktert tartalmazó CSV-fájlt hoz létre Azure Data Factory használatával, a fájl Azure Data Explorer való betöltése sikertelen lesz.

Példa

A következő szöveges értékek: Hello, "World"
ABC DEF
"ABC\D"EF
"ABC DEF

A megfelelő CSV-fájlban a következőképpen kell megjelennie: "Hello, "World""
"ABC DEF"
"""ABC\D""EF"
"""ABC DEF"

Az alapértelmezett feloldó karakter (fordított perjel) használatával a következő CSV nem működik az Azure Data Explorer: "Hello, "World".
"ABC DEF"
"ABC\D"EF"
"ABC DEF"

Beágyazott JSON-objektumok

Amikor JSON-fájlt másol az Azure Data Explorer, vegye figyelembe a következőket:

  • A tömbök nem támogatottak.
  • Ha a JSON-struktúra objektum adattípusokat tartalmaz, Azure Data Factory simíthatja az objektum gyermekelemeit, és megpróbálhatja az egyes gyermekelemeket egy másik oszlopra leképezni az Azure Data Explorer-táblában. Ha azt szeretné, hogy a teljes objektumelem egyetlen oszlopra legyen leképezve az Azure Data Explorer:
    • A teljes JSON-sort egyetlen dinamikus oszlopba betölti az Azure Data Explorer.
    • Manuálisan szerkessze a folyamatdefiníciót Azure Data Factory JSON-szerkesztőjével. A Leképezések területen
      • Távolítsa el az egyes gyermekelemekhez létrehozott több leképezést, és adjon hozzá egyetlen leképezést, amely megfelelteti az objektumtípust a táblázatoszlopnak.
      • A záró szögletes zárójel után adjon hozzá egy vesszőt, majd a következőt:
        "mapComplexValuesToString": true.

További tulajdonságok megadása az Azure Data Explorer

További betöltési tulajdonságok hozzáadásához adja meg őket a másolási tevékenységben a folyamatban.

Tulajdonságok hozzáadása

  1. A Azure Data Factory válassza a Szerző ceruza eszközt.

  2. A Folyamat területen válassza ki azt a folyamatot, amelyhez további betöltési tulajdonságokat szeretne hozzáadni.

  3. A Tevékenységek vásznon válassza az Adatok másolása tevékenységet.

  4. A tevékenység részletei között válassza a Fogadó lehetőséget, majd bontsa ki a További tulajdonságok elemet.

  5. Válassza az Új lehetőséget, válassza a Csomópont hozzáadása vagy a Tömb hozzáadása szükség szerint lehetőséget, majd adja meg a betöltési tulajdonság nevét és értékét. Ismételje meg ezt a lépést további tulajdonságok hozzáadásához.

  6. Ha végzett, mentse és tegye közzé a folyamatot.

Következő lépés