Megosztás a következőn keresztül:


Az Azure Data Explorer adatbetöltésének áttekintése

Az adatbetöltés magában foglalja az adatok fürtbeli táblába való betöltését. Az Azure Data Explorer biztosítja az adatok érvényességét, szükség szerint átalakítja a formátumokat, és olyan műveleteket hajt végre, mint a sémaegyezés, a rendszerezés, az indexelés, a kódolás és a tömörítés. A betöltés után az adatok elérhetők a lekérdezéshez.

Az Azure Data Explorer egyszeri betöltést vagy folyamatos betöltési folyamat létrehozását kínálja streamelési vagy várólistás betöltéssel. Az Egyszeri adatbetöltés és a Folyamatos adatbetöltés című témakörből megtudhatja, hogy melyik a megfelelő.

Megjegyzés:

Az adatok a beállított adatmegőrzési szabályzatnak megfelelően tárolóban maradnak.

Egyszeri adatbetöltés

Az egyszeri betöltés hasznos lehet az előzményadatok átviteléhez, a hiányzó adatok kitöltéséhez, valamint a prototípus-készítés és az adatelemzés kezdeti szakaszaihoz. Ez a megközelítés lehetővé teszi a gyors adatintegrációt anélkül, hogy folyamatos folyamatvállalásra van szükség.

Az egyszeri adatbetöltés többféleképpen is elvégezhető. Használja a következő döntési fát a használati eset legmegfelelőbb lehetőségének meghatározásához:

Folyamatábra egy alkalommal történő betöltési döntéshozatalhoz.

További információkért tekintse meg a vonatkozó dokumentációt:

Kiemelés Vonatkozó dokumentáció
A betöltéshez tekintse meg az Azure Data Explorer által támogatott adatformátumokat.
Tekintse meg az Azure Data Factory-folyamatokhoz támogatott fájlformátumokat.
Ha adatokat szeretne importálni egy meglévő tárolórendszerből, olvassa el az Előzményadatok betöltése az Azure Data Explorerbe című témakört.
Az Azure Data Explorer webes felhasználói felületén adatokat kérhet le egy helyi fájlból, az Amazon S3-ból vagy az Azure Storage-ból.
Az Azure Data Factoryvel való integrációról további információt az Adatok másolása az Azure Data Explorerbe az Azure Data Factory használatával című témakörben talál.
A Kusto-ügyfélkódtárak c#, Python, Java, JavaScript, TypeScript és Go nyelven érhetők el. Írhat kódot az adatok kezeléséhez, majd a Kusto Ingest-kódtár használatával betöltheti az adatokat az Azure Data Explorer-táblába. Az adatoknak a betöltés előtt a támogatott formátumok egyikében kell lenniük.

Folyamatos adatbetöltés

A folyamatos betöltés olyan helyzetekben kiváló, amelyek azonnali elemzést igényelnek az élő adatokból. A folyamatos betöltés például hasznos a figyelési rendszerek, a napló- és eseményadatok, valamint a valós idejű elemzések esetében.

A folyamatos adatbetöltés magában foglalja egy betöltési folyamat beállítását streameléssel vagy várólistán lévő betöltéssel:

  • Streambetöltés: Ez a módszer közel valós idejű késést biztosít a táblánkénti kis adathalmazok esetében. Az adatok mikrobatchokként érkeznek egy streaming forrásból, kezdetben a sortárolóba kerülnek, majd átkerülnek az oszloptároló kiterjesztésekbe. További információ: Streambetöltés konfigurálása.

  • Várólista-betöltés: Ez a módszer a nagy betöltési sebességre van optimalizálva. Az adatok kötegelése a betöltési tulajdonságok alapján történik, a kis kötegeket egyesítik és optimalizálják a gyors lekérdezési eredményekhez. Alapértelmezés szerint a várólistára helyezett értékek maximális száma 5 perc, 1000 elem vagy 1 GB teljes méret. Az sorban álló adatok betöltési parancsának méretkorlátja 6 GB. Ez a módszer újrapróbálkozási mechanizmusokat használ az átmeneti hibák enyhítésére, és a "legalább egyszer" üzenetkezelési szemantikát követi annak biztosítása érdekében, hogy ne vesszenek el üzenetek a folyamatban. Az sorban állásos betöltéssel kapcsolatos további információkért lásd: Betöltési kötegelési szabályzat.

Megjegyzés:

A legtöbb forgatókönyv esetében azt javasoljuk, hogy az üzenetsoros adatbevitelt használja, mivel ez a teljesítmény szempontjából hatékonyabb megoldás.

Megjegyzés:

A várólista-betöltés akár 7 napig is megbízható adatpufferelést biztosít. Ha azonban a fürt nem rendelkezik elegendő kapacitással a betöltés befejezéséhez ebben a megőrzési időszakban, a rendszer a 7 napos korlát túllépése után elveti az adatokat. Az adatvesztés és a betöltési késések elkerülése érdekében győződjön meg arról, hogy a fürt rendelkezik elegendő erőforrással a várólistán lévő adatok 7 napos időszakon belüli feldolgozásához.

A folyamatos adatbetöltés többféleképpen is konfigurálható. Használja a következő döntési fát a használati eset legmegfelelőbb lehetőségének meghatározásához:

A döntési fa diagramja a folyamatos betöltéshez.

További információkért tekintse meg a vonatkozó dokumentációt:

Kiemelés Vonatkozó dokumentáció
Az összekötők listáját az Összekötők áttekintésében találja.
Event Hubs-adatkapcsolat létrehozása. Az Event Hubs-integráció olyan szolgáltatásokat biztosít, mint a szabályozás, az újrapróbálkozások, a monitorozás és a riasztások.
Adatok betöltése az Apache Kafkából, amely egy elosztott streamelési platform, amely valós idejű streamelési adatfolyamokat készít.
IoT Hub-adatkapcsolat létrehozása. Az IoT Hubs-integráció olyan szolgáltatásokat biztosít, mint a szabályozás, az újrapróbálkozások, a monitorozás és a riasztások.
Event Grid-adatkapcsolat létrehozása. Az Event Grid-integráció olyan szolgáltatásokat biztosít, mint a szabályozás, az újrapróbálkozás, a figyelés és a riasztások.
Tekintse meg a megfelelő összekötőre vonatkozó útmutatást, például az Apache Sparkot, az Apache Kafkát, az Azure Cosmos DB-t, a Fluent Bitet, a Logstash-t, az Open Telemetryt, a Power Automate-t, a Splunkot és egyebeket. További információ: Összekötők áttekintése.
A Kusto-ügyfélkódtárak c#, Python, Java, JavaScript, TypeScript és Go nyelven érhetők el. Írhat kódot az adatok kezeléséhez, majd a Kusto Ingest-kódtár használatával betöltheti az adatokat az Azure Data Explorer-táblába. Az adatoknak a betöltés előtt a támogatott formátumok egyikében kell lenniük.

Megjegyzés:

A streambetöltés nem minden betöltési módszer esetében támogatott. A támogatási részletekért tekintse meg az adott betöltési módszer dokumentációját.

Közvetlen betöltés felügyeleti parancsokkal

Az Azure Data Explorer a következő adatbeviteli felügyeleti parancsokat kínálja, amelyek közvetlenül a fürtbe juttatják az adatokat, az adatkezelési szolgáltatás használata helyett. Ezeket csak feltárásra és prototípus-készítésre szabad használni, éles vagy nagy volumenű forgatókönyvekben nem.

  • Beágyazott betöltés: A .ingest beágyazott parancs tartalmazza a betöltendő adatokat, hogy maga a parancsszöveg része legyen. Ez a módszer improvizált tesztelési célokra szolgál.
  • Betöltés a lekérdezésből: A .set, a .append, a .set-or-append vagy a .set-or-replace parancs közvetetten megadja a betöltendő adatokat egy lekérdezés vagy parancs eredményeként.
  • Betöltés a tárolóból: A .betöltés parancsba beolvasja az adatokat a külső tárolóból, például az Azure Blob Storage-ból, amely a fürt számára elérhető és a parancs által meghatározott.

Megjegyzés:

Hiba esetén a rendszer újra végrehajtja a betöltési műveletet, és a rendszer akár 48 órán keresztül újrapróbálkozik a próbálkozások közötti várakozási idő exponenciális backoff metódusával.

A betöltési módszerek összehasonlítása

Az alábbi táblázat a fő betöltési módszereket hasonlítja össze:

Beviteli név Adattípus Maximális fájlméret Streamelés, üzenetsorba rendezve, közvetlen A leggyakoribb forgatókönyvek Megfontolások
Apache Spark-összekötő A Spark-környezet által támogatott összes formátum Korlátlan Várólistára Meglévő folyamat, a Spark-beli előfeldolgozás a betöltés előtt, gyors módja annak, hogy biztonságos (Spark) streamelési folyamatot hozzon létre a Spark-környezet által támogatott különböző forrásokból. Fontolja meg a Spark-klaszter költségeit. Kötegírás esetén hasonlítsa össze az Event Grid Azure Data Explorer-adatkapcsolatával. Spark-streamelés esetén hasonlítsa össze az eseményközpont adatkapcsolatát.
Azure Data Factory (ADF) Támogatott adatformátumok Korlátlan. Örökli az ADF-korlátozásokat. Várólistán vagy ADF-eseményindítónként Támogatja a nem támogatott formátumokat, például az Excelt és az XML-t, és több mint 90 forrásból másolhat nagy fájlokat a helyszíniről a felhőbe Ez a módszer viszonylag több időt vesz igénybe az adatok betöltéséig. Az ADF feltölti az összes adatot a memóriába, majd megkezdi a betöltést.
Event Grid Támogatott adatformátumok 1 GB tömörítetlen Várólistára Folyamatos betöltés az Azure Storage-ból, külső adatok az Azure Storage-ban A betöltést a blob átnevezése vagy a blob létrehozási műveletek aktiválhatják.
Eseményközpont Támogatott adatformátumok Nincs adat. Várólista, streamelés Üzenetek, események
Adatélmény megismerése *SV, JSON 1 GB tömörítetlen Várólista vagy közvetlen betöltés Egyszeri esemény, táblaséma létrehozása, a folyamatos betöltés definíciója az Event Grid használatával, tömeges betöltés tárolóegységgel (legfeljebb 5000 blob, nincs korlát az előzménybetöltés használatakor)
IoT Hub Támogatott adatformátumok Nincs adat. Várólista, streamelés IoT-üzenetek, IoT-események, IoT-tulajdonságok
Kafka-összekötő Avro, ApacheAvro, JSON, CSV, Parquet és ORC Korlátlan. Java-korlátozásokat örököl. Várólista, streamelés Meglévő csővezeték, nagy volumenű fogyasztás az eredeti forrásból. Az előnyben részesítés több gyártó vagy fogyasztói szolgáltatás meglévő használata vagy a szolgáltatáskezelés kívánt szintje alapján határozható meg.
Kusto-ügyfélkódtárak Támogatott adatformátumok 1 GB tömörítetlen Várólista, streamelés, közvetlen Saját kód írása a szervezeti igényeknek megfelelően A programozott betöltés a betöltési költségek (COG-k) csökkentésére van optimalizálva a tárolási tranzakciók minimalizálásával a betöltési folyamat során és után.
LightIngest Támogatott adatformátumok 1 GB tömörítetlen Várólista vagy közvetlen betöltés Adatmigrálás, történeti adatok módosított betöltési időbélyegekkel, tömeges adatbetöltés Kis- és nagybetűk, valamint szóközök megkülönböztetése
Logic Apps Támogatott adatformátumok 1 GB tömörítetlen Várólistára Folyamatok automatizálására szolgál
LogStash JSON Korlátlan. Java-korlátozásokat örököl. Várólistára A meglévő folyamat a Logstash kiforrott, nyílt forráskódú jellegét használja a bemenet(ek) nagy mennyiségű felhasználásához. Az előnyben részesítés több gyártó vagy fogyasztói szolgáltatás meglévő használata vagy a szolgáltatáskezelés kívánt szintje alapján határozható meg.
Power Automate Támogatott adatformátumok 1 GB tömörítetlen Várólistára Betöltési parancsok a folyamat részeként. Folyamatok automatizálására szolgál.

A többi összekötőről további információt az Összekötők áttekintése című témakörben talál.

Engedélyek

Az alábbi lista a különböző betöltési forgatókönyvekhez szükséges engedélyeket ismerteti:

  • Új tábla létrehozásához legalább adatbázis-felhasználói engedélyekkel kell rendelkeznie.
  • Ha meglévő táblába szeretne adatokat beszedni a séma módosítása nélkül, legalább Table Ingestor-engedélyekkel kell rendelkeznie.
  • Meglévő tábla sémájának módosításához legalább táblaadminisztrátori vagy adatbázis-rendszergazdai engedélyekkel kell rendelkeznie.

Az alábbi táblázat az egyes betöltési módszerekhez szükséges engedélyeket ismerteti:

Betöltési módszer Engedélyek
Egyszeri betöltés Legalább táblázat-beolvasó
Folyamatos streambetöltés Legalább táblázat-beolvasó
Folyamatos sorban álló adatok betöltése Legalább táblázat-beolvasó
Közvetlen beágyazott betöltés Legalább Table Ingestor és még Database Viewer
Közvetlen betöltés lekérdezésből Legalább Table Ingestor és még Database Viewer
Közvetlen betöltés a tárolóból Legalább táblázat-beolvasó

További információkért lásd a Kusto szerepköralapú hozzáférés-vezérléscímű részt.

Az adatbevitel folyamata

Az alábbi lépések az általános betöltési folyamat áttekintését tartalmazzák:

  1. Kötegelési szabályzat beállítása (nem kötelező):: Az adatok kötegelése a betöltési kötegelési szabályzat alapján történik. Útmutatásért tekintse meg az Átviteli sebesség optimalizálása című témakört.

  2. Adatmegőrzési szabályzat beállítása (nem kötelező):Ha az adatbázis-adatmegőrzési szabályzat nem felel meg az igényeinek, felülbírálja azt a tábla szintjén. További információkért lásd a Megőrzési szabályzatot.

  3. Táblázat létrehozása: Ha az Adatok lekérése felületet használja, létrehozhat egy táblát a betöltési folyamat részeként. Ellenkező esetben a betöltés előtt hozzon létre egy táblát az Azure Data Explorer webes felhasználói felületén vagy a .create table paranccsal.

  4. Sémaleképezés létrehozása: A sémaleképezések segítenek a forrásadatmezők céltáblaoszlopokhoz kötésében. Különböző típusú leképezések támogatottak, például sororientált formátumok, például CSV, JSON és AVRO, valamint oszloporientált formátumok, például Parquet. A legtöbb módszerben a leképezések előre létrehozhatók a táblán.

  5. Frissítési szabályzat beállítása (nem kötelező):Bizonyos adatformátumok, például a Parquet, a JSON és az Avro egyszerű betöltési idejű átalakításokat tesznek lehetővé. A betöltés során végzett bonyolultabb feldolgozáshoz használja a frissítési szabályzatot. Ez a szabályzat automatikusan végrehajtja a kinyeréseket és átalakításokat az eredeti táblában betöltött adatokon, majd a módosított adatokat egy vagy több céltáblába betölti.

  6. Adatok betöltése: Az adatok betöltéséhez használja az előnyben részesített betöltési eszközt, összekötőt vagy metódust.