Áttekintés az Azure Data Explorer adatbetöltéséről

Az adatbetöltés magában foglalja az adatok betöltését a fürt egy táblájába. Az Azure Data Explorer biztosítja az adatok érvényességét, szükség szerint átalakítja a formátumokat, és olyan műveleteket hajt végre, mint a sémaegyeztetés, a rendszerezés, az indexelés, a kódolás és a tömörítés. A betöltés után az adatok elérhetők a lekérdezéshez.

Az Azure Data Explorer egyszeri betöltést vagy folyamatos betöltési folyamat létrehozását kínálja streamelési vagy várólistás betöltési folyamat használatával. Annak megállapításához, hogy melyik a megfelelő az Ön számára, olvassa el az Egyszeri adatbetöltés és a Folyamatos adatbetöltés című témakört.

Megjegyzés

Az adatok a beállított adatmegőrzési szabályzatnak megfelelően tárolóban maradnak.

Egyszeri adatbetöltés

Az egyszeri betöltés hasznos az előzményadatok átviteléhez, a hiányzó adatok kitöltéséhez, valamint a prototípus-előkészítés és az adatelemzés kezdeti szakaszaihoz. Ez a megközelítés lehetővé teszi a gyors adatintegrációt anélkül, hogy folyamatos folyamatvállalásra van szükség.

Az egyszeri adatbetöltés többféleképpen is elvégezhető. Használja a következő döntési fát a használati eset legmegfelelőbb lehetőségének meghatározásához:

Folyamatábra az egyszeri betöltési döntéshozatalhoz.

További információkért tekintse meg a vonatkozó dokumentációt:

Callout Kapcsolódó dokumentáció
A betöltéshez tekintse meg az Azure Data Explorer által támogatott adatformátumokat.
Tekintse meg a Azure Data Factory folyamatokhoz támogatott fájlformátumokat.
Ha meglévő tárolórendszerből szeretne adatokat importálni, olvassa el az Előzményadatok betöltése az Azure Data Explorer-ba című témakört.
Az Azure Data Explorer webes felhasználói felületén adatokat kérhet le egy helyi fájlból, az Amazon S3-ból vagy az Azure Storage-ból.
Az Azure Data Factory való integrációról az Adatok másolása az Azure Data Explorer Azure Data Factory használatával című témakörben olvashat.
A Kusto-ügyfélkódtárak a C#, a Python, a Java, a JavaScript, a TypeScript és a Go számára érhetők el. Írhat kódot az adatok módosításához, majd a Kusto Ingest-kódtár használatával betöltheti az adatokat az Azure Data Explorer táblába. Az adatoknak a betöltés előtt a támogatott formátumok egyikében kell lenniük.

Folyamatos adatbetöltés

A folyamatos betöltés olyan helyzetekben jelenik meg, amelyek azonnali betekintést igényelnek az élő adatokból. A folyamatos betöltés például hasznos a figyelési rendszerek, a napló- és eseményadatok, valamint a valós idejű elemzések esetében.

A folyamatos adatbetöltés magában foglalja egy betöltési folyamat beállítását streamelt vagy várólistás betöltéssel:

  • Streambetöltés: Ez a módszer közel valós idejű késést biztosít a táblánkénti kis adathalmazok esetében. Az adatok mikro kötegekben kerülnek be egy streamelési forrásból, először a sortárolóba kerülnek, majd átkerülnek az oszloptárolókba. További információ: Streambetöltés konfigurálása.

  • Várólista-betöltés: Ez a módszer a magas betöltési átviteli sebességre van optimalizálva. Az adatok kötegelése a betöltési tulajdonságok alapján történik, kis kötegekkel, majd egyesítve és a gyors lekérdezési eredményekhez optimalizálva. Alapértelmezés szerint a várólistán lévő értékek maximális száma 5 perc, 1000 elem vagy 1 GB teljes méret. Az üzenetsorba helyezett betöltési parancsok adatméretkorlátja 6 GB. Ez a módszer újrapróbálkozási mechanizmusokat használ az átmeneti hibák mérséklésére, és a "legalább egyszer" üzenetküldési szemantikát követi annak biztosítása érdekében, hogy ne vesszenek el üzenetek a folyamatban. Az üzenetsoros betöltéssel kapcsolatos további információkért lásd: Betöltési kötegelési szabályzat.

Megjegyzés

A legtöbb forgatókönyv esetében az üzenetsoros betöltés használatát javasoljuk, mivel ez a teljesítményesebb lehetőség.

A folyamatos adatbetöltést többféleképpen is konfigurálhatja. Használja a következő döntési fát a használati eset legmegfelelőbb lehetőségének meghatározásához:

A döntési fa diagramja a folyamatos betöltéshez.

További információkért tekintse meg a vonatkozó dokumentációt:

Callout Kapcsolódó dokumentáció
Az összekötők listáját lásd: Összekötők áttekintése.
Event Hubs-adatkapcsolat létrehozása. Az Event Hubs-integráció olyan szolgáltatásokat nyújt, mint a szabályozás, az újrapróbálkozások, a monitorozás és a riasztások.
Adatok betöltése az Apache Kafkából, amely egy elosztott streamelési platform, amely valós idejű streamelési adatfolyam-folyamatok létrehozására használható.
Hozzon létre egy IoT Hub adatkapcsolatot. Az IoT Hubs-integráció olyan szolgáltatásokat nyújt, mint a szabályozás, az újrapróbálkozások, a monitorozás és a riasztások.
Event Grid-adatkapcsolat létrehozása. Az Event Grid-integráció olyan szolgáltatásokat biztosít, mint a szabályozás, az újrapróbálkozás, a monitorozás és a riasztások.
Tekintse meg a megfelelő összekötőre vonatkozó útmutatást, például az Apache Sparkot, az Apache Kafkát, az Azure Cosmos DB-t, a Fluent Bitet, a Logstashot, az Open Telemetryt, a Power Automate-t, a Splunkot és egyebeket. További információ: Összekötők áttekintése.
A Kusto-ügyfélkódtárak a C#, a Python, a Java, a JavaScript, a TypeScript és a Go számára érhetők el. Írhat kódot az adatok módosításához, majd a Kusto Ingest-kódtár használatával betöltheti az adatokat az Azure Data Explorer táblába. Az adatoknak a betöltés előtt a támogatott formátumok egyikében kell lenniük.

Megjegyzés

A streamelési betöltés nem támogatott minden betöltési módszerhez. A támogatási részletekért tekintse meg az adott betöltési módszer dokumentációját.

Közvetlen betöltés felügyeleti parancsokkal

Az Azure Data Explorer a következő betöltési felügyeleti parancsokat kínálja, amelyek az adatkezelési szolgáltatás használata helyett közvetlenül a fürtbe töltik be az adatokat. Ezeket csak feltárásra és prototípus-készítésre szabad használni, éles vagy nagy volumenű forgatókönyvekben nem.

  • Beágyazott betöltés: A .ingest beágyazott parancs a parancs szövegének részét képező adatokat tartalmazza. Ez a módszer improvizált tesztelési célokra szolgál.
  • Betöltés a lekérdezésből: A .set, .append, .set-or-append vagy .set-or-replace parancs közvetetten megadja a lekérdezés vagy parancs eredményeként betöltendő adatokat.
  • Betöltés a tárolóból: A .ing into paranccsal az adatok külső tárolóból( például Azure Blob Storage) lesznek betöltve a fürt számára, és a parancsra mutatnak.

Betöltési módszerek összehasonlítása

Az alábbi táblázat a fő betöltési módszereket hasonlítja össze:

Betöltési név Adattípus Maximális fájlméret Streamelés, üzenetsorba rendezve, közvetlen A leggyakoribb forgatókönyvek Megfontolandó szempontok
Apache Spark-összekötő A Spark-környezet által támogatott összes formátum Korlátlan Várólistán Meglévő folyamat, a Spark-on a betöltés előtt történő előfeldolgozás, a Spark-környezet által támogatott különböző forrásokból származó biztonságos (Spark-) streamelési folyamat gyors létrehozása. Fontolja meg a Spark-fürt költségeit. Kötegelt írás esetén hasonlítsa össze az Event Grid azure Data Explorer adatkapcsolatát. Spark-streamelés esetén hasonlítsa össze az eseményközpont adatkapcsolatát.
Azure Data Factory (ADF) Támogatott adatformátumok Korlátlan. Örökli az ADF-korlátozásokat. Várólistán vagy ADF-eseményindítónként Támogatja a nem támogatott formátumokat, például az Excelt és az XML-t, és nagy méretű fájlokat másolhat több mint 90 forrásból, a teljesítményről a felhőbe Ez a módszer viszonylag több időt vesz igénybe az adatok betöltéséig. Az ADF feltölti az összes adatot a memóriába, majd megkezdi a betöltést.
Event Grid Támogatott adatformátumok 1 GB tömörítetlen Várólistán Folyamatos betöltés az Azure Storage-ból, külső adatok az Azure Storage-ban A betöltés a blob átnevezésével vagy a bloblétrehozási műveletekkel aktiválható
Event Hub Támogatott adatformátumok N/A Várólista, streamelés Üzenetek, események
Adatok lekérése *SV, JSON 1 GB tömörítetlen Várólistára helyezett vagy közvetlen betöltés Egyszeri, táblaséma létrehozása, a folyamatos betöltés definíciója az Event Griddel, tömeges betöltés tárolóval (legfeljebb 5000 blob, nincs korlát az előzménybetöltés használatakor)
IoT Hub Támogatott adatformátumok N/A Várólista, streamelés IoT-üzenetek, IoT-események, IoT-tulajdonságok
Kafka-összekötő Avro, ApacheAvro, JSON, CSV, Parquet és ORC Korlátlan. Java-korlátozásokat örököl. Várólista, streamelés Meglévő folyamat, nagy mennyiségű használat a forrásból. A preferenciát több gyártó vagy fogyasztói szolgáltatás meglévő használata vagy a szolgáltatáskezelés kívánt szintje határozza meg.
Kusto-ügyfélkódtárak Támogatott adatformátumok 1 GB tömörítetlen Várólista, streamelés, közvetlen Saját kód írása a szervezeti igényeknek megfelelően A programozott betöltés a betöltési költségek (COG-k) csökkentésére van optimalizálva a tárolási tranzakciók minimalizálásával a betöltési folyamat során és után.
LightIngest Támogatott adatformátumok 1 GB tömörítetlen Várólistára helyezett vagy közvetlen betöltés Adatmigrálás, előzményadatok módosított betöltési időbélyegekkel, tömeges betöltés Kis- és nagybetűk megkülönböztetése
Logic Apps Támogatott adatformátumok 1 GB tömörítetlen Várólistán Folyamatok automatizálására szolgál
LogStash JSON Korlátlan. Java-korlátozásokat örököl. Várólistán A meglévő folyamat a Logstash kiforrott, nyílt forráskód természetét használja a bemenet(ek)ből származó nagy mennyiségű felhasználáshoz. A preferenciát több gyártó vagy fogyasztói szolgáltatás meglévő használata vagy a szolgáltatáskezelés kívánt szintje határozza meg.
Power Automate Támogatott adatformátumok 1 GB tömörítetlen Várólistán Betöltési parancsok a folyamat részeként. Folyamatok automatizálására szolgál.

További információ a többi összekötőről: Összekötők áttekintése.

Engedélyek

Az alábbi lista a különböző betöltési forgatókönyvekhez szükséges engedélyeket ismerteti:

  • Új tábla létrehozásához legalább adatbázis-felhasználói engedély szükséges.
  • Az adatok meglévő táblába való betöltéséhez a séma módosítása nélkül legalább adatbázis-betöltési engedélyekre van szükség.
  • Egy meglévő tábla sémájának módosításához legalább Table Rendszergazda vagy Database Rendszergazda engedély szükséges.

További információ: Kusto szerepköralapú hozzáférés-vezérlés.

A betöltési folyamat

Az alábbi lépések az általános betöltési folyamatot ismertetik:

  1. Kötegelési szabályzat beállítása (nem kötelező): Az adatok kötegelése a betöltési kötegelési szabályzat alapján történik. Útmutatásért lásd: Optimalizálás az átviteli sebességhez.

  2. Adatmegőrzési szabályzat beállítása (nem kötelező):Ha az adatbázis-adatmegőrzési szabályzat nem felel meg az igényeinek, felülbírálja azt a tábla szintjén. További információ: Adatmegőrzési szabályzat.

  3. Tábla létrehozása: Ha az Adatok lekérése felületet használja, létrehozhat egy táblát a betöltési folyamat részeként. Ellenkező esetben hozzon létre egy táblát a betöltés előtt az Azure Data Explorer webes felhasználói felületén vagy a .create table paranccsal.

  4. Sémaleképezés létrehozása: A sémaleképezések segítenek a forrásadatmezők céltáblaoszlopokhoz kötésében. A különböző típusú leképezések támogatottak, beleértve a sororientált formátumokat, például a CSV-t, a JSON-t és az AVRO-t, valamint az oszloporientált formátumokat, például a Parquetet. A legtöbb metódusban a leképezések előre is létrehozhatóak a táblán.

  5. Frissítési szabályzat beállítása (nem kötelező): Bizonyos adatformátumok, például a Parquet, a JSON és az Avro egyszerű betöltési idejű átalakításokat tesznek lehetővé. A betöltés során történő bonyolultabb feldolgozáshoz használja a frissítési szabályzatot. Ez a szabályzat automatikusan végrehajtja a kinyeréseket és átalakításokat az eredeti táblában betöltött adatokon, majd egy vagy több céltáblába betölti a módosított adatokat.

  6. Adatok betöltése: Az adatok beolvasásához használja az előnyben részesített betöltési eszközt, összekötőt vagy metódust.