Mi az a Azure Synapse Data Explorer? (Előzetes verzió)

Cikk
09/08/2023

Azure Synapse Data Explorer interaktív lekérdezési felületet biztosít az ügyfeleknek a napló- és telemetriaadatokból származó megállapítások feloldásához. A meglévő SQL- és Apache Spark-elemzési futtatókörnyezeti motorok kiegészítése érdekében a Data Explorer elemzési futtatókörnyezet hatékony naplóelemzésre van optimalizálva hatékony indexelési technológiával, hogy automatikusan indexelje a telemetriai adatokban gyakran előforduló szabad szöveges és félig strukturált adatokat.

Az Azure Synapse architektúrát bemutató ábra.

További információt az alábbi videóban talál:

Mi teszi Azure Synapse Data Explorer egyedivé?

Egyszerű betöltés – Data Explorer beépített integrációkat kínál kód nélküli/alacsony kódszámú, nagy átviteli sebességű adatbetöltéshez és valós idejű forrásokból származó gyorsítótárazáshoz. Az adatok olyan forrásokból is betölthetők, mint a Azure Event Hubs, a Kafka, az Azure Data Lake, nyílt forráskód ügynökök, például a Fluentd/Fluent Bit, valamint a felhőbeli és helyszíni adatforrások széles választéka.
Nincs összetett adatmodellezés – A Data Explorer esetén nincs szükség összetett adatmodellek létrehozására, és nincs szükség összetett szkriptek létrehozására az adatok felhasználásának előtt történő átalakításához.
Nincs indexkarbantartás – Nincs szükség karbantartási feladatokra az adatok lekérdezési teljesítményhez való optimalizálásához, és nincs szükség indexkarbantartásra. A Data Explorer minden nyers adat azonnal elérhető, így nagy teljesítményű és nagy egyidejűségű lekérdezéseket futtathat a streamelési és az állandó adatokon. Ezekkel a lekérdezésekkel közel valós idejű irányítópultokat és riasztásokat hozhat létre, és operatív elemzési adatokat kapcsolhat össze az adatelemzési platform többi részével.
Adatelemzés demokratizálása – Data Explorer demokratizálja az önkiszolgáló big data-elemzést az intuitív Kusto lekérdezésnyelv (KQL), amely az Excel egyszerűségével biztosítja az SQL kifejezőképességét és erejét. A KQL kiválóan optimalizált a nyers telemetriai és idősoros adatok feltárására, Data Explorer legjobb osztályba sorolt szövegindexelési technológiájának felhasználásával hatékony szabadszöveges és regex keresést, valamint átfogó elemzési képességeket kínál nyomkövetési\szöveges adatok és JSON félig strukturált adatok lekérdezéséhez, beleértve a tömböket és a beágyazott struktúrákat. A KQL fejlett idősor-támogatást nyújt több idősor létrehozásához, kezeléséhez és elemzéséhez, a modell pontozásának motoron belüli Python-végrehajtási támogatásával.
Bevált technológia petabájtos skálázás esetén – Data Explorer egy elosztott rendszer számítási erőforrásokkal és tárterületekkel, amelyek egymástól függetlenül skálázhatók, így lehetővé teszik a gigabájtos vagy petabájtos adatok elemzését.
Integrált – a Azure Synapse Analytics az Data Explorer, az Apache Spark és az SQL-motorok közötti interoperabilitást biztosítja, amely lehetővé teszi az adatmérnökök, adatszakértők és adatelemzők számára, hogy könnyen és biztonságosan elérhessék és együttműködjenek ugyanazon adatokon a data lake-ben.

Mikor érdemes használni a Azure Synapse Data Explorer?

A Data Explorer adatplatformként használható közel valós idejű naplóelemzési és IoT-elemzési megoldások létrehozásához a következőkhöz:

Naplói és eseményadatainak összesítése és korrelálása helyszíni, felhőbeli és külső adatforrásokban.
Felgyorsíthatja az AI Ops-folyamatot (mintafelismerés, anomáliadetektálás, előrejelzés stb.).
Cserélje le az infrastruktúra-alapú naplókeresési megoldásokat a költségek megtakarítása és a hatékonyság növelése érdekében.
IoT-elemzési megoldásokat hozhat létre az IoT-adatokhoz.
Elemzési SaaS-megoldásokat hozhat létre, amelyekkel szolgáltatásokat kínálhat a belső és külső ügyfeleknek.

Data Explorer készlet architektúrája

Data Explorer készletek a számítási és tárolási erőforrások elkülönítésével implementálnak egy vertikális felskálázási architektúrát. Ez lehetővé teszi az egyes erőforrások egymástól függetlenül történő skálázását, és például több írásvédett számítás futtatását ugyanazon az adatokon. Data Explorer készletek a motort futtató számítási erőforrások készletéből állnak, amelyek az automatikus indexelésért, tömörítésért, gyorsítótárazásért és elosztott lekérdezések kiszolgálásáért felelősek. Emellett rendelkeznek egy második számítási erőforráskészlettel is, amely a háttérrendszer-feladatokért felelős adatkezelési szolgáltatást, valamint felügyelt és várólistára helyezett adatbetöltést futtat. A felügyelt Blob Storage-fiókokban az összes adat tömörített oszlopos formátumban marad meg.

Data Explorer készletek gazdag ökoszisztémát támogatnak az adatok összekötők, SDK-k, REST API-k és egyéb felügyelt képességek használatával történő betöltéséhez. Különböző módokon használható az adatok alkalmi lekérdezésekhez, jelentésekhez, irányítópultokhoz, riasztásokhoz, REST API-khoz és SDK-khoz.

Data Explorer készletek architektúrája

Számos egyedi képesség teszi a Data Explore-t a napló- és idősorozat-elemzések legjobb elemzési motorjának az Azure-ban.

Az alábbi szakaszok a fő különbségítőket emelik ki.

A szabadszöveges és félig strukturált adatindexelés közel valós idejű, nagy teljesítményű és nagy egyidejű lekérdezéseket tesz lehetővé

Data Explorer a részben strukturált adatokat (JSON) és strukturálatlan adatokat (szabad szöveg) indexeli, így a futó lekérdezések jól teljesítenek az ilyen típusú adatokon. Alapértelmezés szerint minden mező indexelve lesz az adatbetöltés során, és egy alacsony szintű kódolási szabályzat használatával finomhangolhatja vagy letilthatja az adott mezők indexét. Az index hatóköre egyetlen adats szegmens.

Az index megvalósítása a mező típusától függ, az alábbiak szerint:

Mező típusa	Indexelés implementációja
Sztring	A motor egy fordított kifejezésindexet hoz létre a sztringoszlop értékeihez. Az egyes sztringértékeket a rendszer normalizált kifejezésekre osztja fel, és a rendszer minden kifejezéshez rögzíti a logikai pozíciók rendezett listáját, amely rekord-sorszámokat tartalmaz. Az eredményként kapott rendezett kifejezések listája és a hozzájuk tartozó pozícióik nem módosítható B-faként vannak tárolva.
Numerikus Dátum/idő Időtartomány	A motor egy egyszerű tartományalapú továbbítási indexet hoz létre. Az index rögzíti az egyes blokkok minimális/maximális értékeit, a blokkok egy csoportját és az adats szegmensen belüli teljes oszlopot.
Dinamikus	A betöltési folyamat felsorolja a dinamikus érték összes "atomi" elemét, például a tulajdonságneveket, az értékeket és a tömbelemeket, és továbbítja őket az indexszerkesztőnek. A dinamikus mezők invertált kifejezésindexe megegyezik a sztringmezőkével.

Ezek a hatékony indexelési képességek lehetővé teszik, hogy a Data Explore közel valós időben elérhetővé tegye az adatokat a nagy teljesítményű és nagy egyidejűségű lekérdezésekhez. A rendszer automatikusan optimalizálja az adatszilánkokat a teljesítmény további növelése érdekében.

Kusto Query Language

A KQL nagy, növekvő közösséggel rendelkezik az Azure Monitor Log Analytics és az Application Insights, a Microsoft Sentinel, az Azure Data Explorer és más Microsoft-ajánlatok gyors elfogadásával. A nyelv jól megtervezett, könnyen olvasható szintaxissal rendelkezik, és zökkenőmentes átmenetet biztosít az egyszerű egy vonalzóról az összetett adatfeldolgozási lekérdezésekre. Ez lehetővé teszi, hogy Data Explorer gazdag Intellisense-támogatást, valamint számos olyan nyelvi szerkezetet és beépített képességeket biztosítson az összesítésekhez, idősorokhoz és felhasználói elemzésekhez, amelyek nem érhetők el az SQL-ben a telemetriai adatok gyors feltárásához.