Wat is Azure Synapse Data Explorer? (Preview)

Artikel
09/08/2023

Azure Synapse Data Explorer biedt klanten een interactieve query-ervaring om inzichten uit logboek- en telemetriegegevens te ontgrendelen. Als aanvulling op bestaande SQL- en Apache Spark-analyseruntime-engines is de Data Explorer analytics-runtime geoptimaliseerd voor efficiënte loganalyses met behulp van krachtige indexeringstechnologie voor het automatisch indexeren van vrije tekst en semi-gestructureerde gegevens die vaak in telemetriegegevens worden aangetroffen.

Diagram met de Azure Synapse-architectuur.

Zie de volgende video voor meer informatie:

Wat maakt Azure Synapse Data Explorer uniek?

Eenvoudige opname: Data Explorer biedt ingebouwde integraties voor gegevensopname zonder code/weinig code, gegevensopname met hoge doorvoer en het opslaan van gegevens uit realtime bronnen in de cache. Gegevens kunnen worden opgenomen uit bronnen zoals Azure Event Hubs, Kafka, Azure Data Lake, open source agents zoals Fluentd/Fluent Bit en een groot aantal gegevensbronnen in de cloud en on-premises.
Geen complexe gegevensmodellering: met Data Explorer hoeft u geen complexe gegevensmodellen te bouwen en hoeft u geen complexe scripting uit te voeren om gegevens te transformeren voordat deze worden gebruikt.
Geen indexonderhoud : er zijn geen onderhoudstaken nodig om gegevens voor queryprestaties te optimaliseren en er is geen indexonderhoud nodig. Met Data Explorer zijn alle onbewerkte gegevens onmiddellijk beschikbaar, zodat u query's met hoge prestaties en hoge gelijktijdigheid kunt uitvoeren op uw streaming- en permanente gegevens. U kunt deze query's gebruiken om bijna realtime dashboards en waarschuwingen te maken en operationele analysegegevens te verbinden met de rest van het gegevensanalyseplatform.
Gegevensanalyse democratiseren: Data Explorer democratiseert selfservice, big data-analyse met de intuïtieve Kusto-querytaal (KQL) die de expressiviteit en kracht van SQL biedt met de eenvoud van Excel. KQL is sterk geoptimaliseerd voor het verkennen van onbewerkte telemetrie- en tijdreeksgegevens door gebruik te maken van de beste tekstindexeringstechnologie van Data Explorer voor efficiënt zoeken in vrije tekst en regex, en uitgebreide parseermogelijkheden voor het uitvoeren van query's op traceringen\tekstgegevens en JSON semi-gestructureerde gegevens, inclusief matrices en geneste structuren. KQL biedt geavanceerde ondersteuning voor tijdreeksen voor het maken, bewerken en analyseren van meerdere tijdreeksen met ondersteuning voor python-uitvoering in de engine voor het scoren van modellen.
Bewezen technologie op petabyteschaal: Data Explorer is een gedistribueerd systeem met rekenresources en opslag dat onafhankelijk kan worden geschaald, waardoor analyses op gigabytes of petabytes aan gegevens mogelijk zijn.
Geïntegreerd: Azure Synapse Analytics biedt interoperabiliteit tussen gegevens tussen Data Explorer, Apache Spark en SQL-engines, waardoor data engineers, gegevenswetenschappers en gegevensanalisten eenvoudig en veilig dezelfde gegevens in de data lake kunnen openen en eraan kunnen samenwerken.

Wanneer gebruikt u Azure Synapse Data Explorer?

Gebruik Data Explorer als een gegevensplatform voor het bouwen van bijna realtime logboekanalyse- en IoT-analyseoplossingen voor het volgende:

Consolideer en correleer uw logboek- en gebeurtenisgegevens in on-premises, cloud- en gegevensbronnen van derden.
Versnel uw AI Ops-traject (patroonherkenning, anomaliedetectie, prognoses en meer).
Vervang oplossingen voor zoeken in logboeken op basis van infrastructuur om kosten te besparen en de productiviteit te verhogen.
Bouw IoT-analyseoplossingen voor uw IoT-gegevens.
Bouw SaaS-oplossingen voor analyse om services aan te bieden aan uw interne en externe klanten.

Data Explorer-poolarchitectuur

Data Explorer pools implementeren een uitschaalarchitectuur door de reken- en opslagresources te scheiden. Hierdoor kunt u elke resource onafhankelijk schalen en bijvoorbeeld meerdere alleen-lezen berekeningen uitvoeren op dezelfde gegevens. Data Explorer pools bestaan uit een set rekenresources waarop de engine wordt uitgevoerd en die verantwoordelijk is voor het automatisch indexeren, comprimeren, opslaan in de cache en het verwerken van gedistribueerde query's. Ze hebben ook een tweede set rekenresources waarop de gegevensbeheerservice wordt uitgevoerd die verantwoordelijk is voor systeemtaken op de achtergrond, en beheerde gegevensopname en gegevensopname in de wachtrij. Alle gegevens worden opgeslagen in beheerde blobopslagaccounts met behulp van een gecomprimeerde kolomindeling.

Data Explorer pools ondersteunen een uitgebreid ecosysteem voor het opnemen van gegevens met behulp van connectors, SDK's, REST API's en andere beheerde mogelijkheden. Het biedt verschillende manieren om gegevens te gebruiken voor ad-hocquery's, rapporten, dashboards, waarschuwingen, REST API's en SDK's.

architectuur van Data Explorer pools

Er zijn veel unieke mogelijkheden waardoor Data Explore de beste analytische engine is voor logboek- en tijdreeksanalyse in Azure.

In de volgende secties worden de belangrijkste differentiators gemarkeerd.

Vrije tekst en semi-gestructureerde gegevensindexering maakt bijna realtime query's met hoge prestaties en gelijktijdige query's mogelijk

Data Explorer indexeert semi-gestructureerde gegevens (JSON) en ongestructureerde gegevens (vrije tekst), waardoor actieve query's goed presteren op dit type gegevens. Standaard wordt elk veld geïndexeerd tijdens de gegevensopname met de optie om een coderingsbeleid op laag niveau te gebruiken om de index voor specifieke velden te verfijnen of uit te schakelen. Het bereik van de index is één gegevensshard.

De implementatie van de index is als volgt afhankelijk van het type veld:

Veldtype	Indexerings-implementatie
Tekenreeks	De engine bouwt een omgekeerde termenindex voor tekenreekskolomwaarden. Elke tekenreekswaarde wordt geanalyseerd en opgesplitst in genormaliseerde termen en voor elke term wordt een geordende lijst met logische posities vastgelegd, met daarin record-ordinalen. De resulterende gesorteerde lijst met termen en de bijbehorende posities wordt opgeslagen als een onveranderbare B-structuur.
Numeriek Datum/tijd Tijdspanne	De engine bouwt een eenvoudige, op bereik gebaseerde voorwaartse index. De index registreert de min/max-waarden voor elk blok, voor een groep blokken en voor de hele kolom in de gegevensshard.
Dynamisch	Het opnameproces inventariseert alle 'atomische' elementen in de dynamische waarde, zoals eigenschapsnamen, waarden en matrixelementen, en stuurt deze door naar de opbouwfunctie voor indexen. Dynamische velden hebben dezelfde omgekeerde termindex als tekenreeksvelden.

Dankzij deze efficiënte indexeringsmogelijkheden kan Data Explore de gegevens in bijna realtime beschikbaar maken voor query's met hoge prestaties en gelijktijdigheid. Het systeem optimaliseert automatisch gegevensshards om de prestaties verder te verbeteren.

Kusto-querytaal

KQL heeft een grote, groeiende community met de snelle acceptatie van Azure Monitor Log Analytics en Application Insights, Microsoft Sentinel, Azure Data Explorer en andere Microsoft-aanbiedingen. De taal is goed ontworpen met een gemakkelijk te lezen syntaxis en biedt een soepele overgang van eenvoudige one-liner-query's naar complexe gegevensverwerkingsquery's. Hierdoor kunnen Data Explorer uitgebreide IntelliSense-ondersteuning bieden, een uitgebreide set taalconstructies en ingebouwde mogelijkheden voor aggregaties, tijdreeksen en gebruikersanalyses die niet beschikbaar zijn in SQL voor snelle verkenning van telemetriegegevens.

Share via