Hoe Azure Data Explorer werkt

Artikel
01/16/2024

Azure Data Explorer biedt ongeëvenaarde prestaties voor het opnemen en opvragen van telemetrie, logboeken, gebeurtenissen, traceringen en tijdreeksgegevens. Het beschikt over geoptimaliseerde opslagindelingen, indexen en maakt gebruik van geavanceerde gegevensstatistieken voor efficiënte queryplanning en just-in-time gecompileerde query-uitvoering.

Opslag versus rekenkracht

Azure Data Explorer scheidt opslag- en rekenresources. Permanente gegevens bevinden zich in Azure Blob Storage, terwijl rekenresources tijdelijke gegevens kunnen opslaan of kunnen fungeren als een cache voor permanente opslag.

Deze scheiding biedt de volgende voordelen:

Onafhankelijk uitschalen van opslag- en rekenresources.
Toegankelijkheid voor identieke gegevens in meerdere rekenclusters. Zie Gegevensshare voor meer informatie.
SKU-optimalisatie. Zie Een SKU voor uw cluster selecteren voor meer informatie.

Gegevensopslag

Azure Data Explorer partitioneert alle opgenomen gegevens in gebieden of gegevensshards. Dit zijn horizontale segmenten van de doeltabel. Een gebied kan zo klein beginnen als één record. Naarmate gegevens zich in de tabel ophopen, worden in Azure Data Explorer automatisch gebieden samengevoegd totdat ze miljoenen records omvatten. Elk gebied wordt onafhankelijk van andere gebieden gecodeerd en geïndexeerd. Deze functionaliteit draagt bij aan de lineaire schaal van de opnamedoorvoer.

Gebieden worden gelijkmatig verdeeld over clusterknooppunten, waar ze zowel op de lokale SSD als in het geheugen in de cache worden opgeslagen. Deze distributie verbetert de capaciteit om sterk gedistribueerde en parallelle query's voor te bereiden en uit te voeren.

Zie Overzicht van gebieden voor meer informatie over gegevensopslag.

Notitie

Azure Data Explorer behoudt ook essentiële metagegevens, zoals tabelschema's en beleidsobjecten. Zie Overzicht van beleidsregels voor een lijst met beleidsregels.

Gegevenscache

Azure Data Explorer heeft een gegevenscachesysteem met meerdere hiërarchieën om ervoor te zorgen dat de meest relevante gegevens zo dicht mogelijk bij de CPU in de cache worden opgeslagen. Het cachesysteem is afhankelijk van de onveranderbaarheid van gebieden en werkt volledig met gecomprimeerde gegevens. Om de queryprestaties te verbeteren, blijven gegevens gecomprimeerd, zelfs in het RAM-geheugen en worden ze alleen gedecomprimeerd wanneer dat nodig is voor een query.

Zie Cachebeleid voor meer informatie over caching.

Tekstindexering

Azure Data Explorer is ontworpen om vrije tekst (tekenreeks) en JSON-achtige (dynamische) kolommen efficiënt te indexeren wanneer gegevens worden opgenomen. De indexen handhaven een granulariteitsniveau dat evaluatie van onderdelen van de query op basis van de index mogelijk maakt zonder de gegevens te scannen.

Continue achtergrondoptimalisatie van gebieden door samenvoegen verbetert de compressie en indexering, waardoor efficiënte opslag en lage querylatentie worden gegarandeerd. Zodra gebieden een bepaalde grootte bereiken, worden alleen de indexen samengevoegd om de queryprestaties te verbeteren zonder dat dit ten koste gaat van de efficiëntie.

Zie Beleid samenvoegen voor meer informatie over het samenvoegen van gebieden en indexen.

Rijarchief

Azure Data Explorer biedt een tussenliggende opslagoplossing met de naam row store. Rijenarchief maakt het efficiënt opnemen van kleine hoeveelheden gegevens mogelijk en zorgt ervoor dat deze gegevens onmiddellijk beschikbaar zijn voor query's. Wanneer u streamingopname in uw cluster inschakelt, worden gegevens in eerste instantie opgenomen in rijopslag en vervolgens verplaatst naar kolomopslagbereiken.

Zie Batching versus streaming-opname voor meer informatie.

Kolomcompressie

Azure Data Explorer onderhoudt gegevens in een gecomprimeerde toestand, waardoor de hoeveelheid geheugen die nodig is voor het opslaan en verwerken van gegevens wordt verminderd. Dit gedrag resulteert in snellere queryprestaties en een efficiënter gebruik van systeembronnen.

Azure Data Explorer vermijdt verticale compressie, waarbij gegevens moeten worden gesorteerd om de compressie te verbeteren, vanwege de hoge CPU-kosten in scenario's met vrije tekst of semi-gestructureerde gegevens. In plaats daarvan kunt u de gewenste sorteervolgorde voor gegevens opgeven voor scenario's met dominante querypatronen. Deze afweging geeft prioriteit aan snelle beschikbaarheid van gegevens voor query's.

Zie Beleid voor rijvolgorde voor meer informatie over het opgeven van de gegevenssorteervolgorde.

Gedistribueerde gegevensquery

Azure Data Explorer maakt gebruik van gedistribueerde gegevensquerytechnologie die is bedoeld voor snelle ad-hocanalyses voor grote ongestructureerde gegevenssets. Belangrijke functies van deze technologie zijn onder andere:

Door query's gegenereerde tijdelijke gegevens worden opgeslagen in geaggregeerd RAM-geheugen
Relevante gebieden worden gemarkeerd in een queryplan, wat isolatie van momentopnamen biedt
Snelle en efficiënte query's krijgen prioriteit met korte standaardtime-outs
Systeemeigen ondersteuning voor query's tussen clusters die de uitwisseling van gegevens tussen clusters minimaliseren
Query's worden Just-In-Time gecompileerd in zeer efficiënte machinecode, met behulp van gegevensstatistieken uit alle gebieden en afgestemd op de specifieke kenmerken van kolomcodering

Notitie

Azure Data Explorer is ontworpen om te werken met de Kusto-querytaal (KQL), aangepast voor Azure Data Explorer. Daarnaast wordt T-SQL ondersteund.

Een Azure Data Explorer-cluster en -database maken

Delen via

Hoe Azure Data Explorer werkt

Opslag versus rekenkracht

Gegevensopslag

Gegevenscache

Tekstindexering

Rijarchief

Kolomcompressie

Gedistribueerde gegevensquery

Feedback

Aanvullende resources

Delen via

Hoe Azure Data Explorer werkt

Opslag versus rekenkracht

Gegevensopslag

Gegevenscache

Tekstindexering

Rijarchief

Kolomcompressie

Gedistribueerde gegevensquery

Gerelateerde inhoud

Feedback

Aanvullende resources