Så här fungerar Azure Data Explorer

Artikel
01/16/2024

Azure Data Explorer ger oöverträffade prestanda för att mata in och köra frågor mot telemetri, loggar, händelser, spårningar och tidsseriedata. Den har optimerade lagringsformat, index och använder avancerad datastatistik för effektiv frågeplanering och just-in-time-kompilerad frågekörning.

Lagring jämfört med beräkning

Azure Data Explorer separerar lagrings- och beräkningsresurser. Beständiga data finns i Azure Blob Storage, medan beräkningsresurser kan lagra temporära data eller fungera som en cache för beständig lagring.

Den här separationen ger följande fördelar:

Oberoende utskalning av lagrings- och beräkningsresurser.
Tillgänglighet till identiska data i flera beräkningskluster. Mer information finns i Dataresurs.
SKU-optimering. Mer information finns i Välj en SKU för klustret.

Datalagring

Azure Data Explorer partitioner alla inmatade data i utrymmen, eller datashards, som är vågräta sektorer i måltabellen. Ett utrymme kan börja så litet som en enda post. När data ackumuleras i tabellen sammanfogar Azure Data Explorer automatiskt utrymmena tills de växer till miljontals poster. Varje utrymme kodas och indexeras oberoende av andra utrymmen. Den här funktionen bidrar till linjär skalning i dataflödet för inmatning.

Utrymmena är jämnt fördelade över klusternoder, där de cachelagras både på den lokala SSD:en och i minnet. Den här distributionen förbättrar kapaciteten för att förbereda och köra distribuerade och parallella frågor.

Mer information om datalagring finns i Översikt över utrymmen.

Anteckning

Azure Data Explorer behåller även viktiga metadata, till exempel tabellscheman och principobjekt. En lista över principer finns i Översikt över principer.

Datacache

Azure Data Explorer har ett datacachesystem med flera hierarkier för att säkerställa att de mest relevanta data cachelagras så nära processorn som möjligt. Cachesystemet är beroende av oföränderlighet i utrymmen och fungerar helt och hållet med komprimerade data. För att förbättra frågeprestandan förblir data komprimerade även i RAM-minnet och dekomprimeras bara när det behövs för en fråga.

Mer information om cachelagring finns i Cacheprincip.

Textindexering

Azure Data Explorer är utformat för att effektivt indexering av fritextkolumner (sträng) och JSON-liknande (dynamiska) kolumner när data matas in. Indexen har en kornighetsnivå som möjliggör utvärdering av delar av frågan baserat på indexet utan att data genomsöks.

Kontinuerlig bakgrundsoptimering av utrymmen genom sammanslagning förbättrar komprimering och indexering, vilket säkerställer effektiv lagring och låg frågesvarstid. När utrymmena når en viss storlek sammanfogas endast indexen för att förbättra frågeprestanda utan att påverka effektiviteten.

Mer information om sammanslagning av omfattning och index finns i Sammanslagningsprincip.

Radarkiv

Azure Data Explorer erbjuder en mellanliggande lagringslösning som kallas radlagring. Radlagring möjliggör effektivt intag av små delar av data och säkerställer att dessa data är omedelbart tillgängliga för frågor. När du aktiverar direktuppspelningsinmatning i klustret matas data först in i radlagringen och flyttas sedan till kolumnlagringens utrymmen.

Mer information finns i Batchbearbetning jämfört med strömningsinmatning.

Kolumnkomprimering

Azure Data Explorer underhåller data i ett komprimerat tillstånd, vilket minskar mängden minne som krävs för att lagra och bearbeta data. Det här beteendet resulterar i snabbare frågeprestanda och effektivare användning av systemresurser.

Azure Data Explorer undviker vertikal komprimering, vilket inbegriper sortering av data för att förbättra komprimering, på grund av den höga CPU-kostnaden i scenarier med fri text eller halvstrukturerade data. I stället kan du ange önskad datasorteringsordning för scenarier med dominerande frågemönster. Den här kompromissen prioriterar snabb datatillgänglighet för frågor.

Mer information om hur du anger datasorteringsordning finns i Radordningsprincip.

Distribuerad datafråga

Azure Data Explorer använder distribuerad datafrågeteknik avsedd för snabb ad hoc-analys på stora ostrukturerade datamängder. Viktiga funktioner i den här tekniken är:

Frågegenererade tillfälliga data lagras i aggregerat RAM-minne
Relevanta utrymmen markeras i en frågeplan, vilket ger ögonblicksbildisolering
Snabba och effektiva frågor prioriteras med korta standardtidsgränsvärden
Inbyggt stöd för frågor mellan kluster som minimerar datautbyte mellan kluster
Frågor kompileras just-in-time till mycket effektiv maskinkod, med hjälp av datastatistik från alla utrymmen och skräddarsydda för kolumnkodningsspecifika uppgifter

Anteckning

Azure Data Explorer är utformat för att fungera med Kusto-frågespråk (KQL) som är specialbyggd för Azure Data Explorer. Dessutom stöds T-SQL .

Skapa ett Azure Data Explorer-kluster och en databas

Dela via

Så här fungerar Azure Data Explorer

Lagring jämfört med beräkning

Datalagring

Datacache

Textindexering

Radarkiv

Kolumnkomprimering

Distribuerad datafråga

Feedback

Ytterligare resurser

Dela via

Så här fungerar Azure Data Explorer

Lagring jämfört med beräkning

Datalagring

Datacache

Textindexering

Radarkiv

Kolumnkomprimering

Distribuerad datafråga

Relaterat innehåll

Feedback

Ytterligare resurser