Query's uitvoeren op gegevens in Azure Data Lake met behulp van Azure Data Explorer

Azure Data Lake Storage is een zeer schaalbare en rendabele data lake-oplossing voor big data-analyses. Het combineert de kracht van een bestandssysteem met hoge prestaties met enorme schaal en economie om u te helpen uw tijd tot inzicht te beperken. Data Lake Storage Gen2 breidt Azure Blob Storage mogelijkheden uit en is geoptimaliseerd voor analyseworkloads.

Azure Data Explorer integreert met Azure Blob Storage en Azure Data Lake Storage (Gen1 en Gen2), waardoor snelle, in de cache opgeslagen en geïndexeerde toegang wordt geboden tot gegevens die zijn opgeslagen in externe opslag. U kunt gegevens analyseren en opvragen zonder voorafgaande opname in Azure Data Explorer. U kunt ook tegelijkertijd query's uitvoeren op opgenomen en niet-opgenomen externe gegevens. Zie voor meer informatie hoe u een externe tabel kunt maken met behulp van de wizard in de webgebruikersinterface van Azure Data Explorer. Zie externe tabellen voor een kort overzicht.

Aanbeveling

De beste queryprestaties vereisen gegevensopname in Azure Data Explorer. De mogelijkheid om externe gegevens op te vragen zonder voorafgaande opname, mag alleen worden gebruikt voor historische gegevens of gegevens die zelden worden opgevraagd. Optimaliseer de prestaties van uw externe gegevensquery voor de beste resultaten.

Een externe tabel maken

Stel dat u veel CSV-bestanden hebt met historische informatie over producten die zijn opgeslagen in een magazijn en u een snelle analyse wilt uitvoeren om de vijf populairste producten van vorig jaar te vinden. In dit voorbeeld zien de CSV-bestanden er als volgt uit:

Tijdstempel	Product-ID	Productbeschrijving
2019-01-01 11:21:00	TO6050	3.5in DS/HD Diskette
2019-01-01 11:30:55	YDX1	Yamaha DX1 Synthesizer
...	...	...

De bestanden worden opgeslagen in Azure Blob Storage mycompanystorage onder een container met de naam archivedproducts, gepartitioneerd op datum:

https://mycompanystorage.blob.core.windows.net/archivedproducts/2019/01/01/part-00000-7e967c99-cf2b-4dbb-8c53-ce388389470d.csv.gz
https://mycompanystorage.blob.core.windows.net/archivedproducts/2019/01/01/part-00001-ba356fa4-f85f-430a-8b5a-afd64f128ca4.csv.gz
https://mycompanystorage.blob.core.windows.net/archivedproducts/2019/01/01/part-00002-acb644dc-2fc6-467c-ab80-d1590b23fc31.csv.gz
https://mycompanystorage.blob.core.windows.net/archivedproducts/2019/01/01/part-00003-cd5fad16-a45e-4f8c-a2d0-5ea5de2f4e02.csv.gz
https://mycompanystorage.blob.core.windows.net/archivedproducts/2019/01/02/part-00000-ffc72d50-ff98-423c-913b-75482ba9ec86.csv.gz
...

Als u een KQL-query rechtstreeks op deze CSV-bestanden wilt uitvoeren, gebruikt u de opdracht .create external table om een externe tabel in Azure Data Explorer te definiëren. Zie opdrachten voor externe tabellen maken voor meer informatie over opdrachtopties voor het maken van externe tabellen.

.create external table ArchivedProducts(Timestamp:datetime, ProductId:string, ProductDescription:string)
kind=blob
partition by (Date:datetime = bin(Timestamp, 1d))
dataformat=csv
(
  h@'https://mycompanystorage.blob.core.windows.net/archivedproducts;StorageSecretKey'
)

De externe tabel is nu zichtbaar in het linkerdeelvenster van de Azure Data Explorer webgebruikersinterface:

Schermafbeelding met externe tabel in Azure Data Explorer webinterface.

Machtigingen voor externe tabellen

Bekijk de volgende tabelmachtigingen:

De databasegebruiker kan een externe tabel maken. De maker van de tabel wordt automatisch de tabelbeheerder.
De beheerder van het cluster, de database of de tabel kan een bestaande tabel bewerken.
Elke databasegebruiker of lezer kan een query uitvoeren op een externe tabel.

Een query uitvoeren op een externe tabel

Zodra een externe tabel is gedefinieerd, kan de external_table() functie worden gebruikt om ernaar te verwijzen. De rest van de query is standaard Kusto-querytaal.

external_table("ArchivedProducts")
| where Timestamp > ago(365d)
| summarize Count=count() by ProductId,
| top 5 by Count

Het tegelijkertijd doorzoeken van externe en geïntegreerde gegevens

U kunt zowel externe tabellen als opgenomen gegevenstabellen in dezelfde query opvragen. U kunt join of union de externe tabel met andere gegevens uit Azure Data Explorer, SQL-servers of andere bronnen. Gebruik a let( ) statement om een verkorte naam toe te wijzen aan een externe tabelreferentie.

In het onderstaande voorbeeld is Products een opgenomen gegevenstabel en ArchivedProducts is een externe tabel die we hebben gedefinieerd:

let T1 = external_table("ArchivedProducts") |  where TimeStamp > ago(100d);
let T = Products; //T is an internal table
T1 | join T on ProductId | take 10

Query's uitvoeren op hiërarchische gegevensindelingen

Azure Data Explorer kunt u query's uitvoeren op hiërarchische indelingen, zoals JSON, Parquet, Avro en ORC. Als u een hiërarchisch gegevensschema wilt toewijzen aan een extern tabelschema (als dit anders is), gebruikt u opdrachten voor externe tabeltoewijzingen. Als u bijvoorbeeld query's wilt uitvoeren op JSON-logboekbestanden met de volgende indeling:

{
  "timestamp": "2019-01-01 10:00:00.238521",
  "data": {
    "tenant": "aaaabbbb-0000-cccc-1111-dddd2222eeee",
    "method": "RefreshTableMetadata"
  }
}
{
  "timestamp": "2019-01-01 10:00:01.845423",
  "data": {
    "tenant": "bbbbcccc-1111-dddd-2222-eeee3333ffff",
    "method": "GetFileList"
  }
}
...

De definitie van de externe tabel ziet er als volgt uit:

.create external table ApiCalls(Timestamp: datetime, TenantId: guid, MethodName: string)
kind=blob
dataformat=multijson
(
   h@'https://storageaccount.blob.core.windows.net/container1;StorageSecretKey'
)

Definieer een JSON-toewijzing waarmee gegevensvelden worden toegewezen aan externe tabeldefinitievelden:

.create external table ApiCalls json mapping 'MyMapping' '[{"Column":"Timestamp","Properties":{"Path":"$.timestamp"}},{"Column":"TenantId","Properties":{"Path":"$.data.tenant"}},{"Column":"MethodName","Properties":{"Path":"$.data.method"}}]'

Wanneer u een query uitvoert op de externe tabel, wordt de toewijzing aangeroepen en worden relevante gegevens toegewezen aan de kolommen van de externe tabel:

external_table('ApiCalls') | take 10

Zie gegevenstoewijzingenvoor meer informatie over de syntaxis van toewijzingen.

Externe tabel Query TaxiRides in het Help-cluster

Gebruik het testcluster help om verschillende Azure Data Explorer mogelijkheden uit te proberen. Het Help-cluster bevat een externe tabeldefinitie voor een gegevensset voor taxi's in New York met miljarden taxiritten.

Maak externe tabel TaxiRides

In deze sectie ziet u de query die wordt gebruikt voor het maken van de externe tabel TaxiRides in het Help-cluster . Omdat u deze tabel al hebt gemaakt, kunt u deze sectie overslaan en rechtstreeks naar de externe tabelgegevens van TaxiRides gaan.

.create external table TaxiRides
(
  trip_id: long,
  vendor_id: string,
  pickup_datetime: datetime,
  dropoff_datetime: datetime,
  store_and_fwd_flag: string,
  rate_code_id: int,
  pickup_longitude: real,
  pickup_latitude: real,
  dropoff_longitude: real,
  dropoff_latitude: real,
  passenger_count: int,
  trip_distance: real,
  fare_amount: real,
  extra: real,
  mta_tax: real,
  tip_amount: real,
  tolls_amount: real,
  ehail_fee: real,
  improvement_surcharge: real,
  total_amount: real,
  payment_type: string,
  trip_type: int,
  pickup: string,
  dropoff: string,
  cab_type: string,
  precipitation: int,
  snow_depth: int,
  snowfall: int,
  max_temperature: int,
  min_temperature: int,
  average_wind_speed: int,
  pickup_nyct2010_gid: int,
  pickup_ctlabel: string,
  pickup_borocode: int,
  pickup_boroname: string,
  pickup_ct2010: string,
  pickup_boroct2010: string,
  pickup_cdeligibil: string,
  pickup_ntacode: string,
  pickup_ntaname: string,
  pickup_puma: string,
  dropoff_nyct2010_gid: int,
  dropoff_ctlabel: string,
  dropoff_borocode: int,
  dropoff_boroname: string,
  dropoff_ct2010: string,
  dropoff_boroct2010: string,
  dropoff_cdeligibil: string,
  dropoff_ntacode: string,
  dropoff_ntaname: string,
  dropoff_puma: string
)
kind=blob
partition by (Date:datetime = bin(pickup_datetime, 1d))
dataformat=csv
(
    h@'https://storageaccount.blob.core.windows.net/container1;secretKey'
)

U vindt de gemaakte tabel TaxiRides door naar het linkerdeelvenster van de Azure Data Explorer webgebruikersinterface te kijken.

TaxiRides externe tabelgegevens opvragen

Meld u aan bij https://dataexplorer.azure.com/clusters/help/databases/Samples.

Query TaxiRides externe tabel zonder partitionering

Voer deze query uit op de externe tabel TaxiRides om ritten weer te geven voor elke dag van de week, in de hele gegevensset.

external_table("TaxiRides")
| summarize count() by dayofweek(pickup_datetime)
| render columnchart

Deze query toont de drukste dag van de week. Omdat de gegevens niet zijn gepartitioneerd, kan het enkele minuten duren voordat de query resultaten retourneert.

Grafiekweergave om niet-gepartitioneerde query weer te geven.

Query TaxiRides externe tabel met partitionering

Voer deze query uit op de externe tabel TaxiRides om taxitypen (geel of groen) weer te geven die in januari 2017 worden gebruikt.

external_table("TaxiRides")
| where pickup_datetime between (datetime(2017-01-01) .. datetime(2017-02-01))
| summarize count() by cab_type
| render piechart

Deze query maakt gebruik van partitionering, waarmee de querytijd en prestaties worden geoptimaliseerd. De query filtert op een gepartitioneerde kolom (pickup_datetime) en levert resultaten in een paar seconden.

Diagram voor het weergeven van een gepartitioneerde query.

U kunt andere query's schrijven die u kunt uitvoeren op de externe tabel TaxiRides en meer over de gegevens te leren.

Uw queryprestaties optimaliseren

Optimaliseer uw queryprestaties in het lake met behulp van de volgende aanbevolen procedures voor het uitvoeren van query's op externe gegevens.

Gegevensopmaak

Gebruik om de volgende redenen een kolomindeling voor analytische query's:
- Alleen de kolommen die relevant zijn voor een query, kunnen worden gelezen.
- Met kolomcoderingstechnieken kan de gegevensgrootte aanzienlijk worden verkleind.
Azure Data Explorer ondersteunt Parquet- en ORC-kolomindelingen. Parquet-indeling wordt voorgesteld vanwege geoptimaliseerde implementatie.

Azure regio

Controleer of externe gegevens zich in dezelfde Azure regio bevinden als uw Azure Data Explorer cluster. Met deze installatie worden kosten en tijd voor het ophalen van gegevens verminderd.

Bestandsgrootte

De optimale bestandsgrootte is honderden mb (maximaal 1 GB) per bestand. Vermijd veel kleine bestanden waarvoor onnodige overhead is vereist, zoals een trager proces voor het inventariseren van bestanden en een beperkt gebruik van de kolomindeling. Het aantal bestanden moet groter zijn dan het aantal CPU-kernen in uw Azure Data Explorer-cluster.

Compressie

Gebruik compressie om de hoeveelheid gegevens die worden opgehaald uit de externe opslag te verminderen. Voor Parquet-indeling gebruikt u het interne Parquet-compressiemechanisme waarmee kolomgroepen afzonderlijk worden gecomprimeerd, zodat u ze afzonderlijk kunt lezen. Als u het gebruik van het compressiemechanisme wilt valideren, controleert u of de bestanden de volgende namen hebben: <bestandsnaam>.gz.parquet of <bestandsnaam.snappy.parquet> en niet <bestandsnaam>.parquet.gz.

Partitie

Organiseer uw gegevens met behulp van mappartities waarmee de query irrelevante paden kan overslaan. Houd bij het plannen van partitionering rekening met de bestandsgrootte en algemene filters in uw query's, zoals tijdstempel of tenant-id.

VM-grootte

Selecteer VM-SKU's met meer kernen en hogere netwerkdoorvoer (geheugen is minder belangrijk). Zie Selecteer de juiste VM-SKU voor uw Azure Data Explorer-cluster voor meer informatie.

Handleiding: Leren van veelgebruikte KQL-operators

Feedback

Is deze pagina nuttig?

Last updated on 2026-04-12