Overzicht van gegevensopname in Azure Data Explorer
Gegevensopname omvat het laden van gegevens in een tabel in uw cluster. Azure Data Explorer zorgt voor de geldigheid van gegevens, converteert indelingen naar behoefte en voert bewerkingen uit zoals schemakoppeling, organisatie, indexering, codering en compressie. Zodra de gegevens zijn opgenomen, zijn deze beschikbaar voor query's.
Azure Data Explorer biedt eenmalige opname of de instelling van een pijplijn voor continue opname, met behulp van streaming of opname in de wachtrij. Zie Eenmalige gegevensopname en Continue gegevensopname om te bepalen welke voor u geschikt is.
Notitie
Gegevens worden bewaard in de opslag volgens het ingestelde bewaarbeleid.
Eenmalige gegevensopname
Eenmalige opname is handig voor de overdracht van historische gegevens, het invullen van ontbrekende gegevens en de eerste fasen van prototyping en gegevensanalyse. Deze aanpak maakt snelle gegevensintegratie mogelijk zonder dat er een doorlopende pijplijntoezegging nodig is.
Er zijn meerdere manieren om eenmalige gegevensopname uit te voeren. Gebruik de volgende beslissingsstructuur om de meest geschikte optie voor uw use-case te bepalen:
Zie de relevante documentatie voor meer informatie:
Bijschrift | Relevante documentatie |
---|---|
Zie de gegevensindelingen die worden ondersteund door Azure Data Explorer voor opname. | |
Zie de ondersteunde bestandsindelingen voor Azure Data Factory pijplijnen. | |
Zie Historische gegevens opnemen in Azure Data Explorer als u gegevens wilt importeren uit een bestaand opslagsysteem. | |
In de webinterface van Azure Data Explorer kunt u gegevens ophalen uit een lokaal bestand, Amazon S3 of Azure Storage. | |
Zie Gegevens kopiëren naar Azure Data Explorer met behulp van Azure Data Factory voor integratie met Azure Data Factory. | |
Kusto-clientbibliotheken zijn beschikbaar voor C#, Python, Java, JavaScript, TypeScript en Go. U kunt code schrijven om uw gegevens te manipuleren en vervolgens de Kusto Ingest-bibliotheek gebruiken om gegevens op te nemen in uw Azure Data Explorer-tabel. De gegevens moeten een van de ondersteunde indelingen hebben voordat ze worden opgenomen. |
Continue gegevensopname
Continue opname blinkt uit in situaties waarin onmiddellijke inzichten uit livegegevens vereist zijn. Continue opname is bijvoorbeeld handig voor het bewaken van systemen, logboek- en gebeurtenisgegevens en realtime analyses.
Continue gegevensopname omvat het instellen van een opnamepijplijn met streaming of opname in de wachtrij:
Streamingopname: deze methode zorgt voor bijna realtime latentie voor kleine sets gegevens per tabel. Gegevens worden opgenomen in microbatches van een streamingbron, in eerste instantie in het rijarchief geplaatst en vervolgens overgebracht naar kolomopslagregio's. Zie Streamingopname configureren voor meer informatie.
Opname in wachtrij: deze methode is geoptimaliseerd voor hoge opnamedoorvoer. Gegevens worden in batches uitgevoerd op basis van opname-eigenschappen, waarbij kleine batches vervolgens worden samengevoegd en geoptimaliseerd voor snelle queryresultaten. Standaard zijn de maximumwaarden in de wachtrij 5 minuten, 1000 items of een totale grootte van 1 GB. De limiet voor een opnameopdracht in de wachtrij is 6 GB. Deze methode maakt gebruik van mechanismen voor opnieuw proberen om tijdelijke fouten te beperken en volgt de semantiek 'ten minste eenmaal' berichten om ervoor te zorgen dat er geen berichten verloren gaan in het proces. Zie Opnamebatchbeleid voor meer informatie over opname in de wachtrij.
Notitie
Voor de meeste scenario's raden we u aan opname in de wachtrij te gebruiken, omdat dit de beter presterende optie is.
Er zijn meerdere manieren om continue gegevensopname te configureren. Gebruik de volgende beslissingsstructuur om de meest geschikte optie voor uw use-case te bepalen:
Zie de relevante documentatie voor meer informatie:
Bijschrift | Relevante documentatie |
---|---|
Zie Overzicht van connectors voor een lijst met connectors. | |
Maak een Event Hubs-gegevensverbinding. Integratie met Event Hubs biedt services zoals beperking, nieuwe pogingen, bewaking en waarschuwingen. | |
Gegevens opnemen uit Apache Kafka, een gedistribueerd streamingplatform voor het bouwen van pijplijnen voor realtime streaminggegevens. | |
Maak een IoT Hub-gegevensverbinding. Integratie met IoT Hubs biedt services zoals beperking, nieuwe pogingen, bewaking en waarschuwingen. | |
Maak een Event Grid-gegevensverbinding. Integratie met Event Grid biedt services zoals beperking, nieuwe pogingen, bewaking en waarschuwingen. | |
Zie de richtlijnen voor de relevante connector, zoals Apache Spark, Apache Kafka, Azure Cosmos DB, Fluent Bit, Logstash, Open Telemetry, Power Automate, Splunk en meer. Zie Overzicht van connectors voor meer informatie. | |
Kusto-clientbibliotheken zijn beschikbaar voor C#, Python, Java, JavaScript, TypeScript en Go. U kunt code schrijven om uw gegevens te manipuleren en vervolgens de Kusto Ingest-bibliotheek gebruiken om gegevens op te nemen in uw Azure Data Explorer-tabel. De gegevens moeten een van de ondersteunde indelingen hebben voordat ze worden opgenomen. |
Notitie
Streamingopname wordt niet ondersteund voor alle opnamemethoden. Raadpleeg de documentatie voor de specifieke opnamemethode voor ondersteuningsdetails.
Directe opname met beheeropdrachten
Azure Data Explorer biedt de volgende opdrachten voor opnamebeheer, die gegevens rechtstreeks opnemen in uw cluster in plaats van de gegevensbeheerservice te gebruiken. Ze mogen alleen worden gebruikt voor verkenning en prototypen en niet in productie- of scenario's met grote volumes.
- Inline-opname: de inlineopdracht .ingest bevat de gegevens die moeten worden opgenomen als onderdeel van de opdrachttekst zelf. Deze methode is bedoeld voor geïmproviseerde testdoeleinden.
- Opnemen uit query: de opdrachten .set, .append, .set-or-append of .set-or-replace specificeren indirect de gegevens die moeten worden opgenomen als de resultaten van een query of een opdracht.
- Opnemen uit opslag: met de opdracht .ingest into worden de gegevens opgehaald die moeten worden opgenomen uit externe opslag, zoals Azure Blob Storage, toegankelijk voor uw cluster en worden verwezen door de opdracht .
Opnamemethoden vergelijken
In de volgende tabel worden de belangrijkste opnamemethoden vergeleken:
Opnamenaam | Gegevenstype | Maximale bestandsgrootte | Streamen, in wachtrij, direct | Meest voorkomende scenario's | Overwegingen |
---|---|---|---|---|---|
Apache Spark-connector | Elke indeling die wordt ondersteund door de Spark-omgeving | Onbeperkt | In wachtrij | Bestaande pijplijn, voorverwerking op Spark vóór opname, snelle manier om een veilige (Spark)streaming-pijplijn te maken van de verschillende bronnen die de Spark-omgeving ondersteunt. | Houd rekening met de kosten van een Spark-cluster. Vergelijk voor batchgewijs schrijven met Azure Data Explorer-gegevensverbinding voor Event Grid. Vergelijk voor Spark-streaming met de gegevensverbinding voor Event Hub. |
Azure Data Factory (ADF) | Ondersteunde gegevensindelingen | Onbeperkt. Neemt ADF-beperkingen over. | In wachtrij of per ADF-trigger | Ondersteunt indelingen die niet worden ondersteund, zoals Excel en XML, en kunnen grote bestanden van meer dan 90 bronnen kopiëren, van on-premises naar de cloud | Deze methode kost relatief meer tijd totdat gegevens worden opgenomen. ADF uploadt alle gegevens naar het geheugen en begint vervolgens met de opname. |
Event Grid | Ondersteunde gegevensindelingen | 1 GB ongecomprimeerd | In wachtrij | Continue opname vanuit Azure Storage, externe gegevens in Azure Storage | Opname kan worden geactiveerd door het wijzigen van de naam van een blob of door acties voor het maken van blobs |
Event Hub | Ondersteunde gegevensindelingen | N.v.t. | In de wachtrij, streaming | Berichten, gebeurtenissen | |
Gegevenservaring ophalen | *AVP, JSON | 1 GB ongecomprimeerd | In wachtrij of directe opname | Eenmalig tabelschema maken, definitie van continue opname met Event Grid, bulkopname met container (maximaal 5000 blobs; geen limiet bij gebruik van historische opname) | |
IoT Hub | Ondersteunde gegevensindelingen | N.v.t. | In de wachtrij, streaming | IoT-berichten, IoT-gebeurtenissen, IoT-eigenschappen | |
Kafka-connector | Avro, ApacheAvro, JSON, CSV, Parquet en ORC | Onbeperkt. Neemt Java-beperkingen over. | In de wachtrij, streaming | Bestaande pijplijn, hoog volumeverbruik van de bron. | De voorkeur kan worden bepaald door het bestaande gebruik van meerdere producenten of consumentendiensten of het gewenste niveau van servicebeheer. |
Kusto-clientbibliotheken | Ondersteunde gegevensindelingen | 1 GB ongecomprimeerd | In wachtrij, streaming, direct | Schrijf uw eigen code op basis van de behoeften van de organisatie | Programmatische opname is geoptimaliseerd voor het verminderen van opnamekosten (COG's) door opslagtransacties tijdens en na het opnameproces te minimaliseren. |
LightIngest | Ondersteunde gegevensindelingen | 1 GB ongecomprimeerd | In wachtrij of directe opname | Gegevensmigratie, historische gegevens met aangepaste opnametijdstempels, bulkopname | Hoofdlettergevoelig en ruimtegevoelig |
Logic Apps | Ondersteunde gegevensindelingen | 1 GB ongecomprimeerd | In wachtrij | Wordt gebruikt voor het automatiseren van pijplijnen | |
LogStash | JSON | Onbeperkt. Neemt Java-beperkingen over. | In wachtrij | Bestaande pijplijn: gebruik de volwassen, open source aard van Logstash voor een hoog volumeverbruik van de invoer(en). | De voorkeur kan worden bepaald door het bestaande gebruik van meerdere producenten of consumentendiensten of het gewenste niveau van servicebeheer. |
Power Automate | Ondersteunde gegevensindelingen | 1 GB ongecomprimeerd | In wachtrij | Opnameopdrachten als onderdeel van de stroom. Wordt gebruikt voor het automatiseren van pijplijnen. |
Zie Overzicht van connectors voor informatie over andere connectors.
Machtigingen
In de volgende lijst worden de machtigingen beschreven die vereist zijn voor verschillende opnamescenario's:
- Voor het maken van een nieuwe tabel zijn ten minste machtigingen voor databasegebruiker vereist.
- Voor het opnemen van gegevens in een bestaande tabel, zonder het schema te wijzigen, zijn ten minste Database Ingestor-machtigingen vereist.
- Als u het schema van een bestaande tabel wilt wijzigen, hebt u ten minste de machtiging Tabel Beheer of Database Beheer nodig.
Zie Op rollen gebaseerd toegangsbeheer van Kusto voor meer informatie.
Het opnameproces
In de volgende stappen wordt het algemene opnameproces beschreven:
Batchbeleid instellen (optioneel): Gegevens worden in batches uitgevoerd op basis van het opnamebatchbeleid. Zie Optimaliseren voor doorvoer voor hulp.
Bewaarbeleid instellen (optioneel): als het databaseretentiebeleid niet geschikt is voor uw behoeften, overschrijft u het op tabelniveau. Zie Bewaarbeleid voor meer informatie.
Een tabel maken: als u de ervaring Gegevens ophalen gebruikt, kunt u een tabel maken als onderdeel van de opnamestroom. Anders maakt u vóór opname een tabel in de azure Data Explorer-webinterface of met de opdracht .create table.
Een schematoewijzing maken: met schematoewijzingen kunt u brongegevensvelden binden aan doeltabelkolommen. Verschillende typen toewijzingen worden ondersteund, waaronder rijgeoriënteerde indelingen zoals CSV, JSON en AVRO, en kolomgeoriënteerde indelingen zoals Parquet. In de meeste methoden kunnen toewijzingen ook vooraf worden gemaakt in de tabel.
Updatebeleid instellen (optioneel): bepaalde gegevensindelingen, zoals Parquet, JSON en Avro, maken eenvoudige transformaties van de opnametijd mogelijk. Gebruik het updatebeleid voor complexere verwerking tijdens opname. Met dit beleid worden extracties en transformaties automatisch uitgevoerd op opgenomen gegevens in de oorspronkelijke tabel en worden de gewijzigde gegevens vervolgens opgenomen in een of meer doeltabellen.
Gegevens opnemen: gebruik het gewenste opnamehulpprogramma, de connector of methode om de gegevens op te nemen.