Gegevens ophalen uit De Stream van De wieg
Lyly Stream is een verwerkingsengine die gegevens van machine-gebeurtenissen veilig verzamelt, verwerkt en streamt vanuit elke bron. Hiermee kunt u die gegevens op een veilige manier parseren en verwerken voor elke bestemming voor analyse en beheer.
In dit artikel wordt beschreven hoe u gegevens opneemt met De Stream van De Wieg.
Zie overzicht van gegevensconnectors voor een volledige lijst met gegevensconnectors.
Vereisten
- Een Wieg stream-account
- Een KQL-database
- Een Azure-abonnement. Maak een gratis Azure-account.
- De URI voor databaseopname die moet worden gebruikt als de TargetURI-waarde . Zie URI Kopiëren voor meer informatie.
Een Microsoft Entra-service-principal maken
De Microsoft Entra-service-principal kan worden gemaakt via Azure Portal of programmatisch, zoals in het volgende voorbeeld.
Deze service-principal is de identiteit die door de connector wordt gebruikt om gegevens naar uw tabel in Kusto te schrijven. U verleent machtigingen voor deze service-principal voor toegang tot Kusto-resources.
Meld u aan bij uw Azure-abonnement via Azure CLI. Verifieer vervolgens in de browser.
az login
Kies het abonnement om de principal te hosten. Deze stap is nodig wanneer u meerdere abonnementen hebt.
az account set --subscription YOUR_SUBSCRIPTION_GUID
Maak de service-principal. In dit voorbeeld wordt de service-principal aangeroepen
my-service-principal
.az ad sp create-for-rbac -n "my-service-principal" --role Contributor --scopes /subscriptions/{SubID}
Kopieer de
appId
,password
en voortenant
toekomstig gebruik vanuit de geretourneerde JSON-gegevens.{ "appId": "00001111-aaaa-2222-bbbb-3333cccc4444", "displayName": "my-service-principal", "name": "my-service-principal", "password": "00001111-aaaa-2222-bbbb-3333cccc4444", "tenant": "00001111-aaaa-2222-bbbb-3333cccc4444" }
U hebt uw Microsoft Entra-toepassing en service-principal gemaakt.
Een doeltabel maken
Maak een doeltabel voor de binnenkomende gegevens en een opnametoewijzing om de opgenomen gegevenskolommen toe te wijzen aan de kolommen in de doeltabel.
Voer de volgende opdracht voor het maken van de tabel uit in de query-editor, waarbij u de tijdelijke aanduiding TableName vervangt door de naam van de doeltabel:
.create table <TableName> (_raw: string, _time: long, cribl_pipe: dynamic)
Voer de volgende opdracht voor het maken van opnametoewijzing uit, waarbij u de tijdelijke aanduidingen TableName vervangt door de naam van de doeltabel en TableNameMapping door de naam van de opnametoewijzing:
.create table <TableName> ingestion csv mapping '<TableNameMapping>' 'CriblLogMapping' '[{"Name":"_raw","DataType":"string","Ordinal":"0","ConstValue":null},{"Name":"_time","DataType":"long","Ordinal":"1","ConstValue":null},{"Name":"cribl_pipe","DataType":"dynamic","Ordinal":"2","ConstValue":null}]'
Verdeel de service-principal van Een Microsoft Entra-service-principaldatabase ingestor-rolmachtigingen om met de database te werken. Zie Voorbeelden voor meer informatie. Vervang de tijdelijke aanduiding DatabaseName door de naam van de doeldatabase en ApplicationID door de waarde die
AppId
u hebt opgeslagen bij het maken van een Microsoft Entra-service-principal..add database <DatabaseName> ingestors ('aadapp=<ApplicationID>') 'App Registration'
Bestemming van De Wiegstroom maken
In de volgende sectie wordt beschreven hoe u een Kinderstroombestemming maakt waarmee gegevens naar uw tabel in Kusto worden geschreven. Voor elke tabel is een afzonderlijke Connector voor De Stream-bestemming van De wieg vereist.
Doel selecteren
Als u De Stream van De Wieg wilt verbinden met uw tafel:
Selecteer Beheren in de bovenste navigatiebalk in De wieg en selecteer vervolgens een werkrolgroep.
Selecteer Routering>QuickConnect (Stream)>Bestemming toevoegen.
Kies in het venster Nieuwe QuickConnect-bestemming instellen de optie Azure Data Explorer en voeg nu toe.
Notitie
De Azure Data Explorer-verbinding werkt voor zowel Azure Data Explorer als Realtime Intelligence.
Algemene instellingen instellen
Stel in het venster New Data Explorer in General Settings de volgende instellingen in:
Instelling | Weergegeven als | Beschrijving |
---|---|---|
Uitvoer-id | <OutputID>, bijvoorbeeld KustoDestination | De naam die wordt gebruikt om uw bestemming te identificeren. |
Opnamemodus | Batchverwerking (standaard) of streaming | De instellingen voor de opnamemodus. Met batchverwerking kan uw tabel batches met gegevens ophalen uit een Container voor Het opslaan van wieg bij het opnemen van grote hoeveelheden gegevens gedurende een korte tijd. Streaming verzendt gegevens rechtstreeks naar de doel-KQL-tabel. Streaming is handig voor het opnemen van kleinere hoeveelheden gegevens of het verzenden van een kritieke waarschuwing in realtime. Streaming kan een lagere latentie bereiken dan batchverwerking. Als de opnamemodus is ingesteld op Streaming, moet u een streamingbeleid inschakelen. Zie Streaming-opnamebeleid voor meer informatie. |
Clusterbasis-URI | basis-URI | De basis-URI. |
URI van opnameservice | opname-URI | Wordt weergegeven wanneer de batchmodus is geselecteerd. De opname-URI. |
Databasenaam | <DatabaseName> | De naam van uw doeldatabase. |
Tabelnaam | <TableName> | De naam van de doeltabel. |
Database-instellingen valideren | Ja (standaard) of Nee. | Valideert de referenties van de service-principal-app die u hebt ingevoerd wanneer u de bestemming opslaat of start. Hiermee wordt de tabelnaam gevalideerd, behalve wanneer toewijzingsobject toevoegen is ingeschakeld. Deze instelling moet worden uitgeschakeld als uw app niet beschikt over zowel databaseviewer- als tabelviewerrollen. |
Toewijzingsobject toevoegen | Ja of Nee (standaard.) | Alleen weergegeven wanneer de batchmodus is geselecteerd in plaats van het standaardtekstveld voor gegevenstoewijzing . Als u Ja selecteert, wordt een venster geopend om een gegevenstoewijzing in te voeren als een JSON-object. |
Gegevenstoewijzing | De naam van het toewijzingsschema zoals gedefinieerd in de stap Een doeltabel maken. | De naam van het toewijzingsschema. De standaardweergave wanneer toewijzingsobject toevoegen is ingesteld op Nee. |
Comprimeren | gzip (standaard) | Wanneer de gegevensindeling is ingesteld op Parquet, is Comprimeren niet beschikbaar. |
Gegevensindeling | JSON (standaard), Raw of Parquet. | De gegevensindeling. Parquet is alleen beschikbaar in batchmodus en wordt alleen ondersteund in Linux. |
Gedrag van onderdruk | Blokkeren (standaard) of neerzetten | Kies of u gebeurtenissen wilt blokkeren of verwijderen wanneer ontvangers een tegendruk uitoefenen. |
Tags | Optionele waarden | Optionele tags voor het filteren en groeperen van bestemmingen op de pagina Manage Destinations van De Stream. Gebruik een tabblad of een vaste return tussen tagnamen. Deze tags worden niet toegevoegd aan verwerkte gebeurtenissen. |
Wanneer u klaar bent, selecteert u Volgende.
Verificatie-instellingen
Selecteer Verificatie-instellingen in de zijbalk. Gebruik de waarden die u hebt opgeslagen in Een Microsoft Entra-service-principal maken, samen met uw basis-URI als volgt:
Instelling | Weergegeven als | Beschrijving |
---|---|---|
Tenant ID | <TenantID> | Gebruik de tenant waarde die u hebt opgeslagen in Een Microsoft Entra-service-principal maken. |
Client ID | <ClientID> | Gebruik de appId waarden die u hebt opgeslagen in Een Microsoft Entra-service-principal maken. |
Scope | <baseuri>/.default |
Gebruik de waarde van de basis-URI voor baseuri. |
Verificatiemethode | Clientgeheim, clientgeheim (tekstgeheim) of certificaat | Opties zijn clientgeheim : gebruik het clientgeheim van de Microsoft Entra-toepassing die u hebt gemaakt in Een Microsoft Entra-service-principal maken voor clientgeheim. Voor certificaat gebruikt uw certificaat de openbare sleutel die u hebt geregistreerd/registreert voor de Microsoft Entra-toepassing die u hebt gemaakt in Een Microsoft Entra-service-principal maken. |
Selecteer Volgende.
Permanente wachtrij
Wordt weergegeven wanneer de opnamemodus is ingesteld op Streaming en het gedrag van backpressure is ingesteld op Permanente wachtrij.
Instelling | Weergegeven als | Beschrijving |
---|---|---|
Maximale bestandsgrootte | 1 MB (standaard) | De maximale grootte van het wachtrijbestand dat moet worden bereikt voordat u het bestand sluit. Neem eenheden op, zoals KB of MB, wanneer u een getal invoert. |
Maximale wachtrijgrootte | 5 GB (standaard) | De maximale hoeveelheid schijfruimte die door de wachtrij kan worden verbruikt voor elk werkproces voordat de bestemming stopt met het in de wachtrij plaatsen van gegevens. Een vereiste waarde van positieve getallen met eenheden zoals KB, MB of GB. De maximumwaarde is 1 TB. |
Pad naar wachtrijbestand | $CRIBL_HOME/state/queues (standaard) |
De locatie van het permanente wachtrijbestand. Wieg stream voegt deze waarde toe /<worker‑id>/<output‑id> . |
Compressie | Geen (standaard), gzip | De compressiemethode voor het comprimeren van de persistente gegevens bij het sluiten. |
Gedrag met volledige wachtrij | Blokkeren of neerzetten | Kies ervoor om gebeurtenissen te blokkeren of neer te zetten wanneer de wachtrij backpressure uitoefent vanwege lage schijf- of volledige schijfcapaciteit. |
Strikte volgorde | Ja (standaard) of Nee | Wanneer deze is ingesteld op Ja-gebeurtenissen , worden ze doorgestuurd op basis van de eerste in, eerste volgorde. Stel in op Nee om nieuwe gebeurtenissen te verzenden vóór eerdere gebeurtenissen in de wachtrij. |
Limiet voor afvoersnelheid (EPS) | 0 (standaard) | Deze optie wordt weergegeven wanneer Strikte volgorde is ingesteld op Nee, zodat u een beperkingsfrequentie (in gebeurtenissen per seconde) kunt instellen voor het schrijven van de wachtrij naar ontvangers. Het beperken van de afvoersnelheid van gebeurtenissen in de wachtrij verhoogt de nieuwe of actieve doorvoer van verbindingen. Nul schakelt beperking uit. |
Permanente wachtrij wissen | N.v.t. | Selecteer deze optie om bestanden te verwijderen die momenteel in de wachtrij staan voor levering aan uw bestemming. U moet deze actie bevestigen, omdat gegevens in de wachtrij permanent worden verwijderd zonder dat ze worden bezorgd. |
Wanneer u klaar bent, selecteert u Volgende.
Verwerkingsinstellingen
Instelling | Weergegeven als | Beschrijving |
---|---|---|
Pijplijn | <\defined_pipeline> | Een optionele pijplijn voor het verwerken van gegevens voordat deze wordt verzonden met behulp van deze uitvoer. |
Systeemvelden | cribl_pipe (standaard), cribl_host , cribl_input , cribl_output , of cribl_route cribl_wp |
Een lijst met velden die automatisch worden toegevoegd aan gebeurtenissen voordat ze naar hun bestemming worden verzonden. Jokertekens worden ondersteund. |
Wanneer u klaar bent, selecteert u Volgende.
Parquet-instellingen
Wordt weergegeven wanneer Parquet is geselecteerd voor gegevensindeling.
Als u Parquet kiest, wordt een tabblad Parquet-instellingen geopend om het Parquet-schema te selecteren.
Instelling | Weergegeven als | Beschrijving |
---|---|---|
Automatisch schema | In - of uitschakelen | Selecteer Aan om een Parquet-schema te genereren op basis van de gebeurtenissen van elk Parquet-bestand dat Door De Stream wordt geschreven. |
Parquet-schema | vervolgkeuzelijst | Wordt weergegeven wanneer automatisch schema is ingesteld op Uit , zodat u uw Parquet-schema kunt selecteren. |
Parquet-versie | 1.0, 2.4, 2.6 (standaard) | De versie bepaalt de ondersteunde gegevenstypen en hoe ze worden weergegeven. |
Versie van gegevenspagina | V1, V2 (standaard) | De serialisatie-indeling van de gegevenspagina. Als uw Parquet-lezer geen ondersteuning biedt voor Parquet V2, gebruikt u V1. |
Rijlimiet groeperen | 1000 (standaard) | Het maximum aantal rijen dat elke groep kan bevatten. |
Paginaformaat | 1 MB (standaard) | De grootte van het doelgeheugen voor paginasegmenten. Lagere waarden kunnen de leessnelheid verbeteren, terwijl hogere waarden de compressie kunnen verbeteren. |
Ongeldige rijen registreren | Ja of Nee | Wanneer Ja is geselecteerd en logboekniveau is ingesteld op debug , worden maximaal 20 unieke rijen uitgevoerd die zijn overgeslagen omdat de gegevensindeling niet overeenkomt. |
Statistieken schrijven | Aan (standaard) of Uit | Selecteer Aan als u parquet-hulpprogramma's voor statistiekweergave hebt geconfigureerd. |
Pagina-indexen schrijven | Aan (standaard) of Uit | Selecteer Aan als uw Parquet-lezer statistieken van de Parquet-paginaindex gebruikt om het overslaan van pagina's in te schakelen. |
Controlesom voor pagina schrijven | In - of uitschakelen | Selecteer Aan als u Parquet-hulpprogramma's gebruikt om de gegevensintegriteit te controleren met behulp van parquet-paginacontrolesommen. |
Metagegevens (optioneel)* | De eigenschappen van metagegevens van het doelbestand die kunnen worden opgenomen als sleutel-waardeparen. |
Nieuwe pogingen
Wordt weergegeven wanneer de opnamemodus is ingesteld op Streaming.
Instelling | Weergegeven als | Beschrijving |
---|---|---|
Eer na koptekst opnieuw proberen | Ja of Nee | Of een koptekst moet worden gehonoreerd Retry-After . Wanneer deze optie is ingeschakeld, heeft een ontvangen Retry-After header voorrang voordat andere geconfigureerde opties in de sectie Nieuwe pogingen worden gebruikt, zolang de header een vertraging van 180 seconden of minder aangeeft. Retry-After Anders worden kopteksten genegeerd. |
Instellingen voor mislukte HTTP-aanvragen | HTTP-statuscode | Een lijst met HTTP-statuscodes die automatisch opnieuw moeten worden geprobeerd als ze geen verbinding maken. Wieg stream probeert automatisch 429 mislukte aanvragen. |
Time-out van HTTP-aanvragen voor opnieuw proberen | In - of uitschakelen | Wanneer deze instelling is ingesteld, worden er meer instellingen voor opnieuw proberen beschikbaar. |
Interval vóór uitstel (ms) | 1000 ms (standaard) | De wachttijd voordat u het opnieuw probeert. |
Achterstallig vermenigvuldiger | 2 s (standaard) | Wordt gebruikt als basis voor exponentiële uitstelalgoritmen om het interval tussen nieuwe pogingen te bepalen. |
Uitstellimiet (ms) | 10.000 ms (standaard) | Het maximale uitstelinterval voor de laatste nieuwe poging voor streaming. Mogelijke waarden variëren van 10.000 milliseconden (10 seconden) tot 180.000 milliseconden (3 minuten.) |
Wanneer u klaar bent, selecteert u Volgende.
Geavanceerde instellingen
Selecteer Geavanceerde instellingen in de zijbalk. Hieronder worden de geavanceerde instellingen beschreven wanneer Batching is geselecteerd:
Instelling | Weergegeven als | Beschrijving |
---|---|---|
Onmiddellijk leegmaken | Ja of Nee (standaard.) | Ingesteld op Ja om gegevensaggregatie in Kusto te overschrijven. Zie De aanbevolen procedures voor de Kusto-opnamebibliotheek voor meer informatie. |
Blob behouden bij geslaagd | Ja of Nee (standaard.) | Ingesteld op Ja om gegevensblob te bewaren na voltooiing van opname. |
Uitbreidingstags | <\ExtentTag, ET2,...> | Stel indien gewenst tags in op gepartitioneerde gebieden van de doeltabel. |
Uniekheid afdwingen via tagwaarden | Selecteer Waarde toevoegen om een ingest-by lijst met waarden op te geven die moet worden gebruikt om binnenkomende gebieden te filteren en de gebieden te negeren die overeenkomen met een vermelde waarde. Zie Extents (gegevensshards) voor meer informatie |
|
Rapportniveau | DoNotReport, FailuresOnly (standaard) en FailuresAndSuccesses. | Het rapportageniveau van de opnamestatus. |
Rapportmethode | Wachtrij (standaard), Tabel en QueueAndTable (aanbevolen.) | Doel voor opnamestatusrapportage. |
Aanvullende velden | Voeg desgewenst meer configuratie-eigenschappen toe om naar de opnameservice te verzenden. | |
Faseringslocatie | /tmp (standaard) |
Locatie van het lokale bestandssysteem waarin bestanden moeten worden gebufferd voordat ze worden gecomprimeerd en verplaatst naar de uiteindelijke bestemming. De wieg raadt een stabiele en hoogwaardige locatie aan. |
Bestandsnaamachtervoegselexpressie | .${C.env["CRIBL_WORKER_ID"]}.${__format}${__compression === "gzip" ? ".gz" : ""} (standaard) |
Een JavaScript-expressie tussen aanhalingstekens of backticks die worden gebruikt als het achtervoegsel van de uitvoerbestand. format kan JSON of raw zijn en __compression kan geen of gzip zijn. Aan het einde van de bestandsnamen wordt een willekeurige reeks van zes tekens toegevoegd om te voorkomen dat ze worden overschreven. |
Maximale bestandsgrootte (MB) | 32 MB (standaard) | De maximale niet-gecomprimeerde uitvoerbestandsgrootte die bestanden kunnen bereiken voordat ze worden gesloten en naar de opslagcontainer worden verplaatst. |
Maximale tijd voor openen van bestand (sec) | 300 seconden (standaard) | De maximale hoeveelheid tijd, in seconden, om naar een bestand te schrijven voordat het wordt gesloten en verplaatst naar de opslagcontainer. |
Maximale tijd voor niet-actieve bestanden (sec) | 30 seconden (standaard) | De maximale hoeveelheid tijd, in seconden, om inactieve bestanden open te houden voordat ze worden gesloten en naar de opslagcontainer worden verplaatst. |
Maximaal aantal geopende bestanden | 100 (standaard) | Het maximum aantal bestanden dat tegelijkertijd moet worden geopend voordat de oudste geopende bestanden worden gesloten en naar de opslagcontainer worden verplaatst. |
Maximum aantal gelijktijdige bestandsonderdelen | 1 (standaard) | Het maximum aantal bestandsonderdelen dat tegelijkertijd moet worden geüpload. De standaardwaarde is 1 en de hoogste is 10. Als u de waarde instelt op één, kunt u één onderdeel tegelijk verzenden, sequentieel. |
Lege faserings-dirs verwijderen | Ja (standaard) of Nee | Wanneer u wisselt op De boksen stream verwijdert lege faseringsmappen na het verplaatsen van bestanden. Dit voorkomt de verspreiding van zwevende lege mappen. Wanneer deze optie is ingeschakeld, wordt de faseringsperiode beschikbaar gemaakt. |
Faseringsopruimingsperiode | 300 (standaard) | De hoeveelheid tijd in seconden totdat lege mappen worden verwijderd wanneer faserings-dirs verwijderen is ingeschakeld. Wordt weergegeven wanneer Lege faserings-dirs verwijderen is ingesteld op Ja. De minimumwaarde is 10 seconden en het maximum is 86.400 seconden (elke 24 uur.) |
Omgeving | Wanneer de configuratie leeg is (standaard) is overal ingeschakeld. Als u GitOps gebruikt, kunt u de Git-vertakking opgeven waar u de configuratie wilt inschakelen. |
Wanneer u klaar bent, selecteert u Opslaan.
Verbindingsconfiguratie
Selecteer passthru-verbinding in het venster Verbindingsconfiguratie dat wordt geopend en sla deze op. De connector begint de gegevens in de wachtrij te plaatsen.
Gegevensopname bevestigen
Zodra de gegevens in de tabel binnenkomen, bevestigt u de overdracht van gegevens door het aantal rijen te controleren:
<Tablename> | count
Bevestig de opname in de wachtrij in de afgelopen vijf minuten:
.show commands-and-queries | where Database == "" and CommandType == "DataIngestPull" | where LastUpdatedOn >= ago(5m)
Controleer of er geen fouten zijn in het opnameproces:
- Voor batchverwerking:
.show ingestion failures
- Voor streaming:
.show streamingingestion failures | order by LastFailureOn desc
Controleer de gegevens in uw tabel:
<TableName> | take 10
Zie Voor queryvoorbeelden en richtlijnen schrijfquery's in KQL en Kusto-querytaal documentatie.