Del via


Hent data fra Cribl Stream

Cribl Stream er et behandlingsprogram, der sikkert indsamler, behandler og streamer maskinhændelsesdata fra enhver kilde. Det giver dig mulighed for at fortolke og behandle disse data for alle destinationer til analyse og administration på en sikker måde.

I denne artikel kan du se, hvordan du henter data med Cribl Stream.

Du kan se en komplet liste over dataconnectors under Oversigt over dataconnectors.

Forudsætninger

Opret en Microsoft Entra-tjenesteprincipal

Microsoft Entra-tjenesteprincipalen kan oprettes via Azure-portal eller programmatisk som i følgende eksempel.

Denne tjenesteprincipal er den identitet, der bruges af connectoren til at skrive data til din tabel i Kusto. Du giver denne tjenesteprincipal tilladelse til at få adgang til Kusto-ressourcer.

  1. Log på dit Azure-abonnement via Kommandolinjegrænsefladen i Azure. Godkend derefter i browseren.

    az login
    
  2. Vælg det abonnement, der skal være vært for hovedstolen. Dette trin er nødvendigt, når du har flere abonnementer.

    az account set --subscription YOUR_SUBSCRIPTION_GUID
    
  3. Opret tjenesteprincipalen. I dette eksempel kaldes my-service-principaltjenesteprincipalen .

    az ad sp create-for-rbac -n "my-service-principal" --role Contributor --scopes /subscriptions/{SubID}
    
  4. Fra de returnerede JSON-data skal du kopiere appId, passwordog tenant til fremtidig brug.

    {
      "appId": "00001111-aaaa-2222-bbbb-3333cccc4444",
      "displayName": "my-service-principal",
      "name": "my-service-principal",
      "password": "00001111-aaaa-2222-bbbb-3333cccc4444",
      "tenant": "00001111-aaaa-2222-bbbb-3333cccc4444"
    }
    

Du har oprettet dit Microsoft Entra-program og din tjenesteprincipal.

Opret en destinationstabel

Opret en destinationstabel for de indgående data og en tilknytning af indtagelse for at knytte de indtagne datakolonner til kolonnerne i destinationstabellen.

  1. Kør følgende tabeloprettelseskommando i forespørgselseditoren, hvor pladsholderen TableName erstattes med navnet på destinationstabellen:

    .create table <TableName> (_raw: string, _time: long, cribl_pipe: dynamic)
    
  2. Kør følgende kommando til tilknytning af oprettelse af indtagelse, hvor pladsholderne TableName erstattes med navnet på destinationstabellen og TableNameMapping med navnet på tilknytningen af indtagelse:

    .create table <TableName> ingestion csv mapping '<TableNameMapping>' 'CriblLogMapping' '[{"Name":"_raw","DataType":"string","Ordinal":"0","ConstValue":null},{"Name":"_time","DataType":"long","Ordinal":"1","ConstValue":null},{"Name":"cribl_pipe","DataType":"dynamic","Ordinal":"2","ConstValue":null}]'
    
  3. Tildel tjenesteprincipalen fra Opret en Microsoft Entra-tjenesteprincipaldatabaseingestor-rolletilladelser for at arbejde med databasen. Du kan få flere oplysninger i Eksempler. Erstat pladsholderens DatabaseName med navnet på måldatabasen og ApplicationID med den AppId værdi, du gemte, da du oprettede en Microsoft Entra-tjenesteprincipal.

    .add database <DatabaseName> ingestors ('aadapp=<ApplicationID>') 'App Registration'
    

Opret Cribl Stream-destination

I følgende afsnit beskrives det, hvordan du opretter en Cribl Stream-destination, der skriver data til din tabel i Kusto. Hver tabel kræver en separat Cribl Stream-destinationsconnector.

Vælg destination

Sådan opretter du forbindelse mellem Cribl Stream og din tabel:

  1. Vælg Administrer i den øverste navigation i Cribl, og vælg derefter en arbejdergruppe.

  2. Vælg Routing>QuickConnect (Stream)>Tilføj destination.

  3. I vinduet Konfigurer ny QuickConnect-destination skal du vælge Azure Data Explorer og derefter Tilføj nu.

Bemærk

Azure Data Explorer-forbindelsen fungerer for både Azure Data Explorer og Realtidsintelligens.

Konfigurer generelle indstillinger

Angiv følgende indstillinger i Generelle indstillinger i vinduet Ny Data explorer:

Indstilling Værdi Beskrivelse
Output-id <OutputID>, f.eks. KustoDestination Det navn, der bruges til at identificere destinationen.
Indtagelsestilstand Batching (standard) eller streaming Indstillingerne for indtagelsestilstand. Batching gør det muligt for din tabel at hente batches af data fra en Cribl-lagerobjektbeholder, når der indtages store mængder data over en kort tid. Streaming sender data direkte til KQL-måltabellen. Streaming er nyttig til indtagelse af mindre mængder data eller f.eks. afsendelse af en vigtig besked i realtid. Streaming kan opnå lavere ventetid end batching. Hvis indtagelsestilstanden er angivet til Streaming, skal du aktivere en streamingpolitik. Du kan få flere oplysninger under Politik for streamingindtagelse.
Klyngebase-URI grundlæggende URI Basis-URI'en.
URI til indtagelsestjeneste URI for indtagelse Vises, når Batching-tilstand er valgt. Indtagelses-URI'en.
Databasenavn <Databasenavn> Navnet på destinationsdatabasen.
Tabelnavn <Tabelnavn> Navnet på destinationstabellen.
Valider databaseindstillinger Ja (standard) eller Nej. Validerer legitimationsoplysningerne for den tjenesteprincipalapp, du angav, da du gemte eller startede destinationen. Det validerer tabelnavnet, undtagen når Tilføj tilknytningsobjekt er slået til. Denne indstilling skal deaktiveres, hvis din app ikke har både roller som Databasefremviser og Tabelfremviser .
Tilføj tilknytningsobjekt Ja eller Nej (standard). Vises kun, når Batching-tilstand er valgt i stedet for standardtekstfeltet Datatilknytning . Hvis du vælger Ja , åbnes et vindue, hvor du kan angive en datatilknytning som et JSON-objekt.
Datatilknytning Navnet på tilknytningsskemaet som defineret i trinnet Opret en destinationstabel . Navnet på tilknytningsskemaet. Standardvisningen, når Tilføj tilknytningsobjekt er angivet til Nej.
Komprimere gzip (standard) Når Dataformat er angivet til Parquet, er Komprimer ikke tilgængeligt.
Dataformat JSON (standard), Raw eller Parquet. Dataformatet. Parquet er kun tilgængelig i batching-tilstand og understøttes kun på Linux.
Funktionsmåde for tilbagetryk Blok (standard) eller Slip Vælg, om hændelser skal blokeres eller slippes, når modtagere udøver backpressure.
Mærker Valgfrie værdier Valgfrie mærker til filtrering og gruppering af destinationer på siden Administrer destinationer i Cribl Stream. Brug en fane eller et fast returtegn mellem kodenavne. Disse mærker føjes ikke til behandlede hændelser.

Når du er færdig, skal du vælge Næste.

Godkendelsesindstillinger

Vælg Godkendelsesindstillinger i margenteksten. Brug de værdier, du har gemt i Opret en Microsoft Entra-tjenesteprincipal sammen med din grundlæggende URI på følgende måde:

Indstilling Værdi Beskrivelse
Lejer-id <Lejer-id> Brug den værdi, tenant du har gemt i Opret en Microsoft Entra-tjenesteprincipal.
Klient-id <Klient-id> Brug de værdier, appId du har gemt i Opret en Microsoft Entra-tjenesteprincipal.
Område <baseuri>/.default Brug værdien fra basis-URI'en til baseuri.
Godkendelsesmetode Klienthemmelighed, Klienthemmelighed (teksthemmelighed) eller Certifikat Indstillinger er Klienthemmelighed Brug klienthemmeligheden for det Microsoft Entra-program, du oprettede i Opret en Microsoft Entra-tjenesteprincipal for klienthemmelighed. For Certificate bruger dit certifikat den offentlige nøgle, du har registreret/registrerer for det Microsoft Entra-program, du oprettede i Opret en Microsoft Entra-tjenesteprincipal.

Vælg derefter Næste.

Vedvarende kø

Vises, når indtagelsestilstand er angivet til Streaming, og funktionsmåden for backpressure er angivet til Fast kø.

Indstilling Værdi Beskrivelse
Maksimal filstørrelse 1 MB (standard) Den maksimale køfilstørrelse, der skal nås, før du lukker filen. Medtag enheder som KB eller MB, når du angiver et tal.
Maksimal køstørrelse 5 GB (standard) Den maksimale mængde diskplads, som køen kan forbruge i hver arbejdsproces, før destinationen stopper med at sætte data i kø. En påkrævet værdi af positive tal med enheder som f.eks. KB, MB eller GB. Maksimumværdien er 1 TB.
Sti til køfil $CRIBL_HOME/state/queues (standard) Placeringen af den faste køfil. Cribl Stream føjer /<worker‑id>/<output‑id> til denne værdi.
Komprimering Ingen (standard), gzip Den komprimeringsmetode, der skal bruges til at komprimere de permanente data ved lukning.
Funktionsmåde for fuld kø Blok eller slip Vælg at blokere eller slippe hændelser, når køen giver tilbagetryk på grund af lav disk eller fuld diskkapacitet.
Streng sortering Ja (standard) eller Nej Når den er angivet til Ja - hændelser videresendes baseret på først ind, først ud-sortering. Angiv til Nej for at sende nye hændelser før tidligere hændelser i kø.
Grænse for drænhastighed (EPS) 0 (standard) Denne indstilling vises, når Streng sortering er angivet til Nej, så du kan angive en begrænsningshastighed (i hændelser pr. sekund), når du skriver fra køen til modtagere. Begrænsning af afløbshastigheden for hændelser i kø øger den nye eller aktive forbindelsesoverførselshastighed. Nul deaktiverer begrænsning.
Ryd vedvarende kø I/T Vælg at slette filer, der i øjeblikket er sat i kø til levering til destinationen. Du skal bekræfte denne handling, da data, der er sat i kø, slettes permanent uden at blive leveret.

Når du er færdig, skal du vælge Næste.

Behandlingsindstillinger

Indstilling Værdi Beskrivelse
Pipeline <\defined_pipeline> En valgfri pipeline til behandling af data, før den sendes ud ved hjælp af dette output.
Systemfelter cribl_pipe (standard), cribl_host, cribl_input, cribl_output, cribl_routeeller cribl_wp En liste over felter, der automatisk føjes til hændelser, før de sendes til deres destination. Jokertegn understøttes.

Når du er færdig, skal du vælge Næste.

Indstillinger for parket

Vises, når Parquet er valgt som dataformat.

Hvis du vælger Parquet, åbnes fanen ParquetIndstillinger for at vælge parquetskemaet.

Indstilling Værdi Beskrivelse
Automatisk skema Til eller fra Vælg Til for at generere et Parquet-skema baseret på hændelserne i hver Parquet-fil, som Cribl Stream skriver.
Parquetskema rulleliste Vises, når Automatisk skema er angivet til Fra for at give dig mulighed for at vælge dit parquetskema.
Parquetversion 1.0, 2.4, 2.6 (standard) Versionen bestemmer de understøttede datatyper, og hvordan de repræsenteres.
Datasideversion V1, V2 (standard) Serialiseringsformatet for datasiden. Hvis din Parquet-læser ikke understøtter Parquet V2, skal du bruge V1.
Gruppér rækkegrænse 1000 (standard) Det maksimale antal rækker, som hver gruppe kan indeholde.
Sidestørrelse 1 MB (standard) Målhukommelsens størrelse for sidesegmenter. Lavere værdier kan forbedre læsehastigheden, mens højere værdier kan forbedre komprimeringen.
Logfør ugyldige rækker Ja eller Nej Når Ja er valgt, og logniveauet er angivet til debug, sendes der op til 20 entydige rækker, der blev sprunget over, fordi dataformatet ikke stemmer overens.
Skriv statistik Til (standard) eller Fra Vælg Til , hvis du har konfigureret Parquet-statistikvisningsværktøjer.
Skriv sideindeks Til (standard) eller Fra Vælg Til , hvis parquetlæseren bruger statistik for parquetsideindeks til at aktivere, at siden springes over.
Skriv sidekontrolsum Til eller fra Vælg Slået til, hvis du bruger Parquet-værktøjer til at kontrollere dataintegritet ved hjælp af parquetsidekontrolsum.
Metadata (valgfri)* Metadataegenskaberne for destinationsfilen, der kan inkluderes som nøgleværdipar.

Nye forsøg

Vises, når indtagelsestilstand er angivet til Streaming.

Indstilling Værdi Beskrivelse
Overskriften Hædersforsøg efter Ja eller Nej Om en Retry-After overskrift skal æres. Når indstillingen er aktiveret, tilsidesættes en modtaget Retry-After header, før andre konfigurerede indstillinger i afsnittet Forsøg, så længe headeren angiver en forsinkelse på 180 sekunder eller mindre. Retry-After Ellers ignoreres overskrifter.
Indstillinger for mislykkede HTTP-anmodninger HTTP-statuskoder En liste over HTTP-statuskoder, der automatisk skal forsøges igen, hvis de ikke kan oprette forbindelse. Cribl Stream prøver automatisk 429 mislykkede anmodninger.
Forsøg igen med timeout for HTTP-anmodninger Til eller fra Når indstillingen er angivet, bliver flere indstillinger for funktionsmåde for forsøg tilgængelige.
Interval før backoff (ms) 1000 ms (standard) Ventetiden, før der forsøges igen.
Backoff-multiplikator 2 s (standard) Bruges som basis for eksponentiel backoff-algoritme til at bestemme intervallet mellem forsøg.
Grænse for backoff (ms) 10.000 ms (standard) Det maksimale backoff-interval for det endelige forsøg på streaming. Mulige værdier spænder fra 10.000 millisekunder (10 sekunder) til 180.000 millisekunder (3 minutter).

Når du er færdig, skal du vælge Næste.

Avancerede indstillinger

Vælg Avancerede indstillinger på margenteksten. I det følgende beskrives de avancerede indstillinger, når Batching vælges:

Indstilling Værdi Beskrivelse
Ryd med det samme Ja eller Nej (standard). Angiv til Ja for at tilsidesætte datasammenlægning i Kusto. Du kan få flere oplysninger under Bedste fremgangsmåder for Kusto Ingest-biblioteket.
Bevar blob ved vellykket Ja eller Nej (standard). Angiv til Ja for at bevare datablob ved fuldførelse af indtagelse.
Omfangstags <\ExtentTag, ET2,...> Angiv evt. koder til partitionerede omfang i destinationstabellen.
Gennemtving entydighed via kodeværdier Vælg Tilføj værdi for at angive en ingest-by værdiliste, der skal bruges til at filtrere indgående omfang og kassere de omfang, der svarer til en angivet værdi. Du kan få flere oplysninger under Omfang (dataskår)
Rapportniveau DoNotReport, FailuresOnly (standard) og FailuresAndSuccesses. Rapporteringsniveauet for indtagelsesstatus.
Rapportmetode (standard), Tabel og QueueAndTable (anbefales).) Mål for rapportering af indtagelsesstatus.
Ekstra felter Tilføj flere konfigurationsegenskaber, hvis det er nødvendigt, for at sende til indtagelsestjenesten.
Placering af midlertidig placering /tmp (standard) Lokal filsystemplacering, hvor filer skal bufferlagres, før de komprimeres og flyttes til den endelige destination. Cribl anbefaler en stabil placering med høj ydeevne.
Suffiksudtryk for filnavn .${C.env["CRIBL_WORKER_ID"]}.${__format}${__compression === "gzip" ? ".gz" : ""}(standard) Et JavaScript-udtryk omsluttet af anførselstegn eller backticks, der bruges som outputfilnavnssuffiks. format kan være JSON eller , og __compression kan være ingen eller gzip. En tilfældig sekvens på seks tegn føjes til slutningen af filnavnene for at forhindre, at de overskrives.
Maksimal filstørrelse (MB) 32 MB (standard) Den maksimale størrelse på dekomprimerede outputfiler, som filerne kan nå, før de lukkes og flyttes til lagerobjektbeholderen.
Maks. åbningstid for filer (sek.) 300 sekunder (standard) Den maksimale mængde tid i sekunder, der skal skrives til en fil, før den lukkes og flyttes til lagerobjektbeholderen.
Maksimal inaktivitetstid for filer (sek.) 30 sekunder (standard) Den maksimale mængde tid i sekunder til at holde inaktive filer åbne, før de lukkes og flyttes til lagerobjektbeholderen.
Maks. antal åbne filer 100 (standard) Det maksimale antal filer, der skal være åbne samtidig, før de ældste åbne filer lukkes og flyttes til lagerobjektbeholderen.
Maks. antal samtidige fildele 1 (standard) Det maksimale antal fildele, der kan uploades på samme tid. Standarden er 1, og den højeste er 10. Hvis du angiver værdien til én, kan du sende én del ad gangen sekventielt.
Fjern tomme midlertidige dirs Ja (standard) eller Nej Når der skiftes til Cribl Stream, slettes tomme midlertidige mapper efter flytning af filer. Dette forhindrer spredning af tabte tomme mapper. Når indstillingen er aktiveret, vises perioden for midlertidig oprydning.
Midlertidig oprydningsperiode 300 (standard) Mængden i tid i sekunder, indtil tomme mapper slettes, når Fjern midlertidige dirs er aktiveret. Vises, når Fjern tomme midlertidige dirs er angivet til Ja. Minimumværdien er 10 sekunder, og maksimum er 86.400 sekunder (hver 24. time).
Miljø Når den er tom (standard), aktiveres konfigurationen overalt. Hvis du bruger GitOps, kan du angive forgreningen Git, hvor du vil aktivere konfigurationen.

Når du er færdig, skal du vælge Gem.

Forbindelseskonfiguration

I vinduet Konfiguration afforbindelse, der åbnes, skal du vælge Passthru-forbindelse og derefter Gem. Connectoren starter køen af dataene.

Bekræft dataindtagelse

  1. Når data ankommer i tabellen, skal du bekræfte overførslen af data ved at kontrollere rækkeantallet:

    <Tablename> 
    | count
    
  2. Bekræft de indtagelser, der er sat i kø inden for de sidste fem minutter:

    .show commands-and-queries 
    | where Database == "" and CommandType == "DataIngestPull" 
    | where LastUpdatedOn >= ago(5m)
    
  3. Bekræft, at der ikke er nogen fejl i indtagelsesprocessen:

    • Til batching:
    .show ingestion failures
    
    • Til streaming:
    .show streamingingestion failures 
    | order by LastFailureOn desc
    
  4. Bekræft data i tabellen:

    <TableName>
    | take 10
    

Du kan finde forespørgselseksempler og vejledning i Skriv forespørgsler i dokumentationen til KQL og Kusto Query Language.