Analýza textových dat v protokolech služby Azure Monitor

2025-04-22

Některá data protokolu shromážděná službou Azure Monitor budou obsahovat více informací v jedné vlastnosti. Analýza těchto dat do více vlastností usnadňuje použití v dotazech. Běžným příkladem je vlastní protokol , který shromažďuje celou položku protokolu s více hodnotami do jedné vlastnosti. Vytvořením samostatných vlastností pro různé hodnoty můžete vyhledávat a agregovat jednotlivé hodnoty.

Tento článek popisuje různé možnosti analýzy dat protokolu ve službě Azure Monitor, když jsou data přijímána a když jsou dotazem vyhledána, a porovnává relativní výhody pro každou z možností.

Požadována oprávnění

Pokud chcete analyzovat data v době shromažďování, potřebujete Microsoft.Insights/dataCollectionRuleAssociations/* oprávnění, která poskytuje například předdefinovaná role přispěvatele Log Analytics.
Pokud chcete analyzovat data v době dotazu, potřebujete Microsoft.OperationalInsights/workspaces/query/*/read oprávnění, která poskytuje například předdefinovaná role čtenáře Log Analytics.

Parsování metod

Data můžete analyzovat buď v době příjmu dat, když se data shromažďují, nebo v době dotazu při analýze dat pomocí dotazu. Každá strategie má jedinečné výhody.

Parsování dat v době shromažďování

Pomocí transformací můžete analyzovat data v době shromažďování a definovat sloupce, do kterých se mají analyzovat data.

Výhody:

Snadnější dotazování shromážděných dat, protože do dotazu nepotřebujete zahrnout příkazy analýzy.
Lepší výkon dotazů, protože dotaz nemusí provádět analýzu.

Nevýhody:

Musí být definováno předem. Nelze zahrnout data, která už byla shromážděna.
Pokud změníte logiku analýzy, bude platit pouze pro nová data.
Zvyšuje dobu latence shromažďování dat.
Zpracování chyb může být obtížné.

Parsování dat v době dotazu

Při analýze dat v době dotazu zahrnete do dotazu logiku, která parsuje data do více polí. Samotná skutečná tabulka se nezmění.

Výhody:

Platí pro všechna data, včetně dat, která už byla shromážděna.
Změny logiky je možné použít okamžitě u všech dat.
Flexibilní možnosti analýzy, včetně předdefinované logiky pro konkrétní datové struktury

Nevýhody:

Vyžaduje složitější dotazy. Tuto nevýhodu je možné zmírnit pomocí funkcí k simulaci tabulky.
Musí replikovat logiku analýzy v několika dotazech. Může sdílet určitou logiku prostřednictvím funkcí.
Může vytvářet režijní náklady při spouštění složité logiky pro velmi velké sady záznamů (miliardy záznamů).

Parsování dat při jejich shromažďování

Další informace o parsování dat při jejich shromažďování najdete v tématu Struktura transformace ve službě Azure Monitor. Tento přístup vytvoří v tabulce vlastní vlastnosti, které mohou používat dotazy jako jakoukoli jinou vlastnost.

Parsování dat v dotazu pomocí vzorů

Pokud data, která chcete analyzovat, je možné identifikovat pomocí vzoru, který se opakuje napříč záznamy, můžete pomocí různých operátorů v dotazovací jazyk Kusto extrahovat konkrétní část dat do jedné nebo více nových vlastností.

Jednoduché vzory textu

Pomocí operátoru parse v dotazu vytvořte jednu nebo více vlastních vlastností, které lze extrahovat z řetězcového výrazu. Určíte vzor, který se má identifikovat, a názvy vlastností, které se mají vytvořit. Tento přístup je užitečný pro data s řetězci klíč-hodnota s formulářem podobným key=value.

Zvažte vlastní protokol s daty v následujícím formátu:

Time=2018-03-10 01:34:36 Event Code=207 Status=Success Message=Client 05a26a97-272a-4bc9-8f64-269d154b0e39 connected
Time=2018-03-10 01:33:33 Event Code=208 Status=Warning Message=Client ec53d95c-1c88-41ae-8174-92104212de5d disconnected
Time=2018-03-10 01:35:44 Event Code=209 Status=Success Message=Transaction 10d65890-b003-48f8-9cfc-9c74b51189c8 succeeded
Time=2018-03-10 01:38:22 Event Code=302 Status=Error Message=Application could not connect to database
Time=2018-03-10 01:31:34 Event Code=303 Status=Error Message=Application lost connection to database

Následující dotaz by tato data parsovala do jednotlivých vlastností. Řádek s project se přidává k tomu, aby se vracely pouze vypočítané vlastnosti, a nikoli RawData, což je jediná vlastnost, která obsahuje celý záznam z vlastního protokolu.

MyCustomLog_CL
| parse RawData with * "Time=" EventTime " Event Code=" Code " Status=" Status " Message=" Message
| project EventTime, Code, Status, Message

V tabulce AzureActivity je v tomto příkladě odděleno uživatelské jméno z hlavního názvu uživatele (UPN).

AzureActivity
| parse  Caller with UPNUserPart "@" * 
| where UPNUserPart != "" //Remove non UPN callers (apps, SPNs, etc)
| distinct UPNUserPart, Caller

Regulární výrazy

Pokud se vaše data dají identifikovat pomocí regulárního výrazu, můžete k extrakci jednotlivých hodnot použít funkce, které používají regulární výrazy . Následující příklad používá extrakci k rozdělení UPN pole ze AzureActivity záznamů a následné vrácení jedinečných uživatelů.

AzureActivity
| extend UPNUserPart = extract("([a-z.]*)@", 1, Caller) 
| distinct UPNUserPart, Caller

K zajištění efektivní analýzy ve velkém měřítku azure Monitor používá re2 verzi regulárních výrazů, která je podobná, ale není identická s některými z ostatních variant regulárních výrazů. Další informace najdete v syntaxi výrazu re2.

Analýza dat oddělených v dotazu

Data s použitím oddělovačů odděluje pole společným znakem, například čárkou v souboru CSV. Pomocí rozdělené funkce můžete analyzovat data oddělená pomocí oddělovače, který zadáte. Tento přístup můžete použít s operátorem extend k vrácení všech polí v datech nebo k určení jednotlivých polí, která mají být zahrnuta do výstupu.

Poznámka:

Vzhledem k tomu, že rozdělení vrací dynamický objekt, může být nutné výsledky explicitně přetypovat na datové typy, například řetězec, který se má použít v operátorech a filtrech.

Zvažte vlastní protokol s daty v následujícím formátu CSV:

2018-03-10 01:34:36, 207,Success,Client 05a26a97-272a-4bc9-8f64-269d154b0e39 connected
2018-03-10 01:33:33, 208,Warning,Client ec53d95c-1c88-41ae-8174-92104212de5d disconnected
2018-03-10 01:35:44, 209,Success,Transaction 10d65890-b003-48f8-9cfc-9c74b51189c8 succeeded
2018-03-10 01:38:22, 302,Error,Application could not connect to database
2018-03-10 01:31:34, 303,Error,Application lost connection to database

Následující dotaz by tato data parsoval a sumarizovat podle dvou počítaných vlastností. První řádek rozdělí RawData vlastnost na pole řetězců. Každý z dalších řádků dává název jednotlivým vlastnostem a přidá je do výstupu pomocí funkcí, které je převedou na příslušný datový typ.

MyCustomCSVLog_CL
| extend CSVFields  = split(RawData, ',')
| extend EventTime  = todatetime(CSVFields[0])
| extend Code       = toint(CSVFields[1]) 
| extend Status     = tostring(CSVFields[2]) 
| extend Message    = tostring(CSVFields[3]) 
| where getyear(EventTime) == 2018
| summarize count() by Status,Code

Analýza předdefinovaných struktur v dotazu

Pokud jsou data naformátovaná ve známé struktuře, můžete k analýze předdefinovaných struktur použít některou z funkcí v dotazovací jazyk Kusto:

Následující příklad dotazu analyzuje Properties pole AzureActivity tabulky, která je strukturovaná ve formátu JSON. Uloží výsledky do dynamické vlastnosti s názvem parsedProp, která zahrnuje jednotlivou pojmenovanou hodnotu ve formátu JSON. Tyto hodnoty slouží k filtrování a sumarizaci výsledků dotazu.

AzureActivity
| extend parsedProp = parse_json(Properties) 
| where parsedProp.isComplianceCheck == "True" 
| summarize count() by ResourceGroup, tostring(parsedProp.tags.businessowner)

Tyto funkce analýzy můžou být náročné na procesor. Používejte je jenom v případech, kdy dotaz používá více vlastností z formátovaných dat. V opačném případě je jednoduché zpracování porovnávání vzorů rychlejší.

Následující příklad ukazuje rozpis typu doménového řadiče TGT Preauth. Typ existuje pouze v EventData poli, což je řetězec XML. Nejsou potřeba žádná jiná data z tohoto pole. V tomto případě se parse používá k výběru požadované části dat.

SecurityEvent
| where EventID == 4768
| parse EventData with * 'PreAuthType">' PreAuthType '</Data>' * 
| summarize count() by PreAuthType

Použití funkce k simulaci tabulky

Může se stát, že máte více dotazů, které provádějí stejnou analýzu určité tabulky. V tomto případě vytvořte funkci, která vrátí analyzovaná data místo replikace logiky analýzy v každém dotazu. Alias funkce pak můžete použít místo původní tabulky v jiných dotazech.

Zvažte předchozí příklad vlastního protokolu, který je oddělen čárkami. Pokud chcete použít analyzovaná data ve více dotazech, vytvořte funkci pomocí následujícího dotazu a uložte je s aliasem MyCustomCSVLog.

MyCustomCSVLog_CL
| extend CSVFields = split(RawData, ',')
| extend DateTime  = tostring(CSVFields[0])
| extend Code      = toint(CSVFields[1]) 
| extend Status    = tostring(CSVFields[2]) 
| extend Message   = tostring(CSVFields[3])

Alias teď můžete použít MyCustomCSVLog místo skutečného názvu tabulky v dotazech, jako je následující příklad:

MyCustomCSVLog
| summarize count() by Status,Code

Další kroky

Seznamte se s dotazy na protokoly , které analyzují data shromážděná ze zdrojů dat a řešení.