Monitorování služby Azure Batch

Tento článek popisuje:

  • Typy dat monitorování, které můžete pro tuto službu shromažďovat.
  • Způsoby analýzy dat

Poznámka:

Pokud už tuto službu nebo Azure Monitor znáte a chcete jenom vědět, jak analyzovat data monitorování, přečtěte si část Analyzovat na konci tohoto článku.

Pokud máte důležité aplikace a obchodní procesy, které spoléhají na prostředky Azure, musíte monitorovat a dostávat výstrahy pro váš systém. Služba Azure Monitor shromažďuje a agreguje metriky a protokoly ze všech komponent systému. Azure Monitor poskytuje přehled o dostupnosti, výkonu a odolnosti a upozorní vás na problémy. K nastavení a zobrazení dat monitorování můžete použít Azure Portal, PowerShell, Azure CLI, ROZHRANÍ REST API nebo klientské knihovny.

Typy zdrojů

Azure používá koncept typů prostředků a ID k identifikaci všeho v předplatném. Azure Monitor podobně organizuje základní data monitorování do metrik a protokolů na základě typů prostředků, označovaných také jako obory názvů. Různé metriky a protokoly jsou k dispozici pro různé typy prostředků. Vaše služba může být přidružená k více než jednomu typu prostředku.

Typy prostředků jsou také součástí ID prostředků pro každý prostředek spuštěný v Azure. Například jeden typ prostředku pro virtuální počítač je Microsoft.Compute/virtualMachines. Seznam služeb a jejich přidružených typů prostředků najdete v tématu Poskytovatelé prostředků.

Další informace o typech prostředků služby Batch najdete v tématu Referenční informace k datům monitorování služby Batch.

Úložiště dat

Pro Azure Monitor:

  • Data metrik se ukládají v databázi metrik služby Azure Monitor.
  • Data protokolů se ukládají v úložišti protokolů služby Azure Monitor. Log Analytics je nástroj na webu Azure Portal, který se může dotazovat na toto úložiště.
  • Protokol aktivit Azure je samostatné úložiště s vlastním rozhraním na webu Azure Portal.

Volitelně můžete směrovat data metriky a protokolu aktivit do úložiště protokolů služby Azure Monitor. Log Analytics pak můžete použít k dotazování na data a jejich korelaci s jinými daty protokolů.

Mnoho služeb může použít nastavení diagnostiky k odesílání metrik a dat protokolů do jiných umístění úložiště mimo Azure Monitor. Mezi příklady patří Azure Storage, hostované partnerské systémy a partnerské systémy mimo Azure pomocí služby Event Hubs.

Podrobné informace o tom, jak Azure Monitor ukládá data, najdete na datové platformě Azure Monitoru.

Přístup k diagnostickým protokolům v úložišti

Pokud archivujete diagnostické protokoly Batch v účtu úložiště, vytvoří se v účtu úložiště kontejner úložiště, jakmile dojde k související události. Objekty blob se vytvářejí podle následujícího vzoru pojmenování:

insights-{log category name}/resourceId=/SUBSCRIPTIONS/{subscription ID}/
RESOURCEGROUPS/{resource group name}/PROVIDERS/MICROSOFT.BATCH/
BATCHACCOUNTS/{Batch account name}/y={four-digit numeric year}/
m={two-digit numeric month}/d={two-digit numeric day}/
h={two-digit 24-hour clock hour}/m=00/PT1H.json

Příklad:

insights-metrics-pt1m/resourceId=/SUBSCRIPTIONS/XXXXXXXX-XXXX-XXXX-XXXX-XXXXXXXXXXXX/
RESOURCEGROUPS/MYRESOURCEGROUP/PROVIDERS/MICROSOFT.BATCH/
BATCHACCOUNTS/MYBATCHACCOUNT/y=2018/m=03/d=05/h=22/m=00/PT1H.json

Každý soubor objektu blob PT1H.json obsahuje události ve formátu JSON, ke kterým došlo během hodiny zadané v adrese URL objektu blob (například h=12). Během aktuální hodiny se události připojují k souboru PT1H.json , když k nim dojde. Hodnota minuty (m=00) je vždy 00, protože události diagnostického protokolu jsou rozdělené na jednotlivé objekty blob za hodinu. Všechny časy jsou v UTC.

Následující příklad ukazuje PoolResizeCompleteEvent položku v souboru protokolu PT1H.json . Položka obsahuje informace o aktuálním a cílovém počtu vyhrazených a nízkopřednostních uzlů a počátečním a koncovém čase operace.

{ "Tenant": "65298bc2729a4c93b11c00ad7e660501", "time": "2019-08-22T20:59:13.5698778Z", "resourceId": "/SUBSCRIPTIONS/XXXXXXXX-XXXX-XXXX-XXXX-XXXXXXXXXXXX/RESOURCEGROUPS/MYRESOURCEGROUP/PROVIDERS/MICROSOFT.BATCH/BATCHACCOUNTS/MYBATCHACCOUNT/", "category": "ServiceLog", "operationName": "PoolResizeCompleteEvent", "operationVersion": "2017-06-01", "properties": {"id":"MYPOOLID","nodeDeallocationOption":"Requeue","currentDedicatedNodes":10,"targetDedicatedNodes":100,"currentLowPriorityNodes":0,"targetLowPriorityNodes":0,"enableAutoScale":false,"isAutoPool":false,"startTime":"2019-08-22 20:50:59.522","endTime":"2019-08-22 20:59:12.489","resultCode":"Success","resultMessage":"The operation succeeded"}}

Pokud chcete přistupovat k protokolům v účtu úložiště prostřednictvím kódu programu, použijte rozhraní API služby Storage.

Metriky platformy Azure Monitoru

Azure Monitor poskytuje metriky platformy pro většinu služeb. Tady jsou:

  • Individuálně definované pro každý obor názvů.
  • Uložená v databázi metrik časových řad služby Azure Monitor.
  • Zjednodušené a schopné podporovat upozorňování téměř v reálném čase.
  • Používá se ke sledování výkonu prostředku v průběhu času.

Kolekce: Azure Monitor shromažďuje metriky platformy automaticky. Není nutná žádná konfigurace.

Směrování: Metriky platformy můžete obvykle směrovat do protokolů služby Azure Monitor nebo Log Analytics, abyste je mohli dotazovat pomocí jiných dat protokolů. Další informace najdete v nastavení diagnostiky metrik. Postup konfigurace nastavení diagnostiky pro službu najdete v tématu Vytvoření nastavení diagnostiky ve službě Azure Monitor.

Seznam všech metrik, které je možné shromáždit pro všechny prostředky ve službě Azure Monitor, najdete v tématu Podporované metriky ve službě Azure Monitor.

Mezi příklady metrik v účtu Batch patří události vytvoření fondu, počet uzlů s nízkou prioritou a události dokončení úkolu. Tyto metriky můžou pomoct identifikovat trendy a použít je k analýze dat.

Poznámka:

Metriky generované během posledních 3 minut můžou stále agregovat, takže hodnoty se během tohoto časového rámce můžou podsestavovat. Doručování metrik není zaručené a může být ovlivněno nedoručením, ztrátou dat nebo duplikací.

Úplný seznam dostupných metrik služby Batch najdete v tématu Referenční informace k datům monitorování služby Batch.

Protokoly prostředků služby Azure Monitor

Protokoly prostředků poskytují přehled o operacích, které provedl prostředek Azure. Protokoly se generují automaticky, ale pokud je chcete uložit nebo dotazovat, musíte je směrovat do protokolů služby Azure Monitor. Protokoly jsou uspořádané do kategorií. Daný obor názvů může mít více kategorií protokolu prostředků.

Kolekce: Protokoly prostředků se neshromažďují a neukládají, dokud nevytvoříte nastavení diagnostiky a nenasměrujete protokoly do jednoho nebo více umístění. Při vytváření nastavení diagnostiky určíte, které kategorie protokolů se mají shromažďovat. Existuje několik způsobů, jak vytvořit a udržovat nastavení diagnostiky, včetně webu Azure Portal, prostřednictvím kódu programu a služby Azure Policy.

Směrování: Navrhované výchozí nastavení je směrovat protokoly prostředků do protokolů služby Azure Monitor, abyste je mohli dotazovat pomocí jiných dat protokolu. K dispozici jsou také jiná umístění, jako je Azure Storage, Azure Event Hubs a někteří monitorovací partneři Microsoftu. Další informace najdete v protokolech prostředků Azure a cílech protokolů prostředků.

Podrobné informace o shromažďování, ukládání a směrování protokolů prostředků najdete v tématu Nastavení diagnostiky ve službě Azure Monitor.

Seznam všech dostupných kategorií protokolů prostředků ve službě Azure Monitor najdete v tématu Podporované protokoly prostředků ve službě Azure Monitor.

Všechny protokoly prostředků ve službě Azure Monitor mají stejná pole hlaviček, za kterými následují pole specifická pro službu. Běžné schéma je popsané ve schématu protokolu prostředků služby Azure Monitor.

Dostupné kategorie protokolů prostředků, přidružené tabulky Log Analytics a schémata protokolů pro Batch najdete v referenčních informacích k datům monitorování služby Batch.

Pro každý účet Batch, který chcete monitorovat, musíte explicitně povolit nastavení diagnostiky.

Pro službu Batch můžete shromáždit následující protokoly:

  • ServiceLog: Události generované službou Batch během životnosti jednotlivých zdrojů, jako je fond nebo úkol.
  • AllMetrics: Metrics at the Batch account level.

Následující snímek obrazovky ukazuje ukázkové nastavení diagnostiky, které odesílá všechny protokoly a všechny metriky do pracovního prostoru služby Log Analytics.

Snímek obrazovky se stránkou nastavení diagnostiky, která ukazuje příklad

Při vytváření fondu Azure Batch můžete na výpočetní uzly nainstalovat libovolná z následujících rozšíření souvisejících s monitorováním, která budou shromažďovat a analyzovat data:

Porovnání různých rozšíření a agentů a dat, která shromažďují, najdete v tématu Porovnání agentů.

Protokol aktivit Azure

Protokol aktivit obsahuje události na úrovni předplatného, které sledují operace pro každý prostředek Azure, jak je vidět mimo tento prostředek; Například vytvoření nového prostředku nebo spuštění virtuálního počítače.

Shromažďování: Události protokolu aktivit se automaticky generují a shromažďují v samostatném úložišti pro zobrazení na webu Azure Portal.

Směrování: Data protokolu aktivit můžete odesílat do protokolů služby Azure Monitor, abyste je mohli analyzovat společně s dalšími daty protokolů. K dispozici jsou také jiná umístění, jako je Azure Storage, Azure Event Hubs a někteří monitorovací partneři Microsoftu. Další informace o směrování protokolu aktivit najdete v tématu Přehled protokolu aktivit Azure.

Pro účty Batch konkrétně protokol aktivit shromažďuje události související s vytvářením a odstraňováním účtu a správou klíčů.

Analýza dat monitorování

Existuje mnoho nástrojů pro analýzu dat monitorování.

Nástroje služby Azure Monitor

Azure Monitor podporuje následující základní nástroje:

Mezi nástroje, které umožňují složitější vizualizaci, patří:

  • Řídicí panely , které umožňují kombinovat různé druhy dat do jednoho podokna na webu Azure Portal.
  • Sešity, přizpůsobitelné sestavy, které můžete vytvořit na webu Azure Portal. Sešity můžou obsahovat dotazy na text, metriky a protokoly.
  • Grafana, otevřený nástroj platformy, který exceluje v provozních řídicích panelech Grafana umožňuje vytvářet řídicí panely, které obsahují data z více zdrojů, než je Azure Monitor.
  • Power BI, služba obchodní analýzy, která poskytuje interaktivní vizualizace napříč různými zdroji dat. Power BI můžete nakonfigurovat tak, aby automaticky naimportovali data protokolů ze služby Azure Monitor, abyste mohli tyto vizualizace využívat.

Při analýze metrik Batch založených na počtu, jako je Počet vyhrazených jader nebo Počet uzlů s nízkou prioritou, použijte agregaci Avg . U metrik založených na událostech, jako je změna velikosti dokončených událostí fondu, použijte agregaci Počet . Nepoužívejte agregaci Součet, která sečte hodnoty všech datových bodů přijatých v průběhu období grafu.

Nástroje pro export ve službě Azure Monitor

Data ze služby Azure Monitor můžete získat do jiných nástrojů pomocí následujících metod:

Pokud chcete začít s rozhraním REST API pro Azure Monitor, přečtěte si průvodce rozhraním REST API pro monitorování Azure.

Dotazy Kusto

Data monitorování můžete analyzovat v protokolech služby Azure Monitor nebo v úložišti Log Analytics pomocí dotazovacího jazyka Kusto (KQL).

Důležité

Když na portálu vyberete protokoly z nabídky služby, otevře se Log Analytics s oborem dotazu nastaveným na aktuální službu. Tento obor znamená, že dotazy protokolu budou obsahovat pouze data z tohoto typu prostředku. Pokud chcete spustit dotaz, který obsahuje data z jiných služeb Azure, vyberte v nabídce Azure Monitor protokoly. Podrobnosti najdete v tématu Rozsah dotazů protokolu a časový rozsah ve službě Azure Monitor Log Analytics .

Seznam běžných dotazů pro libovolnou službu najdete v rozhraní dotazů Log Analytics.

Vzorové dotazy

Tady je několik ukázkových dotazů protokolu pro Službu Batch:

Změna velikosti fondu: Umožňuje vypisovat časy změny velikosti podle fondu a kódu výsledku (úspěch nebo selhání):

AzureDiagnostics
| where OperationName=="PoolResizeCompleteEvent"
| summarize operationTimes=make_list(startTime_s) by poolName=id_s, resultCode=resultCode_s

Doba trvání úkolu: Poskytuje uplynulý čas úkolů v sekundách od zahájení úkolu po dokončení úkolu.

AzureDiagnostics
| where OperationName=="TaskCompleteEvent"
| extend taskId=id_s, ElapsedTime=datetime_diff('second', executionInfo_endTime_t, executionInfo_startTime_t) // For longer running tasks, consider changing 'second' to 'minute' or 'hour'
| summarize taskList=make_list(taskId) by ElapsedTime

Neúspěšné úkoly na úlohu: Zobrazí seznamy neúspěšných úkolů podle nadřazené úlohy.

AzureDiagnostics
| where OperationName=="TaskFailEvent"
| summarize failedTaskList=make_list(id_s) by jobId=jobId_s, ResourceId

Výstrahy

Upozornění služby Azure Monitor vás aktivně upozorňují, když se v datech monitorování nacházejí konkrétní podmínky. Upozornění umožňují identifikovat a řešit problémy ve vašem systému, než si je zákazníci všimnou. Další informace najdete v tématu Upozornění služby Azure Monitor.

Existuje mnoho zdrojů běžných upozornění pro prostředky Azure. Příklady běžných upozornění pro prostředky Azure najdete v tématu Ukázkové dotazy na upozornění protokolu. Web AMBA (Baseline Alerts) služby Azure Monitor poskytuje poloautomatickou metodu implementace důležitých upozornění, řídicích panelů a pokynů pro metriky platformy. Web se vztahuje na neustále se rozšiřující podmnožinu služeb Azure, včetně všech služeb, které jsou součástí cílové zóny Azure (ALZ).

Běžné schéma upozornění standardizuje spotřebu oznámení upozornění služby Azure Monitor. Další informace najdete v tématu Běžné schéma upozornění.

Typy výstrah

Na libovolnou metriku nebo zdroj dat protokolu na datové platformě azure Monitoru můžete upozornit. Existuje mnoho různých typů upozornění v závislosti na službách, které monitorujete, a na datech monitorování, která shromažďujete. Různé typy upozornění mají různé výhody a nevýhody. Další informace naleznete v tématu Volba správného typu upozornění monitorování.

Následující seznam popisuje typy upozornění služby Azure Monitor, které můžete vytvořit:

  • Upozornění na metriky vyhodnocují metriky prostředků v pravidelných intervalech. Metriky můžou být metriky platformy, vlastní metriky, protokoly ze služby Azure Monitor převedené na metriky nebo metriky Přehledy aplikací. Upozornění na metriky můžou také použít více podmínek a dynamických prahových hodnot.
  • Upozornění protokolu umožňují uživatelům použít dotaz Log Analytics k vyhodnocení protokolů prostředků s předdefinovanou frekvencí.
  • Upozornění protokolu aktivit se aktivují, když dojde k nové události protokolu aktivit, která odpovídá definovaným podmínkám. Upozornění služby Resource Health a upozornění služby Service Health jsou upozornění protokolu aktivit, která hlásí stav služby a prostředku.

Některé služby Azure také podporují upozornění inteligentního zjišťování, výstrahy Prometheus nebo doporučená pravidla upozornění.

U některých služeb můžete monitorovat škálování použitím stejného pravidla upozornění na metriku u více prostředků stejného typu, které existují ve stejné oblasti Azure. Jednotlivá oznámení se odesílají pro každý monitorovaný prostředek. Podporované služby a cloudy Azure najdete v tématu Monitorování více prostředků pomocí jednoho pravidla upozornění.

Poznámka:

Pokud vytváříte nebo spouštíte aplikaci, která běží ve vaší službě, může Azure Monitor application Insights nabízet více typů upozornění.

Pravidla upozornění služby Batch

Vzhledem k tomu, že doručování metrik může podléhat nekonzistence, jako je nedoručení, ztráta dat nebo duplicita, měli byste se vyhnout upozorněním, která se aktivují v jednom datovém bodu. Místo toho použijte prahové hodnoty k zohlednění těchto nekonzistence v určitém časovém období.

Můžete například chtít nakonfigurovat upozornění na metriku, když počet jader s nízkou prioritou klesne na určitou úroveň. Toto upozornění pak můžete použít k úpravě složení fondů. Nejlepších výsledků dosáhnete, když nastavíte dobu 10 nebo více minut, kdy se výstraha aktivuje, pokud průměrný počet jader s nízkou prioritou klesne pod prahovou hodnotu pro celé období. Toto časové období umožňuje agregovat metriky, abyste získali přesnější výsledky.

V následující tabulce jsou uvedeny některé triggery pravidla upozornění pro službu Batch. Tato pravidla upozornění jsou jen příklady. Můžete nastavit upozornění na libovolnou metriku, položku protokolu nebo položku protokolu aktivit uvedenou v referenčních informacích o monitorování služby Batch.

Typ upozornění Podmínka Popis
Metrika Nepoužitelný počet uzlů Vždy, když je počet nepoužitelných uzlů větší než 0
Metrika Události selhání úlohy Vždy, když je celkový počet událostí selhání úlohy větší než dynamická prahová hodnota

Doporučení poradce

U některých služeb, pokud během operací prostředků dojde k kritickým nebo bezprostředním změnám, zobrazí se na stránce Přehled služby na portálu výstraha. Další informace a doporučené opravy výstrahy najdete v doporučeních Advisoruv části Monitorování v nabídce vlevo. Během normálních operací se nezobrazují žádná doporučení poradce.

Další informace o Azure Advisoru najdete v přehledu Azure Advisoru.

Další možnosti monitorování služby Batch

Batch Explorer je bezplatný samostatný klientský nástroj, který vám pomůže vytvářet, ladit a monitorovat aplikace Azure Batch. Pomocí služby Azure Batch Přehledy s Batch Explorerem můžete získat systémové statistiky pro uzly Batch, jako jsou čítače výkonu virtuálního počítače.

V aplikacích Batch můžete pomocí knihovny Batch .NET monitorovat nebo dotazovat stav vašich prostředků, včetně úloh, úkolů, uzlů a fondů. Příklad:

Pomocí rozhraní API služby Batch můžete vytvářet dotazy na seznamy pro úlohy, úlohy, výpočetní uzly a další prostředky služby Batch. Další informace o tom, jak filtrovat dotazy seznamu, naleznete v tématu Vytváření dotazů pro efektivní výpis prostředků služby Batch.

Nebo místo potenciálně časově náročných dotazů na seznamy, které vracejí podrobné informace o rozsáhlých kolekcích úkolů nebo uzlů, můžete pomocí operací Získat počty úkolů a Zobrazit počty uzlů fondu získat počty pro úkoly Batch a výpočetní uzly. Další informace najdete v tématu Monitorování řešení batch počítáním úkolů a uzlů podle stavu.

Pomocí vlastních metrik a trasování můžete integrovat aplikační Přehledy s aplikacemi Azure Batch. Podrobný návod, jak přidat aplikační Přehledy do řešení Batch .NET, instrumentovat kód aplikace, monitorovat aplikaci na webu Azure Portal a vytvářet vlastní řídicí panely, najdete v tématu Monitorování a ladění aplikace Azure Batch .NET pomocí aplikačního Přehledy a ukázky doprovodného kódu.