Monitorování Site Recovery s využitím protokolů Azure Monitoru
Tento článek popisuje, jak monitorovat počítače replikované službou Azure Site Recovery pomocí protokolů služby Azure Monitor a Log Analytics.
Protokoly Azure Monitoru poskytují platformu pro data protokolů, která shromažďuje protokoly aktivit a prostředků spolu s dalšími daty monitorování. V protokolech Azure Monitoru můžete pomocí Log Analytics zapisovat a testovat dotazy na protokoly a interaktivně analyzovat data protokolu. Můžete vizualizovat a dotazovat výsledky protokolu a nakonfigurovat výstrahy pro provádění akcí na základě monitorovaných dat.
Pro Site Recovery můžete použít protokoly služby Azure Monitor, které vám pomůžou s následujícími akcemi:
- Monitorujte stav a stav Site Recovery. Můžete například monitorovat stav replikace, stav testovacího převzetí služeb při selhání, Site Recovery události, cíle bodu obnovení (RPO) pro chráněné počítače a míru změn disku a dat.
- Nastavte upozornění pro Site Recovery. Můžete například nakonfigurovat upozornění na stav počítače, testovací stav převzetí služeb při selhání nebo stav Site Recovery úlohy.
Použití protokolů služby Azure Monitor s Site Recovery se podporuje pro replikaci z Azure do Azure a replikaci Z virtuálního počítače nebo fyzického serveru do Azure.
Poznámka
Pokud chcete získat protokoly změn dat a nahrát protokoly rychlosti pro VMware a fyzické počítače, musíte na procesový server nainstalovat agenta microsoftu pro monitorování. Tento agent odesílá protokoly replikovaných počítačů do pracovního prostoru. Tato funkce je dostupná pouze pro agenta mobility verze 9.30.
Požadavky
Zde je seznam toho, co k tomu potřebujete:
- Alespoň jeden počítač je chráněný v trezoru služby Recovery Services.
- Pracovní prostor služby Log Analytics pro ukládání protokolů Site Recovery. Přečtěte si o nastavení pracovního prostoru.
- Základní znalosti o tom, jak zapisovat, spouštět a analyzovat dotazy na protokoly v Log Analytics. Další informace.
Doporučujeme, abyste si před zahájením prostudovali běžné otázky k monitorování .
Konfigurace Site Recovery pro odesílání protokolů
V trezoru vyberte Nastavení >diagnostikyPřidat nastavení diagnostiky.
V nastavení diagnostiky zadejte název a zaškrtněte políčko Odeslat do Log Analytics.
Vyberte předplatné Protokolů služby Azure Monitor a pracovní prostor služby Log Analytics.
V přepínači vyberte Azure Diagnostics.
V seznamu protokolů vyberte všechny protokoly s předponou AzureSiteRecovery. Pak vyberte OK.
Protokoly Site Recovery se začnou inkasovat do tabulky (AzureDiagnostics) ve vybraném pracovním prostoru.
Konfigurace agenta Microsoft Monitoring Agent na procesovém serveru pro odesílání protokolů četnosti změn a nahrávání
Můžete zaznamenat informace o četnosti změn dat a frekvenci nahrávání zdrojových dat pro vaše VMware nebo fyzické počítače v místním prostředí. Aby to bylo možné, musí být na procesovém serveru nainstalovaný agent Microsoft Monitoring Agent.
Přejděte do pracovního prostoru služby Log Analytics a vyberte Upřesnit nastavení.
Vyberte stránku Připojené zdroje a dále vyberte Windows Servery.
Stáhněte si agenta pro Windows (64bitovou verzi) na procesovém serveru.
Dokončete instalaci agenta zadáním získaného ID a klíče pracovního prostoru.
Po dokončení instalace přejděte do pracovního prostoru služby Log Analytics a vyberte Správa starších agentů. Přejděte na stránku Data a vyberte Čítače výkonu Systému Windows.
Vyberte + a přidejte následující dva čítače s intervalem vzorku 300 sekund:
- ASRAnalytics(*)\SourceVmChurnRate
- ASRAnalytics(*)\SourceVmThrpRate
Do pracovního prostoru se začnou přidávat data četnosti změn a nahrávání.
Dotazování protokolů – příklady
Data z protokolů načítáte pomocí dotazů protokolu napsaných pomocí dotazovacího jazyka Kusto. Tato část obsahuje několik příkladů běžných dotazů, které můžete použít pro monitorování Site Recovery.
Poznámka
Některé příklady používají replicationProviderName_s nastavenou na A2A. Tím se načtou virtuální počítače Azure, které se replikují do sekundární oblasti Azure pomocí Site Recovery. V těchto příkladech můžete nahradit A2AinMageRcm, pokud chcete načíst místní virtuální počítače VMware nebo fyzické servery replikované do Azure pomocí Site Recovery.
Stav replikace dotazů
Tento dotaz vykreslí výsečový graf pro aktuální stav replikace všech chráněných virtuálních počítačů Azure rozdělený do tří stavů: Normální, Upozornění nebo Kritický.
AzureDiagnostics
| where replicationProviderName_s == "A2A"
| where isnotempty(name_s) and isnotnull(name_s)
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s
| project name_s , replicationHealth_s
| summarize count() by replicationHealth_s
| render piechart
Verze Mobility dotazu
Tento dotaz vykreslí výsečový graf virtuálních počítačů Azure replikovaných s Site Recovery, který je rozdělený podle verze agenta Mobility, kterou používají.
AzureDiagnostics
| where replicationProviderName_s == "A2A"
| where isnotempty(name_s) and isnotnull(name_s)
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s
| project name_s , agentVersion_s
| summarize count() by agentVersion_s
| render piechart
Čas cíle bodu obnovení dotazu
Tento dotaz vykreslí pruhový graf virtuálních počítačů Azure replikovaných s Site Recovery, který je rozdělený podle cíle bodu obnovení (RPO): Méně než 15 minut, mezi 15 až 30 minutami a více než 30 minut.
AzureDiagnostics
| where replicationProviderName_s == "A2A"
| where isnotempty(name_s) and isnotnull(name_s)
| extend RPO = case(rpoInSeconds_d <= 900, "<15Min",
rpoInSeconds_d <= 1800, "15-30Min", ">30Min")
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s
| project name_s , RPO
| summarize Count = count() by RPO
| render barchart
Dotazování Site Recovery úloh
Tento dotaz načte všechny úlohy Site Recovery (pro všechny scénáře zotavení po havárii), které se aktivovaly za posledních 72 hodin, a stav jejich dokončení.
AzureDiagnostics
| where Category == "AzureSiteRecoveryJobs"
| where TimeGenerated >= ago(72h)
| project JobName = OperationName , VaultName = Resource , TargetName = affectedResourceName_s, State = ResultType
Dotazování Site Recovery událostí
Tento dotaz načte všechny události Site Recovery (pro všechny scénáře zotavení po havárii) vyvolané během posledních 72 hodin spolu s jejich závažností.
AzureDiagnostics
| where Category == "AzureSiteRecoveryEvents"
| where TimeGenerated >= ago(72h)
| project AffectedObject=affectedResourceName_s , VaultName = Resource, Description_s = healthErrors_s , Severity = Level
Stav testovacího převzetí služeb při selhání dotazu (výsečový graf)
Tento dotaz vykreslí výsečový graf pro stav testovacího převzetí služeb při selhání virtuálních počítačů Azure replikovaných s Site Recovery.
AzureDiagnostics
| where replicationProviderName_s == "A2A"
| where isnotempty(name_s) and isnotnull(name_s)
| where isnotempty(failoverHealth_s) and isnotnull(failoverHealth_s)
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s
| project name_s , Resource, failoverHealth_s
| summarize count() by failoverHealth_s
| render piechart
Stav testovacího převzetí služeb při selhání dotazu (tabulka)
Tento dotaz vykreslí tabulku stavu testovacího převzetí služeb při selhání virtuálních počítačů Azure replikovaných s Site Recovery.
AzureDiagnostics
| where replicationProviderName_s == "A2A"
| where isnotempty(name_s) and isnotnull(name_s)
| where isnotempty(failoverHealth_s) and isnotnull(failoverHealth_s)
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s
| project VirtualMachine = name_s , VaultName = Resource , TestFailoverStatus = failoverHealth_s
Dotazování na cíl bodu obnovení počítače
Tento dotaz vykreslí graf trendů, který sleduje cíl bodu obnovení konkrétního virtuálního počítače Azure (ContosoVM123) za posledních 72 hodin.
AzureDiagnostics
| where replicationProviderName_s == "A2A"
| where TimeGenerated > ago(72h)
| where isnotempty(name_s) and isnotnull(name_s)
| where name_s == "ContosoVM123"
| project TimeGenerated, name_s , RPO_in_seconds = rpoInSeconds_d
| render timechart
Frekvence změn dat dotazování (četnost změn dat) a rychlost nahrávání pro virtuální počítač Azure
Tento dotaz vykreslí graf trendů pro konkrétní virtuální počítač Azure (ContosoVM123), který představuje rychlost změn dat (zápis bajtů za sekundu) a rychlost nahrávání dat.
AzureDiagnostics
| where Category in ("AzureSiteRecoveryProtectedDiskDataChurn", "AzureSiteRecoveryReplicationDataUploadRate")
| extend CategoryS = case(Category contains "Churn", "DataChurn",
Category contains "Upload", "UploadRate", "none")
| extend InstanceWithType=strcat(CategoryS, "_", InstanceName_s)
| where TimeGenerated > ago(24h)
| where InstanceName_s startswith "ContosoVM123"
| project TimeGenerated , InstanceWithType , Churn_MBps = todouble(Value_s)/1048576
| render timechart
Frekvence změn dat dotazů (četnost změn) a rychlost nahrávání pro VMware nebo fyzický počítač
Poznámka
Ujistěte se, že jste nastavili agenta monitorování na procesovém serveru, aby tyto protokoly načítá. Projděte si postup konfigurace agenta monitorování.
Tento dotaz vykreslí graf trendů pro konkrétní disk , disk0, replikované položky win-9r7sfh9qlru, který představuje rychlost změn dat (zápis bajtů za sekundu) a rychlost nahrávání dat. Název disku najdete v okně Disky replikované položky v trezoru služby Recovery Services. Název instance, který se má použít v dotazu, je název DNS počítače následovaný _ a názvem disku jako v tomto příkladu.
Perf
| where ObjectName == "ASRAnalytics"
| where InstanceName contains "win-9r7sfh9qlru_disk0"
| where TimeGenerated >= ago(4h)
| project TimeGenerated ,CounterName, Churn_MBps = todouble(CounterValue)/5242880
| render timechart
Procesový server odešle tato data každých 5 minut do pracovního prostoru služby Log Analytics. Tyto datové body představují průměr vypočítaný za 5 minut.
Dotazování na souhrn zotavení po havárii (z Azure do Azure)
Tento dotaz vykreslí souhrnnou tabulku pro virtuální počítače Azure replikované do sekundární oblasti Azure. Zobrazuje název virtuálního počítače, replikaci a stav ochrany, cíl bodu obnovení, stav testovacího převzetí služeb při selhání, verzi agenta Mobility, všechny chyby aktivní replikace a zdrojové umístění.
AzureDiagnostics
| where replicationProviderName_s == "A2A"
| where isnotempty(name_s) and isnotnull(name_s)
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s
| project VirtualMachine = name_s , Vault = Resource , ReplicationHealth = replicationHealth_s, Status = protectionState_s, RPO_in_seconds = rpoInSeconds_d, TestFailoverStatus = failoverHealth_s, AgentVersion = agentVersion_s, ReplicationError = replicationHealthErrors_s, SourceLocation = primaryFabricName_s
Dotaz na souhrn zotavení po havárii (VMware nebo fyzické servery)
Tento dotaz vykreslí souhrnnou tabulku pro virtuální počítače VMware a fyzické servery replikované do Azure. Zobrazuje název počítače, stav replikace a ochrany, cíl bodu obnovení, stav testovacího převzetí služeb při selhání, verzi agenta mobility, všechny chyby aktivní replikace a příslušný procesový server.
AzureDiagnostics
| where replicationProviderName_s == "InMageRcm"
| where isnotempty(name_s) and isnotnull(name_s)
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s
| project VirtualMachine = name_s , Vault = Resource , ReplicationHealth = replicationHealth_s, Status = protectionState_s, RPO_in_seconds = rpoInSeconds_d, TestFailoverStatus = failoverHealth_s, AgentVersion = agentVersion_s, ReplicationError = replicationHealthErrors_s, ProcessServer = processServerName_g
Nastavení upozornění – příklady
Výstrahy Site Recovery můžete nastavit na základě dat služby Azure Monitor. Přečtěte si další informace o nastavení upozornění protokolu.
Poznámka
Některé příklady používají replicationProviderName_s nastavenou na A2A. Tím se nastaví upozornění pro virtuální počítače Azure, které se replikují do sekundární oblasti Azure. V těchto příkladech můžete nahradit A2AinMageRcm , pokud chcete nastavit výstrahy pro místní virtuální počítače VMware nebo fyzické servery replikované do Azure.
Více počítačů v kritickém stavu
Nastavte upozornění, pokud více než 20 replikovaných virtuálních počítačů Azure přejde do kritického stavu.
AzureDiagnostics
| where replicationProviderName_s == "A2A"
| where replicationHealth_s == "Critical"
| where isnotempty(name_s) and isnotnull(name_s)
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s
| summarize count()
Pro výstrahu nastavte prahovou hodnotu na 20
.
Jeden počítač v kritickém stavu
Nastavte upozornění, pokud konkrétní replikovaný virtuální počítač Azure přejde do kritického stavu.
AzureDiagnostics
| where replicationProviderName_s == "A2A"
| where replicationHealth_s == "Critical"
| where name_s == "ContosoVM123"
| where isnotempty(name_s) and isnotnull(name_s)
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s
| summarize count()
Pro výstrahu nastavte prahovou hodnotu na 1
.
Více počítačů překračuje cíl bodu obnovení
Nastavte upozornění, pokud cíl bodu obnovení pro více než 20 virtuálních počítačů Azure překročí 30 minut.
AzureDiagnostics
| where replicationProviderName_s == "A2A"
| where isnotempty(name_s) and isnotnull(name_s)
| where rpoInSeconds_d > 1800
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s
| project name_s , rpoInSeconds_d
| summarize count()
Pro výstrahu nastavte prahovou hodnotu na 20
.
Jeden počítač překračuje cíl bodu obnovení
Nastavte upozornění, pokud cíl bodu obnovení pro jeden virtuální počítač Azure překročí 30 minut.
AzureDiagnostics
| where replicationProviderName_s == "A2A"
| where isnotempty(name_s) and isnotnull(name_s)
| where name_s == "ContosoVM123"
| where rpoInSeconds_d > 1800
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s
| project name_s , rpoInSeconds_d
| summarize count()
Pro výstrahu nastavte prahovou hodnotu na 1
.
Testovací převzetí služeb při selhání pro více počítačů je delší než 90 dnů
Nastavte upozornění v případě, že poslední úspěšné testovací převzetí služeb při selhání trvalo déle než 90 dnů pro více než 20 virtuálních počítačů.
AzureDiagnostics
| where replicationProviderName_s == "A2A"
| where Category == "AzureSiteRecoveryReplicatedItems"
| where isnotempty(name_s) and isnotnull(name_s)
| where lastSuccessfulTestFailoverTime_t <= ago(90d)
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s
| summarize count()
Pro výstrahu nastavte prahovou hodnotu na 20
.
Testovací převzetí služeb při selhání pro jeden počítač delší než 90 dnů
Nastavte upozornění, pokud poslední úspěšné testovací převzetí služeb při selhání pro konkrétní virtuální počítač proběhlo před více než 90 dny.
AzureDiagnostics
| where replicationProviderName_s == "A2A"
| where Category == "AzureSiteRecoveryReplicatedItems"
| where isnotempty(name_s) and isnotnull(name_s)
| where lastSuccessfulTestFailoverTime_t <= ago(90d)
| where name_s == "ContosoVM123"
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s
| summarize count()
Pro výstrahu nastavte prahovou hodnotu na 1
.
Site Recovery úloha selže
Nastavte upozornění v případě, že Site Recovery úloha (v tomto případě úloha Znovunastavení ochrany) selže v jakémkoli Site Recovery scénáři během posledního dne.
AzureDiagnostics
| where Category == "AzureSiteRecoveryJobs"
| where OperationName == "Reprotect"
| where ResultType == "Failed"
| summarize count()
Pro výstrahu nastavte prahovou hodnotu na 1 a Období na 1440 minut, abyste zkontrolovali chyby za poslední den.
Další kroky
Přečtěte si o integrovaném monitorování Site Recovery.