Monitorování Site Recovery s využitím protokolů Azure Monitoru

Tento článek popisuje, jak monitorovat počítače replikované službou Azure Site Recovery pomocí protokolů služby Azure Monitor a Log Analytics.

Protokoly Azure Monitoru poskytují platformu pro data protokolů, která shromažďuje protokoly aktivit a prostředků spolu s dalšími daty monitorování. V protokolech Azure Monitoru můžete pomocí Log Analytics zapisovat a testovat dotazy na protokoly a interaktivně analyzovat data protokolu. Můžete vizualizovat a dotazovat výsledky protokolu a nakonfigurovat výstrahy pro provádění akcí na základě monitorovaných dat.

Pro Site Recovery můžete použít protokoly služby Azure Monitor, které vám pomůžou s následujícími akcemi:

  • Monitorujte stav a stav Site Recovery. Můžete například monitorovat stav replikace, stav testovacího převzetí služeb při selhání, Site Recovery události, cíle bodu obnovení (RPO) pro chráněné počítače a míru změn disku a dat.
  • Nastavte upozornění pro Site Recovery. Můžete například nakonfigurovat upozornění na stav počítače, testovací stav převzetí služeb při selhání nebo stav Site Recovery úlohy.

Použití protokolů služby Azure Monitor s Site Recovery se podporuje pro replikaci z Azure do Azure a replikaci Z virtuálního počítače nebo fyzického serveru do Azure.

Poznámka

Pokud chcete získat protokoly změn dat a nahrát protokoly rychlosti pro VMware a fyzické počítače, musíte na procesový server nainstalovat agenta microsoftu pro monitorování. Tento agent odesílá protokoly replikovaných počítačů do pracovního prostoru. Tato funkce je dostupná pouze pro agenta mobility verze 9.30.

Požadavky

Zde je seznam toho, co k tomu potřebujete:

  • Alespoň jeden počítač je chráněný v trezoru služby Recovery Services.
  • Pracovní prostor služby Log Analytics pro ukládání protokolů Site Recovery. Přečtěte si o nastavení pracovního prostoru.
  • Základní znalosti o tom, jak zapisovat, spouštět a analyzovat dotazy na protokoly v Log Analytics. Další informace.

Doporučujeme, abyste si před zahájením prostudovali běžné otázky k monitorování .

Konfigurace Site Recovery pro odesílání protokolů

  1. V trezoru vyberte Nastavení >diagnostikyPřidat nastavení diagnostiky.

    Snímek obrazovky s možností Přidat nastavení diagnostiky

  2. V nastavení diagnostiky zadejte název a zaškrtněte políčko Odeslat do Log Analytics.

  3. Vyberte předplatné Protokolů služby Azure Monitor a pracovní prostor služby Log Analytics.

  4. V přepínači vyberte Azure Diagnostics.

  5. V seznamu protokolů vyberte všechny protokoly s předponou AzureSiteRecovery. Pak vyberte OK.

    Snímek obrazovky nastavení diagnostiky

Protokoly Site Recovery se začnou inkasovat do tabulky (AzureDiagnostics) ve vybraném pracovním prostoru.

Konfigurace agenta Microsoft Monitoring Agent na procesovém serveru pro odesílání protokolů četnosti změn a nahrávání

Můžete zaznamenat informace o četnosti změn dat a frekvenci nahrávání zdrojových dat pro vaše VMware nebo fyzické počítače v místním prostředí. Aby to bylo možné, musí být na procesovém serveru nainstalovaný agent Microsoft Monitoring Agent.

  1. Přejděte do pracovního prostoru služby Log Analytics a vyberte Upřesnit nastavení.

  2. Vyberte stránku Připojené zdroje a dále vyberte Windows Servery.

  3. Stáhněte si agenta pro Windows (64bitovou verzi) na procesovém serveru.

  4. Získání ID a klíče pracovního prostoru

  5. Konfigurace agenta pro použití protokolu TLS 1.2

  6. Dokončete instalaci agenta zadáním získaného ID a klíče pracovního prostoru.

  7. Po dokončení instalace přejděte do pracovního prostoru služby Log Analytics a vyberte Správa starších agentů. Přejděte na stránku Data a vyberte Čítače výkonu Systému Windows.

  8. Vyberte + a přidejte následující dva čítače s intervalem vzorku 300 sekund:

    • ASRAnalytics(*)\SourceVmChurnRate
    • ASRAnalytics(*)\SourceVmThrpRate

Do pracovního prostoru se začnou přidávat data četnosti změn a nahrávání.

Dotazování protokolů – příklady

Data z protokolů načítáte pomocí dotazů protokolu napsaných pomocí dotazovacího jazyka Kusto. Tato část obsahuje několik příkladů běžných dotazů, které můžete použít pro monitorování Site Recovery.

Poznámka

Některé příklady používají replicationProviderName_s nastavenou na A2A. Tím se načtou virtuální počítače Azure, které se replikují do sekundární oblasti Azure pomocí Site Recovery. V těchto příkladech můžete nahradit A2AinMageRcm, pokud chcete načíst místní virtuální počítače VMware nebo fyzické servery replikované do Azure pomocí Site Recovery.

Stav replikace dotazů

Tento dotaz vykreslí výsečový graf pro aktuální stav replikace všech chráněných virtuálních počítačů Azure rozdělený do tří stavů: Normální, Upozornění nebo Kritický.

AzureDiagnostics  
| where replicationProviderName_s == "A2A"   
| where isnotempty(name_s) and isnotnull(name_s)  
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s  
| project name_s , replicationHealth_s  
| summarize count() by replicationHealth_s  
| render piechart   

Verze Mobility dotazu

Tento dotaz vykreslí výsečový graf virtuálních počítačů Azure replikovaných s Site Recovery, který je rozdělený podle verze agenta Mobility, kterou používají.

AzureDiagnostics  
| where replicationProviderName_s == "A2A"   
| where isnotempty(name_s) and isnotnull(name_s)  
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s  
| project name_s , agentVersion_s  
| summarize count() by agentVersion_s  
| render piechart 

Čas cíle bodu obnovení dotazu

Tento dotaz vykreslí pruhový graf virtuálních počítačů Azure replikovaných s Site Recovery, který je rozdělený podle cíle bodu obnovení (RPO): Méně než 15 minut, mezi 15 až 30 minutami a více než 30 minut.

AzureDiagnostics 
| where replicationProviderName_s == "A2A"   
| where isnotempty(name_s) and isnotnull(name_s)  
| extend RPO = case(rpoInSeconds_d <= 900, "<15Min",   
rpoInSeconds_d <= 1800, "15-30Min", ">30Min")  
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s  
| project name_s , RPO  
| summarize Count = count() by RPO  
| render barchart 

Snímek obrazovky znázorňující pruhový graf virtuálních počítačů Azure replikovaných pomocí Site Recovery

Dotazování Site Recovery úloh

Tento dotaz načte všechny úlohy Site Recovery (pro všechny scénáře zotavení po havárii), které se aktivovaly za posledních 72 hodin, a stav jejich dokončení.

AzureDiagnostics  
| where Category == "AzureSiteRecoveryJobs"  
| where TimeGenerated >= ago(72h)   
| project JobName = OperationName , VaultName = Resource , TargetName = affectedResourceName_s, State = ResultType  

Dotazování Site Recovery událostí

Tento dotaz načte všechny události Site Recovery (pro všechny scénáře zotavení po havárii) vyvolané během posledních 72 hodin spolu s jejich závažností.

AzureDiagnostics   
| where Category == "AzureSiteRecoveryEvents"   
| where TimeGenerated >= ago(72h)   
| project AffectedObject=affectedResourceName_s , VaultName = Resource, Description_s = healthErrors_s , Severity = Level  

Stav testovacího převzetí služeb při selhání dotazu (výsečový graf)

Tento dotaz vykreslí výsečový graf pro stav testovacího převzetí služeb při selhání virtuálních počítačů Azure replikovaných s Site Recovery.

AzureDiagnostics  
| where replicationProviderName_s == "A2A"   
| where isnotempty(name_s) and isnotnull(name_s)  
| where isnotempty(failoverHealth_s) and isnotnull(failoverHealth_s)  
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s  
| project name_s , Resource, failoverHealth_s  
| summarize count() by failoverHealth_s  
| render piechart 

Stav testovacího převzetí služeb při selhání dotazu (tabulka)

Tento dotaz vykreslí tabulku stavu testovacího převzetí služeb při selhání virtuálních počítačů Azure replikovaných s Site Recovery.

AzureDiagnostics   
| where replicationProviderName_s == "A2A"   
| where isnotempty(name_s) and isnotnull(name_s)   
| where isnotempty(failoverHealth_s) and isnotnull(failoverHealth_s)   
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s   
| project VirtualMachine = name_s , VaultName = Resource , TestFailoverStatus = failoverHealth_s 

Dotazování na cíl bodu obnovení počítače

Tento dotaz vykreslí graf trendů, který sleduje cíl bodu obnovení konkrétního virtuálního počítače Azure (ContosoVM123) za posledních 72 hodin.

AzureDiagnostics   
| where replicationProviderName_s == "A2A"   
| where TimeGenerated > ago(72h)  
| where isnotempty(name_s) and isnotnull(name_s)   
| where name_s == "ContosoVM123"  
| project TimeGenerated, name_s , RPO_in_seconds = rpoInSeconds_d   
| render timechart 

Snímek obrazovky s grafem trendů, který sleduje cíl bodu obnovení konkrétního virtuálního počítače Azure

Frekvence změn dat dotazování (četnost změn dat) a rychlost nahrávání pro virtuální počítač Azure

Tento dotaz vykreslí graf trendů pro konkrétní virtuální počítač Azure (ContosoVM123), který představuje rychlost změn dat (zápis bajtů za sekundu) a rychlost nahrávání dat.

AzureDiagnostics   
| where Category in ("AzureSiteRecoveryProtectedDiskDataChurn", "AzureSiteRecoveryReplicationDataUploadRate")   
| extend CategoryS = case(Category contains "Churn", "DataChurn",   
Category contains "Upload", "UploadRate", "none")  
| extend InstanceWithType=strcat(CategoryS, "_", InstanceName_s)   
| where TimeGenerated > ago(24h)   
| where InstanceName_s startswith "ContosoVM123"   
| project TimeGenerated , InstanceWithType , Churn_MBps = todouble(Value_s)/1048576   
| render timechart  

snímek obrazovky s grafem trendů pro konkrétní virtuální počítač Azure

Frekvence změn dat dotazů (četnost změn) a rychlost nahrávání pro VMware nebo fyzický počítač

Poznámka

Ujistěte se, že jste nastavili agenta monitorování na procesovém serveru, aby tyto protokoly načítá. Projděte si postup konfigurace agenta monitorování.

Tento dotaz vykreslí graf trendů pro konkrétní disk , disk0, replikované položky win-9r7sfh9qlru, který představuje rychlost změn dat (zápis bajtů za sekundu) a rychlost nahrávání dat. Název disku najdete v okně Disky replikované položky v trezoru služby Recovery Services. Název instance, který se má použít v dotazu, je název DNS počítače následovaný _ a názvem disku jako v tomto příkladu.

Perf
| where ObjectName == "ASRAnalytics"
| where InstanceName contains "win-9r7sfh9qlru_disk0"
| where TimeGenerated >= ago(4h) 
| project TimeGenerated ,CounterName, Churn_MBps = todouble(CounterValue)/5242880 
| render timechart

Procesový server odešle tato data každých 5 minut do pracovního prostoru služby Log Analytics. Tyto datové body představují průměr vypočítaný za 5 minut.

Dotazování na souhrn zotavení po havárii (z Azure do Azure)

Tento dotaz vykreslí souhrnnou tabulku pro virtuální počítače Azure replikované do sekundární oblasti Azure. Zobrazuje název virtuálního počítače, replikaci a stav ochrany, cíl bodu obnovení, stav testovacího převzetí služeb při selhání, verzi agenta Mobility, všechny chyby aktivní replikace a zdrojové umístění.

AzureDiagnostics 
| where replicationProviderName_s == "A2A"   
| where isnotempty(name_s) and isnotnull(name_s)   
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s   
| project VirtualMachine = name_s , Vault = Resource , ReplicationHealth = replicationHealth_s, Status = protectionState_s, RPO_in_seconds = rpoInSeconds_d, TestFailoverStatus = failoverHealth_s, AgentVersion = agentVersion_s, ReplicationError = replicationHealthErrors_s, SourceLocation = primaryFabricName_s 

Dotaz na souhrn zotavení po havárii (VMware nebo fyzické servery)

Tento dotaz vykreslí souhrnnou tabulku pro virtuální počítače VMware a fyzické servery replikované do Azure. Zobrazuje název počítače, stav replikace a ochrany, cíl bodu obnovení, stav testovacího převzetí služeb při selhání, verzi agenta mobility, všechny chyby aktivní replikace a příslušný procesový server.

AzureDiagnostics  
| where replicationProviderName_s == "InMageRcm"   
| where isnotempty(name_s) and isnotnull(name_s)   
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s   
| project VirtualMachine = name_s , Vault = Resource , ReplicationHealth = replicationHealth_s, Status = protectionState_s, RPO_in_seconds = rpoInSeconds_d, TestFailoverStatus = failoverHealth_s, AgentVersion = agentVersion_s, ReplicationError = replicationHealthErrors_s, ProcessServer = processServerName_g  

Nastavení upozornění – příklady

Výstrahy Site Recovery můžete nastavit na základě dat služby Azure Monitor. Přečtěte si další informace o nastavení upozornění protokolu.

Poznámka

Některé příklady používají replicationProviderName_s nastavenou na A2A. Tím se nastaví upozornění pro virtuální počítače Azure, které se replikují do sekundární oblasti Azure. V těchto příkladech můžete nahradit A2AinMageRcm , pokud chcete nastavit výstrahy pro místní virtuální počítače VMware nebo fyzické servery replikované do Azure.

Více počítačů v kritickém stavu

Nastavte upozornění, pokud více než 20 replikovaných virtuálních počítačů Azure přejde do kritického stavu.

AzureDiagnostics   
| where replicationProviderName_s == "A2A"   
| where replicationHealth_s == "Critical"  
| where isnotempty(name_s) and isnotnull(name_s)   
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s   
| summarize count() 

Pro výstrahu nastavte prahovou hodnotu na 20.

Jeden počítač v kritickém stavu

Nastavte upozornění, pokud konkrétní replikovaný virtuální počítač Azure přejde do kritického stavu.

AzureDiagnostics   
| where replicationProviderName_s == "A2A"   
| where replicationHealth_s == "Critical"  
| where name_s == "ContosoVM123"  
| where isnotempty(name_s) and isnotnull(name_s)   
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s   
| summarize count()  

Pro výstrahu nastavte prahovou hodnotu na 1.

Více počítačů překračuje cíl bodu obnovení

Nastavte upozornění, pokud cíl bodu obnovení pro více než 20 virtuálních počítačů Azure překročí 30 minut.

AzureDiagnostics   
| where replicationProviderName_s == "A2A"   
| where isnotempty(name_s) and isnotnull(name_s)   
| where rpoInSeconds_d > 1800  
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s   
| project name_s , rpoInSeconds_d   
| summarize count()  

Pro výstrahu nastavte prahovou hodnotu na 20.

Jeden počítač překračuje cíl bodu obnovení

Nastavte upozornění, pokud cíl bodu obnovení pro jeden virtuální počítač Azure překročí 30 minut.

AzureDiagnostics   
| where replicationProviderName_s == "A2A"   
| where isnotempty(name_s) and isnotnull(name_s)   
| where name_s == "ContosoVM123"  
| where rpoInSeconds_d > 1800  
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s   
| project name_s , rpoInSeconds_d   
| summarize count()  

Pro výstrahu nastavte prahovou hodnotu na 1.

Testovací převzetí služeb při selhání pro více počítačů je delší než 90 dnů

Nastavte upozornění v případě, že poslední úspěšné testovací převzetí služeb při selhání trvalo déle než 90 dnů pro více než 20 virtuálních počítačů.

AzureDiagnostics  
| where replicationProviderName_s == "A2A"   
| where Category == "AzureSiteRecoveryReplicatedItems"  
| where isnotempty(name_s) and isnotnull(name_s)   
| where lastSuccessfulTestFailoverTime_t <= ago(90d)   
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s   
| summarize count()  

Pro výstrahu nastavte prahovou hodnotu na 20.

Testovací převzetí služeb při selhání pro jeden počítač delší než 90 dnů

Nastavte upozornění, pokud poslední úspěšné testovací převzetí služeb při selhání pro konkrétní virtuální počítač proběhlo před více než 90 dny.

AzureDiagnostics  
| where replicationProviderName_s == "A2A"   
| where Category == "AzureSiteRecoveryReplicatedItems"  
| where isnotempty(name_s) and isnotnull(name_s)   
| where lastSuccessfulTestFailoverTime_t <= ago(90d)   
| where name_s == "ContosoVM123"  
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s   
| summarize count()  

Pro výstrahu nastavte prahovou hodnotu na 1.

Site Recovery úloha selže

Nastavte upozornění v případě, že Site Recovery úloha (v tomto případě úloha Znovunastavení ochrany) selže v jakémkoli Site Recovery scénáři během posledního dne.

AzureDiagnostics   
| where Category == "AzureSiteRecoveryJobs"   
| where OperationName == "Reprotect"  
| where ResultType == "Failed"  
| summarize count()  

Pro výstrahu nastavte prahovou hodnotu na 1 a Období na 1440 minut, abyste zkontrolovali chyby za poslední den.

Další kroky

Přečtěte si o integrovaném monitorování Site Recovery.