Share via


Site Recovery bewaken met Azure Monitor-logboeken

In dit artikel wordt beschreven hoe u machines bewaakt die worden gerepliceerd door Azure Site Recovery, met behulp van Azure Monitor-logboeken en Log Analytics.

Azure Monitor-logboeken bieden een logboekgegevensplatform waarmee activiteiten- en resourcelogboeken worden verzameld, samen met andere bewakingsgegevens. In Azure Monitor-logboeken gebruikt u Log Analytics om logboekquery's te schrijven en te testen en logboekgegevens interactief te analyseren. U kunt logboekresultaten visualiseren en opvragen en waarschuwingen configureren om acties uit te voeren op basis van bewaakte gegevens.

Voor Site Recovery kunt u Azure Monitor-logboeken gebruiken om u te helpen het volgende te doen:

  • Status en status van Site Recovery bewaken. U kunt bijvoorbeeld de replicatiestatus bewaken, failoverstatus testen, Site Recovery-gebeurtenissen, beoogde herstelpunten (RPO's) voor beveiligde machines en snelheid van schijf-/gegevenswijziging.
  • Waarschuwingen instellen voor Site Recovery. U kunt bijvoorbeeld waarschuwingen configureren voor de status van de machine, de status van de testfailover of de Status van de Site Recovery-taak.

Het gebruik van Azure Monitor-logboeken met Site Recovery wordt ondersteund voor Replicatie van Azure naar Azure en virtuele VMware-machine/fysieke server naar Azure-replicatie .

Notitie

Als u de verloopgegevenslogboeken en uploadsnelheidslogboeken voor VMware- en fysieke machines wilt ophalen, moet u een Microsoft-bewakingsagent installeren op de processerver. Met deze agent worden de logboeken van de replicerende machines naar de werkruimte verzonden. Deze mogelijkheid is alleen beschikbaar voor de versie 9.30 Mobility Agent en hoger.

Vereisten

U hebt het volgende nodig:

  • Ten minste één computer is beveiligd in een Recovery Services-kluis.
  • Een Log Analytics-werkruimte voor het opslaan van Site Recovery-logboeken. Meer informatie over het instellen van een werkruimte.
  • Basiskennis van het schrijven, uitvoeren en analyseren van logboekquery's in Log Analytics. Meer informatie.

We raden u aan algemene bewakingsvragen te bekijken voordat u begint.

Gebeurtenislogboeken beschikbaar voor Azure Site Recovery

Azure Site Recovery biedt de volgende resourcespecifieke en verouderde tabellen. Elke gebeurtenis bevat gedetailleerde gegevens over een specifieke set gerelateerde artefacten voor siteherstel.

Resourcespecifieke tabellen:

Verouderde tabellen:

  • Azure Site Recovery-gebeurtenissen
  • Gerepliceerde Items van Azure Site Recovery
  • Replicatiestatistieken van Azure Site Recovery
  • Azure Site Recovery-punten
  • Uploadsnelheid van Replicatiegegevens van Azure Site Recovery
  • Met Azure Site Recovery beveiligde schijfgegevensverloop
  • Details van gerepliceerde Azure Site Recovery-items

Site Recovery configureren voor het verzenden van logboeken

  1. Selecteer diagnostische instellingen>toevoegen in de kluis.

    Schermopname van de optie Diagnostische instelling toevoegen.

  2. Geef in diagnostische instellingen een naam op en schakel het selectievakje Verzenden naar Log Analytics in.

  3. Selecteer het Azure Monitor-logboekabonnement en de Log Analytics-werkruimte.

  4. Selecteer Azure Diagnostics in de wisselknop.

  5. Selecteer in de lijst met logboeken alle logboeken met het voorvoegsel AzureSiteRecovery. Selecteer vervolgens OK.

    Schermopname van het scherm Diagnostische instellingen.

De Site Recovery-logboeken beginnen in een tabel (AzureDiagnostics) in de geselecteerde werkruimte.

Microsoft-bewakingsagent configureren op de processerver voor het verzenden van verloop- en uploadsnelheidslogboeken

U kunt gegevens over het gegevensverloop en de gegevensuploadsnelheid van brongegevens vastleggen voor uw VMware-/fysieke machines op locatie. Als u dit wilt inschakelen, moet een Microsoft-bewakingsagent worden geïnstalleerd op de processerver.

  1. Ga naar de Log Analytics-werkruimte en selecteer Advanced Instellingen.

  2. Selecteer Verbinding maken pagina Bronnen en selecteer Windows-servers verder.

  3. Download de Windows-agent (64-bits) op de processerver.

  4. De werkruimte-id en -sleutel ophalen

  5. Agent configureren voor het gebruik van TLS 1.2

  6. Voltooi de agentinstallatie door de verkregen werkruimte-id en -sleutel op te geven.

  7. Zodra de installatie is voltooid, gaat u naar de Log Analytics-werkruimte en selecteert u beheer van verouderde agents. Ga naar de pagina Gegevens en selecteer Windows-prestatiemeteritems.

  8. Selecteer +om de volgende twee tellers toe te voegen met een voorbeeldinterval van 300 seconden:

    • ASRAnalytics(*)\SourceVmChurnRate
    • ASRAnalytics(*)\SourceVmThrpRate

    Het verloop en de uploadsnelheidsgegevens worden ingevoerd in de werkruimte.

  9. De volgende Site Recovery-tellers kunnen momenteel niet worden doorzocht:

    • ASRAnalytics(*)\SourceVmChurnRate
    • ASRAnalytics(*)\SourceVmThrpRate
      Ze kunnen echter worden toegevoegd door de namen volledig te plakken.

    Schermopname van het Prestatiemeteritem van Windows.

  • ASRAnalytics(*)\SourceVmChurnRate biedt inzicht in het verlooppercentage voor gerepliceerde virtuele machines.
  • ASRAnalytics(*)\SourceVmThrpRate vertegenwoordigt de doorvoersnelheid voor gerepliceerde virtuele machines die een indicator is van de snelheid van de gegevensoverdracht tussen de bron en het doel tijdens de replicatie.

Query's uitvoeren op de logboeken - voorbeelden

U haalt gegevens op uit logboeken met behulp van logboekquery's die zijn geschreven met de Kusto-querytaal. Deze sectie bevat enkele voorbeelden van veelvoorkomende query's die u kunt gebruiken voor Site Recovery-bewaking.

Notitie

In sommige voorbeelden wordt replicationProviderName_s ingesteld op A2A. Hiermee worden virtuele Azure-machines opgehaald die worden gerepliceerd naar een secundaire Azure-regio met behulp van Site Recovery. In deze voorbeelden kunt u A2A vervangen door InMageRcm als u on-premises virtuele VMware-machines of fysieke servers wilt ophalen die met Site Recovery naar Azure worden gerepliceerd.

Status van queryreplicatie

Met deze query wordt een cirkeldiagram uitgezet voor de huidige replicatiestatus van alle beveiligde virtuele Azure-machines, onderverdeeld in drie statussen: Normaal, Waarschuwing of Kritiek.

AzureDiagnostics  
| where replicationProviderName_s == "A2A"   
| where isnotempty(name_s) and isnotnull(name_s)  
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s  
| project name_s , replicationHealth_s  
| summarize count() by replicationHealth_s  
| render piechart   

Query Mobility-service versie

Met deze query wordt een cirkeldiagram uitgezet voor virtuele Azure-machines die zijn gerepliceerd met Site Recovery, opgesplitst in de versie van de Mobility-agent die ze uitvoeren.

AzureDiagnostics  
| where replicationProviderName_s == "A2A"   
| where isnotempty(name_s) and isnotnull(name_s)  
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s  
| project name_s , agentVersion_s  
| summarize count() by agentVersion_s  
| render piechart 

RPO-tijd opvragen

Met deze query wordt een staafdiagram uitgezet van virtuele Azure-machines die zijn gerepliceerd met Site Recovery, opgesplitst op herstelpuntdoelstelling (RPO): Minder dan 15 minuten, tussen 15 en 30 minuten, meer dan 30 minuten.

AzureDiagnostics 
| where replicationProviderName_s == "A2A"   
| where isnotempty(name_s) and isnotnull(name_s)  
| extend RPO = case(rpoInSeconds_d <= 900, "<15Min",   
rpoInSeconds_d <= 1800, "15-30Min", ">30Min")  
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s  
| project name_s , RPO  
| summarize Count = count() by RPO  
| render barchart 

Schermopname van een staafdiagram van virtuele Azure-machines die zijn gerepliceerd met Site Recovery.

Query's uitvoeren op Site Recovery-taken

Met deze query worden alle Site Recovery-taken opgehaald (voor alle scenario's voor herstel na noodgevallen), geactiveerd in de afgelopen 72 uur en de voltooiingsstatus.

AzureDiagnostics  
| where Category == "AzureSiteRecoveryJobs"  
| where TimeGenerated >= ago(72h)   
| project JobName = OperationName , VaultName = Resource , TargetName = affectedResourceName_s, State = ResultType  

Query's uitvoeren op Site Recovery-gebeurtenissen

Met deze query worden alle Site Recovery-gebeurtenissen (voor alle scenario's voor herstel na noodgevallen) opgehaald die de afgelopen 72 uur zijn gegenereerd, samen met hun ernst.

AzureDiagnostics   
| where Category == "AzureSiteRecoveryEvents"   
| where TimeGenerated >= ago(72h)   
| project AffectedObject=affectedResourceName_s , VaultName = Resource, Description_s = healthErrors_s , Severity = Level  

Failoverstatus van querytest (cirkeldiagram)

Met deze query wordt een cirkeldiagram uitgezet voor de testfailoverstatus van virtuele Azure-machines die zijn gerepliceerd met Site Recovery.

AzureDiagnostics  
| where replicationProviderName_s == "A2A"   
| where isnotempty(name_s) and isnotnull(name_s)  
| where isnotempty(failoverHealth_s) and isnotnull(failoverHealth_s)  
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s  
| project name_s , Resource, failoverHealth_s  
| summarize count() by failoverHealth_s  
| render piechart 

Failoverstatus van querytest (tabel)

Met deze query wordt een tabel uitgemaakt voor de testfailoverstatus van virtuele Azure-machines die zijn gerepliceerd met Site Recovery.

AzureDiagnostics   
| where replicationProviderName_s == "A2A"   
| where isnotempty(name_s) and isnotnull(name_s)   
| where isnotempty(failoverHealth_s) and isnotnull(failoverHealth_s)   
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s   
| project VirtualMachine = name_s , VaultName = Resource , TestFailoverStatus = failoverHealth_s 

Query's uitvoeren op RPO van machine

Met deze query wordt een trendgrafiek gemaakt waarmee de RPO van een specifieke virtuele Azure-machine (ContosoVM123) voor de afgelopen 72 uur wordt bijgehouden.

AzureDiagnostics   
| where replicationProviderName_s == "A2A"   
| where TimeGenerated > ago(72h)  
| where isnotempty(name_s) and isnotnull(name_s)   
| where name_s == "ContosoVM123"  
| project TimeGenerated, name_s , RPO_in_seconds = rpoInSeconds_d   
| render timechart 

Schermopname van een trendgrafiek die de RPO van een specifieke virtuele Azure-machine bijhoudt.

Gegevenswijzigingssnelheid (verloop) en uploadsnelheid voor een virtuele Azure-machine opvragen

Met deze query wordt een trendgrafiek uitgeschreven voor een specifieke virtuele Azure-machine (ContosoVM123), die de wijzigingssnelheid van gegevens (schrijfbytes per seconde) en de uploadsnelheid van gegevens vertegenwoordigt.

AzureDiagnostics   
| where Category in ("AzureSiteRecoveryProtectedDiskDataChurn", "AzureSiteRecoveryReplicationDataUploadRate")   
| extend CategoryS = case(Category contains "Churn", "DataChurn",   
Category contains "Upload", "UploadRate", "none")  
| extend InstanceWithType=strcat(CategoryS, "_", InstanceName_s)   
| where TimeGenerated > ago(24h)   
| where InstanceName_s startswith "ContosoVM123"   
| project TimeGenerated , InstanceWithType , Churn_MBps = todouble(Value_s)/1048576   
| render timechart  

schermopname van een trendgrafiek voor een specifieke virtuele Azure-machine.

Gegevenswijzigingssnelheid (verloop) en uploadsnelheid voor een VMware- of fysieke machine opvragen

Notitie

Zorg ervoor dat u de bewakingsagent op de processerver instelt om deze logboeken op te halen. Raadpleeg de stappen voor het configureren van de bewakingsagent.

Met deze query wordt een trendgrafiek uitgeschreven voor een specifieke schijf, schijf0, van een gerepliceerd item, win-9r7sfh9qlru, dat de gegevenswijzigingssnelheid (schrijfbytes per seconde) en de uploadsnelheid van gegevens vertegenwoordigt. U vindt de schijfnaam op de blade Schijven van het gerepliceerde item in de Recovery Services-kluis. De exemplaarnaam die in de query moet worden gebruikt, is de DNS-naam van de computer, gevolgd door _ en de schijfnaam, zoals in dit voorbeeld.

Perf
| where ObjectName == "ASRAnalytics"
| where InstanceName contains "win-9r7sfh9qlru_disk0"
| where TimeGenerated >= ago(4h) 
| project TimeGenerated ,CounterName, Churn_MBps = todouble(CounterValue)/5242880 
| render timechart

Processerver pusht deze gegevens elke 5 minuten naar de Log Analytics-werkruimte. Deze gegevenspunten vertegenwoordigen het gemiddelde dat gedurende 5 minuten is berekend.

Samenvatting van herstel na noodgeval (Azure naar Azure)

Met deze query wordt een overzichtstabel uitgezet voor virtuele Azure-machines die zijn gerepliceerd naar een secundaire Azure-regio. Hier ziet u de naam, replicatie en beveiligingsstatus van de virtuele machine, RPO, testfailoverstatus, mobility-agentversie, eventuele actieve replicatiefouten en de bronlocatie.

AzureDiagnostics 
| where replicationProviderName_s == "A2A"   
| where isnotempty(name_s) and isnotnull(name_s)   
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s   
| project VirtualMachine = name_s , Vault = Resource , ReplicationHealth = replicationHealth_s, Status = protectionState_s, RPO_in_seconds = rpoInSeconds_d, TestFailoverStatus = failoverHealth_s, AgentVersion = agentVersion_s, ReplicationError = replicationHealthErrors_s, SourceLocation = primaryFabricName_s 

Samenvatting van herstel na noodgeval (VMware/fysieke servers)

Met deze query wordt een overzichtstabel uitgemaakt voor virtuele VMware-machines en fysieke servers die zijn gerepliceerd naar Azure. Hierin worden de computernaam, replicatie- en beveiligingsstatus, RPO, testfailoverstatus, mobility-agentversie, actieve replicatiefouten en de relevante processerver weergegeven.

AzureDiagnostics  
| where replicationProviderName_s == "InMageRcm"   
| where isnotempty(name_s) and isnotnull(name_s)   
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s   
| project VirtualMachine = name_s , Vault = Resource , ReplicationHealth = replicationHealth_s, Status = protectionState_s, RPO_in_seconds = rpoInSeconds_d, TestFailoverStatus = failoverHealth_s, AgentVersion = agentVersion_s, ReplicationError = replicationHealthErrors_s, ProcessServer = processServerName_g  

Waarschuwingen instellen - voorbeelden

U kunt Site Recovery-waarschuwingen instellen op basis van Azure Monitor-gegevens. Meer informatie over het instellen van logboekwaarschuwingen.

Notitie

In sommige voorbeelden wordt replicationProviderName_s ingesteld op A2A. Hiermee worden waarschuwingen ingesteld voor virtuele Azure-machines die worden gerepliceerd naar een secundaire Azure-regio. In deze voorbeelden kunt u A2A vervangen door InMageRcm als u waarschuwingen wilt instellen voor on-premises virtuele VMware-machines of fysieke servers die worden gerepliceerd naar Azure.

Meerdere machines met een kritieke status

Stel een waarschuwing in als meer dan 20 gerepliceerde virtuele Azure-machines een kritieke status hebben.

AzureDiagnostics   
| where replicationProviderName_s == "A2A"   
| where replicationHealth_s == "Critical"  
| where isnotempty(name_s) and isnotnull(name_s)   
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s   
| summarize count() 

Stel voor de waarschuwing drempelwaarde in op 20.

Eén machine met een kritieke status

Stel een waarschuwing in als een specifieke gerepliceerde virtuele Azure-machine de status Kritiek krijgt.

AzureDiagnostics   
| where replicationProviderName_s == "A2A"   
| where replicationHealth_s == "Critical"  
| where name_s == "ContosoVM123"  
| where isnotempty(name_s) and isnotnull(name_s)   
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s   
| summarize count()  

Stel voor de waarschuwing drempelwaarde in op 1.

Meerdere computers overschrijden RPO

Stel een waarschuwing in als de RPO voor meer dan 20 virtuele Azure-machines langer is dan 30 minuten.

AzureDiagnostics   
| where replicationProviderName_s == "A2A"   
| where isnotempty(name_s) and isnotnull(name_s)   
| where rpoInSeconds_d > 1800  
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s   
| project name_s , rpoInSeconds_d   
| summarize count()  

Stel voor de waarschuwing drempelwaarde in op 20.

Eén computer overschrijdt RPO

Stel een waarschuwing in als de RPO voor één virtuele Azure-machine langer is dan 30 minuten.

AzureDiagnostics   
| where replicationProviderName_s == "A2A"   
| where isnotempty(name_s) and isnotnull(name_s)   
| where name_s == "ContosoVM123"  
| where rpoInSeconds_d > 1800  
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s   
| project name_s , rpoInSeconds_d   
| summarize count()  

Stel voor de waarschuwing drempelwaarde in op 1.

Testfailover voor meerdere machines is langer dan 90 dagen

Stel een waarschuwing in als de laatste geslaagde testfailover langer is dan 90 dagen, voor meer dan 20 virtuele machines.

AzureDiagnostics  
| where replicationProviderName_s == "A2A"   
| where Category == "AzureSiteRecoveryReplicatedItems"  
| where isnotempty(name_s) and isnotnull(name_s)   
| where lastSuccessfulTestFailoverTime_t <= ago(90d)   
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s   
| summarize count()  

Stel voor de waarschuwing drempelwaarde in op 20.

Testfailover voor één machine is langer dan 90 dagen

Stel een waarschuwing in als de laatste geslaagde testfailover voor een specifieke virtuele machine meer dan 90 dagen geleden was.

AzureDiagnostics  
| where replicationProviderName_s == "A2A"   
| where Category == "AzureSiteRecoveryReplicatedItems"  
| where isnotempty(name_s) and isnotnull(name_s)   
| where lastSuccessfulTestFailoverTime_t <= ago(90d)   
| where name_s == "ContosoVM123"  
| summarize hint.strategy=partitioned arg_max(TimeGenerated, *) by name_s   
| summarize count()  

Stel voor de waarschuwing drempelwaarde in op 1.

Site Recovery-taak mislukt

Stel een waarschuwing in als een Site Recovery-taak (in dit geval de taak opnieuw beveiligen) mislukt voor een Site Recovery-scenario, gedurende de laatste dag.

AzureDiagnostics   
| where Category == "AzureSiteRecoveryJobs"   
| where OperationName == "Reprotect"  
| where ResultType == "Failed"  
| summarize count()  

Stel voor de waarschuwing de drempelwaarde in op 1 en Periode op 1440 minuten om fouten in de afgelopen dag te controleren.

Volgende stappen

Meer informatie over ingebouwde Site Recovery-bewaking.