Begränsa Resurshanteraren för Service Fabric-kluster

Artikel
10/15/2024

Även om du har konfigurerat Klusterresurshanteraren korrekt kan klustret störas. Det kan till exempel finnas samtidiga nod- och feldomänfel – vad skulle hända om det inträffade under en uppgradering? Klusterresurshanteraren försöker alltid åtgärda allt och använder klustrets resurser för att försöka omorganisera och åtgärda klustret. Begränsningar hjälper till att tillhandahålla en backstop så att klustret kan använda resurser för att stabiliseras – noderna kommer tillbaka, nätverkspartitionerna läker, korrigerade bitar distribueras.

För att hjälpa till med den här typen av situationer innehåller Service Fabric Cluster Resource Manager flera begränsningar. Dessa begränsningar är alla ganska stora hammare. I allmänhet bör de inte ändras utan noggrann planering och testning.

Om du ändrar klusterresurshanterarens begränsningar bör du justera dem till den förväntade faktiska belastningen. Du kan fastställa att du behöver ha vissa begränsningar på plats, även om det innebär att klustret tar längre tid att stabilisera i vissa situationer. Testning krävs för att fastställa rätt värden för begränsningar. Begränsningarna måste vara tillräckligt höga för att klustret ska kunna svara på ändringar på en rimlig tid och tillräckligt låga för att faktiskt förhindra för mycket resursförbrukning.

För det mesta har kunderna använt begränsningar eftersom de redan befann sig i en resursbegränsad miljö. Vissa exempel skulle vara begränsad nätverksbandbredd för enskilda noder eller diskar som inte kan skapa många tillståndskänsliga repliker parallellt på grund av dataflödesbegränsningar. Utan begränsningar kan åtgärderna överbelasta dessa resurser, vilket gör att åtgärderna misslyckas eller blir långsamma. I dessa situationer använde kunderna begränsningar och visste att de förlängde den tid det skulle ta för klustret att nå ett stabilt tillstånd. Kunderna förstod också att de kunde komma att köras med lägre övergripande tillförlitlighet medan de begränsades.

Konfigurera begränsningarna

Service Fabric har två mekanismer för att begränsa antalet replikrörelser. Standardmekanismen som fanns före Service Fabric 5.7 representerar begränsning som ett absolut antal flyttningar som tillåts. Detta fungerar inte för kluster av alla storlekar. I synnerhet för stora kluster kan standardvärdet vara för litet, vilket avsevärt saktar ned balansen även när det är nödvändigt, samtidigt som det inte har någon effekt i mindre kluster. Den här tidigare mekanismen har ersatts av procentbaserad begränsning, som skalar bättre med dynamiska kluster där antalet tjänster och noder ändras regelbundet.

Begränsningarna baseras på en procentandel av antalet repliker i klustren. Procentbaserade begränsningar gör det möjligt att uttrycka regeln: "flytta inte mer än 10 % av replikerna i ett 10-minutersintervall", till exempel.

Konfigurationsinställningarna för procentbaserad begränsning är:

GlobalMovementThrottleThresholdPercentage – Maximalt antal förflyttningar som tillåts i klustret när som helst, uttryckt som procentandel av det totala antalet repliker i klustret. 0 anger ingen gräns. Standardvärdet är 0. Om både den här inställningen och GlobalMovementThrottleThreshold anges används den mer konservativa gränsen.
GlobalMovementThrottleThresholdPercentageForPlacement – Maximalt antal förflyttningar som tillåts under placeringsfasen, uttryckt som procentandel av det totala antalet repliker i klustret. 0 anger ingen gräns. Standardvärdet är 0. Om både den här inställningen och GlobalMovementThrottleThresholdForPlacement anges används den mer konservativa gränsen.
GlobalMovementThrottleThresholdPercentageForBalancing – Maximalt antal förflyttningar som tillåts under utjämningsfasen, uttryckt som procentandel av det totala antalet repliker i klustret. 0 anger ingen gräns. Standardvärdet är 0. Om både den här inställningen och GlobalMovementThrottleThresholdForBalancing anges används den mer konservativa gränsen.

När du anger begränsningsprocenten anger du 5 % som 0,05. Intervallet där dessa begränsningar styrs är GlobalMovementThrottleCountingInterval, som anges i sekunder.

<Section Name="PlacementAndLoadBalancing">
     <Parameter Name="GlobalMovementThrottleThresholdPercentage" Value="0" />
     <Parameter Name="GlobalMovementThrottleThresholdPercentageForPlacement" Value="0" />
     <Parameter Name="GlobalMovementThrottleThresholdPercentageForBalancing" Value="0" />
     <Parameter Name="GlobalMovementThrottleCountingInterval" Value="600" />
</Section>

via ClusterConfig.json för fristående distributioner eller Template.json för Azure-värdbaserade kluster:

"fabricSettings": [
  {
    "name": "PlacementAndLoadBalancing",
    "parameters": [
      {
          "name": "GlobalMovementThrottleThresholdPercentage",
          "value": "0.0"
      },
      {
          "name": "GlobalMovementThrottleThresholdPercentageForPlacement",
          "value": "0.0"
      },
      {
          "name": "GlobalMovementThrottleThresholdPercentageForBalancing",
          "value": "0.0"
      },
      {
          "name": "GlobalMovementThrottleCountingInterval",
          "value": "600"
      }
    ]
  }
]

Standardantalsbaserade begränsningar

Den här informationen tillhandahålls om du har äldre kluster eller fortfarande behåller dessa konfigurationer i kluster som sedan dess har uppgraderats. I allmänhet rekommenderar vi att dessa ersätts med de procentbaserade begränsningarna ovan. Eftersom procentbaserad begränsning är inaktiverad som standard förblir dessa begränsningar standardbegränsningarna för ett kluster tills de har inaktiverats och ersatts med de procentbaserade begränsningarna.

GlobalMovementThrottleThreshold – den här inställningen styr det totala antalet rörelser i klustret under en viss tid. Tiden anges i sekunder som GlobalMovementThrottleCountingInterval. Standardvärdet för GlobalMovementThrottleThreshold är 1 000 och standardvärdet för GlobalMovementThrottleCountingInterval är 600.
MovementPerPartitionThrottleThreshold – den här inställningen styr det totala antalet rörelser för en tjänstpartition under en viss tid. Tiden anges i sekunder som MovementPerPartitionThrottleCountingInterval. Standardvärdet för MovementPerPartitionThrottleThreshold är 50 och standardvärdet för MovementPerPartitionThrottleCountingInterval är 600.

Konfigurationen för dessa begränsningar följer samma mönster som den procentbaserade begränsningen.

Nästa steg

Om du vill veta mer om hur Klusterresurshanteraren hanterar och balanserar belastningen i klustret kan du läsa artikeln om belastningsutjämning
Klusterresurshanteraren har många alternativ för att beskriva klustret. Mer information om dem finns i den här artikeln om hur du beskriver ett Service Fabric-kluster

Dela via

Begränsa Resurshanteraren för Service Fabric-kluster

Konfigurera begränsningarna

Standardantalsbaserade begränsningar

Nästa steg

Feedback

Ytterligare resurser