Anteckning
Åtkomst till den här sidan kräver auktorisering. Du kan prova att logga in eller ändra kataloger.
Åtkomst till den här sidan kräver auktorisering. Du kan prova att ändra kataloger.
Den här guiden beskriver steg för att felsöka ett kluster som är i ClusterConnectionStatus-tillstånd Disconnected .
För ett kluster ClusterConnectionStatus representerar stabiliteten i anslutningen mellan det lokala klustret och dess möjlighet att nå Klusterhanteraren.
Viktigt!
ClusterConnectionStatus
Representerar inte och är inte heller relaterat till hälsotillståndet eller anslutningen för Det Arc-anslutna Kubernetes-klustret.
ClusterConnectionStatus Anger att klustret lyckas skicka pulsslag och ta emot bekräftelse från Klusterhanteraren.
Förutsättningar
- Installera den senaste versionen av lämpliga CLI-tillägg.
- Begär åtkomst för att köra Azure Operator Nexus-nätverksinfrastrukturen (NF) och cli-tilläggskommandona för nätverksmoln.
- Logga in på Azure CLI och välj den prenumeration där klustret distribueras.
- Samla in följande information:
- Prenumerations-ID (
SUBSCRIPTION) - Klusternamn (
CLUSTER) - Resursgrupp (
CLUSTER_RG) - Hanterad resursgrupp (
CLUSTER_MRG) – BareMetal Machines-resurser (BMM) finns i den hanterade resursgruppen - Namn på BareMetal-maskin (
BMM_NAME) som kräver livscykelhanteringsåtgärder
- Prenumerations-ID (
Förstå statussignalen för klusteranslutning
ClusterConnectionStatus Representerar möjligheten för det lokala klustret att skicka pulsslag och ta emot bekräftelser från Klusterhanteraren, vilket anger hälsotillståndet för nätverksanslutningen mellan dem.
ClusterConnectionStatus skiljer sig från anslutningen för Arc Connected Kubernetes-klustret, även om nätverksproblem påverkar båda.
En klusterresurs har egenskapen ClusterConnectionStatus inställd på värdet Connected om pulsslagen tas emot kontinuerligt och bekräftas.
Blir ClusterConnectionStatusConnected när klustret är i ett felfritt tillstånd och problem med nätverksanslutningen har lösts.
Klustret visas Timeout endast som ett övergångstillstånd mellan Connected och Disconnected.
Klustervärdet ClusterConnectionStatus blir Disconnected om Klusterhanteraren identifierar kontinuerligt missade pulsslag.
Pulsslag anses vara missade om de inte tas emot inom eller utanför de angivna tidströsklarna.
När klustret är ett felfritt tillstånd och det inte finns några problem med nätverksanslutningen ClusterConnectionStatus flyttas automatiskt till Connected
Under klusterdistributionsprocessen är klustret i ett Undefined tillstånd tills klustret är helt distribuerat och driftsdugligt.
I följande tabell visas möjliga värden ClusterConnectionStatus för och deras definitioner:
| Läge | Definition |
|---|---|
Connected |
Pulsslag mottagna, indikerar sund kluster- och klusterhanteraranslutning. |
Disconnected |
Pulsslag som missats i över 5 minuter indikerar sannolikt anslutningsproblem mellan Klusterhanteraren och Kluster |
Timeout |
Pulsslag missade i över 2 minuter men mindre än 5 minuter, Klusteranslutningen är osäker, möjligen degraderad |
Undefined |
Klustret har ännu inte distribuerats eller kört en version utan pulsslagsfunktionen |
Kontrollera värdet för klustrets ClusterConnectionStatus-egenskap
Värdet för ClusterConnectionStatus visas i Azure-portalen i klusterresursvyn.
Eller så kan du använda Azure CLI för att se värdet av ClusterConnectionStatus:
az networkcloud cluster show \
-g "$CLUSTER_RG" \
-n "$CLUSTER_NAME" \
--subscription "$SUBSCRIPTION_ID" \
--query "{ClusterConnectionStatus:clusterConnectionStatus}" \
--output table
ClusterConnectionStatus
-------------------------
Connected
Att förstå metrisken NexusClusterConnectionStatus
Använd Azure Resource Health för att skapa aviseringar för klusterhälsa eftersom det ger en omfattande och stödd vy över resursstatus.
Metriken NexusClusterConnectionStatus integreras till Azure Resource Health för klustret.
Om du använder måttet NexusClusterConnectionStatus direkt kan du förstå hur det fungerar och vad det representerar.
Klusterhanteraren, inte det lokala klustret, genererar måttet baserat på ClusterConnectionStatus egenskapen.
En podd som körs på det lokala klustret skickar pulsslagsmeddelande till Klusterhanteraren via infrastrukturproxyn.
Måttet genererar värdet "1" för alla tidsserier. Från och med när klusterresursens connectionStatus anges för första gången.
Processen som avger metriken skickar aldrig "0"-värden. Alla "0"-värden som visas i grafer beror på att grafverktyg fyller luckor.
Identifieringen av tillståndsändringar kräver att Klusterhanterarens avstämningsprocess uppdaterar klusterresursens ClusterConnectionStatus egenskap i enlighet med detta.
Det kan uppstå en fördröjning mellan den faktiska förlusten av pulsslag och måttet som återspeglar Disconnected tillståndet på grund av avstämningsloopen och andra operativa faktorer.
Måttet NexusClusterConnectionStatus används som en hälsoindikator för klustret, men fördröjningar i statusändringar kan inträffa på grund av avstämningstider och driftbegränsningar.
Timeout-händelser kan inträffa om pulsslag inte tas emot inom ett tröskelvärde på 2 minuter, men ett enda lyckat pulsslag återställer timern.
Statusen kan övergå mellan Ansluten, Timeout och Disconnected baserat på pulsslagsaktivitet.
Bilden visar en allmän representation av de komponenter som ansvarar för att generera måttet NexusClusterConnectionStatus .
ClusterConnectionStatus är inte samma som Arc Connected Cluster-status
Klustrets ClusterConnectionStatus och Arc Connected Cluster-statusen är separata signaler och bör inte behandlas utbytbart.
Även om de två signalerna inte är relaterade förlitar sig båda på nätverksanslutning för klustret.
Det är möjligt att ett Kluster är Arc Disconnected men fortfarande har en hjärtslagsstatus på Connected.
Båda signalerna är beroende av nätverksanslutning, men de tjänar olika syften och hanteras av olika system.
Vanliga undersökningssteg
Problem med infrastrukturnätverk, behörighetsändringar i den hanterade identiteten eller andra problem som kanske inte är uppenbara i början påverkar anslutningsstatusen för klusterresursen. Följande avsnitt innehåller några vanliga undersökningssteg och referenser som hjälper dig att felsöka.
Viktigt!
ClusterConnectionStatus Anger generell instabilitet, inte själva orsaken.
Den här guiden innehåller allmänna hälsokontroller för resurser som kan hjälpa dig att hitta problemet eller åtminstone hjälpa till att samla in information som är användbar för kundsupport.
Hälsotillstånd och anslutning för klusternätverksinfrastruktur
Det är användbart att börja med Network Fabric-styrenheten och tjänstresurserna . Kontrollera nätverkskonfigurationen eller andra nätverksrelaterade inställningar som kan påverka anslutningen. Kontrollera konfigurationen av det fysiska nätverket, inklusive rackkablar, IP-adresser, DNS-inställningar, routningsregler, brandväggsregler osv.
Utvärdera eventuell konfigurerad övervakning eller mått för Network Fabric-resurserna. Mer information finns på följande länkar:
- Översikt över övervakning av Nexus Network Fabric-konfiguration
- Konfigurera diagnostikinställningar och övervaka konfigurationsskillnader i Nexus Network Fabric
- BGP-mått för internt nätverk i Azure-operatören Nexus Network Fabric
- Så här övervakar du in- och ut-pakethastigheten för nätverksinfrastrukturenheter
Senaste ändringar av behörigheterna för hanterad identitet
Ändringar av behörigheterna för hanterad identitet för Klusterhanteraren eller Klustret kan påverka klustrets möjlighet att autentisera mot Klusterhanteraren.
Hanterade identiteter (MI) och deras behörigheter används för tjänst-till-tjänst-autentisering.
En ändring av behörigheterna resulterar i autentiseringsfel för pulsslagsmeddelandena.
Även när nätverksanslutningen är felfri visas ClusterConnectionStatus klustret när Disconnected pulsslag inte tas emot och bekräftas.
Kontrollera hälsotillståndet för BareMetal-maskiner på kontrollplanet
BareMetal Machines på kontrollplanet är värd för komponenten som skickar pulsslag till Klusterhanteraren. I de flesta fall schemaläggs poddarna som körs på kontrollplanet automatiskt till en annan BareMetal-dator i nodpoolen på kontrollplanet. Men om BareMetal-datorerna inte är felfria kan poddarna inte schemaläggas om och klustret kan inte skicka pulsslag.
Om du vill kontrollera BareMetal Machines använder du följande kommando:
az networkcloud baremetalmachine list \
--resource-group "$CLUSTER_RG" \
--cluster-name "$CLUSTER_NAME" \
--subscription "$SUBSCRIPTION_ID" \
--output table
Granska statusen för kontrollplanetens BareMetal-maskiner. Om några är icke-funktionella eller otillgängliga bör du undersöka närmare eller kontakta supporten.
Har du fortfarande problem?
Om stegen som beskrivs inte innehåller någon sökväg för att lösa problemet eller om du fortfarande har frågor kontaktar du supporten. Ange så mycket information som möjligt om problemet, inklusive eventuella felmeddelanden eller loggar som kan vara relevanta. Detta hjälper supportteamet att hjälpa dig mer effektivt.
Du kan öppna en supportbegäran via Azure-portalen.
Mer information om supportplaner finns i Azure-supportplaner.