Omówienie ponownego uruchamiania systemu dla maszyny wirtualnej platformy Azure

Maszyny wirtualne platformy Azure mogą czasami zostać ponownie uruchomione bez wyraźnego powodu bez dowodów na to, że zainicjowano operację ponownego uruchamiania. W tym artykule wymieniono akcje i zdarzenia, które mogą powodować ponowne uruchomienie maszyn wirtualnych, oraz przedstawiono sposób uniknięcia nieoczekiwanych problemów z ponownym uruchomieniem lub zmniejszenia wpływu takich problemów.

Konfigurowanie maszyn wirtualnych pod kątem wysokiej dostępności

Najlepszym sposobem ochrony aplikacji działającej na platformie Azure przed ponownym uruchomieniem maszyny wirtualnej i przestojem jest skonfigurowanie maszyn wirtualnych pod kątem wysokiej dostępności.

Aby zapewnić ten poziom nadmiarowości aplikacji, zalecamy grupowanie co najmniej dwóch maszyn wirtualnych w zestawie dostępności. Ta konfiguracja gwarantuje, że podczas planowanego lub nieplanowanego zdarzenia konserwacji co najmniej jedna maszyna wirtualna jest dostępna i spełnia 99,95% umowy SLA platformy Azure.

Aby uzyskać więcej informacji na temat zestawów dostępności, zobacz Zarządzanie dostępnością maszyn wirtualnych

Resource Health informacji

Azure Resource Health to usługa, która uwidacznia kondycję poszczególnych zasobów platformy Azure i udostępnia praktyczne wskazówki dotyczące rozwiązywania problemów. W środowisku chmury, w którym nie można bezpośrednio uzyskać dostępu do serwerów lub elementów infrastruktury, celem Resource Health jest skrócenie czasu poświęcanego na rozwiązywanie problemów. W szczególności celem jest skrócenie czasu poświęcanego na określenie, czy przyczyną problemu jest aplikacja, czy zdarzenie na platformie Azure. Aby uzyskać więcej informacji, zobacz Understand and use Resource Health (Omówienie i używanie Resource Health).

Jeśli platforma Azure ma więcej informacji na temat głównej przyczyny niedostępności zainicjowanej przez platformę dla maszyny wirtualnej, informacje te mogą być publikowane w kondycji zasobów do 72 godzin po początkowej niedostępności.

Brak przestojów maszyny wirtualnej w dzienniku aktywności

Resource Health alerty są wysyłane na podstawie informacji dziennika aktywności. W niektórych przypadkach przestoje maszyny wirtualnej mogą nie być wyświetlane w dzienniku aktywności. Jeśli przestój nie jest wyświetlany w dzienniku aktywności, Resource Health alerty nie zostaną wysłane dla przestoju. Przestój jest nadal widoczny w Resource Health.

Poniżej przedstawiono przypadki, w których przestoje maszyny wirtualnej nie są wyświetlane w dzienniku aktywności:

  • Gdy maszyna wirtualna zostanie utworzona lub zmigrowana do nowego hosta, platforma Azure nie będzie poprawnie wyświetlać stanu maszyny wirtualnej, a stan zmieni się na Nieznany. Dopiero po ustanowieniu wszystkich procesów łączności sieciowej i węzła stan maszyny wirtualnej zmieni się na Dostępny. Dłuższy okres nieznanego stanu jest odfiltrowywany z dziennika aktywności.
  • Gdy stan dostępności maszyny wirtualnej zmieni się z Dostępna na Niedostępna, a następnie wróci do pozycji Dostępne w ciągu 35 sekund, przestój nie będzie wyświetlany w dzienniku aktywności. Ten przypadek nie wystąpi, jeśli skorelowany przestój zostanie wysłany w ciągu 15 minut przed wystąpieniem pierwszego przejścia.
  • Jeśli kondycja maszyny wirtualnej zmieni się ze stanu na Nieznany, a następnie wróci do pierwotnego stanu, sporadyczny stan Nieznany i powiązane przejścia zostaną odfiltrowane z dziennika aktywności.

Przestoje maszyny wirtualnej, które nie są wyświetlane w dzienniku aktywności, są filtrowane po stronie platformy Azure, aby zapobiec wyświetlaniu przez błędy przejściowe nieprawidłowych przestojów dla klientów. Dzięki ciągłym inwestycjom w jakość kondycji maszyny wirtualnej filtry mogą nie być już konieczne i mogą spowodować, że szybkie zmiany kondycji maszyny wirtualnej pozostaną nieraportowane. Firma Microsoft pracuje nad planem stopniowego wycofywania, aby zapewnić najlepsze środowisko klienta.

Akcje i zdarzenia, które mogą powodować ponowne uruchomienie maszyny wirtualnej

Planowana konserwacja

Platforma Microsoft Azure okresowo przeprowadza aktualizacje na całym świecie, aby zwiększyć niezawodność, wydajność i bezpieczeństwo infrastruktury hostów, która jest częścią maszyn wirtualnych. Wiele z tych aktualizacji, w tym aktualizacje chroniące pamięć, jest wykonywanych bez żadnego wpływu na maszyny wirtualne lub usługi w chmurze.

Jednak niektóre aktualizacje wymagają ponownego uruchomienia. W takich przypadkach maszyny wirtualne są zamykane podczas stosowania poprawek infrastruktury, a następnie maszyny wirtualne są ponownie uruchamiane.

Aby zrozumieć, czym jest planowana konserwacja platformy Azure i jak może ona wpłynąć na dostępność maszyn wirtualnych z systemem Linux, zobacz artykuły wymienione tutaj. Artykuły zawierają informacje o procesie planowanej konserwacji platformy Azure oraz o tym, jak zaplanować planowaną konserwację w celu dalszego zmniejszenia wpływu.

Aktualizacje chroniące pamięć

W przypadku tej klasy aktualizacji na platformie Microsoft Azure użytkownicy nie mają wpływu na uruchomione maszyny wirtualne. Wiele z tych aktualizacji dotyczy składników lub usług, które można zaktualizować bez zakłócania działania uruchomionego wystąpienia. Niektóre z nich to aktualizacje infrastruktury platformy w systemie operacyjnym hosta, które można zastosować bez ponownego uruchamiania maszyn wirtualnych.

Te aktualizacje chroniące pamięć są realizowane za pomocą technologii, która umożliwia migrację na żywo w miejscu. Gdy jest aktualizowana, maszyna wirtualna jest umieszczana w stanie wstrzymania . Ten stan zachowuje pamięć w pamięci RAM, podczas gdy podstawowy system operacyjny hosta otrzymuje niezbędne aktualizacje i poprawki. Maszyna wirtualna jest wznawiany zazwyczaj w ciągu 30 sekund od wstrzymania. Po wznowieniu maszyny wirtualnej jej zegar jest automatycznie synchronizowany.

Ze względu na krótki okres wstrzymania wdrażanie aktualizacji za pomocą tego mechanizmu znacznie zmniejsza wpływ na maszyny wirtualne. Jednak nie wszystkie aktualizacje można wdrożyć w ten sposób.

Aktualizacje z wieloma wystąpieniami (dla maszyn wirtualnych w zestawie dostępności) są stosowane po jednej domenie aktualizacji jednocześnie.

Uwaga

Na maszyny z systemem Linux, które mają stare wersje jądra, podczas tej metody aktualizacji występuje panika jądra. Aby uniknąć tego problemu, zaktualizuj jądro w wersji 3.10.0-327.10.1 lub nowszej. Aby uzyskać więcej informacji, zobacz Maszyna wirtualna z systemem Linux platformy Azure na bazie jądra w wersji 3.10 po uaktualnieniu węzła hosta.

Akcje ponownego uruchamiania lub zamykania zainicjowane przez użytkownika

Jeśli wykonasz ponowny rozruch z Azure Portal, Azure PowerShell, interfejsu wiersza polecenia lub interfejsu API REST, możesz znaleźć to zdarzenie w dzienniku aktywności platformy Azure.

Jeśli wykonasz akcję z systemu operacyjnego maszyny wirtualnej, zdarzenie można znaleźć w dziennikach systemu.

Inne scenariusze, które zwykle powodują ponowne uruchomienie maszyny wirtualnej, obejmują wiele akcji zmiany konfiguracji. Zwykle zostanie wyświetlony komunikat ostrzegawczy wskazujący, że wykonanie określonej akcji spowoduje ponowne uruchomienie maszyny wirtualnej. Przykłady obejmują operacje zmiany rozmiaru maszyny wirtualnej, zmianę hasła konta administracyjnego i ustawienie statycznego adresu IP.

Microsoft Defender dla chmury i Windows Update

Microsoft Defender dla chmury codziennie monitoruje maszyny wirtualne z systemami Windows i Linux pod kątem brakujących aktualizacji systemu operacyjnego. Usługa Defender for Cloud pobiera listę dostępnych zabezpieczeń i aktualizacji krytycznych z Windows Update lub Windows Server Update Services (WSUS), w zależności od tego, która usługa jest skonfigurowana na maszynie wirtualnej z systemem Windows. Usługa Defender for Cloud sprawdza również najnowsze aktualizacje dla systemów Linux. Jeśli na maszynie wirtualnej brakuje aktualizacji systemu, usługa Defender for Cloud zaleca stosowanie aktualizacji systemu. Stosowanie tych aktualizacji systemu jest kontrolowane za pośrednictwem usługi Defender for Cloud w Azure Portal. Po zastosowaniu niektórych aktualizacji może być wymagane ponowne uruchomienie maszyny wirtualnej. Aby uzyskać więcej informacji, zobacz Stosowanie aktualizacji systemu w Microsoft Defender for Cloud.

Podobnie jak serwery lokalne, platforma Azure nie wypycha aktualizacji z Windows Update do maszyn wirtualnych z systemem Windows, ponieważ te maszyny są przeznaczone do zarządzania przez użytkowników. Zachęcamy jednak do pozostawienia włączonego ustawienia automatycznego Windows Update. Automatyczna instalacja aktualizacji z Windows Update może również powodować ponowny rozruch po zastosowaniu aktualizacji. Aby uzyskać więcej informacji, zobacz Windows Update często zadawane pytania.

Inne sytuacje wpływające na dostępność maszyny wirtualnej

Istnieją inne przypadki, w których platforma Azure może aktywnie zawiesić korzystanie z maszyny wirtualnej. Przed wykonaniem tej akcji otrzymasz powiadomienia e-mail, więc będziesz mieć szansę na rozwiązanie podstawowych problemów. Przykłady problemów wpływających na dostępność maszyny wirtualnej obejmują naruszenia zabezpieczeń i wygaśnięcie metod płatności.

Błędy serwera hosta

Maszyna wirtualna jest hostowana na serwerze fizycznym, który działa w centrum danych platformy Azure. Serwer fizyczny uruchamia agenta o nazwie Agent hosta oprócz kilku innych składników platformy Azure. Gdy te składniki oprogramowania platformy Azure na serwerze fizycznym przestaną odpowiadać, system monitorowania wyzwala ponowny rozruch serwera hosta w celu podjęcia próby odzyskania. W wielu przypadkach maszyna wirtualna będzie ponownie dostępna w ciągu 10–15 minut i będzie nadal działać na tym samym hoście, co poprzednio.

Błędy serwera są zwykle spowodowane awarią sprzętu, taką jak awaria dysku twardego lub dysku SSD. Platforma Azure stale monitoruje te wystąpienia, identyfikuje podstawowe usterki i wprowadza aktualizacje po zaimplementowaniu i przetestowaniu środków zaradczych.

Ponieważ niektóre błędy serwera hosta mogą być specyficzne dla tego serwera, ponowny rozruch maszyny wirtualnej może zostać poprawiony przez ręczne ponowne wdrożenie maszyny wirtualnej na innym serwerze hosta. Tę operację można wyzwolić przy użyciu opcji ponownego wdrożenia na stronie szczegółów maszyny wirtualnej lub przez zatrzymanie i ponowne uruchomienie maszyny wirtualnej w Azure Portal.

Automatyczne odzyskiwanie

Jeśli serwer hosta nie może z jakiegokolwiek powodu ponownie uruchomić, platforma Azure inicjuje akcję automatycznego odzyskiwania w celu wyłączenia wadliwego serwera hosta z rotacji w celu dalszego zbadania.

Wszystkie maszyny wirtualne na tym hoście są automatycznie przenoszone na inny serwer hosta w dobrej kondycji. Chociaż ten proces zwykle kończy się w ciągu 15 minut, czas potrzebny do odzyskania może się różnić w zależności od kilku czynników, w tym rozmiaru pamięci hosta i zastosowanych metod odzyskiwania. Aby dowiedzieć się więcej na temat procesu automatycznego odzyskiwania, zobacz Auto-recovery of VMs (Automatyczne odzyskiwanie maszyn wirtualnych).

Nieplanowana konserwacja

W rzadkich przypadkach zespół operacyjny platformy Azure może wymagać wykonania działań konserwacyjnych w celu zapewnienia ogólnej kondycji platformy Azure. To zachowanie może mieć wpływ na dostępność maszyny wirtualnej i zwykle powoduje wykonanie tej samej akcji automatycznego odzyskiwania, jak opisano wcześniej.

Nieplanowana konserwacja obejmuje następujące elementy:

  • Defragmentacja pilnego węzła
  • Pilne aktualizacje przełącznika sieciowego

Awarie maszyny wirtualnej

Maszyny wirtualne mogą zostać ponownie uruchomione z powodu problemów z samą maszyną wirtualną. Obciążenie lub rola uruchomiona na maszynie wirtualnej może wyzwolić sprawdzanie błędów w systemie operacyjnym gościa. Aby uzyskać pomoc w określeniu przyczyny awarii, wyświetl dzienniki systemu i aplikacji dla maszyn wirtualnych z systemem Windows oraz dzienniki szeregowe dla maszyn wirtualnych z systemem Linux.

Maszyny wirtualne na platformie Azure korzystają z dysków wirtualnych dla systemu operacyjnego i magazynu danych hostowanego w infrastrukturze usługi Azure Storage. Za każdym razem, gdy na dostępność lub łączność między maszyną wirtualną a skojarzonymi dyskami wirtualnymi ma to wpływ przez ponad 120 sekund, platforma Azure przeprowadza wymuszone zamykanie maszyn wirtualnych, aby uniknąć uszkodzenia danych. Maszyny wirtualne są automatycznie włączane ponownie po przywróceniu łączności magazynu. Czas trwania zamykania może wynosić nawet pięć minut, ale może być znacznie dłuższy.

Inne zdarzenia

W rzadkich przypadkach powszechny problem może mieć wpływ na wiele serwerów w centrum danych platformy Azure. W przypadku wystąpienia tego problemu zespół platformy Azure wysyła powiadomienia e-mail do subskrypcji, których dotyczy problem. Możesz sprawdzić pulpit nawigacyjny usługi Azure Service Health i Azure Portal pod kątem stanu bieżących awarii i przeszłych zdarzeń.

Diagnozowanie ponownych uruchomień maszyny wirtualnej

Aby uruchomić dodatkową diagnostykę, możesz użyć bloku Diagnozowanie i rozwiązywanie w bloku maszyny wirtualnej. Może to ujawnić bardziej szczegółowe przyczyny niedawnego ponownego uruchomienia maszyny wirtualnej. Jeśli wystąpił jakikolwiek problem z systemem operacyjnym gościa, zbierz zrzut pamięci i skontaktuj się z pomocą techniczną.

Skontaktuj się z nami, aby uzyskać pomoc

Jeśli masz pytania lub potrzebujesz pomocy, utwórz wniosek o pomoc techniczną lub zadaj pytanie w społeczności wsparcia dla platformy Azure. Możesz również przesłać opinię o produkcie do społeczności opinii platformy Azure.