Použití metrik a protokolů služby Network Watcher k řešení potíží se sítí

Dokončeno

Pokud chcete rychle diagnostikovat problém, musíte rozumět informacím dostupným v protokolech služby Azure Network Watcher.

Ve vaší technické firmě chcete minimalizovat čas, který personál potřebuje k diagnostice a řešení problémů s konfigurací sítě. Chcete, aby pracovníci věděli, jaké informace jsou v jednotlivých protokolech k dispozici.

V tomto modulu se zaměříte na protokoly toku, diagnostické protokoly a analýzu provozu. Dozvíte se, jak tyto nástroje používat k řešení potíží se sítí Azure.

Využití a kvóty

Každý z prostředků Microsoft Azure můžete používat až do naplnění jeho kvóty. Každé předplatné má samostatné kvóty a využití se sleduje za předplatné. K předplatnému pro danou oblast je potřeba jenom jedna instance služby Network Watcher. Z této instance získáte přehled o využití a kvótách a budete moct zjistit, jestli se blížíte dosažení kvóty.

Pokud si chcete prohlédnout informace o využití a kvótách, přejděte na Všechny služby>Sítě>Network Watcher a pak vyberte Využití a kvóty. Zobrazí se podrobná data o využití a umístění prostředku. Zaznamenávají se data následujících metrik:

  • síťová rozhraní,
  • Skupiny zabezpečení sítě (NSG)
  • Virtuální sítě
  • veřejné IP adresy,

Tady je příklad zobrazených informací o využití a kvótách na portálu:

Screenshot showing usage and quotas by using Network Watcher.

Protokoly

Síťové diagnostické protokoly obsahují podrobná data. Tato data můžete použít, abyste lépe pochopili problémy s připojením a výkonem. Ve službě Network Watcher jsou tři nástroje, které zobrazují protokoly:

  • Protokoly toku NSG
  • Diagnostické protokoly
  • Analýza provozu

Pojďme se na každý z těchto nástrojů podívat.

Protokoly toku NSG

V protokolech toku NSG můžete zobrazit informace o příchozím a výchozím provozu IP adres ve skupinách zabezpečení sítě. Protokoly toku zobrazují odchozí a příchozí toky na základě pravidel na základě síťového adaptéru, který tok platí. Protokoly toku NSG znázorňují povolený nebo zakázaný provoz na základě pěti zachycených údajů. Jsou to tyto údaje:

  • Zdrojová IP adresa
  • Zdrojový port
  • Cílová IP adresa
  • Cílový port
  • Protokol

Tento diagram znázorňuje pracovní postup, kterým se skupina zabezpečení sítě (NSG) řídí.

Screenshot showing the workflow that the NSG follows from inbound traffic to rule matches to allowing or denying a packet.

Protokoly toku ukládají data do souborů JSON. Orientace v těchto datech může být obtížná, pokud byste soubory protokolu prohledávali ručně, hlavně pokud máte v Azure nasazenou rozsáhlou infrastrukturu. Pokud chcete tento problém vyřešit, použijte Power BI.

V Power BI můžete vizualizovat protokoly toku NSG mnoha způsoby. Příklad:

  • Hlavní mluvčí (IP adresa)
  • Toky podle směru (příchozí a odchozí)
  • Toky podle rozhodnutí (povolené a zakázané)
  • Toky podle cílového portu

K analýze protokolů můžete také použít opensourcové nástroje, jako je Elastic Stack, Grafana nebo Graylog.

Poznámka:

Protokoly toku NSG nepodporují účty úložišť na klasickém portálu Azure.

Diagnostické protokoly

Diagnostické protokoly jsou centrálním místem ve službě Network Watcher, kde můžete povolovat a zakazovat protokoly pro síťové prostředky Azure. Tyto prostředky můžou zahrnovat skupiny zabezpečení sítě (NSG), veřejné IP adresy, nástroje pro vyrovnávání zatížení a brány aplikací. Jakmile povolíte protokoly, které vás zajímají, můžete pomocí nástrojů spouštět dotazy na záznamy v protokolech a zobrazovat je.

Diagnostické protokoly můžete importovat do Power BI a dalších nástrojů a analyzovat je.

Analýza provozu

Ke zkoumání aktivity uživatelů a aplikací v cloudových sítích slouží analýza provozu.

Tento nástroj poskytuje přehled o aktivitě v síti napříč předplatnými. Diagnostikovat můžete bezpečnostní hrozby, například otevřené porty, komunikaci virtuálních počítačů se známými špatnými sítěmi nebo vzorce toku provozu. Analýza provozu analyzuje protokoly toků NSG v různých oblastech a předplatných Azure. Tato data můžete použít k optimalizaci výkonu sítě.

Nástroj vyžaduje službu Log Analytics. V podporované oblasti musí existovat pracovní prostor služby Log Analytics.

Scénáře použití

Pojďme se teď podívat na některé scénáře použití, při kterých můžete využít metriky a protokoly služby Azure Network Watcher.

Zákazníci hlásí nízký výkon

Abyste mohli vyřešit problémy s nízkým výkonem, potřebujete zjistit původní příčinu problému:

  • Je na serveru příliš velký provoz, který ho omezuje?
  • Odpovídá velikost virtuálního počítače dané úloze?
  • Jsou správně nastavené škálovatelné mezní hodnoty?
  • Dochází k nějakým škodlivým útokům?
  • Má virtuální počítač správně nakonfigurované úložiště?

Nejdříve zkontrolujte velikost virtuálního počítače, jestli odpovídá úloze. Potom na virtuálním počítači povolte službu Azure Diagnostics, abyste získali podrobnější údaje o určitých metrikách, jako je využití procesoru a využití paměti. Pokud chcete na portálu povolit diagnostiku virtuálního počítače, přejděte na Virtuální počítač, vyberte Nastavení diagnostiky a pak zapněte diagnostiku.

Předpokládejme, že máte virtuální počítač, který až doteď běžel dobře. V poslední době se však zhoršil jeho výkon. Abyste mohli zjistit případné kritické body prostředků, potřebujete se podívat na zaznamenaná data.

Začněte časovým úsekem zaznamenaných dat před ohlášeným problémem, při něm a po něm, abyste získali přesný přehled o výkonu. Tyto grafy jsou užitečné pro křížové odkazy na chování různých prostředků ve stejném období. Co budete kontrolovat:

  • Kritickým bodem je procesor.
  • Kritickým bodem je paměť
  • Kritickým bodem je disk

Kritickým bodem je procesor.

Při pohledu na problémy s výkonem můžete prozkoumat trendy, abyste pochopili, jestli ovlivňují váš server. Ke sledování trendů použijte monitorovací grafy na portálu. V monitorovacích grafech můžete vidět různé typy vzorců chování:

  • Izolované špičky. Špička může souviset s naplánovanou úlohou nebo očekávanou událostí. Pokud úlohu znáte, má při běhu požadovanou úroveň výkonu? Pokud je výkon v pořádku, možná budete muset zvýšit kapacitu.
  • Špička a konstantní výkon. Příčinou tohoto trendu může být nová úloha. Povolte monitorování virtuálního počítače, abyste zjistili, jaké procesy způsobují zatížení. Vyšší spotřeba může být způsobená neefektivním kódem nebo může být normální spotřeba nové úlohy. Pokud je spotřeba normální, má spuštěný proces požadovaný výkon?
  • Konstantní: Byl virtuální počítač vždy takový? Pokud ano, měli byste zjistit, jaké procesy spotřebovávají nejvíce prostředků, a pak zvážit možnost přidání kapacity.
  • Stále rostoucí. Vidíte konstantní nárůst spotřeby? Pokud ano, může tento trend vypovídat o neefektivním kódu nebo o procesu, který přibírá více uživatelských úloh.

Pokud zjistíte vysoké využití procesoru, máte tyto možnosti:

  • Zvýšit velikost virtuálního počítače přidáním více jader.
  • Problém podrobně prošetřete. Najít příslušnou aplikaci a proces a problém odpovídajícím způsobem vyřešit.

Pokud vertikálně navýšíte kapacitu virtuálního počítače a procesor stále běží nad 95 procent, je výkon aplikace lepší nebo je propustnost aplikace vyšší na přijatelnou úroveň? Pokud tomu tak není, je potřeba vyřešit potíže u konkrétní aplikace.

Kritickým bodem je paměť

Můžete zobrazit velikost paměti, kterou virtuální počítač používá. Z protokolů pochopíte trend a zjistíte, jestli časově odpovídá problémům, které se vyskytly. Neměli byste mít kdykoli k dispozici méně než 100 MB dostupné paměti. Zaměřte se na následující trendy:

  • Špička a konstantní spotřeba. Vysoké využití paměti nemusí být příčinou špatného výkonu. Některé aplikace, například relační databázové stroje, jsou navržené tak, aby intenzivně využívaly paměť. Pokud je ale aplikací náročných na využití paměti více, můžete zaznamenat špatný výkon, protože kolize v paměti způsobují ořezávání a stránkování na disk. Tyto procesy mají negativní vliv na výkon.
  • Stále rostoucí spotřeba: Tento trend může znamenat zahřívání aplikace. Běžně k němu dochází při spouštění databázových strojů. Může to však také indikovat nevracení paměti v aplikaci.
  • Využití stránkovacího souboru: Podívejte se, jestli není nadměrně využíván stránkovací soubor ve Windows nebo v Linuxu, který je v adresáři /dev/sdb.

Při potížích s vysokým využitím paměti zvažte tato řešení:

  • K okamžitému snížení využití stránkovacího souboru zvyšte velikost virtuálního počítače tím, že přidáte paměť. Pak sledujte výkon.
  • Problém podrobně prošetřete. Vyhledejte aplikaci nebo proces, který způsobuje kritické body, a vyřešte potíže. Pokud aplikaci znáte, podívejte se, jestli můžete nastavit horní mez přidělování paměti.

Kritickým bodem je disk

Výkon sítě také může souviset se subsystémem úložiště virtuálního počítače. Účet úložiště virtuálního počítače zjistíte na portálu. Pokud chcete zjistit, o jaké potíže s úložištěm jde, podívejte se na výkonnostní metriky v diagnostice účtu úložiště a v diagnostice virtuálního počítače. Hledejte klíčové trendy při výskytu problémů v určitém časovém úseku.

  • Ke kontrole časového limitu Azure Storage použijte metriky ClientTimeOutError, ServerTimeOutError, AverageE2ELatency, AverageServerLatency a TotalRequests. Pokud se v metrikách TimeOutError zobrazí hodnoty, vstupně-výstupní operace trvala příliš dlouho a vypršel časový limit. Pokud se zobrazí zvýšení AverageServerLatency ve stejnou dobu jako TimeOutErrors, může se jednat o problém s platformou. V tomto případě se obraťte na technickou podporu Microsoftu.
  • Ke kontrole omezení úložiště Azure Storage použijte metriku účtu úložiště ThrottlingError. Pokud zjistíte omezování, blížíte se limitu IOPS účtu. Tento problém můžete ověřit prozkoumáním metriky TotalRequests.

Řešení problémů s vysokým využitím disku a latencí:

  • Optimalizujte vstupně-výstupní operace virtuálního počítače a změňte jeho velikost navýšením dosavadních limitů virtuálního pevného disku (VHD).
  • Zvyšte propustnost a snižte latenci. Pokud zjistíte, že máte aplikaci, která je citlivá na latenci a vyžaduje vysokou propustnost, migrujte virtuální pevné disky do úložiště Azure Premium Storage.

Blokování provozu pravidly brány firewall virtuálního počítače

K řešení problému s tokem NSG použijte nástroj k ověření toku protokolu IP služby Network Watcher a protokolování toku NSG, abyste zjistili, jestli tok provozu nenarušuje skupina zabezpečení sítě (NSG) nebo směrování definované uživatelem.

Spusťte nástroj k ověření toku protokolu IP a určete místní a vzdálený virtuální počítač. Jakmile vyberete Zkontrolovat, spustí Azure logický test používaných pravidel. Pokud výsledek uvádí, že je přístup povolený, použijte protokoly toku NSG.

Na portálu přejděte na Skupiny zabezpečení sítě. V nastavení protokolů toku vyberte Zapnuto. Teď se zkuste znovu připojit k virtuálnímu počítači. K vizualizaci dat použijte analýzu provozu ve službě Network Watcher. Pokud výsledek zní, že je přístup povolený, nestojí v cestě žádné pravidlo skupiny zabezpečení sítě (NSG).

Pokud jste se dostali až sem, ale stále neznáte příčinu problému, může se jednat o nějaký problém na vzdáleném virtuálním počítači. Na vzdáleném počítači zakažte bránu firewall a znovu otestujte připojení. Pokud se při zakázané bráně firewall můžete ke vzdálenému virtuálnímu počítači připojit, zkontrolujte nastavení vzdálené brány firewall. Pak bránu firewall znovu povolte.

Neschopnost vzájemné komunikace front-endových a back-endových podsítí

Ve výchozím nastavení můžou v Azure všechny podsítě komunikovat. Pokud dva virtuální počítače ve dvou podsítích spolu nemůžou komunikovat, musí komunikaci blokovat nějaké nastavení v konfiguraci. Než začnete kontrolovat protokoly toku, spusťte nástroj k ověření toku protokolu IP z virtuálního počítače front-endu do virtuálního počítače back-endu. Tento nástroj spustí logický test pravidel v síti.

Pokud výsledek udává, že veškerou komunikaci blokuje skupina zabezpečení sítě (NSG) v back-endové podsíti, znovu nakonfigurujte danou skupinu zabezpečení sítě (NSG). Z bezpečnostních důvodů musíte některou komunikaci s front-endem blokovat, protože front-end je přístupný z veřejného internetu.

Blokováním komunikace s back-endem omezíte velikost ohrožené oblasti v případě malwarového nebo jiného útoku na zabezpečení. Pokud ale skupina zabezpečení sítě (NSG) blokuje všechno, není správně nakonfigurovaná. Povolte určité protokoly a porty, které jsou potřeba.