Monitorování online koncových bodů

Článek
06/18/2024

Azure Machine Learning využívá integraci se službou Azure Monitor ke sledování a monitorování metrik a protokolů pro online koncové body. Metriky můžete zobrazit v grafech, porovnat mezi koncovými body a nasazeními, připnout na řídicí panely webu Azure Portal, nakonfigurovat výstrahy, dotazovat se z tabulek protokolů a odesílat protokoly do podporovaných cílů. Application Insights můžete také použít k analýze událostí z uživatelských kontejnerů.

Metriky: Pro metriky na úrovni koncového bodu, jako je latence požadavků, požadavky za minutu, nová připojení za sekundu a bajty sítě, můžete přejít k podrobnostem a zobrazit podrobnosti na úrovni nasazení nebo na úrovni stavu. Metriky na úrovni nasazení, jako je využití procesoru nebo GPU a využití paměti nebo disku, je také možné přejít k podrobnostem na úrovni instance. Azure Monitor umožňuje sledování těchto metrik v grafech a nastavení řídicích panelů a upozornění pro další analýzu.
Protokoly: Metriky můžete odesílat do pracovního prostoru služby Log Analytics, kde můžete dotazovat protokoly pomocí syntaxe dotazu Kusto. K dalšímu zpracování můžete také odesílat metriky do účtů služby Azure Storage nebo event Hubs. Kromě toho můžete použít vyhrazené tabulky protokolů pro protokoly související s online koncovým bodem, provozem a protokoly konzoly (kontejneru). Dotaz Kusto umožňuje složitou analýzu a spojování více tabulek.
Application Insights: Kurátorovaná prostředí zahrnují integraci s Application Insights a tuto integraci můžete povolit nebo zakázat při vytváření online nasazení. Integrované metriky a protokoly se odesílají do Application Insights a k další analýze můžete použít integrované funkce Application Insights (například živé metriky, vyhledávání transakcí, selhání a výkon).

V tomto článku získáte informace o těchto tématech:

Volba správné metody pro zobrazení a sledování metrik a protokolů
Zobrazení metrik pro váš online koncový bod
Vytvoření řídicího panelu pro metriky
Vytvoření upozornění na metriku
Zobrazení protokolů pro váš online koncový bod
Sledování metrik a protokolů pomocí Application Insights

Požadavky

Nasazení online koncového bodu služby Azure Machine Learning
Ke koncovému bodu musíte mít alespoň přístup čtenáře.

Metriky

Stránky metrik pro online koncové body nebo nasazení můžete zobrazit na webu Azure Portal. Snadný přístup k těmto stránkám metrik je prostřednictvím odkazů dostupných v uživatelském rozhraní studio Azure Machine Learning – konkrétně na kartě Podrobnosti na stránce koncového bodu. Na základě těchto odkazů přejdete na přesnou stránku metrik na webu Azure Portal pro koncový bod nebo nasazení. Případně můžete přejít na web Azure Portal a vyhledat stránku metrik pro koncový bod nebo nasazení.

Přístup ke stránkám metrik prostřednictvím odkazů dostupných v sadě Studio:

Přejděte na studio Azure Machine Learning.
V levém navigačním panelu vyberte stránku Koncové body .
Vyberte koncový bod kliknutím na jeho název.
Výběrem možnosti Zobrazit metriky v části Atributy koncového bodu otevřete stránku metrik koncového bodu na webu Azure Portal.
Výběrem možnosti Zobrazit metriky v části pro každé dostupné nasazení otevřete stránku metrik nasazení na webu Azure Portal.

Přístup k metrikám přímo z webu Azure Portal:

Přihlaste se k portálu Azure.
Přejděte do online koncového bodu nebo prostředku nasazení.

Online koncové body a nasazení jsou prostředky Azure Resource Manageru (ARM), které najdete tak, že přejdete do vlastnící skupiny prostředků. Vyhledejte typy prostředků, které jsou v online koncovém bodu služby Machine Learning, a online nasazení služby Machine Learning.
V levém sloupci vyberte Metriky.

Dostupné metriky

V závislosti na vybraném prostředku se metriky budou lišit. Metriky se pro online koncové body a online nasazení liší.

Metriky v oboru koncového bodu

Provoz

ID metriky	Unit	Popis	Aggregate – metoda	Splittable By	Ukázková upozornění na metriky
RequestsPerMinute	Počet	Počet požadavků odeslaných do koncového bodu do minuty	Průměr	Nasazení, ModelStatusCode, StatusCode, StatusCodeClass	Upozornit mě, když mám <v systému = 0 transakcí
RequestLatency	Milisekundy	Úplný interval potřebný k odpovědi na žádost	Průměr	Nasazení	Upozornit mě, když průměrná latence 2 sekundy >
RequestLatency_P50	Milisekundy	Latence požadavku na 50. percentil agregovaný všemi hodnotami latence požadavků shromážděnými během 60 sekund	Průměr	Nasazení	Upozornit mě, když průměrná latence 2 sekundy >
RequestLatency_P90	Milisekundy	Latence požadavku na 90. percentil agregovaný všemi hodnotami latence požadavků shromážděnými během 60 sekund	Průměr	Nasazení	Upozornit mě, když průměrná latence 2 sekundy >
RequestLatency_P95	Milisekundy	Latence požadavku na 95. percentil agregovaný všemi hodnotami latence požadavků shromážděnými během 60 sekund	Průměr	Nasazení	Upozornit mě, když průměrná latence 2 sekundy >
RequestLatency_P99	Milisekundy	Latence požadavku na 99. percentil agregovaný všemi hodnotami latence požadavků shromážděnými během 60 sekund	Průměr	Nasazení	Upozornit mě, když průměrná latence 2 sekundy >

Síť

ID metriky	Unit	Popis	Aggregate – metoda	Splittable By	Ukázková upozornění na metriky
Síťovébyty	Bajty za sekundu	Bajty za sekundu obsluhované pro koncový bod	Průměr	-	-
ConnectionsActive	Počet	Celkový počet souběžných připojení TCP aktivních z klientů	Průměr	-	-
NewConnectionsPerSecond	Počet	Průměrný počet nových připojení TCP za sekundu vytvořených z klientů	Průměr	-	-

Shromažďování dat modelu

ID metriky	Unit	Popis	Aggregate – metoda	Splittable By	Ukázková upozornění na metriky
DataCollectionEventsPerMinute	Počet	Počet událostí shromažďování dat zpracovaných za minutu	Průměr	Nasazení, typ	-
DataCollectionErrorsPerMinute	Počet	Počet vynechaných událostí shromažďování dat za minutu	Průměr	Nasazení, typ, důvod	-

Můžete například rozdělit dimenzi nasazení a porovnat latenci požadavků různých nasazení v rámci koncového bodu.

Omezování šířky pásma

Šířka pásma se omezí, pokud dojde k překročení limitů kvót pro spravované online koncové body. Další informace o limitech najdete v článku o omezeních pro online koncové body. Určení, jestli jsou požadavky omezené:

Monitorování metriky Síťové bajty
Přívěsy odpovědí budou mít pole: ms-azureml-bandwidth-request-delay-ms a ms-azureml-bandwidth-response-delay-ms. Hodnoty polí jsou zpoždění v milisekundách omezování šířky pásma. Další informace najdete v tématu Problémy s omezením šířky pásma.

Metriky v oboru nasazení

Sytost

ID metriky	Unit	Popis	Aggregate – metoda	Splittable By	Ukázková upozornění na metriky
CpuUtilizationPercentage	Procenta	Kolik procent procesoru bylo využito	Minimun, Maximum, Průměr	InstanceId	Upozornit mě, když % využitá > kapacita 75 %
CpuMemoryUtilizationPercentage	Procenta	Kolik procent paměti bylo využito	Minimun, Maximum, Průměr	InstanceId
Využití disku	Procenta	Kolik místa na disku bylo využito	Minimun, Maximum, Průměr	InstanceId, Disk
GpuUtilizationPercentage	Procenta	Procento využití GPU v instanci – využití se hlásí v minutových intervalech.	Minimun, Maximum, Průměr	InstanceId
GpuMemoryUtilizationPercentage	Procenta	Procento využití paměti GPU v instanci – využití se hlásí v minutových intervalech.	Minimun, Maximum, Průměr	InstanceId
GpuEnergyJoules	Joule	Intervalová energie v Joules na uzlu GPU – Energie se hlásí v minutových intervalech.	Minimun, Maximum, Průměr	InstanceId

Dostupnost

ID metriky	Unit	Popis	Aggregate – metoda	Splittable By	Ukázková upozornění na metriky
DeploymentCapacity	Počet	Počet instancí v nasazení	Minimum, Maximum, Průměr	InstanceId, State	Upozornit mě, když % dostupnosti služby klesne pod 100 %

Provoz

ID metriky	Unit	Popis	Aggregate – metoda	Splittable By	Ukázková upozornění na metriky
RequestsPerMinute	Počet	Počet žádostí odeslaných do online nasazení během minuty	Průměr	StatusCode	Upozornit mě, když mám <v systému = 0 transakcí
RequestLatency_P50	Milisekundy	Průměrná latence požadavku P50 agregovaná všemi hodnotami latence požadavků shromážděnými během vybraného časového období	Průměr	-	Upozornit mě, když průměrná latence 2 sekundy >
RequestLatency_P90	Milisekundy	Průměrná latence požadavků P90 agregovaná všemi hodnotami latence požadavků shromážděnými během vybraného časového období	Průměr	-	Upozornit mě, když průměrná latence 2 sekundy >
RequestLatency_P95	Milisekundy	Průměrná latence požadavků P95 agregovaná všemi hodnotami latence požadavků shromážděnými během vybraného časového období	Průměr	-	Upozornit mě, když průměrná latence 2 sekundy >
RequestLatency_P99	Milisekundy	Průměrná latence požadavků P99 agregovaná všemi hodnotami latence požadavků shromážděnými během vybraného časového období	Průměr	-	Upozornit mě, když průměrná latence 2 sekundy >

Shromažďování dat modelu

ID metriky	Unit	Popis	Aggregate – metoda	Splittable By	Ukázková upozornění na metriky
DataCollectionEventsPerMinute	Počet	Počet událostí shromažďování dat zpracovaných za minutu	Průměr	InstanceId, Type	-
DataCollectionErrorsPerMinute	Počet	Počet vynechaných událostí shromažďování dat za minutu	Průměr	InstanceId, Type, Reason	-

Můžete například porovnat využití procesoru nebo paměti mezi různými instancemi online nasazení.

Vytváření řídicích panelů a upozornění

Azure Monitor umožňuje vytvářet řídicí panely a výstrahy na základě metrik.

Vytváření řídicích panelů a vizualizace dotazů

Na webu Azure Portal můžete vytvářet vlastní řídicí panely a vizualizovat metriky z více zdrojů, včetně metrik pro váš online koncový bod. Další informace o vytvářenířídicích

Vytváření výstrah

Můžete také vytvořit vlastní upozornění, která vás upozorní na důležité aktualizace stavu vašeho online koncového bodu:

V pravém horním rohu stránky metrik vyberte Nové pravidlo upozornění.
Vyberte název podmínky, která určuje, kdy má být upozornění aktivováno.
Vyberte Přidat skupiny akcí Vytvořit skupiny> akcí a určete, co se má stát při aktivaci upozornění.
Zvolte Vytvořit pravidlo upozornění a dokončete vytváření upozornění.

Další informace najdete v tématu Vytvoření pravidel upozornění služby Azure Monitor.

Povolení automatického škálování na základě metrik

Automatické škálování nasazení můžete povolit pomocí metrik pomocí uživatelského rozhraní nebo kódu. Při použití kódu (rozhraní příkazového řádku nebo sady SDK) můžete použít ID metrik uvedených v tabulce dostupných metrik v podmínce pro aktivaci automatického škálování. Další informace najdete v tématu Automatické škálování online koncových bodů.

Protokoly

Pro online koncové body je možné povolit tři protokoly:

AmlOnlineEndpointTrafficLog: Pokud chcete zkontrolovat informace o vaší žádosti, můžete se rozhodnout povolit protokoly provozu. Tady jsou některé případy:
- Pokud odpověď není 200, zkontrolujte hodnotu sloupce ResponseCodeReason a podívejte se, co se stalo. V článku Řešení potíží s online koncovými body také zkontrolujte důvod v části Stavové kódy HTTPS.
- Kód odpovědi a důvod odpovědi modelu můžete zkontrolovat ze sloupce ModelStatusCode a ModelStatusReason.
- Chcete zkontrolovat dobu trvání požadavku, jako je celková doba trvání, doba trvání požadavku nebo odpovědi a zpoždění způsobené omezováním sítě. Můžete to zkontrolovat v protokolech a zobrazit latenci rozpisu.
- Pokud chcete zkontrolovat, kolik požadavků nebo neúspěšných požadavků nedávno selhalo. Můžete také povolit protokoly.
AmlOnlineEndpointConsoleLog: Obsahuje protokoly, které kontejnery vypíše do konzoly. Tady jsou některé případy:
- Pokud se kontejner nepodaří spustit, může být protokol konzoly užitečný pro ladění.
- Monitorujte chování kontejneru a ujistěte se, že jsou všechny požadavky správně zpracovány.
- V protokolu konzoly můžete zapisovat ID žádostí. Připojte se k ID požadavku, AmlOnlineEndpointConsoleLog a AmlOnlineEndpointTrafficLog v pracovním prostoru služby Log Analytics, můžete trasovat požadavek ze vstupního bodu sítě online koncového bodu do kontejneru.
- Tento protokol můžete použít také k analýze výkonu při určování času potřebného modelem ke zpracování jednotlivých požadavků.

AmlOnlineEndpointEventLog: Obsahuje informace o události týkající se životního cyklu kontejneru. V současné době poskytujeme informace o následujících typech událostí:

Název	Zpráva
BackOff	Opětovné restartování neúspěšného kontejneru
Natažený	Image kontejneru "<IMAGE_NAME>" už na počítači existuje.
Zabití	Sonda odezvy na serveru odvození kontejneru selhala, bude restartována.
Vytvořeno	Vytvoření image kontejneru – fetcher
Vytvořeno	Vytvoření serveru pro odvození kontejneru
Vytvořeno	Vytvoření modelu kontejneru – připojení
LivenessProbeFailed	Sonda aktivity selhala: <FAILURE_CONTENT>
ReadinessProbeFailed	Sonda připravenosti selhala: <FAILURE_CONTENT>
Zahájeno	Spuštěná image kontejneru – fetcher
Zahájeno	Spuštěno odvození kontejneru - server
Zahájeno	Spuštěné připojení modelu kontejneru
Zabití	Zastavení odvozování kontejneru – server
Zabití	Zastavení připojení modelu kontejneru

Jak povolit nebo zakázat protokoly

Důležité

Protokolování používá Azure Log Analytics. Pokud aktuálně nemáte pracovní prostor služby Log Analytics, můžete ho vytvořit pomocí postupu v části Vytvoření pracovního prostoru služby Log Analytics na webu Azure Portal.

Na webu Azure Portal přejděte do skupiny prostředků, která obsahuje váš koncový bod, a pak vyberte koncový bod.
V části Monitorování na levé straně stránky vyberte Nastavení diagnostiky a pak Přidejte nastavení.
Vyberte kategorie protokolů, které chcete povolit, vyberte Možnost Odeslat do pracovního prostoru služby Log Analytics a pak vyberte pracovní prostor služby Log Analytics, který chcete použít. Nakonec zadejte název nastavení diagnostiky a vyberte Uložit.

Důležité

Povolení připojení k pracovnímu prostoru služby Log Analytics může trvat až hodinu. Než budete pokračovat dalším postupem, počkejte hodinu.
Odešlete žádosti o bodování do koncového bodu. Tato aktivita by měla v protokolech vytvářet položky.
Z vlastností online koncového bodu nebo pracovního prostoru služby Log Analytics vyberte protokoly nalevo od obrazovky.
Zavřete dialogové okno Dotazy, které se automaticky otevře, a potom poklikejte na AmlOnlineEndpointConsoleLog. Pokud ho nevidíte, použijte vyhledávací pole.
Vyberte Spustit.

Vzorové dotazy

Ukázkové dotazy najdete na kartě Dotazy při prohlížení protokolů. Vyhledejte koncový bod Online a vyhledejte ukázkové dotazy.

Snímek obrazovky s ukázkovými dotazy

Podrobnosti o sloupci protokolu

Následující tabulky obsahují podrobnosti o datech uložených v jednotlivých protokolech:

AmlOnlineEndpointTrafficLog

Vlastnost	Popis
metoda	Požadovaná metoda od klienta.
Cesta	Požadovaná cesta od klienta.
SubscriptionId	ID předplatného strojového učení online koncového bodu.
AzureMLWorkspaceId	ID pracovního prostoru strojového učení online koncového bodu.
AzureMLWorkspaceName	Název pracovního prostoru strojového učení online koncového bodu.
Název koncového bodu	Název online koncového bodu.
DeploymentName	Název online nasazení.
Protokol	Protokol požadavku.
ResponseCode	Konečný kód odpovědi vrácený klientovi.
ResponseCodeReason	Poslední důvod kódu odpovědi vrácený klientovi.
ModelStatusCode	Stavový kód odpovědi z modelu.
ModelStatusReason	Důvod stavu odpovědi z modelu.
RequestPayloadSize	Celkový počet bajtů přijatých od klienta
ResponsePayloadSize	Celkový počet bajtů odeslaných zpět klientovi.
UserAgent	Hlavička uživatelského agenta požadavku, včetně komentářů, ale zkrácená na maximálně 70 znaků.
XRequestId	ID požadavku vygenerované službou Azure Machine Learning pro interní trasování
XMSClientRequestId	ID sledování vygenerované klientem.
TotalDurationMs	Doba trvání v milisekundách od počátečního času požadavku do posledního bajtu odpovědi odeslaného zpět klientovi. Pokud se klient odpojil, měří se od času spuštění až po dobu odpojení klienta.
RequestDurationMs	Doba trvání v milisekundách od počátečního času požadavku do posledního bajtu požadavku přijatého od klienta.
ResponseDurationMs	Doba trvání v milisekundách od počátečního času požadavku do prvního bajtu odpovědi načteného z modelu.
RequestThrottlingDelayMs	Zpoždění v milisekundách při přenosu dat požadavku kvůli omezování sítě
ResponseThrottlingDelayMs	Zpoždění v milisekundách při přenosu dat odpovědí kvůli omezování sítě

AmlOnlineEndpointConsoleLog

Vlastnost	Popis
TimeGenerated	Časové razítko (UTC) při vygenerování protokolu
OperationName	Operace přidružená k záznamu protokolu.
InstanceId	ID instance, která vygenerovala tento záznam protokolu.
DeploymentName	Název nasazení přidruženého k záznamu protokolu.
ContainerName	Název kontejneru, ve kterém se protokol vygeneroval.
Zpráva	Obsah protokolu.

AmlOnlineEndpointEventLog

Vlastnost	Popis
TimeGenerated	Časové razítko (UTC) při vygenerování protokolu
OperationName	Operace přidružená k záznamu protokolu.
InstanceId	ID instance, která vygenerovala tento záznam protokolu.
DeploymentName	Název nasazení přidruženého k záznamu protokolu.
Název	Název události.
Zpráva	Obsah události.

Použití Application Insights

Kurátorovaná prostředí zahrnují integraci s Application Insights a při vytváření online nasazení můžete tuto integraci povolit nebo zakázat. Integrované metriky a protokoly se odesílají do Application Insights a k další analýze můžete použít integrované funkce Application Insights (například živé metriky, vyhledávání transakcí, selhání a výkon).

Další informace najdete v přehledu Application Insights.

V sadě Studio můžete pomocí karty Monitorování na stránce online koncového bodu zobrazit grafy monitorování aktivit vysoké úrovně pro spravovaný online koncový bod. Pokud chcete použít kartu monitorování, musíte při vytváření koncového bodu vybrat povolit shromažďování diagnostických dat a shromažďování dat Application Insight.

Zjistěte, jak zobrazit náklady na nasazený koncový bod.
Přečtěte si další informace o Průzkumníku metrik.

Sdílet prostřednictvím

Monitorování online koncových bodů

Požadavky