Sdílet prostřednictvím


Monitorování online koncových bodů

Azure Machine Learning využívá integraci se službou Azure Monitor ke sledování a monitorování metrik a protokolů pro online koncové body. Metriky můžete zobrazit v grafech, porovnat mezi koncovými body a nasazeními, připnout na řídicí panely webu Azure Portal, nakonfigurovat výstrahy, dotazovat se z tabulek protokolů a odesílat protokoly do podporovaných cílů. Application Insights můžete také použít k analýze událostí z uživatelských kontejnerů.

  • Metriky: Pro metriky na úrovni koncového bodu, jako je latence požadavků, požadavky za minutu, nová připojení za sekundu a bajty sítě, můžete přejít k podrobnostem a zobrazit podrobnosti na úrovni nasazení nebo na úrovni stavu. Metriky na úrovni nasazení, jako je využití procesoru nebo GPU a využití paměti nebo disku, je také možné přejít k podrobnostem na úrovni instance. Azure Monitor umožňuje sledování těchto metrik v grafech a nastavení řídicích panelů a upozornění pro další analýzu.

  • Protokoly: Metriky můžete odesílat do pracovního prostoru služby Log Analytics, kde můžete dotazovat protokoly pomocí syntaxe dotazu Kusto. K dalšímu zpracování můžete také odesílat metriky do účtů služby Azure Storage nebo event Hubs. Kromě toho můžete použít vyhrazené tabulky protokolů pro protokoly související s online koncovým bodem, provozem a protokoly konzoly (kontejneru). Dotaz Kusto umožňuje složitou analýzu a spojování více tabulek.

  • Application Insights: Kurátorovaná prostředí zahrnují integraci s Application Insights a tuto integraci můžete povolit nebo zakázat při vytváření online nasazení. Integrované metriky a protokoly se odesílají do Application Insights a k další analýze můžete použít integrované funkce Application Insights (například živé metriky, vyhledávání transakcí, selhání a výkon).

V tomto článku získáte informace o těchto tématech:

  • Volba správné metody pro zobrazení a sledování metrik a protokolů
  • Zobrazení metrik pro váš online koncový bod
  • Vytvoření řídicího panelu pro metriky
  • Vytvoření upozornění na metriku
  • Zobrazení protokolů pro váš online koncový bod
  • Sledování metrik a protokolů pomocí Application Insights

Požadavky

  • Nasazení online koncového bodu služby Azure Machine Learning
  • Ke koncovému bodu musíte mít alespoň přístup čtenáře.

Metriky

Stránky metrik pro online koncové body nebo nasazení můžete zobrazit na webu Azure Portal. Snadný přístup k těmto stránkám metrik je prostřednictvím odkazů dostupných v uživatelském rozhraní studio Azure Machine Learning – konkrétně na kartě Podrobnosti na stránce koncového bodu. Na základě těchto odkazů přejdete na přesnou stránku metrik na webu Azure Portal pro koncový bod nebo nasazení. Případně můžete přejít na web Azure Portal a vyhledat stránku metrik pro koncový bod nebo nasazení.

Přístup ke stránkám metrik prostřednictvím odkazů dostupných v sadě Studio:

  1. Přejděte na studio Azure Machine Learning.

  2. V levém navigačním panelu vyberte stránku Koncové body .

  3. Vyberte koncový bod kliknutím na jeho název.

  4. Výběrem možnosti Zobrazit metriky v části Atributy koncového bodu otevřete stránku metrik koncového bodu na webu Azure Portal.

  5. Výběrem možnosti Zobrazit metriky v části pro každé dostupné nasazení otevřete stránku metrik nasazení na webu Azure Portal.

    Snímek obrazovky znázorňující, jak získat přístup k metrikám koncového bodu a nasazení z uživatelského rozhraní studia

Přístup k metrikám přímo z webu Azure Portal:

  1. Přihlaste se k portálu Azure.

  2. Přejděte do online koncového bodu nebo prostředku nasazení.

    Online koncové body a nasazení jsou prostředky Azure Resource Manageru (ARM), které najdete tak, že přejdete do vlastnící skupiny prostředků. Vyhledejte typy prostředků, které jsou v online koncovém bodu služby Machine Learning, a online nasazení služby Machine Learning.

  3. V levém sloupci vyberte Metriky.

Dostupné metriky

V závislosti na vybraném prostředku se metriky budou lišit. Metriky se pro online koncové body a online nasazení liší.

Metriky v oboru koncového bodu

  • Provoz
ID metriky Unit Popis Aggregate – metoda Splittable By Ukázková upozornění na metriky
RequestsPerMinute Počet Počet požadavků odeslaných do koncového bodu do minuty Průměr Nasazení, ModelStatusCode, StatusCode, StatusCodeClass Upozornit mě, když mám <v systému = 0 transakcí
RequestLatency Milisekundy Úplný interval potřebný k odpovědi na žádost Průměr Nasazení Upozornit mě, když průměrná latence 2 sekundy >
RequestLatency_P50 Milisekundy Latence požadavku na 50. percentil agregovaný všemi hodnotami latence požadavků shromážděnými během 60 sekund Průměr Nasazení Upozornit mě, když průměrná latence 2 sekundy >
RequestLatency_P90 Milisekundy Latence požadavku na 90. percentil agregovaný všemi hodnotami latence požadavků shromážděnými během 60 sekund Průměr Nasazení Upozornit mě, když průměrná latence 2 sekundy >
RequestLatency_P95 Milisekundy Latence požadavku na 95. percentil agregovaný všemi hodnotami latence požadavků shromážděnými během 60 sekund Průměr Nasazení Upozornit mě, když průměrná latence 2 sekundy >
RequestLatency_P99 Milisekundy Latence požadavku na 99. percentil agregovaný všemi hodnotami latence požadavků shromážděnými během 60 sekund Průměr Nasazení Upozornit mě, když průměrná latence 2 sekundy >
  • Síť
ID metriky Unit Popis Aggregate – metoda Splittable By Ukázková upozornění na metriky
Síťovébyty Bajty za sekundu Bajty za sekundu obsluhované pro koncový bod Průměr - -
ConnectionsActive Počet Celkový počet souběžných připojení TCP aktivních z klientů Průměr - -
NewConnectionsPerSecond Počet Průměrný počet nových připojení TCP za sekundu vytvořených z klientů Průměr - -
  • Shromažďování dat modelu
ID metriky Unit Popis Aggregate – metoda Splittable By Ukázková upozornění na metriky
DataCollectionEventsPerMinute Počet Počet událostí shromažďování dat zpracovaných za minutu Průměr Nasazení, typ -
DataCollectionErrorsPerMinute Počet Počet vynechaných událostí shromažďování dat za minutu Průměr Nasazení, typ, důvod -

Můžete například rozdělit dimenzi nasazení a porovnat latenci požadavků různých nasazení v rámci koncového bodu.

Omezování šířky pásma

Šířka pásma se omezí, pokud dojde k překročení limitů kvót pro spravované online koncové body. Další informace o limitech najdete v článku o omezeních pro online koncové body. Určení, jestli jsou požadavky omezené:

  • Monitorování metriky Síťové bajty
  • Přívěsy odpovědí budou mít pole: ms-azureml-bandwidth-request-delay-ms a ms-azureml-bandwidth-response-delay-ms. Hodnoty polí jsou zpoždění v milisekundách omezování šířky pásma. Další informace najdete v tématu Problémy s omezením šířky pásma.

Metriky v oboru nasazení

  • Sytost
ID metriky Unit Popis Aggregate – metoda Splittable By Ukázková upozornění na metriky
CpuUtilizationPercentage Procenta Kolik procent procesoru bylo využito Minimun, Maximum, Průměr InstanceId Upozornit mě, když % využitá > kapacita 75 %
CpuMemoryUtilizationPercentage Procenta Kolik procent paměti bylo využito Minimun, Maximum, Průměr InstanceId
Využití disku Procenta Kolik místa na disku bylo využito Minimun, Maximum, Průměr InstanceId, Disk
GpuUtilizationPercentage Procenta Procento využití GPU v instanci – využití se hlásí v minutových intervalech. Minimun, Maximum, Průměr InstanceId
GpuMemoryUtilizationPercentage Procenta Procento využití paměti GPU v instanci – využití se hlásí v minutových intervalech. Minimun, Maximum, Průměr InstanceId
GpuEnergyJoules Joule Intervalová energie v Joules na uzlu GPU – Energie se hlásí v minutových intervalech. Minimun, Maximum, Průměr InstanceId
  • Dostupnost
ID metriky Unit Popis Aggregate – metoda Splittable By Ukázková upozornění na metriky
DeploymentCapacity Počet Počet instancí v nasazení Minimum, Maximum, Průměr InstanceId, State Upozornit mě, když % dostupnosti služby klesne pod 100 %
  • Provoz
ID metriky Unit Popis Aggregate – metoda Splittable By Ukázková upozornění na metriky
RequestsPerMinute Počet Počet žádostí odeslaných do online nasazení během minuty Průměr StatusCode Upozornit mě, když mám <v systému = 0 transakcí
RequestLatency_P50 Milisekundy Průměrná latence požadavku P50 agregovaná všemi hodnotami latence požadavků shromážděnými během vybraného časového období Průměr - Upozornit mě, když průměrná latence 2 sekundy >
RequestLatency_P90 Milisekundy Průměrná latence požadavků P90 agregovaná všemi hodnotami latence požadavků shromážděnými během vybraného časového období Průměr - Upozornit mě, když průměrná latence 2 sekundy >
RequestLatency_P95 Milisekundy Průměrná latence požadavků P95 agregovaná všemi hodnotami latence požadavků shromážděnými během vybraného časového období Průměr - Upozornit mě, když průměrná latence 2 sekundy >
RequestLatency_P99 Milisekundy Průměrná latence požadavků P99 agregovaná všemi hodnotami latence požadavků shromážděnými během vybraného časového období Průměr - Upozornit mě, když průměrná latence 2 sekundy >
  • Shromažďování dat modelu
ID metriky Unit Popis Aggregate – metoda Splittable By Ukázková upozornění na metriky
DataCollectionEventsPerMinute Počet Počet událostí shromažďování dat zpracovaných za minutu Průměr InstanceId, Type -
DataCollectionErrorsPerMinute Počet Počet vynechaných událostí shromažďování dat za minutu Průměr InstanceId, Type, Reason -

Můžete například porovnat využití procesoru nebo paměti mezi různými instancemi online nasazení.

Vytváření řídicích panelů a upozornění

Azure Monitor umožňuje vytvářet řídicí panely a výstrahy na základě metrik.

Vytváření řídicích panelů a vizualizace dotazů

Na webu Azure Portal můžete vytvářet vlastní řídicí panely a vizualizovat metriky z více zdrojů, včetně metrik pro váš online koncový bod. Další informace o vytvářenířídicích

Vytváření výstrah

Můžete také vytvořit vlastní upozornění, která vás upozorní na důležité aktualizace stavu vašeho online koncového bodu:

  1. V pravém horním rohu stránky metrik vyberte Nové pravidlo upozornění.

    Snímek obrazovky s tlačítkem Nové pravidlo upozornění obklopené červeným rámečkem

  2. Vyberte název podmínky, která určuje, kdy má být upozornění aktivováno.

    Snímek obrazovky znázorňující tlačítko Konfigurovat logiku signálu obklopené červeným rámečkem

  3. Vyberte Přidat skupiny akcí Vytvořit skupiny> akcí a určete, co se má stát při aktivaci upozornění.

  4. Zvolte Vytvořit pravidlo upozornění a dokončete vytváření upozornění.

Další informace najdete v tématu Vytvoření pravidel upozornění služby Azure Monitor.

Povolení automatického škálování na základě metrik

Automatické škálování nasazení můžete povolit pomocí metrik pomocí uživatelského rozhraní nebo kódu. Při použití kódu (rozhraní příkazového řádku nebo sady SDK) můžete použít ID metrik uvedených v tabulce dostupných metrik v podmínce pro aktivaci automatického škálování. Další informace najdete v tématu Automatické škálování online koncových bodů.

Protokoly

Pro online koncové body je možné povolit tři protokoly:

  • AmlOnlineEndpointTrafficLog: Pokud chcete zkontrolovat informace o vaší žádosti, můžete se rozhodnout povolit protokoly provozu. Tady jsou některé případy:

    • Pokud odpověď není 200, zkontrolujte hodnotu sloupce ResponseCodeReason a podívejte se, co se stalo. V článku Řešení potíží s online koncovými body také zkontrolujte důvod v části Stavové kódy HTTPS.

    • Kód odpovědi a důvod odpovědi modelu můžete zkontrolovat ze sloupce ModelStatusCode a ModelStatusReason.

    • Chcete zkontrolovat dobu trvání požadavku, jako je celková doba trvání, doba trvání požadavku nebo odpovědi a zpoždění způsobené omezováním sítě. Můžete to zkontrolovat v protokolech a zobrazit latenci rozpisu.

    • Pokud chcete zkontrolovat, kolik požadavků nebo neúspěšných požadavků nedávno selhalo. Můžete také povolit protokoly.

  • AmlOnlineEndpointConsoleLog: Obsahuje protokoly, které kontejnery vypíše do konzoly. Tady jsou některé případy:

    • Pokud se kontejner nepodaří spustit, může být protokol konzoly užitečný pro ladění.

    • Monitorujte chování kontejneru a ujistěte se, že jsou všechny požadavky správně zpracovány.

    • V protokolu konzoly můžete zapisovat ID žádostí. Připojte se k ID požadavku, AmlOnlineEndpointConsoleLog a AmlOnlineEndpointTrafficLog v pracovním prostoru služby Log Analytics, můžete trasovat požadavek ze vstupního bodu sítě online koncového bodu do kontejneru.

    • Tento protokol můžete použít také k analýze výkonu při určování času potřebného modelem ke zpracování jednotlivých požadavků.

  • AmlOnlineEndpointEventLog: Obsahuje informace o události týkající se životního cyklu kontejneru. V současné době poskytujeme informace o následujících typech událostí:

    Název Zpráva
    BackOff Opětovné restartování neúspěšného kontejneru
    Natažený Image kontejneru "<IMAGE_NAME>" už na počítači existuje.
    Zabití Sonda odezvy na serveru odvození kontejneru selhala, bude restartována.
    Vytvořeno Vytvoření image kontejneru – fetcher
    Vytvořeno Vytvoření serveru pro odvození kontejneru
    Vytvořeno Vytvoření modelu kontejneru – připojení
    LivenessProbeFailed Sonda aktivity selhala: <FAILURE_CONTENT>
    ReadinessProbeFailed Sonda připravenosti selhala: <FAILURE_CONTENT>
    Zahájeno Spuštěná image kontejneru – fetcher
    Zahájeno Spuštěno odvození kontejneru - server
    Zahájeno Spuštěné připojení modelu kontejneru
    Zabití Zastavení odvozování kontejneru – server
    Zabití Zastavení připojení modelu kontejneru

Jak povolit nebo zakázat protokoly

Důležité

Protokolování používá Azure Log Analytics. Pokud aktuálně nemáte pracovní prostor služby Log Analytics, můžete ho vytvořit pomocí postupu v části Vytvoření pracovního prostoru služby Log Analytics na webu Azure Portal.

  1. Na webu Azure Portal přejděte do skupiny prostředků, která obsahuje váš koncový bod, a pak vyberte koncový bod.

  2. V části Monitorování na levé straně stránky vyberte Nastavení diagnostiky a pak Přidejte nastavení.

  3. Vyberte kategorie protokolů, které chcete povolit, vyberte Možnost Odeslat do pracovního prostoru služby Log Analytics a pak vyberte pracovní prostor služby Log Analytics, který chcete použít. Nakonec zadejte název nastavení diagnostiky a vyberte Uložit.

    Snímek obrazovky s dialogovým oknem nastavení diagnostiky

    Důležité

    Povolení připojení k pracovnímu prostoru služby Log Analytics může trvat až hodinu. Než budete pokračovat dalším postupem, počkejte hodinu.

  4. Odešlete žádosti o bodování do koncového bodu. Tato aktivita by měla v protokolech vytvářet položky.

  5. Z vlastností online koncového bodu nebo pracovního prostoru služby Log Analytics vyberte protokoly nalevo od obrazovky.

  6. Zavřete dialogové okno Dotazy, které se automaticky otevře, a potom poklikejte na AmlOnlineEndpointConsoleLog. Pokud ho nevidíte, použijte vyhledávací pole.

    Snímek obrazovky zobrazující dotazy protokolu

  7. Vyberte Spustit.

    Snímky obrazovky s výsledky po spuštění dotazu

Vzorové dotazy

Ukázkové dotazy najdete na kartě Dotazy při prohlížení protokolů. Vyhledejte koncový bod Online a vyhledejte ukázkové dotazy.

Snímek obrazovky s ukázkovými dotazy

Podrobnosti o sloupci protokolu

Následující tabulky obsahují podrobnosti o datech uložených v jednotlivých protokolech:

AmlOnlineEndpointTrafficLog

Vlastnost Popis
metoda Požadovaná metoda od klienta.
Cesta Požadovaná cesta od klienta.
SubscriptionId ID předplatného strojového učení online koncového bodu.
AzureMLWorkspaceId ID pracovního prostoru strojového učení online koncového bodu.
AzureMLWorkspaceName Název pracovního prostoru strojového učení online koncového bodu.
Název koncového bodu Název online koncového bodu.
DeploymentName Název online nasazení.
Protokol Protokol požadavku.
ResponseCode Konečný kód odpovědi vrácený klientovi.
ResponseCodeReason Poslední důvod kódu odpovědi vrácený klientovi.
ModelStatusCode Stavový kód odpovědi z modelu.
ModelStatusReason Důvod stavu odpovědi z modelu.
RequestPayloadSize Celkový počet bajtů přijatých od klienta
ResponsePayloadSize Celkový počet bajtů odeslaných zpět klientovi.
UserAgent Hlavička uživatelského agenta požadavku, včetně komentářů, ale zkrácená na maximálně 70 znaků.
XRequestId ID požadavku vygenerované službou Azure Machine Learning pro interní trasování
XMSClientRequestId ID sledování vygenerované klientem.
TotalDurationMs Doba trvání v milisekundách od počátečního času požadavku do posledního bajtu odpovědi odeslaného zpět klientovi. Pokud se klient odpojil, měří se od času spuštění až po dobu odpojení klienta.
RequestDurationMs Doba trvání v milisekundách od počátečního času požadavku do posledního bajtu požadavku přijatého od klienta.
ResponseDurationMs Doba trvání v milisekundách od počátečního času požadavku do prvního bajtu odpovědi načteného z modelu.
RequestThrottlingDelayMs Zpoždění v milisekundách při přenosu dat požadavku kvůli omezování sítě
ResponseThrottlingDelayMs Zpoždění v milisekundách při přenosu dat odpovědí kvůli omezování sítě

AmlOnlineEndpointConsoleLog

Vlastnost Popis
TimeGenerated Časové razítko (UTC) při vygenerování protokolu
OperationName Operace přidružená k záznamu protokolu.
InstanceId ID instance, která vygenerovala tento záznam protokolu.
DeploymentName Název nasazení přidruženého k záznamu protokolu.
ContainerName Název kontejneru, ve kterém se protokol vygeneroval.
Zpráva Obsah protokolu.

AmlOnlineEndpointEventLog

Vlastnost Popis
TimeGenerated Časové razítko (UTC) při vygenerování protokolu
OperationName Operace přidružená k záznamu protokolu.
InstanceId ID instance, která vygenerovala tento záznam protokolu.
DeploymentName Název nasazení přidruženého k záznamu protokolu.
Název Název události.
Zpráva Obsah události.

Použití Application Insights

Kurátorovaná prostředí zahrnují integraci s Application Insights a při vytváření online nasazení můžete tuto integraci povolit nebo zakázat. Integrované metriky a protokoly se odesílají do Application Insights a k další analýze můžete použít integrované funkce Application Insights (například živé metriky, vyhledávání transakcí, selhání a výkon).

Další informace najdete v přehledu Application Insights.

V sadě Studio můžete pomocí karty Monitorování na stránce online koncového bodu zobrazit grafy monitorování aktivit vysoké úrovně pro spravovaný online koncový bod. Pokud chcete použít kartu monitorování, musíte při vytváření koncového bodu vybrat povolit shromažďování diagnostických dat a shromažďování dat Application Insight.

Snímek obrazovky monitorování metrik na úrovni koncového bodu v sadě Studio