Az Azure Machine Learning monitorozása

Ha vannak olyan kritikus fontosságú alkalmazásai és üzleti folyamatai, amelyek Azure-erőforrásokra támaszkodnak, akkor figyelni kell ezen erőforrások rendelkezésre állását, teljesítményét és működését. Ez a cikk az Azure Machine Learning által létrehozott monitorozási adatokat ismerteti, valamint azt, hogyan elemezheti és riasztást készíthet ezekről az adatokról az Azure Monitorral.

Tipp

A dokumentumban szereplő információk elsősorban a rendszergazdáknak szólnak, mivel ez az Azure Machine Learning szolgáltatás és a kapcsolódó Azure-szolgáltatások figyelését ismerteti. Ha Ön adatelemző vagy fejlesztő, és a modellbetanítási futtatásokra jellemző információkat szeretné monitorozni, tekintse meg az alábbi dokumentumokat:

Ha az online végpontokon üzembe helyezett modellek által létrehozott információkat szeretné monitorozni, tekintse meg az online végpontok monitorozását ismertető cikket.

Mi az Azure Monitor?

Az Azure Machine Learning monitorozási adatokat hoz létre az Azure Monitor használatával, amely egy teljes veremfigyelési szolgáltatás az Azure-ban. Az Azure Monitor teljes funkciókészletet biztosít az Azure-erőforrásai monitorozásához. Emellett más felhőkben és a helyszínen található erőforrásokat is képes figyelni.

Kezdje az Azure-erőforrások monitorozása az Azure Monitorral című cikkel, amely a következő fogalmakat ismerteti:

  • Mi az Azure Monitor?
  • Monitorozással kapcsolatos költségek
  • Az Azure-ban gyűjtött adatok monitorozása
  • Adatgyűjtés konfigurálása
  • Standard eszközök az Azure-ban a monitorozási adatok elemzéséhez és riasztásához

A következő szakaszok a cikkre épülnek az Azure Machine Learninghez gyűjtött konkrét adatok leírásával. Ezek a szakaszok példákat is nyújtanak az adatgyűjtés konfigurálására és az adatok Azure-eszközökkel való elemzésére.

Tipp

Az Azure Monitorhoz kapcsolódó költségek megismeréséhez lásd: Használat és becsült költségek. Az adatok Azure Monitorban való megjelenítéséhez szükséges idő megismeréséhez lásd: Naplóadatok betöltési ideje.

Adatok monitorozása az Azure Machine Learningből

Az Azure Machine Learning ugyanazokat a monitorozási adatokat gyűjti, mint a többi Azure-erőforrás, amelyek az Azure-erőforrásokból származó adatok monitorozása című szakaszban találhatók.

Az Azure Machine Learning által létrehozott naplók és metrikák részletes referenciáját az Azure Machine Learning monitorozási adatainak referenciájában találja.

Gyűjtemény és útválasztás

Tipp

A naplók kategóriacsoportokba vannak csoportosítva. A kategóriacsoportok különböző naplók gyűjteményei, amelyek segítenek a különböző monitorozási célok elérésében. Ezek a csoportok dinamikusan vannak definiálva, és idővel változhatnak, amint az új erőforrásnaplók elérhetővé válnak, és hozzáadódnak a kategóriacsoporthoz. Vegye figyelembe, hogy ez további díjakat vonhat maga után.

A naplózási erőforrásnapló-kategóriacsoport lehetővé teszi az erőforrás naplózásához szükséges erőforrásnaplók kiválasztását. További információ: Diagnosztikai beállítások az Azure Monitor-erőforrásnaplókban.

A platformmetrikákat és a tevékenységnaplókat a rendszer automatikusan gyűjti és tárolja, de egy diagnosztikai beállítással át lehet őket irányítani egy másik helyre.

Az erőforrásnaplókat a rendszer nem gyűjti és nem tárolja, amíg létre nem hoz egy diagnosztikai beállítást, és nem irányítja át őket legalább egy helyre. Ha több Azure Machine Learning-munkaterületet kell kezelnie, az összes munkaterület naplóit ugyanabba a naplózási célhelyre irányíthatja, és egyetlen helyről kérdezheti le az összes naplót.

A diagnosztikai beállítások Azure Portal, az Azure CLI vagy a PowerShell használatával történő létrehozásának részletes folyamatát lásd: Diagnosztikai beállítás létrehozása platformnaplók és metrikák gyűjtéséhez az Azure-ban. Diagnosztikai beállítás létrehozásakor meg kell adnia, hogy mely naplókat kell összegyűjteni. Az Azure Machine Learning kategóriái az Azure Machine Learning monitorozási adatainak referenciájában találhatók.

Fontos

Ezeknek a beállításoknak az engedélyezéséhez további Azure-szolgáltatásokra (tárfiók, eseményközpont vagy Log Analytics) van szükség, amelyek növelhetik a költségeket. A becsült költségek kiszámításához látogasson el az Azure díjkalkulátorára.

Az Azure Machine Learninghez a következő naplókat konfigurálhatja:

Kategória Leírás
AmlComputeClusterEvent Azure Machine Learning számítási fürtökből származó események.
AmlComputeClusterNodeEvent (elavult) Egy Azure Machine Learning számítási fürt csomópontjaiból származó események.
AmlComputeJobEvent Az Azure Machine Learning-számításon futó feladatok eseményei.
AmlComputeCpuGpuUtilization Az ML-szolgáltatások számítási CPU- és GPU-kihasználtsági naplói.
AmlOnlineEndpointTrafficLog Naplók az online végpontok felé irányuló forgalomhoz.
AmlOnlineEndpointConsoleLog Naplózza, hogy az online végpontok tárolói írnak-e a konzolra.
AmlOnlineEndpointEventLog Naplók az online végpontok életciklusával kapcsolatos eseményekhez.
AmlRunStatusChangedEvent Az ml-futtatás állapotváltozásai.
ModelsChangeEvent Az ml-modell létrehozásakor vagy törlésekor bekövetkező események.
ModelsReadEvent Az ML-modell olvasásának eseményei.
ModelsActionEvent Az ML-modell elérésekor bekövetkező események.
DeploymentReadEvent Események a modell üzembe helyezésének olvasásakor.
DeploymentEventACI Események, amikor a modell üzembe helyezése az ACI-n történik (nagyon beszédes).
DeploymentEventAKS Események, amikor a modell üzembe helyezése az AKS-en történik (nagyon beszédes).
InferencingOperationAKS Következtetési események vagy kapcsolódó műveletek az AKS számítási típusán.
InferencingOperationACI Következtetési vagy kapcsolódó műveletek eseményei az ACI számítási típuson.
EnvironmentChangeEvent Az ML-környezet konfigurációinak létrehozásakor vagy törlésekor bekövetkező események.
EnvironmentReadEvent Események az ML-környezet konfigurációinak olvasásakor (nagyon beszédes).
DataLabelChangeEvent Események, amikor az adatfelirat(ok) vagy azok projektjei létrejönnek vagy törlődnek.
DataLabelReadEvent Események, amikor az adatfelirat(ok) vagy a projektek beolvasása történik.
ComputeInstanceEvent Az ML Számítási példány elérésekor bekövetkező események (nagyon beszédes).
DataStoreChangeEvent Az ML-adattár létrehozásakor vagy törlésekor bekövetkező események.
DataStoreReadEvent Az ML-adattár olvasásának eseményei.
DataSetChangeEvent Az ML-adattár létrehozásakor vagy törlésekor bekövetkező események.
DataSetReadEvent Az ML-adattár olvasásának eseményei.
PipelineChangeEvent Események az ML-folyamat piszkozatának vagy végpontja vagy modulja létrehozásakor vagy törlésekor.
PipelineReadEvent Az ML-folyamat piszkozatának, végpontja vagy modulja olvasásának eseményei.
RunEvent Az ML-kísérletek létrehozásakor vagy törlésekor bekövetkező események.
RunReadEvent Az ml-kísérletek olvasásának eseményei.

Megjegyzés

2022 februárjától az AmlComputeClusterNodeEvent kategória elavulttá válik. Javasoljuk, hogy ehelyett az AmlComputeClusterEvent kategóriát használja.

Megjegyzés

Ha diagnosztikai beállításban engedélyezi a metrikákat, a dimenzióadatok jelenleg nem szerepelnek a tárfióknak, az eseményközpontnak vagy a log analyticsnek küldött információk részeként.

Az összegyűjthető metrikákat és naplókat az alábbi szakaszok ismertetik.

Metrikák elemzése

Az Azure Machine Learning metrikáinak és más Azure-szolgáltatások metrikáinak elemzéséhez nyissa meg a Metrikákat az Azure Monitor menüjéből. Az eszköz használatának részleteit lásd: Bevezetés az Azure Metrikaböngésző használatába.

Az összegyűjtött platformmetrikák listáját lásd: Az Azure Machine Learning-adatok referenciametrikáinak monitorozása.

Az Azure Machine Learning összes metrikája a Machine Learning Service-munkaterület névtérben található.

A Metrics Explorer és a Machine Learning Service-munkaterület ki van jelölve

Referenciaként megtekintheti az Azure Monitorban támogatott összes erőforrásmetrika listáját.

Tipp

Az Azure Monitor metrikaadatai 90 napig érhetők el. Diagramok létrehozásakor azonban csak 30 nap jeleníthető meg. Ha például egy 90 napos időszakot szeretne megjeleníteni, a 90 napos időszakon belül három 30 napos diagramra kell bontania.

Szűrés és felosztás

Dimenziókat támogató metrikák esetén dimenzióértékkel alkalmazhat szűrőket. Például az Active Cores szűrése a fürt neveként.cpu-cluster

A metrikák dimenziónkénti felosztásával azt is megjelenítheti, hogy a metrikák különböző szegmensei hogyan viszonyulnak egymáshoz. A Folyamatlépés típusa felosztásával például megtekintheti a folyamatban használt lépések számát.

További információ a szűrésről és a felosztásról: Az Azure Monitor speciális funkciói.

Naplók elemzése

Az Azure Monitor Log Analytics használatához létre kell hoznia egy diagnosztikai konfigurációt, és engedélyeznie kell az Információk küldése a Log Analyticsnek beállítást. További információkért lásd a Gyűjtemény és útválasztás szakaszt.

Az Azure Monitor-naplókban lévő adatok táblákban vannak tárolva, és mindegyik tábla saját egyedi tulajdonságokkal rendelkezik. Az Azure Machine Learning az alábbi táblázatokban tárolja az adatokat:

Táblázat Leírás
AmlComputeClusterEvent Azure Machine Learning számítási fürtökből származó események.
AmlComputeClusterNodeEvent (elavult) Egy Azure Machine Learning számítási fürt csomópontjaiból származó események.
AmlComputeJobEvent Az Azure Machine Learning-számításon futó feladatok eseményei.
AmlComputeInstanceEvent Az ML Számítási példány elérésekor bekövetkező események (olvasás/írás). A kategória tartalmazza: ComputeInstanceEvent (nagyon csevegős).
AmlDataLabelEvent Események az adatfelirat(ok) vagy projektjei elérésekor (olvasás, létrehozás vagy törlés). A kategória tartalma: DataLabelReadEvent,DataLabelChangeEvent.
AmlDataSetEvent Események, amikor egy regisztrált vagy nem regisztrált ML-adatkészlethez fér hozzá (olvasás, létrehozás vagy törlés). A kategória a következőket tartalmazza: DataSetReadEvent,DataSetChangeEvent.
AmlDataStoreEvent Az ML-adattár elérésekor bekövetkező események (olvasás, létrehozás vagy törlés). A kategória tartalmazza: DataStoreReadEvent,DataStoreChangeEvent.
AmlDeploymentEvent Események, amikor a modell üzembe helyezése az ACI-n vagy az AKS-en történik. A kategória tartalmazza:DeploymentReadEvent,DeploymentEventACI,DeploymentEventAKS.
AmlInferencingEvent Következtetési események vagy kapcsolódó műveletek az AKS- vagy ACI-számítási típuson. A kategória tartalma: InferencingOperationACI (nagyon csevegős), InferencingOperationAKS (nagyon csevegős).
AmlModelsEvent Az ML-modell elérésekor bekövetkező események (olvasás, létrehozás vagy törlés). Olyan eseményeket tartalmaz, amikor a modellek és eszközök csomagolása használatra kész csomagokba kerül. A kategória tartalmazza:ModelsReadEvent,ModelsActionEvent .
AmlPipelineEvent Az ML-folyamat piszkozatának vagy végpontja vagy modulja elérésének eseményei (olvasás, létrehozás vagy törlés). A kategória a következőket tartalmazza: PipelineReadEvent,PipelineChangeEvent.
AmlRunEvent Az ml-kísérletek elérésekor bekövetkező események (olvasás, létrehozás vagy törlés). A kategória tartalmazza:RunReadEvent,RunEvent.
AmlEnvironmentEvent Az ML-környezet konfigurációinak (olvasás, létrehozás vagy törlés) esetén bekövetkező események. A kategória tartalmazza: EnvironmentReadEvent (nagyon csevegős),KörnyezetChangeEvent.
AmlOnlineEndpointTrafficLog Naplók az online végpontok felé irányuló forgalomhoz.
AmlOnlineEndpointConsoleLog Naplózza, hogy az online végpontok tárolói írnak-e a konzolra.
AmlOnlineEndpointEventLog Naplók az online végpontok életciklusával kapcsolatos eseményekhez.

Megjegyzés

2022 februárjától az AmlComputeClusterNodeEvent tábla elavulttá válik. Javasoljuk, hogy inkább az AmlComputeClusterEvent táblát használja.

Fontos

Amikor az Azure Machine Learning menüjében a Naplók lehetőséget választja, a Log Analytics megnyílik, és a lekérdezés hatóköre az aktuális munkaterületre van állítva. Ez azt jelenti, hogy a napló lekérdezései csak az adott erőforrásból származó adatokat tartalmazzák. Ha olyan lekérdezést szeretne futtatni, amely más adatbázisokból vagy más Azure-szolgáltatásokból származó adatokat tartalmaz, válassza a Naplók lehetőséget az Azure Monitor menüjében. A részletekért lásd: Napló lekérdezési hatóköre és időtartománya az Azure Monitor Log Analyticsben .

A naplók és metrikák részletes leírása: Azure Machine Learning monitorozási adatokra vonatkozó referencia.

Kusto-mintalekérdezések

Fontos

Amikor a [szolgáltatásnév] menü Naplók elemét választja, a Log Analytics megnyílik, és a lekérdezés hatóköre az aktuális Azure Machine Learning-munkaterületre van állítva. Ez azt jelenti, hogy a napló lekérdezései csak az adott erőforrásból származó adatokat tartalmazzák. Ha olyan lekérdezést szeretne futtatni, amely más munkaterületekről vagy más Azure-szolgáltatásokból származó adatokat tartalmaz, válassza a Naplók lehetőséget az Azure Monitor menüjében. A részletekért lásd: Napló lekérdezési hatóköre és időtartománya az Azure Monitor Log Analyticsben .

Az alábbi lekérdezések segítségével figyelheti az Azure Machine Learning-erőforrásokat:

  • Sikertelen feladatok lekérése az elmúlt öt napban:

    AmlComputeJobEvent
    | where TimeGenerated > ago(5d) and EventType == "JobFailed"
    | project  TimeGenerated , ClusterId , EventType , ExecutionState , ToolType
    
  • Egy adott feladatnév rekordjainak lekérése:

    AmlComputeJobEvent
    | where JobName == "automl_a9940991-dedb-4262-9763-2fd08b79d8fb_setup"
    | project  TimeGenerated , ClusterId , EventType , ExecutionState , ToolType
    
  • Az elmúlt öt nap fürteseményeinek lekérése olyan fürtök esetében, ahol a virtuális gép mérete Standard_D1_V2:

    AmlComputeClusterEvent
    | where TimeGenerated > ago(4d) and VmSize == "STANDARD_D1_V2"
    | project  ClusterName , InitialNodeCount , MaximumNodeCount , QuotaAllocated , QuotaUtilized
    
  • Kérje le a fürtcsomópont-foglalásokat az elmúlt nyolc napban:

    AmlComputeClusterEvent
    | where TimeGenerated > ago(8d) and TargetNodeCount  > CurrentNodeCount
    | project TimeGenerated, ClusterName, CurrentNodeCount, TargetNodeCount
    

Ha több Azure Machine Learning-munkaterületet csatlakoztat ugyanahhoz a Log Analytics-munkaterülethez, az összes erőforrást lekérdezheti.

  • A futó csomópontok számának lekérése munkaterületek és fürtök között az elmúlt napon:

    AmlComputeClusterEvent
    | where TimeGenerated > ago(1d)
    | summarize avgRunningNodes=avg(TargetNodeCount), maxRunningNodes=max(TargetNodeCount)
             by Workspace=tostring(split(_ResourceId, "/")[8]), ClusterName, ClusterType, VmSize, VmPriority
    

Munkaterület monitorozási irányítópultjának létrehozása sablon használatával

Az irányítópultok a felhőbeli erőforrások szűrt és rendezett nézetét jelenítik meg a Azure Portal. Az irányítópultok létrehozásával kapcsolatos további információkért lásd: Metrikariasztások létrehozása, megtekintése és kezelése az Azure Monitor használatával.

Minta irányítópult üzembe helyezéséhez használhat nyilvánosan elérhető sablont. A minta irányítópult Kusto-lekérdezéseken alapul, ezért az irányítópult üzembe helyezése előtt engedélyeznie kell a Log Analytics-adatgyűjtést az Azure Machine Learning-munkaterületen.

Riasztások

Az Azure Machine Learning riasztásait az Azure Monitor menü Riasztások elemének megnyitásával érheti el. Tekintse meg a metrikariasztások Azure Monitorral való létrehozását, megtekintését és kezelését ismertető cikket, amelyben részletes leírást találhat a riasztások létrehozásáról.

Az alábbi táblázat az Azure Machine Learning gyakori és ajánlott metrikariasztási szabályait sorolja fel:

Riasztástípus Feltétel Leírás
A modell üzembe helyezése sikertelen Összesítés típusa: Összeg, Operátor: Nagyobb mint, Küszöbérték: 0 Ha egy vagy több modell üzembe helyezése meghiúsult
Kvóta kihasználtsága százalékban Összesítés típusa: Átlag, Operátor: Nagyobb mint, Küszöbérték: 90 Ha a kvóta kihasználtsága meghaladja a 90%-ot
Használhatatlan csomópontok Összesítés típusa: Összeg, Operátor: Nagyobb mint, Küszöbérték: 0 Ha egy vagy több használhatatlan csomópont van

Következő lépések