Az Azure Machine Learning monitorozása
Ha vannak olyan kritikus fontosságú alkalmazásai és üzleti folyamatai, amelyek Azure-erőforrásokra támaszkodnak, akkor figyelni kell ezen erőforrások rendelkezésre állását, teljesítményét és működését. Ez a cikk az Azure Machine Learning által létrehozott monitorozási adatokat ismerteti, valamint azt, hogyan elemezheti és riasztást készíthet ezekről az adatokról az Azure Monitorral.
Tipp
A dokumentumban szereplő információk elsősorban a rendszergazdáknak szólnak, mivel ez az Azure Machine Learning szolgáltatás és a kapcsolódó Azure-szolgáltatások figyelését ismerteti. Ha Ön adatelemző vagy fejlesztő, és a modellbetanítási futtatásokra jellemző információkat szeretné monitorozni, tekintse meg az alábbi dokumentumokat:
- Betanítási futtatások indítása, figyelése és megszakítása
- A betanítási futtatások mérőszámainak naplózása
- Kísérletek nyomon követése az MLflow használatával
Ha az online végpontokon üzembe helyezett modellek által létrehozott információkat szeretné monitorozni, tekintse meg az online végpontok monitorozását ismertető cikket.
Mi az Azure Monitor?
Az Azure Machine Learning monitorozási adatokat hoz létre az Azure Monitor használatával, amely egy teljes veremfigyelési szolgáltatás az Azure-ban. Az Azure Monitor teljes funkciókészletet biztosít az Azure-erőforrásai monitorozásához. Emellett más felhőkben és a helyszínen található erőforrásokat is képes figyelni.
Kezdje az Azure-erőforrások monitorozása az Azure Monitorral című cikkel, amely a következő fogalmakat ismerteti:
- Mi az Azure Monitor?
- Monitorozással kapcsolatos költségek
- Az Azure-ban gyűjtött adatok monitorozása
- Adatgyűjtés konfigurálása
- Standard eszközök az Azure-ban a monitorozási adatok elemzéséhez és riasztásához
A következő szakaszok a cikkre épülnek az Azure Machine Learninghez gyűjtött konkrét adatok leírásával. Ezek a szakaszok példákat is nyújtanak az adatgyűjtés konfigurálására és az adatok Azure-eszközökkel való elemzésére.
Tipp
Az Azure Monitorhoz kapcsolódó költségek megismeréséhez lásd: Használat és becsült költségek. Az adatok Azure Monitorban való megjelenítéséhez szükséges idő megismeréséhez lásd: Naplóadatok betöltési ideje.
Adatok monitorozása az Azure Machine Learningből
Az Azure Machine Learning ugyanazokat a monitorozási adatokat gyűjti, mint a többi Azure-erőforrás, amelyek az Azure-erőforrásokból származó adatok monitorozása című szakaszban találhatók.
Az Azure Machine Learning által létrehozott naplók és metrikák részletes referenciáját az Azure Machine Learning monitorozási adatainak referenciájában találja.
Gyűjtemény és útválasztás
Tipp
A naplók kategóriacsoportokba vannak csoportosítva. A kategóriacsoportok különböző naplók gyűjteményei, amelyek segítenek a különböző monitorozási célok elérésében. Ezek a csoportok dinamikusan vannak definiálva, és idővel változhatnak, amint az új erőforrásnaplók elérhetővé válnak, és hozzáadódnak a kategóriacsoporthoz. Vegye figyelembe, hogy ez további díjakat vonhat maga után.
A naplózási erőforrásnapló-kategóriacsoport lehetővé teszi az erőforrás naplózásához szükséges erőforrásnaplók kiválasztását. További információ: Diagnosztikai beállítások az Azure Monitor-erőforrásnaplókban.
A platformmetrikákat és a tevékenységnaplókat a rendszer automatikusan gyűjti és tárolja, de egy diagnosztikai beállítással át lehet őket irányítani egy másik helyre.
Az erőforrásnaplókat a rendszer nem gyűjti és nem tárolja, amíg létre nem hoz egy diagnosztikai beállítást, és nem irányítja át őket legalább egy helyre. Ha több Azure Machine Learning-munkaterületet kell kezelnie, az összes munkaterület naplóit ugyanabba a naplózási célhelyre irányíthatja, és egyetlen helyről kérdezheti le az összes naplót.
A diagnosztikai beállítások Azure Portal, az Azure CLI vagy a PowerShell használatával történő létrehozásának részletes folyamatát lásd: Diagnosztikai beállítás létrehozása platformnaplók és metrikák gyűjtéséhez az Azure-ban. Diagnosztikai beállítás létrehozásakor meg kell adnia, hogy mely naplókat kell összegyűjteni. Az Azure Machine Learning kategóriái az Azure Machine Learning monitorozási adatainak referenciájában találhatók.
Fontos
Ezeknek a beállításoknak az engedélyezéséhez további Azure-szolgáltatásokra (tárfiók, eseményközpont vagy Log Analytics) van szükség, amelyek növelhetik a költségeket. A becsült költségek kiszámításához látogasson el az Azure díjkalkulátorára.
Az Azure Machine Learninghez a következő naplókat konfigurálhatja:
Kategória | Leírás |
---|---|
AmlComputeClusterEvent | Azure Machine Learning számítási fürtökből származó események. |
AmlComputeClusterNodeEvent (elavult) | Egy Azure Machine Learning számítási fürt csomópontjaiból származó események. |
AmlComputeJobEvent | Az Azure Machine Learning-számításon futó feladatok eseményei. |
AmlComputeCpuGpuUtilization | Az ML-szolgáltatások számítási CPU- és GPU-kihasználtsági naplói. |
AmlOnlineEndpointTrafficLog | Naplók az online végpontok felé irányuló forgalomhoz. |
AmlOnlineEndpointConsoleLog | Naplózza, hogy az online végpontok tárolói írnak-e a konzolra. |
AmlOnlineEndpointEventLog | Naplók az online végpontok életciklusával kapcsolatos eseményekhez. |
AmlRunStatusChangedEvent | Az ml-futtatás állapotváltozásai. |
ModelsChangeEvent | Az ml-modell létrehozásakor vagy törlésekor bekövetkező események. |
ModelsReadEvent | Az ML-modell olvasásának eseményei. |
ModelsActionEvent | Az ML-modell elérésekor bekövetkező események. |
DeploymentReadEvent | Események a modell üzembe helyezésének olvasásakor. |
DeploymentEventACI | Események, amikor a modell üzembe helyezése az ACI-n történik (nagyon beszédes). |
DeploymentEventAKS | Események, amikor a modell üzembe helyezése az AKS-en történik (nagyon beszédes). |
InferencingOperationAKS | Következtetési események vagy kapcsolódó műveletek az AKS számítási típusán. |
InferencingOperationACI | Következtetési vagy kapcsolódó műveletek eseményei az ACI számítási típuson. |
EnvironmentChangeEvent | Az ML-környezet konfigurációinak létrehozásakor vagy törlésekor bekövetkező események. |
EnvironmentReadEvent | Események az ML-környezet konfigurációinak olvasásakor (nagyon beszédes). |
DataLabelChangeEvent | Események, amikor az adatfelirat(ok) vagy azok projektjei létrejönnek vagy törlődnek. |
DataLabelReadEvent | Események, amikor az adatfelirat(ok) vagy a projektek beolvasása történik. |
ComputeInstanceEvent | Az ML Számítási példány elérésekor bekövetkező események (nagyon beszédes). |
DataStoreChangeEvent | Az ML-adattár létrehozásakor vagy törlésekor bekövetkező események. |
DataStoreReadEvent | Az ML-adattár olvasásának eseményei. |
DataSetChangeEvent | Az ML-adattár létrehozásakor vagy törlésekor bekövetkező események. |
DataSetReadEvent | Az ML-adattár olvasásának eseményei. |
PipelineChangeEvent | Események az ML-folyamat piszkozatának vagy végpontja vagy modulja létrehozásakor vagy törlésekor. |
PipelineReadEvent | Az ML-folyamat piszkozatának, végpontja vagy modulja olvasásának eseményei. |
RunEvent | Az ML-kísérletek létrehozásakor vagy törlésekor bekövetkező események. |
RunReadEvent | Az ml-kísérletek olvasásának eseményei. |
Megjegyzés
2022 februárjától az AmlComputeClusterNodeEvent kategória elavulttá válik. Javasoljuk, hogy ehelyett az AmlComputeClusterEvent kategóriát használja.
Megjegyzés
Ha diagnosztikai beállításban engedélyezi a metrikákat, a dimenzióadatok jelenleg nem szerepelnek a tárfióknak, az eseményközpontnak vagy a log analyticsnek küldött információk részeként.
Az összegyűjthető metrikákat és naplókat az alábbi szakaszok ismertetik.
Metrikák elemzése
Az Azure Machine Learning metrikáinak és más Azure-szolgáltatások metrikáinak elemzéséhez nyissa meg a Metrikákat az Azure Monitor menüjéből. Az eszköz használatának részleteit lásd: Bevezetés az Azure Metrikaböngésző használatába.
Az összegyűjtött platformmetrikák listáját lásd: Az Azure Machine Learning-adatok referenciametrikáinak monitorozása.
Az Azure Machine Learning összes metrikája a Machine Learning Service-munkaterület névtérben található.
Referenciaként megtekintheti az Azure Monitorban támogatott összes erőforrásmetrika listáját.
Tipp
Az Azure Monitor metrikaadatai 90 napig érhetők el. Diagramok létrehozásakor azonban csak 30 nap jeleníthető meg. Ha például egy 90 napos időszakot szeretne megjeleníteni, a 90 napos időszakon belül három 30 napos diagramra kell bontania.
Szűrés és felosztás
Dimenziókat támogató metrikák esetén dimenzióértékkel alkalmazhat szűrőket. Például az Active Cores szűrése a fürt neveként.cpu-cluster
A metrikák dimenziónkénti felosztásával azt is megjelenítheti, hogy a metrikák különböző szegmensei hogyan viszonyulnak egymáshoz. A Folyamatlépés típusa felosztásával például megtekintheti a folyamatban használt lépések számát.
További információ a szűrésről és a felosztásról: Az Azure Monitor speciális funkciói.
Naplók elemzése
Az Azure Monitor Log Analytics használatához létre kell hoznia egy diagnosztikai konfigurációt, és engedélyeznie kell az Információk küldése a Log Analyticsnek beállítást. További információkért lásd a Gyűjtemény és útválasztás szakaszt.
Az Azure Monitor-naplókban lévő adatok táblákban vannak tárolva, és mindegyik tábla saját egyedi tulajdonságokkal rendelkezik. Az Azure Machine Learning az alábbi táblázatokban tárolja az adatokat:
Táblázat | Leírás |
---|---|
AmlComputeClusterEvent | Azure Machine Learning számítási fürtökből származó események. |
AmlComputeClusterNodeEvent (elavult) | Egy Azure Machine Learning számítási fürt csomópontjaiból származó események. |
AmlComputeJobEvent | Az Azure Machine Learning-számításon futó feladatok eseményei. |
AmlComputeInstanceEvent | Az ML Számítási példány elérésekor bekövetkező események (olvasás/írás). A kategória tartalmazza: ComputeInstanceEvent (nagyon csevegős). |
AmlDataLabelEvent | Események az adatfelirat(ok) vagy projektjei elérésekor (olvasás, létrehozás vagy törlés). A kategória tartalma: DataLabelReadEvent,DataLabelChangeEvent. |
AmlDataSetEvent | Események, amikor egy regisztrált vagy nem regisztrált ML-adatkészlethez fér hozzá (olvasás, létrehozás vagy törlés). A kategória a következőket tartalmazza: DataSetReadEvent,DataSetChangeEvent. |
AmlDataStoreEvent | Az ML-adattár elérésekor bekövetkező események (olvasás, létrehozás vagy törlés). A kategória tartalmazza: DataStoreReadEvent,DataStoreChangeEvent. |
AmlDeploymentEvent | Események, amikor a modell üzembe helyezése az ACI-n vagy az AKS-en történik. A kategória tartalmazza:DeploymentReadEvent,DeploymentEventACI,DeploymentEventAKS. |
AmlInferencingEvent | Következtetési események vagy kapcsolódó műveletek az AKS- vagy ACI-számítási típuson. A kategória tartalma: InferencingOperationACI (nagyon csevegős), InferencingOperationAKS (nagyon csevegős). |
AmlModelsEvent | Az ML-modell elérésekor bekövetkező események (olvasás, létrehozás vagy törlés). Olyan eseményeket tartalmaz, amikor a modellek és eszközök csomagolása használatra kész csomagokba kerül. A kategória tartalmazza:ModelsReadEvent,ModelsActionEvent . |
AmlPipelineEvent | Az ML-folyamat piszkozatának vagy végpontja vagy modulja elérésének eseményei (olvasás, létrehozás vagy törlés). A kategória a következőket tartalmazza: PipelineReadEvent,PipelineChangeEvent. |
AmlRunEvent | Az ml-kísérletek elérésekor bekövetkező események (olvasás, létrehozás vagy törlés). A kategória tartalmazza:RunReadEvent,RunEvent. |
AmlEnvironmentEvent | Az ML-környezet konfigurációinak (olvasás, létrehozás vagy törlés) esetén bekövetkező események. A kategória tartalmazza: EnvironmentReadEvent (nagyon csevegős),KörnyezetChangeEvent. |
AmlOnlineEndpointTrafficLog | Naplók az online végpontok felé irányuló forgalomhoz. |
AmlOnlineEndpointConsoleLog | Naplózza, hogy az online végpontok tárolói írnak-e a konzolra. |
AmlOnlineEndpointEventLog | Naplók az online végpontok életciklusával kapcsolatos eseményekhez. |
Megjegyzés
2022 februárjától az AmlComputeClusterNodeEvent tábla elavulttá válik. Javasoljuk, hogy inkább az AmlComputeClusterEvent táblát használja.
Fontos
Amikor az Azure Machine Learning menüjében a Naplók lehetőséget választja, a Log Analytics megnyílik, és a lekérdezés hatóköre az aktuális munkaterületre van állítva. Ez azt jelenti, hogy a napló lekérdezései csak az adott erőforrásból származó adatokat tartalmazzák. Ha olyan lekérdezést szeretne futtatni, amely más adatbázisokból vagy más Azure-szolgáltatásokból származó adatokat tartalmaz, válassza a Naplók lehetőséget az Azure Monitor menüjében. A részletekért lásd: Napló lekérdezési hatóköre és időtartománya az Azure Monitor Log Analyticsben .
A naplók és metrikák részletes leírása: Azure Machine Learning monitorozási adatokra vonatkozó referencia.
Kusto-mintalekérdezések
Fontos
Amikor a [szolgáltatásnév] menü Naplók elemét választja, a Log Analytics megnyílik, és a lekérdezés hatóköre az aktuális Azure Machine Learning-munkaterületre van állítva. Ez azt jelenti, hogy a napló lekérdezései csak az adott erőforrásból származó adatokat tartalmazzák. Ha olyan lekérdezést szeretne futtatni, amely más munkaterületekről vagy más Azure-szolgáltatásokból származó adatokat tartalmaz, válassza a Naplók lehetőséget az Azure Monitor menüjében. A részletekért lásd: Napló lekérdezési hatóköre és időtartománya az Azure Monitor Log Analyticsben .
Az alábbi lekérdezések segítségével figyelheti az Azure Machine Learning-erőforrásokat:
Sikertelen feladatok lekérése az elmúlt öt napban:
AmlComputeJobEvent | where TimeGenerated > ago(5d) and EventType == "JobFailed" | project TimeGenerated , ClusterId , EventType , ExecutionState , ToolType
Egy adott feladatnév rekordjainak lekérése:
AmlComputeJobEvent | where JobName == "automl_a9940991-dedb-4262-9763-2fd08b79d8fb_setup" | project TimeGenerated , ClusterId , EventType , ExecutionState , ToolType
Az elmúlt öt nap fürteseményeinek lekérése olyan fürtök esetében, ahol a virtuális gép mérete Standard_D1_V2:
AmlComputeClusterEvent | where TimeGenerated > ago(4d) and VmSize == "STANDARD_D1_V2" | project ClusterName , InitialNodeCount , MaximumNodeCount , QuotaAllocated , QuotaUtilized
Kérje le a fürtcsomópont-foglalásokat az elmúlt nyolc napban:
AmlComputeClusterEvent | where TimeGenerated > ago(8d) and TargetNodeCount > CurrentNodeCount | project TimeGenerated, ClusterName, CurrentNodeCount, TargetNodeCount
Ha több Azure Machine Learning-munkaterületet csatlakoztat ugyanahhoz a Log Analytics-munkaterülethez, az összes erőforrást lekérdezheti.
A futó csomópontok számának lekérése munkaterületek és fürtök között az elmúlt napon:
AmlComputeClusterEvent | where TimeGenerated > ago(1d) | summarize avgRunningNodes=avg(TargetNodeCount), maxRunningNodes=max(TargetNodeCount) by Workspace=tostring(split(_ResourceId, "/")[8]), ClusterName, ClusterType, VmSize, VmPriority
Munkaterület monitorozási irányítópultjának létrehozása sablon használatával
Az irányítópultok a felhőbeli erőforrások szűrt és rendezett nézetét jelenítik meg a Azure Portal. Az irányítópultok létrehozásával kapcsolatos további információkért lásd: Metrikariasztások létrehozása, megtekintése és kezelése az Azure Monitor használatával.
Minta irányítópult üzembe helyezéséhez használhat nyilvánosan elérhető sablont. A minta irányítópult Kusto-lekérdezéseken alapul, ezért az irányítópult üzembe helyezése előtt engedélyeznie kell a Log Analytics-adatgyűjtést az Azure Machine Learning-munkaterületen.
Riasztások
Az Azure Machine Learning riasztásait az Azure Monitor menü Riasztások elemének megnyitásával érheti el. Tekintse meg a metrikariasztások Azure Monitorral való létrehozását, megtekintését és kezelését ismertető cikket, amelyben részletes leírást találhat a riasztások létrehozásáról.
Az alábbi táblázat az Azure Machine Learning gyakori és ajánlott metrikariasztási szabályait sorolja fel:
Riasztástípus | Feltétel | Leírás |
---|---|---|
A modell üzembe helyezése sikertelen | Összesítés típusa: Összeg, Operátor: Nagyobb mint, Küszöbérték: 0 | Ha egy vagy több modell üzembe helyezése meghiúsult |
Kvóta kihasználtsága százalékban | Összesítés típusa: Átlag, Operátor: Nagyobb mint, Küszöbérték: 90 | Ha a kvóta kihasználtsága meghaladja a 90%-ot |
Használhatatlan csomópontok | Összesítés típusa: Összeg, Operátor: Nagyobb mint, Küszöbérték: 0 | Ha egy vagy több használhatatlan csomópont van |
Következő lépések
- A naplók és metrikák referenciáját az Azure Machine Learning-adatok monitorozása című témakörben talál.
- Az Azure Machine Learninghez kapcsolódó kvótákkal kapcsolatos további információkért lásd: Az Azure-erőforrások kvótáinak kezelése és kérése.
- Az Azure-erőforrások monitorozásával kapcsolatos részletekért lásd: Azure-erőforrások monitorozása az Azure Monitorral.