Logboek en metrische gegevens en logboekbestanden v1 weergeven

Artikel
01/10/2024

VAN TOEPASSING OP: Python SDK azureml v1

Logboekinformatie in realtime met behulp van zowel het standaard python-logboekregistratiepakket als de functionaliteit van de Python SDK die specifiek is voor Azure Machine Learning. U kunt logboeken lokaal opslaan en logboeken verzenden naar uw werkruimte in de portal.

Logboeken kunnen u helpen bij het diagnosticeren van fouten en waarschuwingen, of bij het bijhouden van metrische gegevens, zoals parameters en modelprestaties. In dit artikel leert u hoe u logboekregistratie inschakelt in de volgende scenario's:

Metrische gegevens voor logboekuitvoering
Interactieve trainingssessies
Trainingstaken verzenden met behulp van ScriptRunConfig
Systeemeigen Python-instellingen voor logging
Logboekregistratie van aanvullende bronnen

Tip

In dit artikel leest u hoe u het modeltrainingsproces kunt bewaken. Als u geïnteresseerd bent in het bewaken van resourcegebruik en gebeurtenissen van Azure Machine Learning, zoals quota, voltooide trainingsuitvoeringen of voltooide modelimplementaties, raadpleegt u Bewaking van Azure Machine Learning.

Data types

U kunt meerdere gegevenstypen vastleggen, waaronder scalaire waarden, lijsten, tabellen, afbeeldingen, directory's en meer. Zie de referentiepagina voor Run-klassen voor meer informatie en Python-codevoorbeelden voor verschillende gegevenstypen.

Metrische gegevens over uitvoering van logboekregistratie

Gebruik de volgende methoden in de logboekregistratie-API's om de visualisaties van metrische gegevens te beïnvloeden. Noteer de servicelimieten voor deze vastgelegde metrische gegevens.

Vastgelegde waarde	Voorbeeldcode	Opmaak in portal
Een matrix met numerieke waarden vastleggen	`run.log_list(name='Fibonacci', value=[0, 1, 1, 2, 3, 5, 8, 13, 21, 34, 55, 89])`	Lijndiagram met één variabele
Registreer één numerieke waarde met dezelfde metrische naam die herhaaldelijk wordt gebruikt (bijvoorbeeld vanuit een for-lus)	`for i in tqdm(range(-10, 10)): run.log(name='Sigmoid', value=1 / (1 + np.exp(-i))) angle = i / 2.0`	Lijndiagram met één variabele
Een rij met twee numerieke kolommen herhaaldelijk registreren	`run.log_row(name='Cosine Wave', angle=angle, cos=np.cos(angle)) sines['angle'].append(angle) sines['sine'].append(np.sin(angle))`	Lijndiagram met twee variabelen
Logboektabel met 2 numerieke kolommen	`run.log_table(name='Sine Wave', value=sines)`	Lijndiagram met twee variabelen
Logboekafbeelding	`run.log_image(name='food', path='./breadpudding.jpg', plot=None, description='desert')`	Gebruik deze methode om een afbeeldingsbestand of een matplotlib-plot vast te leggen voor de uitvoering. Deze afbeeldingen zijn zichtbaar en vergelijkbaar in de uitvoeringsrecord

Logboekregistratie met MLflow

Het is raadzaam om uw modellen, metrische gegevens en artefacten te registreren met MLflow omdat het open source is en dat de lokale modus wordt ondersteund voor de draagbaarheid van de cloud. In de volgende tabel en codevoorbeelden ziet u hoe u MLflow gebruikt om metrische gegevens en artefacten van uw trainingsuitvoeringen te registreren. Meer informatie over de logboekregistratiemethoden en ontwerppatronen van MLflow.

Zorg ervoor dat u de mlflow pip-pakketten azureml-mlflow installeert in uw werkruimte.

pip install mlflow
pip install azureml-mlflow

Stel de MLflow-tracerings-URI zo in dat deze verwijst naar de Back-end van Azure Machine Learning om ervoor te zorgen dat uw metrische gegevens en artefacten worden vastgelegd in uw werkruimte.

from azureml.core import Workspace
import mlflow
from mlflow.tracking import MlflowClient

ws = Workspace.from_config()
mlflow.set_tracking_uri(ws.get_mlflow_tracking_uri())

mlflow.create_experiment("mlflow-experiment")
mlflow.set_experiment("mlflow-experiment")
mlflow_run = mlflow.start_run()

Vastgelegde waarde	Voorbeeldcode	Opmerkingen
Een numerieke waarde registreren (int of float)	`mlflow.log_metric('my_metric', 1)`
Een Booleaanse waarde vastleggen	`mlflow.log_metric('my_metric', 0)`	0 = Waar, 1 = Onwaar
Een tekenreeks registreren	`mlflow.log_text('foo', 'my_string')`	Geregistreerd als artefact
Log numpy metrics or PIL image objects	`mlflow.log_image(img, 'figure.png')`
Matlotlib-diagram of afbeeldingsbestand van logboek	`mlflow.log_figure(fig, "figure.png")`

Metrische gegevens over uitvoering weergeven via de SDK

U kunt de metrische gegevens van een getraind model weergeven met behulp van run.get_metrics().

from azureml.core import Run
run = Run.get_context()
run.log('metric-name', metric_value)

metrics = run.get_metrics()
# metrics is of type Dict[str, List[float]] mapping metric names
# to a list of the values for that metric in the given run.

metrics.get('metric-name')
# list of metrics in the order they were recorded

U kunt ook toegang krijgen tot uitvoeringsinformatie met behulp van MLflow via de gegevens- en informatie-eigenschappen van het uitvoeringsobject. Zie de documentatie voor MLflow.entities.Run-objecten voor meer informatie.

Nadat de uitvoering is voltooid, kunt u deze ophalen met behulp van de MlFlowClient().

from mlflow.tracking import MlflowClient

# Use MlFlow to retrieve the run that was just completed
client = MlflowClient()
finished_mlflow_run = MlflowClient().get_run(mlflow_run.info.run_id)

U kunt de metrische gegevens, parameters en tags voor de uitvoering bekijken in het gegevensveld van het uitvoeringsobject.

metrics = finished_mlflow_run.data.metrics
tags = finished_mlflow_run.data.tags
params = finished_mlflow_run.data.params

Notitie

De woordenlijst met metrische gegevens onder mlflow.entities.Run.data.metrics retourneert alleen de laatst vastgelegde waarde voor een bepaalde metrische naam. Als u zich bijvoorbeeld aanmeldt, in volgorde 1, dan 2, dan 3, en vervolgens 4 naar een metrische waarde met de naam sample_metric, is er slechts 4 aanwezig in de woordenlijst met metrische gegevens voor sample_metric.

Als u alle metrische gegevens wilt ophalen die zijn geregistreerd voor een bepaalde metrische naam, kunt u dit gebruiken MlFlowClient.get_metric_history().

Metrische uitvoergegevens weergeven in de gebruikersinterface van Studio

U kunt in de Azure Machine Learning-studio door voltooide uitvoeringsrecords bladeren, inclusief vastgelegde metrische gegevens.

Navigeer naar het tabblad Experimenten . Als u alle uitvoeringen in uw werkruimte in experimenten wilt weergeven, selecteert u het tabblad Alle uitvoeringen . U kunt inzoomen op uitvoeringen voor specifieke experimenten door het filter Experiment toe te passen op de bovenste menubalk.

Selecteer voor de afzonderlijke experimentweergave het tabblad Alle experimenten . Op het uitvoeringsdashboard van het experiment ziet u bijgehouden metrische gegevens en logboeken voor elke uitvoering.

U kunt de uitvoeringslijsttabel ook bewerken om meerdere uitvoeringen te selecteren en de laatste, minimale of maximale vastgelegde waarde voor uw uitvoeringen weer te geven. Pas uw grafieken aan om de vastgelegde metrische waarden en aggregaties voor meerdere uitvoeringen te vergelijken. U kunt meerdere metrische gegevens tekenen op de y-as van de grafiek en uw x-as aanpassen om uw vastgelegde metrische gegevens te tekenen.

Logboekbestanden voor een uitvoering weergeven en downloaden

Logboekbestanden zijn een essentiële resource voor het opsporen van fouten in de Azure Machine Learning-workloads. Nadat u een trainingstaak hebt verzonden, zoomt u in op een specifieke uitvoering om de logboeken en uitvoer ervan weer te geven:

Navigeer naar het tabblad Experimenten .
Selecteer de runID voor een specifieke uitvoering.
Selecteer Uitvoer en logboeken boven aan de pagina.
Selecteer Alles downloaden om al uw logboeken te downloaden naar een zip-map.
U kunt ook afzonderlijke logboekbestanden downloaden door het logboekbestand te kiezen en Downloaden te selecteren

Schermopname van de sectie Uitvoer en logboeken van een uitvoering.

map user_logs

Deze map bevat informatie over de door de gebruiker gegenereerde logboeken. Deze map is standaard geopend en het std_log.txt logboek is geselecteerd. In de std_log.txt worden de logboeken van uw code (bijvoorbeeld afdrukinstructies) weergegeven. Dit bestand bevat stdout logboeken en stderr logboeken van uw besturingsscript en trainingsscript, één per proces. In de meeste gevallen bewaakt u de logboeken hier.

map system_logs

Deze map bevat de logboeken die door Azure Machine Learning worden gegenereerd en wordt standaard gesloten. De logboeken die door het systeem worden gegenereerd, worden gegroepeerd in verschillende mappen, op basis van de fase van de taak in de runtime.

Andere mappen

Voor takentraining op clusters met meerdere rekenprocessen zijn logboeken aanwezig voor elk knooppunt-IP-adres. De structuur voor elk knooppunt is hetzelfde als taken met één knooppunt. Er is nog een map met logboeken voor algemene uitvoering, stderr en stdout-logboeken.

Azure Machine Learning registreert gegevens uit verschillende bronnen tijdens de training, zoals AutoML of de Docker-container waarmee de trainingstaak wordt uitgevoerd. Veel van deze logboeken worden niet gedocumenteerd. Als u problemen ondervindt en contact op neemt met Microsoft Ondersteuning, kunnen ze deze logboeken mogelijk gebruiken tijdens het oplossen van problemen.

Interactieve logboekregistratiesessie

Interactieve logboekregistratiesessies worden doorgaans gebruikt in notebookomgevingen. Met de methode Experiment.start_logging() wordt een interactieve logboekregistratiesessie gestart. Alle metrische gegevens die tijdens de sessie zijn geregistreerd, worden toegevoegd aan het uitvoeringsrecord in het experiment. Met de methode run.complete() worden de sessies beëindigd en de uitvoering als voltooid gemarkeerd.

ScriptRun-logboeken

In dit gedeelte leert u hoe u logboekcode in uitvoeringen toevoegt die zijn gemaakt toen de ScriptRunConfig werd geconfigureerd. Met de klasse ScriptRunConfig-kunt u scripts en omgevingen inkapselen voor herhaalbare uitvoeringen. U kunt deze optie ook gebruiken om een visuele Jupyter Notebook-widget weer te geven voor bewakingsdoeleinden.

In dit voorbeeld wordt een parameteropruiming uitgevoerd op alfawaarden en worden de resultaten vastgelegd met de methode run.log().

Maak een trainingsscript dat de logica voor logboekregistratie bevat, train.py.

# Copyright (c) Microsoft. All rights reserved.
# Licensed under the MIT license.

from sklearn.datasets import load_diabetes
from sklearn.linear_model import Ridge
from sklearn.metrics import mean_squared_error
from sklearn.model_selection import train_test_split
from azureml.core.run import Run
import os
import numpy as np
import mylib
# sklearn.externals.joblib is removed in 0.23
try:
    from sklearn.externals import joblib
except ImportError:
    import joblib

os.makedirs('./outputs', exist_ok=True)

X, y = load_diabetes(return_X_y=True)

run = Run.get_context()

X_train, X_test, y_train, y_test = train_test_split(X, y,
                                                    test_size=0.2,
                                                    random_state=0)
data = {"train": {"X": X_train, "y": y_train},
        "test": {"X": X_test, "y": y_test}}

# list of numbers from 0.0 to 1.0 with a 0.05 interval
alphas = mylib.get_alphas()

for alpha in alphas:
    # Use Ridge algorithm to create a regression model
    reg = Ridge(alpha=alpha)
    reg.fit(data["train"]["X"], data["train"]["y"])

    preds = reg.predict(data["test"]["X"])
    mse = mean_squared_error(preds, data["test"]["y"])
    run.log('alpha', alpha)
    run.log('mse', mse)

    model_file_name = 'ridge_{0:.2f}.pkl'.format(alpha)
    # save model in the outputs folder so it automatically get uploaded
    with open(model_file_name, "wb") as file:
        joblib.dump(value=reg, filename=os.path.join('./outputs/',
                                                     model_file_name))

    print('alpha is {0:.2f}, and mse is {1:0.2f}'.format(alpha, mse))

Verzend het script train.py voor uitvoering in een door de gebruiker beheerde omgeving. De volledige scriptmap wordt verzonden voor training.
```
from azureml.core import ScriptRunConfig

src = ScriptRunConfig(source_directory='./scripts', script='train.py', environment=user_managed_env)
```
```
run = exp.submit(src)
```
Met de parameter show_output wordt uitgebreide logboekregistratie ingeschakeld, zodat u zowel details van het trainingsproces als informatie over externe resources of rekendoelen kunt bekijken. Gebruik de volgende code om uitgebreide logboekregistratie in te schakelen wanneer u het experiment verzendt.
```
run = exp.submit(src, show_output=True)
```
U kunt ook dezelfde parameter gebruiken in de functie wait_for_completion van de resulterende uitvoering.
```
run.wait_for_completion(show_output=True)
```

Systeemeigen logboekregistratie van Python

Sommige logboeken in de SDK bevatten mogelijk een foutmelding dat u het logboekregistratieniveau moet instellen op DEBUG (fouten opsporen). Als u het logboekregistratieniveau wilt instellen, voegt u de volgende code toe aan het script.

import logging
logging.basicConfig(level=logging.DEBUG)

Andere bronnen voor logboekregistratie

Met Azure Machine Learning kunnen tijdens de training ook gegevens van andere bronnen worden geregistreerd, zoals geautomatiseerde machine learning-uitvoeringen, of Docker-containers die de taken uitvoeren. Deze logboeken worden niet gedocumenteerd, maar als u problemen ondervindt en contact opneemt met Microsoft-ondersteuning, kunnen ze deze logboeken gebruiken tijdens het oplossen van problemen.

Raadpleeg Hoe kan ik metrische gegevens registreren in de ontwerpfunctie voor informatie over het vastleggen van metrische gegevens in de Azure Machine Learning-ontwerpfunctie

Voorbeeldnotebooks

In de volgende notebooks worden concepten in dit artikel gedemonstreerd:

Informatie over het uitvoeren van notebooks vindt u in het artikel Use Jupyter notebooks to explore this service (Jupyter Notebooks gebruiken om deze service te verkennen).

Volgende stappen

Raadpleeg deze artikelen voor meer informatie over het gebruik van Azure Machine Learning:

Bekijk een voorbeeld van hoe u het beste model registreert en implementeert in de zelfstudie Een afbeeldingsclassificatiemodel trainen met Azure Machine Learning.

Delen via